重要时光

文章
6
资源
0
加入时间
2年10月17天

大数据分析陷阱与Simpson’s Paradox(辛普森悖论)

在大数据分析时,你有没有遇到这样一种奇怪现象:当分开看数据的时候会得到一种结论,但是合起来之后发现情况却完全改变?这就是著名的辛普森悖论。它总是隐藏在大数据之中,成为大数据分析的陷阱之一。1含义辛普森悖论(Simpson’s Paradox)是概率和统计学中的一种现象,即几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种趋势消失或反转。互联网科技...

基于 Flume+Kafka+Spark Streaming 实现实时监控输出日志的报警系统

运用场景:我们机器上每天或者定期都要跑很多任务,很多时候任务出现错误不能及时发现,导致发现的时候任务已经挂了很久了。  解决方法:基于 Flume+Kafka+Spark Streaming 的框架对这些任务的输出日志进行实时监控,当检测到日志出现Error的信息就发送邮件给项目的负责人。 目的:通过这个小项目熟悉基于 Flume+Kafka+Spark Streaming 框架实时分析处理日...