大数据学习笔记

333 阅读 0 评论 220 点赞

我是靠谱客的博主听话芝麻，这篇文章主要介绍大数据学习笔记，现在分享给大家，希望可以做个参考。

原文链接
大数据分析，gartner定义：通过信息资源进行深度理解进而做出相应决策，此类信息具有huge-volume,fast-velocity和different variety的特性。通过数据分析，解锁隐藏模式，更全面的了解客户从而更好的了解他们的需求。

解决大数据存储和处理的技术包括Apache Hadoop、Apache Spark、Apache Kafka
Hadoop是一个开源框架，由java编写，可以在多个机器上同时进行并行处理，它使用集群架构，一个集群是一组通过局域网连接的系统。它包含3部分，一是Hadoop存储层HDFS（Hadoop Distributed File System）二是数据处理层Map-Reduce,三是资源管理层YARN。它的缺点是是不支持实时处理，只支持批处理，不能进行in-memory calculations.
Spark克服了Hadoop的缺点，可以实时处理和批处理，支持in-memory calculations，减少了从磁盘读写得次数, 这使得它比Hadoop速度快100倍。与Hadoop相比，它提供了更多的灵活性和多功能性，因为它可以使用不同的数据存储，如HDFS, OpenStack和Apache Cassandra。它还提供了大量的高级工具，包括用于结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形数据集处理的GraphX和Spark Streaming。它还包含80个高级操作符，用于高效的查询执行。
大数据应用案例
1反欺诈检测：如信用卡公司识别交易是不是欺诈，需要实时处理，并在短时间类针对个人历史记录进行分析，识别是否为正常交易，再做决策是接受或拒绝。为了处理数据流，我们需要像Apache Flink这样的流引擎。流引擎可以非常高效地使用实时数据流，并以低延迟(没有任何延迟)处理数据。
2 情感分析：如一个公司可以根据客户的相关推文进行情感分类，找到不满意的进行解决。通过Hadoop，可以挖掘社交媒体对话，获取关于自身和竞争对手的情绪数据，并利用它做出有针对性的、实时的决策，以增加市场份额。通过社交媒体快速分析客户情绪，公司可以立即做出决定和行动，他们不需要等待销售报告(这可能需要6个月或更早)，以更好的方式经营他们的业务。
3 市场篮子分析关联规则确定了客户通常一起购买的产品和服务，授权组织向正确的客户提供和推广正确的产品。要实现这种复杂的用例，Apache Spark是最好的解决方案，它提供了通用框架来处理各种用例。市场篮子分析需要使用机器学习算法来开发。Apache Spark提供了MLlib，这是一个丰富的机器学习库。Spark运行迭代算法(机器学习执行本质上是迭代的)非常有效

其中Apache Flink案例主要关注实时分析，Spark案例关注复杂迭代机器学习算法的实现，Hadoop专注于高效地处理大量数据。

学习大数据需要的技能：编程语言如java,python和c++，Apache Hadoop,Apache Spark,Hive,机器学习，数据挖掘，数据可视化，SQL和NoSQL数据库，数据结构和算法
利用大数据的好处更好的决策、更大的创新、改善教育界、产品价格优化、推荐引擎

大数据可视化的商业智能(business intelligence 、BI)工具 Tableau、Qlik Sense 和Microsoft power BI

大数据VS数据科学
数据科学是对数据的研究。它是关于通过深入分析在数据中找到模式。数据科学的过程包括数据的提取、数据的转换、数据的分析和预测，以获得对数据的洞察。

大数据	数据科学
处理大量数据	分析数据
处理大量数据和形成深刻见解	理解数据中的模式并做出决策
电子商务、安全服务、通信	销售、图片识别、广告、风险分析
Hadoop,Spark,Flink	SAS,R，Python