我是靠谱客的博主 听话芝麻,最近开发中收集的这篇文章主要介绍大数据学习笔记,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

原文链接
大数据分析,gartner定义:通过信息资源进行深度理解进而做出相应决策,此类信息具有huge-volume,fast-velocity和different variety的特性。通过数据分析,解锁隐藏模式,更全面的了解客户从而更好的了解他们的需求。

解决大数据存储和处理的技术包括Apache Hadoop、Apache Spark、Apache Kafka
Hadoop是一个开源框架,由java编写,可以在多个机器上同时进行并行处理,它使用集群架构,一个集群是一组通过局域网连接的系统。它包含3部分,一是Hadoop存储层HDFS(Hadoop Distributed File System)二是数据处理层Map-Reduce,三是资源管理层YARN。它的缺点是是不支持实时处理,只支持批处理,不能进行in-memory calculations.
Spark克服了Hadoop的缺点,可以实时处理和批处理,支持in-memory calculations,减少了从磁盘读写得次数, 这使得它比Hadoop速度快100倍。与Hadoop相比,它提供了更多的灵活性和多功能性,因为它可以使用不同的数据存储,如HDFS, OpenStack和Apache Cassandra。它还提供了大量的高级工具,包括用于结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图形数据集处理的GraphX和Spark Streaming。它还包含80个高级操作符,用于高效的查询执行。
大数据应用案例
1反欺诈检测:如信用卡公司识别交易是不是欺诈,需要实时处理,并在短时间类针对个人历史记录进行分析,识别是否为正常交易,再做决策是接受或拒绝。为了处理数据流,我们需要像Apache Flink这样的流引擎。流引擎可以非常高效地使用实时数据流,并以低延迟(没有任何延迟)处理数据。
2 情感分析:如一个公司可以根据客户的相关推文进行情感分类,找到不满意的进行解决。通过Hadoop,可以挖掘社交媒体对话,获取关于自身和竞争对手的情绪数据,并利用它做出有针对性的、实时的决策,以增加市场份额。通过社交媒体快速分析客户情绪,公司可以立即做出决定和行动,他们不需要等待销售报告(这可能需要6个月或更早),以更好的方式经营他们的业务。
3 市场篮子分析关联规则确定了客户通常一起购买的产品和服务,授权组织向正确的客户提供和推广正确的产品。要实现这种复杂的用例,Apache Spark是最好的解决方案,它提供了通用框架来处理各种用例。市场篮子分析需要使用机器学习算法来开发。Apache Spark提供了MLlib,这是一个丰富的机器学习库。Spark运行迭代算法(机器学习执行本质上是迭代的)非常有效

其中Apache Flink案例主要关注实时分析,Spark案例关注复杂迭代机器学习算法的实现,Hadoop专注于高效地处理大量数据。

学习大数据需要的技能:编程语言如java,python和c++,Apache Hadoop,Apache Spark,Hive,机器学习,数据挖掘,数据可视化,SQL和NoSQL数据库,数据结构和算法
利用大数据的好处更好的决策、更大的创新、改善教育界、产品价格优化、推荐引擎

大数据可视化的商业智能(business intelligence 、BI)工具 Tableau、Qlik Sense 和Microsoft power BI

大数据VS数据科学
数据科学是对数据的研究。它是关于通过深入分析在数据中找到模式。数据科学的过程包括数据的提取、数据的转换、数据的分析和预测,以获得对数据的洞察。

大数据数据科学
处理大量数据分析数据
处理大量数据和形成深刻见解理解数据中的模式并做出决策
电子商务、安全服务、通信销售、图片识别、广告、风险分析
Hadoop,Spark,FlinkSAS,R,Python

最后

以上就是听话芝麻为你收集整理的大数据学习笔记的全部内容,希望文章能够帮你解决大数据学习笔记所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(52)

评论列表共有 0 条评论

立即
投稿
返回
顶部