我是靠谱客的博主 无奈板栗,最近开发中收集的这篇文章主要介绍滴滴第一期技术沙龙,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

今天参加了滴滴的第一期技术沙龙,主题是大数据处理。了解到现在的Hadoop社区主要包括如下工具:HDFS(hdaoop文件系统)、MapReduce(一次性的任务计算框架)、Hive、Hbase(相当于数据库)、Spark(时间段内的实时处理)、strom(一行数据处理)、kafka(消息发送)、Flume(数据传送)、Yarn(任务调度系统)。
首先是HDFS。HDFS是一种文件系统,假设要在100台机器的集群中存储100G数据,那么它会将100G的数据按机器的配置高低,分配到这100台机器上(具体使用多少台机器,是可以调整的)。比如有的机器配置高,会存储2G数据,有的配置低,只存储500MB数据。然后每一台机器上的数据,都会在其他机器上备份3份副本。这样是为了保证数据的可靠性,当该集群挂掉后,监控程序会自动地新增副本。
其次是MapReduce。MapReduce是一种任务计算框架,简称MR。它提供了两个编写接口,分别是Map函数、Reduce函数。应用场景如下,100G的数据集中,统计每个单词出现的次数。那么结合HDFS文件系统,它的处理过程会是这样的。首先将这100G数据分配到集群中的100台机器上,而每个机器上会部署我们写好的map任务,每个map任务只会处理该机器上的数据。map的执行过程为,

最后

以上就是无奈板栗为你收集整理的滴滴第一期技术沙龙的全部内容,希望文章能够帮你解决滴滴第一期技术沙龙所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(41)

评论列表共有 0 条评论

立即
投稿
返回
顶部