滴滴第一期技术沙龙

78 阅读 0 评论 52 点赞

我是靠谱客的博主无奈板栗，这篇文章主要介绍滴滴第一期技术沙龙，现在分享给大家，希望可以做个参考。

今天参加了滴滴的第一期技术沙龙，主题是大数据处理。了解到现在的Hadoop社区主要包括如下工具：HDFS(hdaoop文件系统)、MapReduce（一次性的任务计算框架）、Hive、Hbase（相当于数据库）、Spark（时间段内的实时处理）、strom（一行数据处理）、kafka（消息发送）、Flume（数据传送）、Yarn（任务调度系统）。
首先是HDFS。HDFS是一种文件系统，假设要在100台机器的集群中存储100G数据，那么它会将100G的数据按机器的配置高低，分配到这100台机器上（具体使用多少台机器，是可以调整的）。比如有的机器配置高，会存储2G数据，有的配置低，只存储500MB数据。然后每一台机器上的数据，都会在其他机器上备份3份副本。这样是为了保证数据的可靠性，当该集群挂掉后，监控程序会自动地新增副本。
其次是MapReduce。MapReduce是一种任务计算框架，简称MR。它提供了两个编写接口，分别是Map函数、Reduce函数。应用场景如下，100G的数据集中，统计每个单词出现的次数。那么结合HDFS文件系统，它的处理过程会是这样的。首先将这100G数据分配到集群中的100台机器上，而每个机器上会部署我们写好的map任务，每个map任务只会处理该机器上的数据。map的执行过程为，