3_databaseinit
数据采集用flume关于某个目录, 将数据直接通过管道放到HDFS文件中, 数据库到HDFS用sqoop, 此外还可以通过kafka接入数据到HDFS中, kafka安全性和性能好, 一般是别人的线上日志或者啥业务数据接入到flume到自己的文件目录, 然后再接入kafka慢慢的将数据写入到HDFS。前面介绍的是文件存储和表的创建, MapReduce可以实现的是对分布式表进行处理, 对于10G以上的带下的文件, 很难一次直接加载到内存中, 就必须要使用这些了。关于大数据基础知识的相关学