Gobblin--一个用于Hadoop的统一"数据抽取框架"
一、简介Gobblin是 LinkedIn在2015年2月开源的、为Hadoop提供的一个数据整合框架。说到将数据导入到HDFS,此类的框架包括:1、Apache Sqoop2、Apache Flume3、Aegisthus4、Morphlines。。。其中,Sqoop用于在关系型数据库(RDBMS)和HDFS之间互相传输数据,Flume主要用于对日志文件的收集,Aegi...