年轻蚂蚁

文章
5
资源
0
加入时间
2年10月21天

sparkstreaming 实时读取kafka写入hive优化(高流量)

背景:kafka流量在800M/s,前任留下的程序大量数据丢失,且逻辑生成复杂,查询hive直接奔溃,优化从两方面,程序优化及小文件合并(生成结果产生大量小文件)程序直接上代码,啥也不说了程序 def main(args: Array[String]): Unit = { val sdf = new SimpleDateFormat("yyyyMMddHHmm") ...