scala实现 SparkStreaming 实时处理日志写入Kudu

56 阅读 0 评论 37 点赞

我是靠谱客的博主殷勤方盒，最近开发中收集的这篇文章主要介绍scala实现 SparkStreaming 实时处理日志写入Kudu，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

import kafka.serializer.StringDecoder
import org.apache.kudu.spark.kudu.KuduContext
import org.apache.log4j.Logger
import org.apache.spark.sql.SQLContext
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext, sql}
import we.com.config.{Constants, DBConstants}
import we.com.util.ImpalaUtil
import we.com.util.TypeTransform._

/**
  * @author yangxin_ryan
  * date 2018-07-23
  */
object AccountToKudu {
  private val appName = getClass.getSimpleName.replace("$", "")
  private val accountRegex = DBConstants.ACCOUNT_REGEX
  private val LOG = Logger.getLogger(appName)

  def run(): Unit ={
    val brokers = Constants.KAFKA_BROKERS
    val topics = Constants.TOPIC_ACCOUNT
    val kuduMaster = Constants.KUDU_MASTER
    val kuduConifg = Map("kudu.master" -> Constants.KUDU_MASTER,