深入浅出Spark实时处理（三）--- Structured Streaming集成Kafka

272 阅读 0 评论 180 点赞

我是靠谱客的博主爱撒娇蛋挞，这篇文章主要介绍深入浅出Spark实时处理（三）--- Structured Streaming集成Kafka，现在分享给大家，希望可以做个参考。

Kafka 0.10的 Structured Streaming 集成，可从Kafka读取数据或向Kafka写入数据。

从Kafka读取数据

def run(): Unit ={

      val df = spark.readStream

        .format("kafka")

        .option("kafka.bootstrap.servers", "host1:port1,host2:port2")

        .option("subscribe", "topic1")

        .load()



      df.selectExpr("CAST(key as STRING)", "CAST(value AS STRING)").as[(String, String)]



      val df = spark

        .readStream

        .format("kafka")

        .option("kafka.bootstap.servers", "host1:port1,host2:port2")

        .option("subscribe", "topic1,topic2")

        .load()

    

      df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)").as[(String, String)]

  }