概述
一.创建mysql数据
//创建库
create database spark;
use spark;
//创建表
CREATE TABLE DEPT(
DEPTNO int(2) PRIMARY KEY,
DNAME VARCHAR(14) ,
LOC VARCHAR(13) );
//添加数据
INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');
INSERT INTO DEPT VALUES(20,'RESEARCH','DALLAS');
INSERT INTO DEPT VALUES(30,'SALES','CHICAGO');
INSERT INTO DEPT VALUES(40,'OPERATIONS','BOSTON');
二.创建hive数据
首先启动spark-sql命令行:
./spark-sql --master --jars ~/software/mysql-connector-java-5.1.38.jar
使用默认的default库,创建表emp以及添加部分测试数据:
spark-sql> create table emp(
> empno string,
> ename string,
> job string,
> deptno int);
向里面添加数据同上mysql操作.
三.查看hive和mysql的DataFrame类型的数据
//查看hive数据源
spark.table("emp").show
//查看mysql数据源
val mysqlDF = spark.read.format("jdbc").option("url","jdbc:mysql://localhost:3306").option("dbtable", "spark.DEPT").option("user", "root").option("password", "123456").option("driver","com.mysql.jdbc.Driver").load()
四.关联hive和mysql数据
关联表,使用DataFrame中的join方法,结合两个数据源:
val resultDF = hiveDF.join(mysqlDF,hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))
结果:
同时可以选择查看的数据列:
//查看hive数据中的"empno"和"ename"列,mysql数据中的deptno和dname列
resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),mysqlDF.col("deptno"),mysqlDF.col("dname")).show()
结果:
至此就完成了在SparkSQL中mysql和hive关联表的操作…
想要获得更多,就要付出更多乘10倍的努力
最后
以上就是动听发卡为你收集整理的十一.SparkSQL之mysql和hive关联表操作的全部内容,希望文章能够帮你解决十一.SparkSQL之mysql和hive关联表操作所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复