我是靠谱客的博主 玩命短靴,最近开发中收集的这篇文章主要介绍hive数据库去重数据步骤,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.编写去重sql

SELECT
	*
FROM
	(
		SELECT
			*, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk
		FROM
			ap_jyz_jyzqgdwa
	) tmp
WHERE
	tmp.rk < 2

2.创建新表并将去重之后的数据导入新表


create table newtable as select * from oldtable;

完整示例:

CREATE TABLE ap_jyz_jyzqgdwa_dup AS SELECT
	*
FROM
	(
		SELECT
			*
		FROM
			(
				SELECT
					*, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk
				FROM
					yk_ap.ap_jyz_jyzqgdwa
			) tmp
		WHERE
			tmp.rk < 2
	) a

3.删除旧表

drop table if exists oldtable;

4.对创建的表进行重命名

ALTER TABLE old_table_name RENAME TO new_table_name;

5.删除字段,下面这个sql的意思是只保留id字段,其他删除


alter table yk_ap.ap_jyz_jyzqgdwa replace columns(id	string)

 

最后

以上就是玩命短靴为你收集整理的hive数据库去重数据步骤的全部内容,希望文章能够帮你解决hive数据库去重数据步骤所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(110)

评论列表共有 0 条评论

立即
投稿
返回
顶部