概述
1.编写去重sql
SELECT
*
FROM
(
SELECT
*, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk
FROM
ap_jyz_jyzqgdwa
) tmp
WHERE
tmp.rk < 2
2.创建新表并将去重之后的数据导入新表
create table newtable as select * from oldtable;
完整示例:
CREATE TABLE ap_jyz_jyzqgdwa_dup AS SELECT
*
FROM
(
SELECT
*
FROM
(
SELECT
*, row_number () over (PARTITION BY id ORDER BY id DESC) AS rk
FROM
yk_ap.ap_jyz_jyzqgdwa
) tmp
WHERE
tmp.rk < 2
) a
3.删除旧表
drop table if exists oldtable;
4.对创建的表进行重命名
ALTER TABLE old_table_name RENAME TO new_table_name;
5.删除字段,下面这个sql的意思是只保留id字段,其他删除
alter table yk_ap.ap_jyz_jyzqgdwa replace columns(id string)
最后
以上就是玩命短靴为你收集整理的hive数据库去重数据步骤的全部内容,希望文章能够帮你解决hive数据库去重数据步骤所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复