Hive中学习分析思路

316 阅读 0 评论 209 点赞

我是靠谱客的博主孝顺香菇，这篇文章主要介绍Hive中学习分析思路，现在分享给大家，希望可以做个参考。

我们先看我们的日志文件

Hive中学习分析思路

查看下，这就是我们的日志信息，我们可以设置日志格式从而得到不同的信息。

Hive中学习分析思路

我们现在有一个日志数据nginx_log,里面有十一个字段

" 122.228.208.113"

"-"

"31/Aug/2015:00:04:37 +0800"

"GET /course/view.php?id=27 HTTP/1.1"

"303"

"440"

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36"

"-"

我们可以从网上找到很多nginx日志信息说明

Hive中学习分析思路

根据nginx日志说明，分析上面的日志信息nginx_log

那我们来分析这个日志信息，流程是

1、需求分析

2、数据采集

3、数据清洗（ETL阶段、字段截取、格式转化）

自定义UDF

自定义Java类，手写MR程序，用于过滤判断

4、数据分析（计算、处理）

5、结果导出（sqoop）

6、数据可视化展示

因为我们已经有日志数据了而且格式是按照标准分析的，所以我们直接将数据放到hive中，默认已经采集完成了，需要加载到hive中。

创建数据库

create database nginx_log;

Hive中学习分析思路

创建表

create table IF NOT EXISTS nginx_log_ori (

remote_addr string,

remote_user string,

time_local string,

request string,

status string,

body_bytes_sent string,

request_body string,

http_referer string,

http_user_agent string,

http_x_forwarded_for string,

host string

)ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '

stored as textfile ;

Hive中学习分析思路

将数据上传

Hive中学习分析思路

导入数据

load data local inpath '/data/test/access.log' into table nginx_log_ori ;

Hive中学习分析思路

我们查看下数据会发现，数据不是十一个，而是八个，就是因为数据有空格，分隔符等问题，导致数据加载不全，需要用正则表达式等方法解决。

hive官网

Hive中学习分析思路

我们来使用

首先使用了一个序列化的java类

org.apache.hadoop.hive.serde2.RegexSerDe

(1)、用户可以自定义写一个Java类

(2)、打成jar添加hive环境变量中

(3)、可以自己调用

再使用正则表达式匹配文本的当中每一个字段

一些基本知识：

转义字符

()作用域（字段）

[] 字符集合

| 或

"^ " 非空格的多位字符

^ ^\ 非斜杠的多位字符

^} 非大括号的多位字符

· 可能是字符串，可能是没有的

.* 所有字符

[0-9] 数字字符

那我们可以对十一个字段进行正则匹配

("[^ ]*") ("-|[^ ]*") ("[^}]*") ("[^}]*") ("[0-9]*") ("[0-9]*") (-|[^ ]*) ("[^ ]*") ("[^}]*") ("-|[^ ]*") ("[^ ]*")

重新创建表

CREATE TABLE nginx_log_reg(

remote_addr string,

remote_user string,

time_local string,

request string,

status string,

body_bytes_sent string,

request_body string,

http_referer string,

http_user_agent string,

http_x_forwarded_for string,

host string

)ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

WITH SERDEPROPERTIES (

"input.regex" = "("[^ ]*") ("-|[^ ]*") ("[^}]*") ("[^}]*") ("[0-9]*") ("[0-9]*") (-|[^ ]*) ("[^ ]*") ("[^}]*") ("-|[^ ]*") ("[^ ]*")"

)

STORED AS TEXTFILE;

Hive中学习分析思路

导入数据

load data local inpath '/data/test/access.log' into table nginx_log_reg ;

Hive中学习分析思路

接下来进行数据清洗（ETL阶段、字段截取、格式转化）

分析：

（1）双引号对于数据分析没有太多的作用，就可以考虑去除双引号

（2）时间字段的格式转换，比如"31/Aug/2015:00:04:37 +0800"转换为2015-08-31 00:04:37 或者 20150831000437

（3）对于某些字段进行优化，去除不必要的部分比如："GET /course/view.php?id=27 HTTP/1.1" 截取为 course/view.php

这样可以查看页面的访问流量，统计数据，或者做网站基本的流量分析统计（用户行为数据：点击、搜索）

（4）获取当前页面的前一个页面，也就是链入地址

（5）客户端信息：获取用户用的浏览器版本，用户的操作系统，版本

主要掌握思路，这里根据之前所学，完成衣蛾自定义日期格式转换 UDF

创建类

Hive中学习分析思路

完成代码

Hive中学习分析思路

主方法测试下

Hive中学习分析思路

导出jar包

Hive中学习分析思路

上传包

Hive中学习分析思路

将包导入

add jar /data/test/hiveconvdate.jar;

Hive中学习分析思路

创建函数

create temporary function pdate as 'com.xlglvc.xxx.mapredece.hiveudf.TestDataFormat';

Hive中学习分析思路

查询数据

select pdate(time_local) from nginx_log_reg limit 10;

Hive中学习分析思路

最后

以上就是孝顺香菇最近收集整理的关于Hive中学习分析思路的全部内容，更多相关Hive中学习分析思路内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：大数据
浏览次数：316 次浏览
发布日期：2023-10-20 08:25:21

Hive中学习分析思路

最后

评论列表共有 0 条评论

发表评论取消回复

Hive中学习分析思路

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复