大数据笔/面试题 1、 采集nginx产生的日志,日志的格式为user ip time url htmlId 每天产生的文件的数据量上亿条,请设计方案把数据保存到HDFS上,并提供一下实时查询的功能(响应时间小于3s)A、某个用户某天访问某个URL的次数B、某个URL某天被访问的总次数备份思路:flume+HDFS实时思路:使用Logstash (flume)+ Kafka + Spark... 大数据(其他) 2023-05-15 37 点赞 0 评论 56 浏览