MapReduce数据去空去重进阶版及数据乱码解决方法前言改进注意:一定以注意编码问题,对文件进行清洗时一定要确保是UTF-8的编码,最好在爬虫保存数据时设定编码,不要保存为GBK编码,不然清洗出来的数据就成乱码了,hadoop中默认编码就是UTF-8的,如果数据量很大不好转码就只能在map函数获取数据前先转码,也就是把String line = value.toString();替换为String line = new String(value.getBytes(), 0, value.get
前言之前写过一篇MapReduce对CSV文件去空去重,虽然能实现功能但是还有很多地方需要改进,刚好有新爬好的智联招聘的职位信息,所以再来一遍,爬取智联招聘的代码链接https://blog.csdn.net/weixin_42063239/article/details/88524079这里只对职位名称或职位描述字段为空的数据删除,因为爬出来的数据比较规范没有空值和重复值,可以自己人为制...