坚定超短裙的博客_Photoshop教程,主板,Illustrator教程,PHP编程,JAVA开发者成长之路,hadoop领域博主

坚定超短裙

文章

资源

加入时间

3年0月21天

MapReduce数据去空去重进阶版及数据乱码解决方法前言改进注意：一定以注意编码问题，对文件进行清洗时一定要确保是UTF-8的编码，最好在爬虫保存数据时设定编码，不要保存为GBK编码，不然清洗出来的数据就成乱码了，hadoop中默认编码就是UTF-8的，如果数据量很大不好转码就只能在map函数获取数据前先转码，也就是把String line = value.toString();替换为String line = new String(value.getBytes(), 0, value.get

前言之前写过一篇MapReduce对CSV文件去空去重，虽然能实现功能但是还有很多地方需要改进，刚好有新爬好的智联招聘的职位信息，所以再来一遍，爬取智联招聘的代码链接https://blog.csdn.net/weixin_42063239/article/details/88524079这里只对职位名称或职位描述字段为空的数据删除，因为爬出来的数据比较规范没有空值和重复值，可以自己人为制...