7 爬虫爬取网页文章(保留图片和文本顺序,原封不动)的数据库设计,且避免重复抓取...1 设计思考 2 数据库的设计 3 数据库完整代码和测试代码
1 设计思考1.1 关于爬取文章存储的思考第一,文章要抓取到本地;第二,查询文件大小,如果文件过大,超出多少M,则新建一个主题文件比如:file="./"+"微信文章_"+key+编号+".html"。我从多个html中提取信息,然后写入到同一个html中。(可以参见精通python网络爬虫的第六章中的爬取微信搜索平台。但是本文远比它复杂)关于mongodb数据库的设计:首先是...