一个用Python实现的多入口全网爬的多线程爬虫的实现
最近做计网大作业,要求实现一个爬虫抓取网络上关于人工智能的有关信息,于是就自己diy了一个,然后丢到服务器上跑,勉勉强强能达到十万级的数据量,也算能交差了。下面就把实现过程记录一下,一来可以做个笔记,以免以后忘了怎么做,二来可以给有这方面困扰的提供一点思路。说到爬虫,要解决的无疑就那么几个问题:爬,取,分析。1. 先来说说爬,这就是一个搜索的过程,可以通过各种搜索算法来实现,这里用的是