手把手教你实现window图片爬虫（二）

195 阅读 0 评论 129 点赞

我是靠谱客的博主潇洒柚子，这篇文章主要介绍手把手教你实现window图片爬虫（二），现在分享给大家，希望可以做个参考。

第二篇：技术要点

1.网页抓取工具

在开发过程中用了好几个版本，经过不断调试，最终为了网页解析更准确，选择了phantomjs。

初级版：httpclient，优点速度快，缺点无法解析动态页面。
中级版: WebDriver 可以解析动态网页，可以使用IE内核，当然还有FirefoxDriver， ChromeDriver，HtmlUnitDriver，这些driver的使用原理都是一样的，先开启有界面的浏览器（这个要时间的），然后加载url并完成动态解析。速度较慢，而且弹出多个浏览器页面体验不好。

高级版：phantomjs，一个基于webkit内核的无头浏览器，速度比普通浏览器更快，抓取动态网页无死角。提供javascript API接口，即通过编写js代码可以直接与webkit内核交互，功能强大。并且提供windows、linux、mac等不同os的安装使用包。

phantomjs可直接通过命令行运行如下（当然代码中也是这种方式）：

该操作会在控制台输出解析后的所有网页内容

当然得说下phantomjs怎么使用，我们需要phantomjs.exe这个文件，仅此而已，不需要安装。还有我们用来设置解析规则的js文件page.js内容如下

在代码中我们是这样使用的

2.解析网页内容（jsoup）：
1.java字符串手动解析，较为复杂，需要用到正则，性能不好。

2.jsoup 可直接解析某个URL地址、HTML文本内容，省心省力。

3.下载工具

httpclient这个没什么好说的，代码如下

4.数据存储：

目前考虑到应用场景（window项目，可以带着到处跑），用的内存存储HashSet，链接去重，软件关闭时会保存到文件，下次启动再加载到内存。

存储管理如下

后期改造成web项目，或者支持定向爬取需要认证信息的网页时，改用数据库，可以存储链接地址以及cookie验证信息。

5.爬虫界面（SWT）：

它与AWT/SWING组件类似,但是在美观成度和响应速度上都远远超越了AWT和SWING.这主要是因为AWT只是单纯模拟本地操作系统窗口组件,而SWT最大化了操作系统的图形构件API,也就是说只要操作系统提供了图形构件,SWT就可以利用JNI调用他们,只有操作系统中不提供的组件SWT才会去模拟实现. 由于使用了JNI,使得它和本地操作系统紧密连接在一起,因此编写的界面和本地系统窗口几乎没有区别。

注意点：swt内部的控件是需要一直刷新的，否则就直接关闭了。swt视图开启后，是不允许其他线程操作的，只能是当前打开视图的线程。