概述
第二篇:技术要点
1.网页抓取工具
在开发过程中用了好几个版本,经过不断调试,最终为了网页解析更准确,选择了phantomjs。
初级版:httpclient,优点速度快,缺点无法解析动态页面。
中级版: WebDriver 可以解析动态网页,可以使用IE内核,当然还有FirefoxDriver, ChromeDriver,HtmlUnitDriver,这些driver的使用原理都是一样的,先开启有界面的浏览器(这个要时间的),然后加载url并完成动态解析。速度较慢,而且弹出多个浏览器页面体验不好。
高级版 :phantomjs,一个基于webkit内核的无头浏览器,速度比普通浏览器更快,抓取动态网页无死角。提供javascript API接口,即通过编写js代码可以直接与webkit内核交互,功能强大。并且提供windows、linux、mac等不同os的安装使用包。
phantomjs可直接通过命令行运行如下(当然代码中也是这种方式):
该操作会在控制台输出解析后的所有网页内容
当然得说下phantomjs怎么使用,我们需要phantomjs.exe这个文件,仅此而已,不需要安装。还有我们用来设置解析规则的js文件page.js内容如下
在代码中我们是这样使用的
2.解析网页内容(jsoup):
1.java字符串手动解析,较为复杂,需要用到正则,性能不好。
2.jsoup 可直接解析某个URL地址、HTML文本内容,省心省力。
3.下载工具
httpclient这个没什么好说的,代码如下
4.数据存储:
目前考虑到应用场景(window项目,可以带着到处跑),用的内存存储HashSet,链接去重,软件关闭时会保存到文件,下次启动再加载到内存。
存储管理如下
后期改造成web项目,或者支持定向爬取需要认证信息的网页时,改用数据库,可以存储链接地址以及cookie验证信息。
5.爬虫界面(SWT):
它与AWT/SWING组件类似,但是在美观成度和响应速度上都远远超越了AWT和SWING.这主要是因为AWT只是单纯模拟本地操作系统窗口组件,而SWT最大化了操作系统的图形构件API,也就是说只要操作系统提供了图形构件,SWT就可以利用JNI调用他们,只有操作系统中不提供的组件SWT才会去模拟实现. 由于使用了JNI,使得它和本地操作系统紧密连接在一起,因此编写的界面和本地系统窗口几乎没有区别。
注意点:swt内部的控件是需要一直刷新的,否则就直接关闭了。swt视图开启后,是不允许其他线程操作的,只能是当前打开视图的线程。
6.基础工具:
JSON工具:jackson速度最快。其次fastJson,最慢Gson(兼容性最好),由于不涉及到复杂数据类型,而且序列化数据量较大,所以选择了jackson。
日志工具:基于log4j的slf4j,优点就不用多说了。
邮件发送:javax.mail jar包
7.类似于spring的依赖注入功能
并且丰富功能如定时任务、重试等
这个应该是属于底层技术了,如果能弄懂,技术提升还是较大的。(不用担心,在第一篇中有所有相关的资源和源码)
最后
以上就是潇洒柚子为你收集整理的手把手教你实现window图片爬虫(二)的全部内容,希望文章能够帮你解决手把手教你实现window图片爬虫(二)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复