我是靠谱客的博主 潇洒柚子,最近开发中收集的这篇文章主要介绍手把手教你实现window图片爬虫(二),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

第二篇:技术要点

   1.网页抓取工具

    在开发过程中用了好几个版本,经过不断调试,最终为了网页解析更准确,选择了phantomjs。

      初级版:httpclient,优点速度快,缺点无法解析动态页面。
      中级版: WebDriver  可以解析动态网页,可以使用IE内核,当然还有FirefoxDriver, ChromeDriver,HtmlUnitDriver,这些driver的使用原理都是一样的,先开启有界面的浏览器(这个要时间的),然后加载url并完成动态解析。速度较慢,而且弹出多个浏览器页面体验不好。

      高级版 :phantomjs,一个基于webkit内核的无头浏览器,速度比普通浏览器更快,抓取动态网页无死角。提供javascript API接口,即通过编写js代码可以直接与webkit内核交互,功能强大。并且提供windows、linux、mac等不同os的安装使用包。

     phantomjs可直接通过命令行运行如下(当然代码中也是这种方式):

     该操作会在控制台输出解析后的所有网页内容

     

   当然得说下phantomjs怎么使用,我们需要phantomjs.exe这个文件,仅此而已,不需要安装。还有我们用来设置解析规则的js文件page.js内容如下

       

 在代码中我们是这样使用的

   

2.解析网页内容(jsoup):
      1.java字符串手动解析,较为复杂,需要用到正则,性能不好。

      2.jsoup 可直接解析某个URL地址、HTML文本内容,省心省力。

        


3.下载工具

   httpclient这个没什么好说的,代码如下

   

4.数据存储:

       目前考虑到应用场景(window项目,可以带着到处跑),用的内存存储HashSet,链接去重,软件关闭时会保存到文件,下次启动再加载到内存。

        存储管理如下

    

      后期改造成web项目,或者支持定向爬取需要认证信息的网页时,改用数据库,可以存储链接地址以及cookie验证信息。


5.爬虫界面(SWT):

    它与AWT/SWING组件类似,但是在美观成度和响应速度上都远远超越了AWT和SWING.这主要是因为AWT只是单纯模拟本地操作系统窗口组件,而SWT最大化了操作系统的图形构件API,也就是说只要操作系统提供了图形构件,SWT就可以利用JNI调用他们,只有操作系统中不提供的组件SWT才会去模拟实现. 由于使用了JNI,使得它和本地操作系统紧密连接在一起,因此编写的界面和本地系统窗口几乎没有区别。

注意点:swt内部的控件是需要一直刷新的,否则就直接关闭了。swt视图开启后,是不允许其他线程操作的,只能是当前打开视图的线程。


6.基础工具:
    JSON工具:jackson速度最快。其次fastJson,最慢Gson(兼容性最好),由于不涉及到复杂数据类型,而且序列化数据量较大,所以选择了jackson。
   日志工具:基于log4j的slf4j,优点就不用多说了。

   邮件发送:javax.mail jar包

7.类似于spring的依赖注入功能

并且丰富功能如定时任务、重试等   

这个应该是属于底层技术了,如果能弄懂,技术提升还是较大的。(不用担心,在第一篇中有所有相关的资源和源码)

    


最后

以上就是潇洒柚子为你收集整理的手把手教你实现window图片爬虫(二)的全部内容,希望文章能够帮你解决手把手教你实现window图片爬虫(二)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部