网页数据采集爬虫研究数据采集的方式爬虫选择浏览器模拟器htmlunit,爬javascript和ajax网页分析工具Firebug网络协议分析Wireshark快速构建实时抓取集群抓取问题
数据采集的方式采用国内现成的采集工具通用类:如火车头,八爪鱼等,gooseeker.com等,有配置页面,可定义规则,八爪鱼号称有抓取国内主流电商网站的版本。专用类天猫店铺商品采集工具 v1.0免费版http://www.cncrk.com/downinfo/71232.html http://bbs.locoy.com/spider-132726-1-1.ht