优美抽屉

文章
8
资源
0
加入时间
2年10月21天

Nutch中写crawlDB的过程

在爬取网一个页面之后,会解析出一些,这些键值对基本上分为三类:(1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等;(2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetch...