Nutch 学习笔记2 - 查看抓取的文件

112 阅读 0 评论 74 点赞

我是靠谱客的博主大气爆米花，这篇文章主要介绍Nutch 学习笔记2 - 查看抓取的文件，现在分享给大家，希望可以做个参考。

http://z60014840.blog.163.com/blog/static/36372889201332085636597/

查看抓取后的文件夹

ls data -- 有3个文件夹

crawldb linkdb segments

ls data/crawldb -- 有2个文件夹：current old。其中old 做冗余备份

ls data/crawldb/current/ -- part-00000 ，由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/

-- data, index 。数据存储在data，index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/

-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/*

-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data -- 二进制文件

bin/nutch | grep read -- 查看文件的命令

readdb read / dump crawl db

readlinkdb read / dump link db

readseg read / dump segment data

ls data -- 3个read 命令分别对应3个文件夹

crawldb linkdb segments

bin/nutch readdb

Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)

其中, CrawlDbReader 表示命令使用的java类。

bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump -- 二进制文件导出为文本文件

ls data/crawldb/crawldb_dump/

vi data/crawldb/crawldb_dump/part-00000

:/db_fetched -- 查找一个抓取过的路径，如：http://bj.tianya.cn/

bin/nutch readdb data/crawldb -url http://bj.tianya.cn/ -- 查看指定URL信息

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN

-- 提取指定条数数据到某一个目录

vi data/crawldb/crawldb_topN/part-00000 -- 显示了10行URL, 第1列为分值

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1 -- 最后1个参数为最小分值限制

会抛出异常，需要更换一个目录

bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1 -- 显示分值大于等于1的URL

vi data/crawldb/crawldb_topN_min/part-00000

ls data/segments/

-- 每执行一轮抓取，都会生成一个文件夹，以当前时间命名

ls data/segments/20130418224204

content crawl_fetch crawl_generate crawl_parse parse_data parse_text

bin/nutch readseg

Usage: SegmentReader -dump <segment_dir> <output> [general options]

-nocontent ignore content directory

-nofetch ignore crawl_fetch directory

-nogenerate ignore crawl_generate directory

-noparse ignore crawl_parse directory

-noparsedata ignore parse_data directory

-noparsetext ignore parse_text directory

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent -nofetch -noparse -noparsedata -noparsetext

-- 只输出generate

ls data/segments/20130418224204_dump -- 只有1个文件：dump

vi data/segments/20130418224204_dump/dump -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch -nogenerate -noparse -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_content/dump -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparsedata -noparsetext

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容，因为抓取的网页，被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsetext

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsedata

vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容

bin/nutch readseg

* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]

bin/nutch readseg -list -dir data/segments/

bin/nutch readseg -list data/segments/20130418224204

bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/

-- 最后一个参数为特定的URL，注意：最后要有一个反斜杠。查看指定URL的抓取信息

bin/nutch readlinkdb

Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)

-dump <out_dir> dump whole link db to a text file in <out_dir>

-url <url> print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump