查看抓取后的文件夹
ls data -- 有3个文件夹
crawldb linkdb segments
ls data/crawldb -- 有2个文件夹:current old。其中old 做冗余备份
ls data/crawldb/current/ -- part-00000 ,由hadoop reduce 生成的文件夹
ls data/crawldb/current/part-00000/
-- data, index 。数据存储在data,index是对data中数据的一个索引
du -h data/crawldb/current/part-00000/
-- 查看文件夹part-00000的大小
du -h data/crawldb/current/part-00000/*
-- 查看文件夹part-00000中每个文件的大小
vi data/crawldb/current/part-00000/data -- 二进制文件
bin/nutch | grep read -- 查看文件的命令
readdb read / dump crawl db
readlinkdb read / dump link db
readseg read / dump segment data
ls data -- 3个read 命令分别对应3个文件夹
crawldb linkdb segments
bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
其中, CrawlDbReader 表示命令使用的java类。
bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump -- 二进制文件导出为文本文件
ls data/crawldb/crawldb_dump/
vi data/crawldb/crawldb_dump/part-00000
:/db_fetched -- 查找一个抓取过的路径,如:http://bj.tianya.cn/
bin/nutch readdb data/crawldb -url http://bj.tianya.cn/ -- 查看指定URL信息
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
-- 提取指定条数数据到某一个目录
vi data/crawldb/crawldb_topN/part-00000 -- 显示了10行URL, 第1列为分值
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1 -- 最后1个参数为最小分值限制
会抛出异常,需要更换一个目录
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1 -- 显示分值大于等于1的URL
vi data/crawldb/crawldb_topN_min/part-00000
ls data/segments/
-- 每执行一轮抓取,都会生成一个文件夹,以当前时间命名
ls data/segments/20130418224204
content crawl_fetch crawl_generate crawl_parse parse_data parse_text
bin/nutch readseg
Usage: SegmentReader -dump <segment_dir> <output> [general options]
-nocontent ignore content directory
-nofetch ignore crawl_fetch directory
-nogenerate ignore crawl_generate directory
-noparse ignore crawl_parse directory
-noparsedata ignore parse_data directory
-noparsetext ignore parse_text directory
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent -nofetch -noparse -noparsedata -noparsetext
-- 只输出generate
ls data/segments/20130418224204_dump -- 只有1个文件:dump
vi data/segments/20130418224204_dump/dump -- 第1次抓取只有1个URL
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_fetch/dump
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_content/dump -- 抓取到的HTML源代码
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容,因为抓取的网页,被重定向到其它页面上了
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch -nogenerate -nocontent -noparse -noparsedata
vi data/segments/20130418224204_dump_crawl_parse/dump -- 没有内容
bin/nutch readseg
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]
bin/nutch readseg -list -dir data/segments/
bin/nutch readseg -list data/segments/20130418224204
bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/
-- 最后一个参数为特定的URL,注意:最后要有一个反斜杠。查看指定URL的抓取信息
bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)
-dump <out_dir> dump whole link db to a text file in <out_dir>
-url <url> print information about <url> to System.out
bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
-- 以文本方式查看
ls data/linkdb_dump
vi data/linkdb_dump/part-00000 -- 没有缩进的为特定的key RUL
bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/
-- 查看指定的URL
bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ | wc -l
-- 统计条数
发表评论 取消回复