我是靠谱客的博主 大气爆米花,最近开发中收集的这篇文章主要介绍Nutch 学习笔记2 - 查看抓取的文件,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

http://z60014840.blog.163.com/blog/static/36372889201332085636597/


查看抓取后的文件夹
ls data           -- 有3个文件夹
crawldb  linkdb  segments

ls data/crawldb   -- 有2个文件夹:current  old。其中old 做冗余备份

ls data/crawldb/current/   -- part-00000 ,由hadoop reduce 生成的文件夹

ls data/crawldb/current/part-00000/  
-- data, index 。数据存储在data,index是对data中数据的一个索引

du -h data/crawldb/current/part-00000/
-- 查看文件夹part-00000的大小

du -h data/crawldb/current/part-00000/*
-- 查看文件夹part-00000中每个文件的大小

vi data/crawldb/current/part-00000/data  -- 二进制文件

bin/nutch | grep read          -- 查看文件的命令
  readdb            read / dump crawl db
  readlinkdb        read / dump link db
  readseg           read / dump segment data

ls data                   -- 3个read 命令分别对应3个文件夹
crawldb  linkdb  segments

bin/nutch readdb
Usage: CrawlDbReader <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)
其中, CrawlDbReader 表示命令使用的java类。
bin/nutch readdb data/crawldb -dump data/crawldb/crawldb_dump   -- 二进制文件导出为文本文件
ls data/crawldb/crawldb_dump/
vi data/crawldb/crawldb_dump/part-00000
:/db_fetched      -- 查找一个抓取过的路径,如:http://bj.tianya.cn/ 
bin/nutch readdb data/crawldb -url http://bj.tianya.cn/   -- 查看指定URL信息
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN
-- 提取指定条数数据到某一个目录
vi data/crawldb/crawldb_topN/part-00000      -- 显示了10行URL, 第1列为分值 
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN 1    -- 最后1个参数为最小分值限制
会抛出异常,需要更换一个目录
bin/nutch readdb data/crawldb -topN 10 data/crawldb/crawldb_topN_min 1   -- 显示分值大于等于1的URL
vi data/crawldb/crawldb_topN_min/part-00000



ls data/segments/
-- 每执行一轮抓取,都会生成一个文件夹,以当前时间命名
ls data/segments/20130418224204
content  crawl_fetch  crawl_generate  crawl_parse  parse_data  parse_text
bin/nutch readseg
Usage: SegmentReader -dump <segment_dir> <output> [general options]
-nocontent      ignore content directory
        -nofetch        ignore crawl_fetch directory
        -nogenerate     ignore crawl_generate directory
        -noparse        ignore crawl_parse directory
        -noparsedata    ignore parse_data directory
        -noparsetext    ignore parse_text directory
bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump -nocontent  -nofetch -noparse -noparsedata -noparsetext
-- 只输出generate
ls data/segments/20130418224204_dump     -- 只有1个文件:dump
vi data/segments/20130418224204_dump/dump  -- 第1次抓取只有1个URL

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_fetch -nocontent  -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_fetch/dump

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_content -nofetch  -nogenerate -noparse -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_content/dump    -- 抓取到的HTML源代码

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparsedata -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容,因为抓取的网页,被重定向到其它页面上了

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparse -noparsetext
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容

bin/nutch readseg -dump data/segments/20130418224204 data/segments/20130418224204_dump_crawl_parse -nofetch  -nogenerate -nocontent -noparse -noparsedata
vi data/segments/20130418224204_dump_crawl_parse/dump   -- 没有内容


bin/nutch readseg
* SegmentReader -list (<segment_dir1> ... | -dir <segments>) [general options]

bin/nutch readseg -list -dir data/segments/
bin/nutch readseg -list data/segments/20130418224204
bin/nutch readseg -get data/segments/20130418224204 http://blog.tianya.cn/        
-- 最后一个参数为特定的URL,注意:最后要有一个反斜杠。查看指定URL的抓取信息


bin/nutch readlinkdb
Usage: LinkDbReader <linkdb> (-dump <out_dir> | -url <url>)
        -dump <out_dir> dump whole link db to a text file in <out_dir>
        -url <url>      print information about <url> to System.out

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump
-- 以文本方式查看
ls data/linkdb_dump
vi data/linkdb_dump/part-00000            -- 没有缩进的为特定的key RUL


bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/  
-- 查看指定的URL

bin/nutch readlinkdb data/linkdb -url http://apps.tianya.cn/ | wc -l
-- 统计条数

最后

以上就是大气爆米花为你收集整理的Nutch 学习笔记2 - 查看抓取的文件的全部内容,希望文章能够帮你解决Nutch 学习笔记2 - 查看抓取的文件所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(80)

评论列表共有 0 条评论

立即
投稿
返回
顶部