我是靠谱客的博主 刻苦海燕,最近开发中收集的这篇文章主要介绍Nutch 1.4 运行爬虫索引网站时报错。,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

命令如下:

Administrator@f523540 ~
$ cd  /cygdrive/d/nutch/apache-nutch-1.4-bin/runtime/local/

Administrator@f523540 /cygdrive/d/nutch/apache-nutch-1.4-bin/runtime/local
$ ./bin/nutch crawl urls -dir crawl -topN 5  -depth 3
cygpath: can't convert empty path
solrUrl is not set, indexing will be skipped...
crawl started in: crawl
rootUrlDir = urls
threads = 10
depth = 3
solrUrl=null
topN = 5
Injector: starting at 2012-06-17 13:47:45
Injector: crawlDb: crawl/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
        at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

 环境:cygwin  windows xp  java 1.6   nutch 1.4。不知道哪位有没有遇到过此问题,期待您的回答! 

最后

以上就是刻苦海燕为你收集整理的Nutch 1.4 运行爬虫索引网站时报错。的全部内容,希望文章能够帮你解决Nutch 1.4 运行爬虫索引网站时报错。所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(37)

评论列表共有 0 条评论

立即
投稿
返回
顶部