我是靠谱客的博主 斯文夏天,最近开发中收集的这篇文章主要介绍NLP -- 公开数据收集,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

    • wiki数据集

      下载地址是:http://dumps.wikimedia.org/
      介绍:http://en.wikipedia.org/wiki/Wikipedia:Database_download
      wikipedia只是Wikimedia基金会的一个子项目,wikimedia下面还有多个其他的重要项目:
      wiktionary 一个语义化的关联词典,形式上类似于wordnet
      wikiquote 收录各种名人名言
      Wikibooks 免费的教科书和手册
      Wikinews 大量的新闻故事
      Wikiversity 免费的教育材料
      Wikisource 免费的文本内容
      上述的这些内容,都可以通过http://dumps.wikimedia.org/ 下载到。
      还有一些小型的wiki项目,比如:
      http://simple.wikipedia.org 使用Basic English写的wiki,给儿童和初学者看
      http://simple.wiktionary.org 使用Basic English写的wiktionary
      wikipedia的数据处理有很多方式:
      jwpl: http://code.google.com/p/jwpl/
      wikipedia-miner: http://wikipedia-miner.cms.waikato.ac.nz/wiki/
      下面是排名前250位wikia网站:
      http://wikis.wikia.com/wiki/List_of_Wikia_wikis
      wikia上的资源也可供下载:
      http://community.wikia.com/wiki/Help:Database_download

    • Freebase

      Freebase数据的下载地址:
      http://wiki.freebase.com/wiki/Data_dumps freebase自身的数据
      http://wiki.freebase.com/wiki/WEX freebase从wikipedia中提取的数据

    • YAGO2

      http://www.mpi-inf.mpg.de/yago-naga/yago/

    • dbpedia

      http://www.dbpedia.org

    • LinkedData

      可以来这里:http://www.thedatahub.org 这里收集了很多Linked Data
      http://linkeddata.org/ 这里有一张图,给出了各种linkeddata的关系和影响力。

    如果要找各种网上的api,可以来这里:http://www.programmableweb.com
    现在外国政府纷纷对外公开数据,下面是几个政府的开放数据集:
    http://data.gov.au 澳大利亚
    http://data.dc.gov 美国哥伦比亚州的
    http://www.data.gov 美国
    http://data.gov.uk 英国
    http://databases.lapl.org/ 洛杉矶地区的开放数据集,知道硅谷为啥这么牛了吧
    http://www.gov.hk/en/theme/psi/welcome 香港政府也公开了很多数据
    对比一下,外国政府做了这么多实事,人民大会堂里的那些酒囊饭袋们都在干什么?

    http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html 美国国家卫生署发布的词表
    http://www.census.gov/genealogy/www/data/2000surnames/index.html 美国统计局的姓名数据
    https://www.cia.gov/library/publications/download/ 美国中央情报局发布的factbook,介绍了世界各国情况
    连卫生署,统计局和中情局这种单位都为美国的信息建设做出了这么多的贡献,我们应该知道自己跟美帝的差距有多大了吧。

    • 叙词表

      http://www.nlm.nih.gov/mesh/filelist.html mesh,关于医学的受控词表
      http://id.loc.gov/download/ 美国国会图书馆发布的叙词表
      一些三元组数据:
      http://www.cs.utexas.edu/users/pclark/dart/ 采集自BNC(英国国家语料库)和Reuters,2300万条
      http://reverb.cs.washington.edu/ 华盛顿大学的项目,1500万条
      http://www.cs.washington.edu/research/sherlock-hornclauses/ 大约有200-300万条数据
      http://www.cs.rochester.edu/research/knext 有535万条数据,来自BNC和布朗语料库
      http://rtw.ml.cmu.edu/rtw/resources readtheweb项目,数据量较小

    • 机读词典

      http://wordnet.princeton.edu/ 英语的wordnet
      http://nlpwww.nict.go.jp/wn-ja/index.en.html 日语的wordnet
      http://alpage.inria.fr/~sagot/wolf-en.html 法语的wordnet
      http://wordnet.ru/ 俄罗斯的wordnet
      http://cl.haifa.ac.il/projects/mwn/index.shtml 希伯来语的wordnet
      http://wordnet.dk/dannet/menu?item=2 丹麦语的wordnet
      http://grial.uab.es/sensem/download?idioma=en 西班牙语的wordnet
      http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml 芬兰语的wordnet
      这些不同版本的wordnet都是免费下载的。可恨中国泱泱五千年的文明古国,文献典故浩如烟海,竟连一份免费且公开的机读词典都没有。这是汉语的耻辱,中国的耻辱,也是中华民族的耻辱。特别是中科院计算所和自动化所的人们,你们觉得呢?(顺祝hownet生意兴隆,越卖越好)
      http://dico.fj.free.fr/dico.php 日法词典
      http://www.csse.monash.edu.au/~jwb/edict.html 日英词典
      http://cc-cedict.org/wiki/start 中文到英文的词典,终于出来中文的了,可惜是外国人搞出来的。
      https://framenet.icsi.berkeley.edu 基于框架语义学的东东,恐怕不能算词典,不过没地儿放了。

    • 语料库

      http://opus.lingfil.uu.se/ 开放的平行语料库
      http://opus.lingfil.uu.se/OpenSubtitles_v2.php 大量电影字幕的下载地址
      http://www.statmt.org/europarl 欧洲议会的平行语料库
      http://www.anc.org/OANC/ 开放的美国国家语料库

    转载于:http://www.newsmth.net/bbscon.php?bid=1018&id=13477

    最后

    以上就是斯文夏天为你收集整理的NLP -- 公开数据收集的全部内容,希望文章能够帮你解决NLP -- 公开数据收集所遇到的程序开发问题。

    如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

    本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
    点赞(66)

    评论列表共有 0 条评论

    立即
    投稿
    返回
    顶部