《大数据原理：复杂信息的准备、共享和分析》一一

333 阅读 0 评论 220 点赞

我是靠谱客的博主慈祥路灯，这篇文章主要介绍《大数据原理：复杂信息的准备、共享和分析》一一，现在分享给大家，希望可以做个参考。

1.5　术语提取
知道它叫什么与知道它是什么，差别很大。
―Richard Feynman

我最喜欢的电影之一是恶搞版《巴斯克维尔猎犬》，主演有饰演福尔摩斯的Peter Cooke和饰演他的忠实圣徒华生医生的Dudley Moore。一心只想着自己可笑的追求的福尔摩斯，让华生到位于达特穆尔的巴斯克维尔家族去进行紧急侦查活动。倒霉的华生站在巨大的巴斯克维尔庄园，不知道如何着手进行调查。犹豫了一下后，他转身对漠不关心的女仆命令道：“带我去找线索！”
建立索引很像侦破一起残忍的犯罪案―你需要知道如何找到线索。同样，文本中的术语是索引构建的线索。术语不会自己跳进你的索引文件，你需要找到它们。有几个可用的方法可实现从语料库的文本中寻找和提取索引词18，但没有一种方法是简单、快速而且像“stop”方法那样可扩展的19（见术语表，Term extraction algorithm，Scalable）。
文本是由单词、表示具体概念的短语和单词与短语组合成的一定序列的句子所构成的。
考虑以下内容：“诊断是慢性病毒性肝炎（The diagnosis is chronic viral hepatitis）。”这句话包含两个非常具体的医学概念：“诊断”（diagnosis）和“慢性病毒性肝炎”（chronic viral hepatitis），这两个概念相连接，再加上“the”和“is”以及语句分隔符，形成了一句有含义的陈述句。
一个术语可以是由一个或多个生僻词顺序构成并由“is”“and”“with”“the”等常见词分隔开的句子。
再举个例子：“硬脑膜外出血会在中间清醒期发生（An epidural hemorrhage can occur after a lucid interval）。”医学词汇“硬脑膜外出血”（epidural hemorrhage）和“中间清醒期”（lucid interval）是生僻词，这句话由常见词作为分隔符，如“an”“can occur after a”“.”。
如果我们有一个其中都是常见词的列表，就可以写一个程序，提取在任意长度文本中找到的所有概念。概念术语包括由生僻词构成的、不包含常见词的全部序列。下面是一种术语提取算法。
1.阅读句子的第一个字。如果它是一个常见的词，将其删除。如果它是一个生僻字，保存它。
2.阅读下一个单词。如果它是一个常见的词，则将其删除，并将已保存单词置入已在文本中发现的术语列表中。如果它是生僻词，则将其与第一步保存的单词合并为一个术语。如果它是语句分隔符，将保存的术语置入术语列表，并结束该步骤。
3.重复第2步。
这个简单的算法或者其他与之相似的算法，是一种建立索引术语集合的快速高效的方法。要使用该算法，你必须准备好或找到适合您的大数据资源的信息领域常用的单词列表。从国家医学引文库（大约2000万期刊论文）中提取出的术语常见词包括：“about、again、all、almost、also、although、always、among、an、and、another、any、are、as、at、be、because、been、before、being、between、both、 but、by、can、could、did、do、does、done、due、during、each、either、enough、 especially、etc、for、found、from、 further、had、has、have、having、here、how、however、i、if、in、into、is、it、its、itself、just、kg、km、made、mainly、make、 may、mg、might、ml、mm、most、mostly、must， nearly、neither、no、nor、obtained、 of、often、on、our、overall、perhaps、pmid、quite、rather、really、regarding、 seem、seen、several、should、show、showed、shown、shows、significantly、since、 so、some、such、than、that、the、their、theirs、them、then、there、therefore、 these、they、this、those、through、thus、to、upon、use、used、using、various、 very、was、we、were、what、when、which、while、with、within、without、would。”
这样的常见词列表有时也被称为“停止单词列表”或“障碍单词列表”，因为它限定了提取术语的开始和结束。
请注意，算法对文本逐句进行解析。对计算机来说，这是一个有点笨拙的方法，因为大多数编程语言自动从文本文件逐行切割文本（即，打破文本在换行处终结的规则）。计算机程序无法知道句子在哪里开始或结束，除非程序员开发能自动发现句子的子程序。
确定句子的开始和结束有很多种策略。最简单的方法是寻找紧跟小写字母的句子分隔符，该分隔符出现在先于一个大写字母的一个或两个空格字符之前。
举个例子：“I like pizza. Pizza likes me.”这两个句子之间是序列“a.P”，小写的“a”后面是句点，句点后面是大写的“P”。这种常见的模式（小写字母、句点、一到两个空格、大写字母）常常标示句子的间断。但如果是一行话或段落的最后一句则不适用这个模式，因为没有空格存在。对于一个句子里的多个分句，这种模式也会失效，因为在分号后不是跟着大写字母。另外，也可能错误地界定提纲句子，因为提纲里的句号后紧跟的是小写字母，表示新的主题。尽管存在这样那样的不完美，程序员还是可以对特殊句型进行规则调整形成子程序，实现对非结构化文本的逐句分解。
一旦有了提取术语的方法，建立一个术语关联位置的真实索引就跟儿戏似的了。基本上就是，按前面提到的方法每收集一个术语，就将这个术语附加到被发现的位置即可。通常，这可以通过建立一个关联数组实现，即哈希数组或基于程序语言的字典。如果在大数据资源的后续位置遇到已出现的术语，则只需将这些位置信息简单地添加到该术语位置列表中即可。在整个大数据资源完全被你编写的索引程序解析后，将会得到一个包含两个条目的关联数组，这两个条目分别是术语名称和该术语在大数据资源中出现的位置列表。把这个关联数组以文件形式展现时，就得到索引了！但这还没有全部完成。
利用上述方法可以为任意文本语料库创建索引。然而，在大多数情况下，数据管理者和数据分析人员总认为结果差强人意，因为索引中包含太多他们不感兴趣的术语。索引中的术语会按字母顺序排列，但在大数据资源中的字母概念表示并不与术语相关。
如果找到一本索引设计水平较高的书，你会发现索引设计者煞费苦心地将关联术语放在一个副主题下，当然在某些情况下，同一个副主题中的术语会被分到多个副主题中，索引中的个别术语也会被链接到相关术语上（交叉索引）。
无论是由人工创建还是计算机生成，好的索引必须要服务于数据分析所需的数据管理工作。而创建索引的程序员也应当充分运用其创造力、洞察力和审美能力。这里给出一小部分创建索引时需要关注的问题。
1.索引应该根据特定的知识领域来创建吗？你也许需要创建一个人名索引、地理位置索引或者交易类型索引，是否需要按知识领域来创建索引，取决于大数据资源的预期用途。
2.索引应该根据特定的术语表来创建吗？如果一个编译好的术语表中的术语与近义词共享代码，也许有助于索引的创建。
3.索引应该在分类的基础上创建吗？例如，一个为生物学家准备的索引也许聚焦在生物体的分类上。基因数据已经能够被基因本体索引，同时也是生物研究的工具20。
4.在没有分类的情况下，索引应该包含术语的近义词吗？会得到新发现的术语关联分析有时候会在收集索引术语间的不同时进行，并且会带来一些有用的信息21,22。那些距离接近的术语很有可能有某种对应关系。例如，如果“苯胺染料工业”（aniline dye industry）与看似无关的术语“膀胱癌”（bladder cancer）同时出现，你可能会怀疑是否是“苯胺染料工业”诱发了“膀胱癌”。
5.是否应该创建多个索引？专业的索引可能会为不同的数据分析师而创建，他们往往有多种研究任务。
6.是否应该将索引合并到其他索引中？合并索引比合并大数据资源简单多了，这里有必要提醒大家，大数据的最大价值在于寻找不同数据集合之间的关联关系。