通过什么方式来精准抽取文本信息中想要的信息数量

263 阅读 0 评论 174 点赞

我是靠谱客的博主害怕大叔，这篇文章主要介绍通过什么方式来精准抽取文本信息中想要的信息数量，现在分享给大家，希望可以做个参考。

求帮助可留言联系。
实际需求：文本文档可能是word 可能是txt 需要通过工具或者是算法将文本信息中的非结构化数据结构化。文本文档没有固定格式错综复杂，段落、词汇以及语句都不固定。需要在文本信息中抽取人员的身份信息，主要是身份证以及电话号码，最终统计出一共多少人。前提电话号码和身份证号码没办法确定是否同一个人，数量也不确定是否吻合，会出现多种情况，例如一份文档中存在 40个身份证号码，38个电话号码。最终需要确定整篇文档中涉及到的实际人员数量。实际38个电话号码中有30个能对应30个已有的身份证信息，有8个电话号码是无法匹配身份证号码的，余下10个身份证信息可以算10人，8个电话号码可以算作8人，最终实际统计人员数量为48人，如何才能通过工具或者算法来确定实际不是40人而是48人。
需要解决的问题：怎么确定身份证号码和电话号码的关系。不是单纯的相加，可以半人工筛查，但怎么才能快速的人工核实？什么方法最快捷。

通过什么方式可以在文本文档中抽取或者分析出想要的信息数量。例如上述情况中的实际人员数量。