概述
求帮助 可留言联系。
实际需求:文本文档 可能是word 可能是txt 需要通过工具或者是算法将文本信息中的非结构化数据结构化。文本文档没有固定格式错综复杂,段落、词汇以及语句都不固定。需要在文本信息中抽取人员的身份信息,主要是身份证以及电话号码,最终统计出一共多少人。前提电话号码和身份证号码没办法确定是否同一个人,数量也不确定是否吻合,会出现多种情况,例如一份文档中存在 40个身份证号码,38个电话号码。最终需要确定整篇文档中涉及到的实际人员数量。实际38个电话号码中有30个能对应30个已有的身份证信息,有8个电话号码是无法匹配身份证号码的,余下10个身份证信息可以算10人,8个电话号码可以算作8人,最终实际统计人员数量为48人,如何才能通过工具或者算法来确定实际不是40人而是48人。
需要解决的问题:怎么确定身份证号码和电话号码的关系。不是单纯的相加,可以半人工筛查,但怎么才能快速的人工核实?什么方法最快捷。
通过什么方式可以在文本文档中抽取或者分析出想要的信息数量。例如上述情况中的实际人员数量。
最后
以上就是害怕大叔为你收集整理的通过什么方式来精准抽取文本信息中想要的信息数量的全部内容,希望文章能够帮你解决通过什么方式来精准抽取文本信息中想要的信息数量所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复