我是靠谱客的博主 和谐画笔,最近开发中收集的这篇文章主要介绍nlp 中文文本纠错_基于自然语言处理的病历文本自动纠错技术,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一. 背景和意义

电子病历文本是医生对病人病情的文字性描述,一般是医生通过手工输入电子病历系统的。难免存在错字、漏字、错标点等问题。据初步统计,电子病历中的错误率大约为每百万字符15-50处。这些错误对后期的解读和数据分析埋下隐患。

503fed2067d2fd87eab9595b0bb08661.png

在nlp领域中文本纠错由于没有特别成熟的方法,而且用到的知识点比较繁琐,真正的应用到工业界还要考虑实际成本和效率。常见纠错内容如下所示:

- 谐音错别字:行走瓶稳----行走平稳?- 形近错别字:氨基已酸 ----氨基己酸- 多字:无为畏寒 ----无畏寒- 字词顺序错误:硫酸氯氢吡格雷 ---- 硫酸氢氯吡格雷- 缺字:右扁肿大 ----右扁桃体肿大- 顺序:予阿静滴奇 ---- 予阿奇霉素静滴

二. 文本纠错定义

1.定义

       文本纠错是一个重要又不重要的领域,不纠错,通常的NLP下游任务也能进行,只是会影响效果、体验,例如word2vec之类大样本训练任务;有时候用户体验直接影响收入:电商搜索。输入法,校对等。

       纠错相对更偏系统工程,经常是其它nlp任务的上游,对响应速度要求较高。与分词一起,具体谁在前不一定,有分词纠错同时进行的。英文NER可以在纠错之前,中文NER一般在纠错之后。中文较少因为纠错让实体词变为非实体词

2.文本纠错分类

  • 英文纠错

  • 拼音纠错

  • 中文纠错

三. 文本纠错解决方案

1.概要:

  • 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正;

  • 错误检测部分先通过结巴中文分词器切词,由于

最后

以上就是和谐画笔为你收集整理的nlp 中文文本纠错_基于自然语言处理的病历文本自动纠错技术的全部内容,希望文章能够帮你解决nlp 中文文本纠错_基于自然语言处理的病历文本自动纠错技术所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(34)

评论列表共有 0 条评论

立即
投稿
返回
顶部