文本处理 文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:1.读入文本2.分词3.建立字典,将每个词映射到一个唯一的索引(index)4.将文本从词的序列转换为索引的序列,方便输入模型语言模型一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 w1,w2,…,wT ,语言模型的目标就是评估该序... pytorch 2024-08-08 39 点赞 0 评论 59 浏览