概述
# (seq.in, ./vocab/in_vocab) seq.in是输入句子,in_vab是字典
def createVocabulary(input_path, output_path, no_pad=False, no_unk=False):
if not isinstance(input_path, str):#异常
raise TypeError('input_path should be string')
if not isinstance(output_path, str):#异常
raise TypeError('output_path should be string')
vocab = {}
with open(input_path, 'r',encoding='UTF-8') as fd,
open(output_path, 'w+',encoding='UTF-8') as out:
for line in fd:#处理每句话
line = line.rstrip('rn')
words = line.split()
for w in words:#针对每个单词,统计出现次数
if w == '_UNK':
if str.isdigit(w) == True:
w = '0'
if w in vocab:
vocab[w] += 1
else:
vocab[w] = 1
if no_pad == False:#sorted()排序
vocab = ['_PAD', '_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
else:
vocab = ['_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
for v in vocab:#将出现的词都输入到in_vocab中
out.write(v + 'n')
最后
以上就是自信冷风为你收集整理的统计数据集(txt文档)中的单词种类的全部内容,希望文章能够帮你解决统计数据集(txt文档)中的单词种类所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复