我是靠谱客的博主 自信冷风,最近开发中收集的这篇文章主要介绍统计数据集(txt文档)中的单词种类,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

# (seq.in, ./vocab/in_vocab) seq.in是输入句子,in_vab是字典
def createVocabulary(input_path, output_path, no_pad=False, no_unk=False):
    if not isinstance(input_path, str):#异常
        raise TypeError('input_path should be string')

    if not isinstance(output_path, str):#异常
        raise TypeError('output_path should be string')

    vocab = {}
    with open(input_path, 'r',encoding='UTF-8') as fd, 
            open(output_path, 'w+',encoding='UTF-8') as out:
        for line in fd:#处理每句话
            line = line.rstrip('rn')
            words = line.split()

            for w in words:#针对每个单词,统计出现次数
                if w == '_UNK':
                    if str.isdigit(w) == True:
                        w = '0'
                if w in vocab:
                    vocab[w] += 1
                else:
                    vocab[w] = 1
        if no_pad == False:#sorted()排序
            vocab = ['_PAD', '_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
        else:
            vocab = ['_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
        for v in vocab:#将出现的词都输入到in_vocab中
            out.write(v + 'n')

最后

以上就是自信冷风为你收集整理的统计数据集(txt文档)中的单词种类的全部内容,希望文章能够帮你解决统计数据集(txt文档)中的单词种类所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(51)

评论列表共有 0 条评论

立即
投稿
返回
顶部