首先,导入相关模块:
复制代码
1
2
3
4
5import jieba import docx import os from gensim import corpora, models, similarities
对目标文件集进行处理:
复制代码
1
2
3
4
5
6
7
8
9
10
11path="C:/Users/尚鑫/Desktop/sx1" #目标文件目录 files=os.listdir(path) #遍历目录下子文件名 print(files) texts=[] for file in files: f = docx.Document(path+'/'+ file) #读取文件夹里所有子文件 text = '' for para in f.paragraphs: text += para.text #text为每个子文件的文件内容 texts.append(text) #将每个子文件的内容作为一个元素组合成列表
将文件内容进行分词处理:
复制代码
1
2
3
4
5a=[] for text in texts: b=[word for word in jieba.cut(text)] a.append(b)
同理:对测试文件进行一样的处理:
测试文档与目标文档一样,循环选取目标文档其中之一为测试文档
复制代码
1
2
3
4ff=[] for i in range(len(a)): test_list=a[i]
将上诉得到的文本集制作语料库,采用字典:
复制代码
1
2dictionary=corpora.Dictionary(a) #获取词袋 dictionary.keys() #对词袋中所有词进行编
最后
以上就是乐观砖头最近收集整理的关于对文件夹中文件进行相似度检测,并生成表格的全部内容,更多相关对文件夹中文件进行相似度检测内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复