概述
首先,导入相关模块:
import jieba
import docx
import os
from gensim import corpora, models, similarities
对目标文件集进行处理:
path="C:/Users/尚鑫/Desktop/sx1" #目标文件目录
files=os.listdir(path) #遍历目录下子文件名
print(files)
texts=[]
for file in files:
f = docx.Document(path+'/'+ file) #读取文件夹里所有子文件
text = ''
for para in f.paragraphs:
text += para.text #text为每个子文件的文件内容
texts.append(text) #将每个子文件的内容作为一个元素组合成列表
将文件内容进行分词处理:
a=[]
for text in texts:
b=[word for word in jieba.cut(text)]
a.append(b)
同理:对测试文件进行一样的处理:
测试文档与目标文档一样,循环选取目标文档其中之一为测试文档
ff=[]
for i in range(len(a)):
test_list=a[i]
将上诉得到的文本集制作语料库,采用字典:
dictionary=corpora.Dictionary(a) #获取词袋
dictionary.keys() #对词袋中所有词进行编
最后
以上就是乐观砖头为你收集整理的对文件夹中文件进行相似度检测,并生成表格的全部内容,希望文章能够帮你解决对文件夹中文件进行相似度检测,并生成表格所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复