概述
借助Python的Jieba库进行中文文本分词,并进行相应的操作,分析不同的操作方式下,所需要花费时间的多少。
首先加载相应的库:
## 加载所需要包
import numpy as np
import pandas as pd
import jieba
import time
准备工作
读取所需要的文件,并且准备数据集,并且增大样本量,用来分词的语句一共有50000条。
## 读取停用词
stopword = pd.read_csv(".../Readream/红楼梦停用词.txt",
header=None,names = ["Stopwords"])
## 读取红楼梦数据集
Red_df = pd.read_excel(".../红楼梦数据集.xlsx")
## 增大样本量
Artical = []
for ii in np.arange(50000):
Artical.append(Red_df.Artical[np.random.randint(120)][1:100])
Red = pd.DataFrame(data = {"Artical" : Artical})
Red.shape
(50000, 1)
使用双重for循环分词:
## 数据表的行数
start = time.clock()
row,col = Red.shape
## 预定义列表
Red["cutword"] = "cutword"
for ii in np.arange
最后
以上就是任性月光为你收集整理的python分词_使用Python进行文本分词的三种方式的速度的全部内容,希望文章能够帮你解决python分词_使用Python进行文本分词的三种方式的速度所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复