借助Python的Jieba库进行中文文本分词,并进行相应的操作,分析不同的操作方式下,所需要花费时间的多少。
首先加载相应的库:
## 加载所需要包
import numpy as np
import pandas as pd
import jieba
import time
准备工作
读取所需要的文件,并且准备数据集,并且增大样本量,用来分词的语句一共有50000条。
## 读取停用词
stopword = pd.read_csv(".../Readream/红楼梦停用词.txt",
header=None,names = ["Stopwords"])
## 读取红楼梦数据集
Red_df = pd.read_excel(".../红楼梦数据集.xlsx")
## 增大样本量
Artical = []
for ii in np.arange(50000):
Artical.append(Red_df.Artical[np.random.randint(120)][1:100])
Red = pd.DataFrame(data = {"Artical" : Artical})
Red.shape
(50000, 1)
使用双重for循环分词:
## 数据表的行数
start = time.clock()
row,col = Red.shape
## 预定义列表
Red["cutword"] = "cutword"
for ii in np.arange
最后
以上就是任性月光最近收集整理的关于python分词_使用Python进行文本分词的三种方式的速度的全部内容,更多相关python分词_使用Python进行文本分词内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复