python分词_使用Python进行文本分词的三种方式的速度

45 阅读 0 评论 30 点赞

我是靠谱客的博主任性月光，最近开发中收集的这篇文章主要介绍python分词_使用Python进行文本分词的三种方式的速度，觉得挺不错的，现在分享给大家，希望可以做个参考。

借助Python的Jieba库进行中文文本分词，并进行相应的操作，分析不同的操作方式下，所需要花费时间的多少。

首先加载相应的库：

## 加载所需要包

import numpy as np

import pandas as pd

import jieba

import time

准备工作

读取所需要的文件，并且准备数据集，并且增大样本量，用来分词的语句一共有50000条。

## 读取停用词

stopword = pd.read_csv(".../Readream/红楼梦停用词.txt",

header=None,names = ["Stopwords"])

## 读取红楼梦数据集

Red_df = pd.read_excel(".../红楼梦数据集.xlsx")

## 增大样本量

Artical = []

for ii in np.arange(50000):

Artical.append(Red_df.Artical[np.random.randint(120)][1:100])

Red = pd.DataFrame(data = {"Artical" : Artical})

Red.shape

(50000, 1)

使用双重for循环分词：

## 数据表的行数

start = time.clock()

row,col = Red.shape

## 预定义列表

Red["cutword"] = "cutword"

for ii in np.arange

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。