我是靠谱客的博主 任性月光,最近开发中收集的这篇文章主要介绍python分词_使用Python进行文本分词的三种方式的速度,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

借助Python的Jieba库进行中文文本分词,并进行相应的操作,分析不同的操作方式下,所需要花费时间的多少。

首先加载相应的库:

## 加载所需要包

import numpy as np

import pandas as pd

import jieba

import time

准备工作

读取所需要的文件,并且准备数据集,并且增大样本量,用来分词的语句一共有50000条。

## 读取停用词

stopword = pd.read_csv(".../Readream/红楼梦停用词.txt",

header=None,names = ["Stopwords"])

## 读取红楼梦数据集

Red_df = pd.read_excel(".../红楼梦数据集.xlsx")

## 增大样本量

Artical = []

for ii in np.arange(50000):

Artical.append(Red_df.Artical[np.random.randint(120)][1:100])

Red = pd.DataFrame(data = {"Artical" : Artical})

Red.shape

(50000, 1)

使用双重for循环分词:

## 数据表的行数

start = time.clock()

row,col = Red.shape

## 预定义列表

Red["cutword"] = "cutword"

for ii in np.arange

最后

以上就是任性月光为你收集整理的python分词_使用Python进行文本分词的三种方式的速度的全部内容,希望文章能够帮你解决python分词_使用Python进行文本分词的三种方式的速度所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(29)

评论列表共有 0 条评论

立即
投稿
返回
顶部