自然语言处理(nlp)的流程图

281 阅读 0 评论 186 点赞

我是靠谱客的博主风中服饰，这篇文章主要介绍自然语言处理(nlp)的流程图，现在分享给大家，希望可以做个参考。

1. 读取原始数据

html = urlopen(url).read()

2. 数据清洗

raw = nltk.clean_html(html)

3. 数据切片

raw = raw[111:2222222]

4. 数据分词

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)

5. 分词切片

tokens = tokens[20:222222]

6. 文本转换（或者不需要）

text = nltk.Text(tokens)

7. 词汇获取

words = [w.lower() for w in text]

vocab = sorted(set(words))

以上就是风中服饰最近收集整理的关于自然语言处理(nlp)的流程图的全部内容，更多相关自然语言处理(nlp)内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。