概述
朴素贝叶斯(垃圾邮件分类)
邮箱训练集下载地址
邮箱训练集可以加我微信:chenyoudea
模块导入
import re
import os
from jieba import cut
from itertools import chain
from collections import Counter
import numpy as np
from sklearn.naive_bayes import MultinomialNB
文本预处理
def get_words(filename):
"""读取文本并过滤无效字符和长度为1的词"""
words = []
with open(filename, 'r', encoding='utf-8') as fr:
for line in fr:
line = line.strip()
# 过滤无效字符
line = re.sub(r'[.【】0-9、——。,!~*]', '', line)
# 使用jieba.cut()方法对文本切词处理
line = cut(line)
# 过滤长度为1的词
line = filter(lambda word: len(word) > 1, line)
words.extend(line)
return words
遍历邮件
all_words = []
def get_top_words(top_num
最后
以上就是矮小小蝴蝶为你收集整理的python垃圾邮件识别_Python之机器学习-朴素贝叶斯(垃圾邮件分类)的全部内容,希望文章能够帮你解决python垃圾邮件识别_Python之机器学习-朴素贝叶斯(垃圾邮件分类)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复