我是靠谱客的博主 矮小小蝴蝶,最近开发中收集的这篇文章主要介绍python垃圾邮件识别_Python之机器学习-朴素贝叶斯(垃圾邮件分类),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

朴素贝叶斯(垃圾邮件分类)

邮箱训练集下载地址

邮箱训练集可以加我微信:chenyoudea

模块导入

import re

import os

from jieba import cut

from itertools import chain

from collections import Counter

import numpy as np

from sklearn.naive_bayes import MultinomialNB

文本预处理

def get_words(filename):

"""读取文本并过滤无效字符和长度为1的词"""

words = []

with open(filename, 'r', encoding='utf-8') as fr:

for line in fr:

line = line.strip()

# 过滤无效字符

line = re.sub(r'[.【】0-9、——。,!~*]', '', line)

# 使用jieba.cut()方法对文本切词处理

line = cut(line)

# 过滤长度为1的词

line = filter(lambda word: len(word) > 1, line)

words.extend(line)

return words

遍历邮件

all_words = []

def get_top_words(top_num

最后

以上就是矮小小蝴蝶为你收集整理的python垃圾邮件识别_Python之机器学习-朴素贝叶斯(垃圾邮件分类)的全部内容,希望文章能够帮你解决python垃圾邮件识别_Python之机器学习-朴素贝叶斯(垃圾邮件分类)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部