关于垃圾邮件的介绍

网上有关“关于垃圾邮件的介绍”话题很是火热,小编也是针对关于垃圾邮件的介绍寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

垃圾短信,垃圾邮件和推销的电话使我们深受其扰,不过也有些手机软件助手,可以帮助我们垃圾这些垃圾短信和电话,这些软件的背后的算法是什么?

像360手机卫士这种APP在手机本地或云端保存一份电话的手机黑名单数据,来电的时候手机判断下就可以决定是否为骚扰电话了,本地存储,黑名单的数据量如果很大的话,可能会占内存比较大,不过这个可以借鉴以前的布隆过滤器这种数据结构来解决,但是布隆过滤器有误判的可能,有可能来电非黑名单却当成黑名单进行处理了,这对于拦截软件来说是比较严重的问题,所以可能是多种方法来结合判断,或者对于布隆过滤判断是属于黑名单的电话,再通过一次联网到网上的云端再判断一次是否为真正为黑名单用户,不过这就需要联网,还存在延迟的可能;对于布隆过滤器判断为正常用户的,则一定是正常用户,那么大部分时间是不需要联网判断或结合其他办法判断的。

像很多病毒检测软件,或IDS或WAF软件一样,垃圾短信和骚扰电话 也可以建立自己的规则库,通过规则库进行垃圾短信的判断,同样像IDS等软件存在误判的情况一样,垃圾短信采用规则判断的话,也存在一定的误判性,一般也要结合其他的判断规则综合判断。

规则有下面几个:

凡是规则判断,都存在着检测死板,不能检测到不在规则里面的情况,而且会被有心者特意设计避开规则的垃圾短信等。

直观地想一下,垃圾短信,垃圾邮件这些一般都包含特定的词语,或者链接等,那么我们反过来统计邮件中特定的词语的数量,达到一定标准,我们就判断为垃圾邮件。

现在对于这种垃圾邮件的判断问题,一般都通过机器学习来解决,在机器学习的算法中,做垃圾邮件判断这个是属于一个二分类问题,可以用很多中算法来解决,常用的有决策树,贝叶斯,SVM,神经网络等,其中贝叶斯算法是属于一个基于统计学的算法,也是本次要介绍的算法。

贝叶斯算法是为了解决“逆序概率”的问题,举个简单的例子,比如我们袋子中有10个红球,8个白球,然后随机从袋子中拿出一个球,问是红球的概率是多少?这是一个非常简单的概率问题,结果就是10/(10+8),这种正向概率问题比较好理解。那么反过来,如果我们只知道袋子中有红球和白球,但是不知道数量和比例,我们拿了几次球,通过拿出这些球的颜色是否可以推断出袋子中两种球的比例那?

贝叶斯算法中有些根据以前经验总结出来的概率,称为先验概率,可以理解成先前的经验的概率,所以叫先验概率,比如清明时节一般会下雨,下雨的概率大概为70%,这就是通过以前的经验总结的;

后验概率, 是事情发生了,推测可能原因,比如小明迟到了,那么起晚了造成迟到的概率假设为30%,这就是后验概率。条件概率,就是在一个事情假设A发生的情况下,另外一个事情B也发生的概率,记作P(B|A),读作在A发生的情况下,B发生的概率,比如起晚的情况下,小明迟到的概率。

总结一句话:先验概率是经验总结,后验概率是由果推因,条件概率是由因推果。

根据条件概率的定义,可以推导出贝叶斯公式,推导过程在百科里面如下:

说明:

1)P(A|B) = A和B同时发生的概率/B发生的概率,直观想下,B发生的概率一定大于A和B同时发生的概率,相除的含义就是在B发生的概率情况下,有多少A也同时发生的概率,也就符合了条件概率的定义。

2)把除法变乘法就得到了合并后的式子,再变化下,就得到了贝叶斯公式。

可能还比较抽象,举个wiki上的例子:

我们用两种算法进行计算,一是自己直观想,二是用朴素贝叶斯。

假设学校一共有U个人,直观想法计算:

P(是女生|穿裤子) = 所有穿裤子的女生数量/所有穿裤子的人数

= U*0.4(女生数量)*0.5(一半穿裤子) / (U*0.4*0.5 +U*0.6*1)

= 0.2*U /0.8*U = 25%

如果用朴素贝叶斯算法:

P(是女生|穿裤子) = P(穿裤子|是女生) *P(是女生)/P(穿裤子)

= 0.5*0.4/[(0.6*1 +0.4*0.5)/1]

= 0.2 /0.8

= 25%

说明: P(穿裤子) = 穿裤子人数/总人数= U*0.6*1 + U*0.4*0.5/U = 80%

这样看起来,朴素贝叶斯公式也不是很难。

具体来看下垃圾邮件的分类问题:我们用D表示一封邮件,D是由很多单词组成。用f+表示是垃圾邮件,用f-表示是正常邮件,根据贝叶斯公式,问题形式化:

其中P(f+)和P(f-)比较容易得到,算下一个邮箱里面有多少个是垃圾邮件,多少个是正常邮件即可,不过最好多找几个,算下平均值,这就是所谓的先验概率。

P(D|f+) 表示是垃圾邮件,单词出现的概率,把D展开成N个单词就是:

P(d1,d2,d3...dn|f+) 即垃圾邮件中,同时出现这些单词的概率,这个没办法求,假设这些单词之间是独立的,没有什么关联关系,那么P(d1,d2,d3...dn|f+) 就可以扩展为P(d1|f+)* P(d2|f+) P(d3|f+).... P(dn|f+) 这个里面的独立假设,就是朴素贝叶斯的朴素来源,因为不是那么精确,所以叫朴素。计算一个单词在垃圾邮件中出现的概率就比较简单了。

翻译一下:

P(垃圾邮件|单词d1,单词d2...单词dn同时出现) =[ P(单词d1,单词d2...同时出现|是垃圾邮件)*P(是垃圾邮件)]/P(单词d1,单词d2...同时出现在一封邮件里面)

根据独立假设:

P(垃圾邮件|单词d1,单词d2...单词dn同时出现) =[ P(单词d1出现|是垃圾邮件)*P(单词d2出现|是垃圾邮件)*P(单词d3出现|是垃圾邮件)...*P(是垃圾邮件)]/P(单词d1,单词d2...同时出现在一封邮件里面)

其实我们在判断是否是垃圾邮件的时候,并一定要计算出来P(单词d1,单词d2...同时出现在一封邮件里面),这个也无法精确计算,我们只需要比较垃圾邮件的概率和非垃圾邮件的概率,取大的那一个就可以了,那么久只要计算:

P(垃圾邮件|单词d1,单词d2...单词dn同时出现) =[ P(单词d1出现|是垃圾邮件)*P(单词d2出现|是垃圾邮件)*P(单词d3出现|是垃圾邮件)...*P(是垃圾邮件)]

P(正常邮件|单词d1,单词d2...单词dn同时出现) =[ P(单词d1出现|是正常邮件)*P(单词d2出现|是正常邮件)*P(单词d3出现|是正常邮件)...*P(是正常邮件)]

1.找到N封邮件,标记好垃圾邮件和非垃圾邮件。

2.对N封邮件进行去掉停词部分,然后采用分词算法做分词。

3.分别计算每个词在垃圾邮件中出现的比例,在正常邮件中出现的比例

4.带入公式算下哪个概率相对大一些,就属于哪个分类。

这里面总结的比较简单,贝叶斯算法,还有很多没有说到,我也理解的不够深刻,先只聊点这种简单的吧,下一篇将找个例子实战下朴素贝叶斯算法。

参考:

1. 数据结构和算法之美:概率统计

2. 数据分析实战:朴素贝叶斯

3. 平凡而又神奇的贝叶斯方法

关于“关于垃圾邮件的介绍”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[浅墨入画]投稿,不代表博羽号立场,如若转载,请注明出处:https://sz-boyu.cn/sz/731.html

(21)

文章推荐

  • 东汉蔡邕简介 蔡邕怎么死的

    网上有关“东汉蔡邕简介蔡邕怎么死的”话题很是火热,小编也是针对东汉蔡邕简介蔡邕怎么死的寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。蔡邕(yōng)(133年—192年),字伯喈。陈留郡圉(yǔ)(今河南省开封市圉镇)人。[1]东汉时期著名文学家、

    2025年07月20日
    16
  • 说三个你听过的最好笑的笑话

    网上有关“说三个你听过的最好笑的笑话”话题很是火热,小编也是针对说三个你听过的最好笑的笑话寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。1、一个农民到城里去,早上看到一个人在公园里做俯卧撑,看了半天后说:怎么下面还在哪光使劲。2、一次在女同学的聚会,一个人说

    2025年07月22日
    8
  • 韩旭女篮个人资料简介

    网上有关“韩旭女篮个人资料简介”话题很是火热,小编也是针对韩旭女篮个人资料简介寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。韩旭生于1999年,身高2米07,体重96公斤,司职中锋。韩旭,出生于河北石家庄,中国职业篮球运动员,现效力于纽约自由人队、四川女篮。

    2025年07月22日
    9
  • 3.8妇女节祝福语送闺蜜

    网上有关“3.8妇女节祝福语送闺蜜”话题很是火热,小编也是针对3.8妇女节祝福语送闺蜜寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。 3.8妇女节要到了,记得给闺蜜送去节日的祝福。下面是由我为大家整理的“3.8妇女节祝福语送闺蜜”,仅供参考,欢迎大家阅读。3

    2025年07月25日
    3
  • 实测辅助”微信小程序微乐麻将开挂神器下载”开挂(透视)辅助教程

    您好:微信小程序微乐麻将开挂神器下载这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.

    2025年07月25日
    3
  • 开挂辅助工具“微乐麻将小程序赢的技巧”开挂(透视)辅助教程

    您好:微乐麻将小程序赢的技巧这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.1.

    2025年07月25日
    2
  • 实测分享“微壳跑胡子有挂吗”其实确实有挂

    您好:微壳跑胡子有挂吗这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信】安装软件.

    2025年07月27日
    2
  • 必看教程“微乐保皇开挂器是什么软件(透视)”最新辅助详细教程

    亲,微乐保皇开挂器是什么软件这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件. 微信打麻将是一款非常流行的棋牌

    2025年07月27日
    2
  • 实测辅助”微乐捉老麻子怎样免费开挂”最新辅助详细教程

    无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由:1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信:2、自动连接,用户只要开启软件,就会全程后台自动连接程序,无需用户时时盯着软件。3、安全保障,使用这款软件的用户可以非常安心,绝对没有被

    2025年07月27日
    3
  • 教程分享“微乐春天怎么样来好牌”开挂(透视)最新辅助详细教程

    亲,微乐春天怎么样来好牌这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【】安装软件. 微信打麻将是一款非常流行的棋牌游戏

    2025年07月27日
    1

发表回复

本站作者后才能评论

评论列表(4条)

  • 浅墨入画
    浅墨入画 2025年07月19日

    我是博羽号的签约作者“浅墨入画”!

  • 浅墨入画
    浅墨入画 2025年07月19日

    希望本篇文章《关于垃圾邮件的介绍》能对你有所帮助!

  • 浅墨入画
    浅墨入画 2025年07月19日

    本站[博羽号]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享

  • 浅墨入画
    浅墨入画 2025年07月19日

    本文概览:网上有关“关于垃圾邮件的介绍”话题很是火热,小编也是针对关于垃圾邮件的介绍寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。 垃圾短信,垃...

    联系我们

    邮件:博羽号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们