深圳微商城网站设计公司,沧州网站运营公司,邢台专业网站建设推荐,阿里云心选建站机器学习的本质是“在不确定性中做出最优决策”。而概率论#xff0c;就是处理不确定性的数学语言。很多 AI 模型#xff08;比如贝叶斯分类器、生成式模型、甚至深度学习的 dropout 技术#xff09;都离不开概率。
这一小节#xff0c;我们会从最基础的概率概念开始#…机器学习的本质是“在不确定性中做出最优决策”。而概率论就是处理不确定性的数学语言。很多 AI 模型比如贝叶斯分类器、生成式模型、甚至深度学习的 dropout 技术都离不开概率。
这一小节我们会从最基础的概率概念开始逐步理解条件概率、全概率公式和独立性并联系到机器学习的实际场景。1. 事件Event
日常类比
可以把“事件”想象成一个可能发生的结果
掷骰子得到“3” —— 这是一个事件。明天下雨 —— 这是一个事件。用户点击广告 —— 也是一个事件。
事件的集合也叫样本空间记作 Ω就像“所有可能发生的结果的清单”。
比如掷一个骰子
Ω{1,2,3,4,5,6}Ω \{1, 2, 3, 4, 5, 6\}Ω{1,2,3,4,5,6}
事件可以是单个结果如 {3}也可以是多个结果如 {2,4,6} 表示“掷出偶数”。
graph TDA[样本空间 Ω #123;1,2,3,4,5,6#125;]B[事件 E1#123;3#125;]C[事件 E2#123;2,4,6#125;]A -- BA -- C
图示说明上图表示“事件”是样本空间 Ω 的子集。2. 条件概率Conditional Probability
动机
有时候我们需要在额外信息已知的情况下重新评估一个事件发生的可能性。
例子
在所有用户中10% 点击广告。但如果用户来自“游戏论坛”点击率提高到 40%。
这里“来自游戏论坛”就是条件。
定义公式
设事件 A、B 在样本空间 Ω 中且 P(B) 0那么
P(A∣B)P(A∩B)P(B)P(A|B) \frac{P(A \cap B)}{P(B)}P(A∣B)P(B)P(A∩B)
意思是“在 B 已经发生的前提下A 发生的概率”。
类比
好比在一个水果篮子里
总共有 10 个水果其中 4 个苹果6 个橙子。如果你 随便拿一个水果抽中苹果的概率是 0.4。但如果我告诉你“你只能从左边的 5 个水果里选”而左边刚好有 3 个苹果、2 个橙子。那么“条件概率”就变成 3/5 0.6。
条件概率就是在缩小范围后重新计算的概率。3. 全概率公式Law of Total Probability
场景
很多时候一个事件的发生可以来自多个“路径”。比如
用户点击广告事件 A可能取决于他属于不同的“人群类别”事件 B1: 游戏玩家B2: 职场人B3: 学生。
那么
P(A)∑iP(A∣Bi)⋅P(Bi)P(A) \sum_i P(A|B_i) \cdot P(B_i)P(A)∑iP(A∣Bi)⋅P(Bi)
这里的 {B1, B2, …, Bn} 是一组互不重叠、覆盖全部情况的“划分”。
例子
假设
60% 用户是游戏玩家点击率 40%。30% 用户是职场人点击率 10%。10% 用户是学生点击率 20%。
那么用户整体点击率就是
P(点击)0.6×0.40.3×0.10.1×0.20.29P(\text{点击}) 0.6 \times 0.4 0.3 \times 0.1 0.1 \times 0.2 0.29P(点击)0.6×0.40.3×0.10.1×0.20.29
#mermaid-svg-hwWIc0o4byymRclg {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-hwWIc0o4byymRclg .error-icon{fill:#552222;}#mermaid-svg-hwWIc0o4byymRclg .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-hwWIc0o4byymRclg .edge-thickness-normal{stroke-width:2px;}#mermaid-svg-hwWIc0o4byymRclg .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-hwWIc0o4byymRclg .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-hwWIc0o4byymRclg .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-hwWIc0o4byymRclg .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-hwWIc0o4byymRclg .marker{fill:#333333;stroke:#333333;}#mermaid-svg-hwWIc0o4byymRclg .marker.cross{stroke:#333333;}#mermaid-svg-hwWIc0o4byymRclg svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-hwWIc0o4byymRclg .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-hwWIc0o4byymRclg .cluster-label text{fill:#333;}#mermaid-svg-hwWIc0o4byymRclg .cluster-label span{color:#333;}#mermaid-svg-hwWIc0o4byymRclg .label text,#mermaid-svg-hwWIc0o4byymRclg span{fill:#333;color:#333;}#mermaid-svg-hwWIc0o4byymRclg .node rect,#mermaid-svg-hwWIc0o4byymRclg .node circle,#mermaid-svg-hwWIc0o4byymRclg .node ellipse,#mermaid-svg-hwWIc0o4byymRclg .node polygon,#mermaid-svg-hwWIc0o4byymRclg .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-hwWIc0o4byymRclg .node .label{text-align:center;}#mermaid-svg-hwWIc0o4byymRclg .node.clickable{cursor:pointer;}#mermaid-svg-hwWIc0o4byymRclg .arrowheadPath{fill:#333333;}#mermaid-svg-hwWIc0o4byymRclg .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-hwWIc0o4byymRclg .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-hwWIc0o4byymRclg .edgeLabel{background-color:#e8e8e8;text-align:center;}#mermaid-svg-hwWIc0o4byymRclg .edgeLabel rect{opacity:0.5;background-color:#e8e8e8;fill:#e8e8e8;}#mermaid-svg-hwWIc0o4byymRclg .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-hwWIc0o4byymRclg .cluster text{fill:#333;}#mermaid-svg-hwWIc0o4byymRclg .cluster span{color:#333;}#mermaid-svg-hwWIc0o4byymRclg div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-hwWIc0o4byymRclg :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;}用户群体游戏玩家 60% 点击率40%职场人 30% 点击率10%学生 10% 点击率20%点击事件 A
图示说明点击事件的总体概率是各类人群“路径”的加权和。4. 独立性直觉Independence
定义
两个事件 A 和 B 如果满足
P(A∩B)P(A)⋅P(B)P(A \cap B) P(A) \cdot P(B)P(A∩B)P(A)⋅P(B)
则称 A 与 B 相互独立。
直观理解
独立性意味着
事件 A 的发生 不会影响 事件 B 的概率。
例子
掷骰子和抛硬币是独立的。明天下雨和“我今天吃不吃汉堡”大体上是独立的。但“是否下雨”和“路上是否打伞”显然不是独立事件。
机器学习联系
在 朴素贝叶斯分类器 中就假设输入特征之间相互独立
P(x1,x2,...,xn∣y)≈∏i1nP(xi∣y)P(x_1, x_2, ..., x_n | y) \approx \prod_{i1}^n P(x_i | y)P(x1,x2,...,xn∣y)≈∏i1nP(xi∣y)
虽然这个假设在现实中并不完全成立但计算量极大简化效果在很多应用中依然不错比如垃圾邮件分类。小结
事件是样本空间的子集是概率的基本对象。条件概率让我们在已知部分信息的情况下更新概率。全概率公式用于处理“分情况计算”的概率。独立性刻画了事件之间是否互相影响在机器学习中有重要应用。