贝叶斯网络笔记

该笔记整理自张连文的《贝叶斯网引论》,主要记录建立一个隐结构模型所需要用到的知识点。另外觉得这本书非常适合作为贝叶斯方法学习的入门。


基本定义


  • 样本空间:随机试验所有可能结果组成的空间,常记为 $\Omega$
  • 事件:$A \subset \Omega$
  • 概率测度:$P:2^{\Omega} \to [0, 1]$,且满Kolmogorov公理
    • 规范性:$P(\Omega) = 1$
    • 非负性:$P(A) \geq 0, \forall A \in 2^{\Omega}$
    • 有限可加性:$P(A \bigcup B) = P(A) + P(B), \forall A,B \in 2^{\Omega}, A \cap B = \varnothing$
  • 事件 $A$ 的概率:$P(A)$
  • 随机变量:$f:\Omega$,通常由大写字母 $X,Y,Z$ 等表示,取值通常由小写字母 $x,y,z$ 表示。随机变量与事件容易混淆,举例说明二者关系
    • 使得 $X$ 取值为 $x$ 的所有事件的集合:$\Omega_{X=x} = \{\omega \in \Omega | X(\omega) = x\}$
  • 随机变量 $X$ 的状态空间:$X$ 的值域,记为 $\Omega_{X}$
  • 随机变量 $X$ 的概率分布(概率函数,质量函数):$P(X=x)$,也记作 $P(X)$,此时有
    • $P(X=x) = P(\Omega_{X=x}) \geq 0, \forall x \in \Omega_{X}; \underset{x \in \Omega_{X}}{\sum} P(X=x) = 1$
    • $P(X) \geq 0; \underset{X}{\sum} P(X) = 1$
  • 随机变量 $X$ 的:$|X|$,即 $X$ 的取值个数

  • 随机变量 $X_{1},...,X_{n}$ 的联合概率分布
    • $P(X_{1},...,X_{n}):\bigotimes^{n}_{i=1} \Omega_{X_{i}} \to [0, 1]$
    • $\underset{X_{1},...,X_{n}}{\sum} P(X_{1},...,X_{n}) = 1$
  • $Y \subset X$ 的边缘概率分布:$P(Y) = \sum_{Z}P(X_{1},...,X_{n}),X = {X_{1},...,X_{n}},Z=X$ \ $Y$,亦称为从联合分布 $P(X)$ 到边缘分布 $P(Y)$ 的边缘化
  • 事件 $A$ 在给定事件 $B$ 发生时的条件概率:$P(A|B)=\frac{P(A \cap B)}{P(B)}$,此时有
    • $\sum_{A} P(A|B) = 1$
    • $P(X,Y) = P(Y)P(X|Y)$
  • 条件概率分布
    • 给定 $Y = y$ 时变量 $X$ 的条件概率分布:$P(X|Y=y)=P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}$
    • 给定 $Y$ 时变量 $X$ 的条件概率分布:${P(X|Y=y)|y \in \Omega_{Y}}$,记为 $P(X|Y)=\frac{P(X,Y)}{P(Y)}$
  • 链规则:$P(X_{1},...,X_{n}) = P(X_{1})P(X_{2}|X_{1})...P(X_{n}|X_{1},...,X_{n-1})$

  • $A,B \in \Omega$,$A$ 与 $B$ 事件相互独立:$P(A \cap B) = P(A)P(B)$,此时有
    • $P(A) = P(A|B)$
    • 事件 $A(B)$ 的发生与否对事件 $B(A)$ 没有影响
  • $A,B \in \Omega$,$A$ 与 $B$ 在给定 $C$ 时事件相互条件独立:$P(A \cap B|C) = P(A|C)P(B|C)$,此时有
    • $P(A|B \cap C) = \frac{P(A \cap B \cap c)}{P(B \cap C)} = \frac{P(A \cap B|C)P(C)}{P(B|C)P(C)} = P(A|C)$
    • 在已知事件 $C$ 发生时,事件 $A(B)$ 的发生与否对事件 $B(A)$ 没有影响
  • 随机变量 $X$ 和 $Y$ 相互(边缘)独立:$P(X,Y)=P(X)P(Y)$,记为 $X \perp Y$,此时有
    • $P(X) = \frac{P(X,Y)}{P(Y)} = \frac{P(X|Y)P(Y)}{P(Y)} = P(X|Y)$
    • 变量 $Y(X)$ 的取值对变量 $X(Y)$ 的概率分布没有影响
  • 随机变量 $Z$ 给定时,随机变量 $X$ 和 $Y$ 相互条件独立:$P(X,Y|Z)=P(X|Z)P(Y|Z)$,记为 $X \perp Y | Z$,此时有
    • $P(X|Y,Z) = \frac{P(X,Y,Z)}{P(Y,Z)} = \frac{P(X,Y|Z)P(Z)}{P(Y|Z)P(Z)} = P(X|Z)$
    • 在已知随机变量 $Z$ 的取值时,随机变量 $Y(X)$ 的取值对变量 $X(Y)$ 的概率分布没有影响

  • 贝叶斯定理:$P(H=h|E=e) = \frac{P(H=h)P(E=e|H=h)}{P(E=e)}$,其中
    • $H,E$ 为随机变量,$H=h$ 为某一组假设,$E=e$ 为某一组证据
    • $P(H=h)$ 称为先验概率。同时称 $P(H)$ 为 $H$ 的先验分布
    • $P(H=h|E=e)$ 称为后验概率。同时称 $P(H|E=e)$ 为 $H$ 的后验分布
    • $P(E=e|H=h)$ 称为 $H = h$ 的似然度,记为 $L(H=h|E=e)$。同时称 $P(E=e|H)$ 为 $H$ 的似然函数,记为 $L(H|E=e)$
    • 归一化常数:$P(E=e) = \sum_{H} P(H)P(E=e|H)$
    • $P(E=e)$ 不依赖于 $H$,所以有 $P(H|E=e) \propto P(H)L(H|E=e)$

  • Jensen不等式:$f$ 为区间 $I$ 上的凹函数,$p_{i} \in [0, 1],i=1,...,n,\sum p_{i} = 1$,则有 $f(\sum p_{i} x_{i}) \geq \sum p_{i}f(x_{i}), \forall x_{i} \in I$
  • (离散)随机变量 $X$ 的:$H(X) = \sum_{X} P(X)log\frac{1}{P(X)} = - \sum_{X} P(X)logP(X)$,其中
    • 约定 $0 log\frac{1}{0} = 0$
    • 对数若以2为底,则熵的单位是比特,若以 $e$ 为底则单位是奈特
    • $H(X) \geq 0$
    • 考虑 $f(x) = logx$ 在区间 $(0,+\infty)$ 上凹函数,由Jensen不等式可知,$H(X)=\sum_{X}P(X)log\frac{1}{P(X)} \leq log \sum_{X} P(X)\frac{1}{P(X)} = log |X|$
    • $X$ 的熵代表对随机变量 $X$ 的不确定性的评价
  • 联合熵:$H(X,Y) = \sum_{X,Y}P(X,Y)log\frac{1}{P(X,Y)}=-\sum_{X,Y}P(X,Y)logP(X,Y)$
  • 条件熵:条件概率分布在熵中的概念延伸
    • 给定 $Y = y$ 时 $X$ 的条件熵:$H(X|Y=y)=\sum_{X}P(X|Y=y)log\frac{1}{P(X|Y=y)}$
    • 给定 $Y$ 的概率分布,记 $X$ 的熵的期望为 $X$ 的条件熵:$H(X|Y)=\sum_{y \in \Omega_{Y}}P(Y=y)H(X|Y=y)=\sum_{X,Y}P(X,Y)log\frac{1}{P(X|Y)}$
    • $H(X|Y=y)$ 表示观测到 $Y=y$ 后 $X$ 剩余的不确定性;$H(X|Y)$ 表示观测到 $Y$ 的取值后 $X$ 剩余的不确定性的期望。
  • 熵的链规则
    • $H(X,Y) = \sum_{X,Y}P(X,Y)log(\frac{1}{P(X)}\frac{P(X)}{P(X,Y)})$ $=\sum_{X}P(X)log\frac{1}{P(X)} + \sum_{X,Y}P(X,Y)log\frac{1}{P(Y|X)}$ $=H(X) + H(Y|X)$
    • $H(X) + H(Y|X) = H(Y) + H(X|Y)$
  • 随机变量 $X,Y$ 的互信息:$I(X;Y) = H(X) - H(X|Y)$,此时有
    • 互信息是评价观测到 $Y$ 之前 $X$ 的不确定性和观测到 $Y$ 后 $X$ 不确定性的期望 $H(X|Y)$ 的差
    • $I(X;Y) = \sum_{X}P(X)log\frac{1}{P(X)} - H(X|Y)$ $=\sum_{X,Y}P(X,Y)log\frac{1}{P(X)} - \sum_{X,Y}P(X,Y)\frac{1}{P(X|Y)}$ $=\sum_{X,Y}P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} = I(Y;X)$
    • $I(X;Y) + H(X,Y) = (H(X) - H(X|Y)) + (H(Y) + H(X|Y)) = H(X) + H(Y)$
    • 给定 $Z$ 时 $X$ 和 $Y$ 的条件互信息:$I(X;Y|Z) = H(X|Z) - H(X|Z,Y)$,易知 $I(X;Y|Z) = I(Y;X|Z)$
  • 熵、联合熵、条件熵以及互信息之间的关系图:
  • 随机变量 $X$ 在状态空间 $\Omega_{X}$ 上两个概率分布 $P(X),Q(X)$ 的相对熵:$KL(P,Q) = \sum_{X}P(X)log\frac{P(X)}{Q(X)}$,此时有
    • 约定 $0log\frac{0}{q} = 0,plog\frac{p}{0} = \infty, \forall p > 0$
    • 又称KL散度
    • $KL(P,Q) \neq KL(Q,P)$
    • $I(X;Y)=KL(P(X,Y),P(X)P(Y))$,即 $X,Y$ 的互信息是 $P(X,Y)$ 和 $P(X)P(Y)$ 的相对熵。所以 $I(X;Y) = 0$ 当且仅当 $P(X,Y)=P(X)P(Y)$,即 $X,Y$ 相互独立。
  • 信息不等式:$KL(P,Q) = -\sum_{X}P(X)log\frac{Q(X)}{P(X)}$ $\geq -log\sum_{X}p(X)\frac{Q(X)}{P(X)}$ $=-log\sum_{X}Q(X)=0$
    • 不等式等号成立的条件为 $P(X=x)=Q(X=x),\forall x \in \Omega_{X}$
    • 对于满足 $\sum_{X}f(X) > 0$ 的非负函数 $f(X)$,定义概率分布 $P^{\ast} = \frac{f(X)}{\sum_{X}f(X)}$,则对任意概率分布 $P(X)$ 有 $\sum_{X}f(X)logP^{\ast}(X)\geq\sum_{X}f(X)logP(X)$
    • $I(X;Y)=KL(P(X,Y),P(X)P(Y)) \geq 0 \Rightarrow H(X) - H(X|Y) \geq 0$ 当且仅当 $X,Y$ 相互独立时 $H(X|Y)=H(X)$。直观解释为两个随机变量相互独立当且仅当它们之间的互信想为零。
    • $I(X;Y|Z)=\sum_{X,Y,Z}P(X,Y,Z)log\frac{1}{P(X|Z)} - \sum_{X,Y,Z}P(X,Y,Z)log\frac{1}{P(X|Y,Z)}$ $=\sum_{X,Y,Z}log\frac{P(X|Y,Z)}{P(X|Z)}$ $=\sum_{Z}P(Z)\sum_{X,Y}P(X,Y|Z)log\frac{P(X,Y|Z)}{P(X|Z)P(Y|Z)}$ $=\sum_{Z}P(Z)KL(P(X,Y|Z),P(X|Z)P(Y|Z)) \geq 0$。可知当且仅当 $P(X,Y|Z)=P(X|Z)P(Y|Z)$,即 $X \perp Y | Z$ 时等号成立。直观解释为当 $X,Y$ 关于 $Z$ 条件独立时,在已经观测到 $Z$ 后,是否观测到 $Y(X)$ 对 $X(Y)$ 的观测没有影响。

推论1:对于满足 $\sum_{X}f(X) > 0$ 的非负函数 $f(X)$,定义概率分布 $P^{\ast}(X)=\frac{f(X)}{\sum_{X}f(X)}$。则对于任意其它概率分布 $P(X)$ 有:

$\sum_{X}f(X)logP^{\ast}(X)\geq\sum_{X}f(X)logP(X)$

当且仅当 $P^{\ast}=P$ 时等号成立。

证明:

$KL(P^{\ast},P)=\sum_{X}P^{\ast}(X)log\frac{P^{\ast}(X)}{P(X)}\geq 0$ $\Leftrightarrow \sum_{X}P^{\ast}(X)logP^{\ast}(X) \geq \sum_{X}P^{\ast}(X)logP(X)$ $\Leftrightarrow \sum_{X}f(X)logP^{\ast}(X)\geq\sum_{X}f(X)logP(X)$


贝叶斯网


使用概率方法进行不确定推理的总体步骤如下:

  • 用一组随机变量 $X = \{X_{1},...,X_{n}\}$ 来刻画问题
  • 将该问题的知识表示为一个联合概率分布 $P(X)$
  • 按照概率论原则进行推理计算

直接按如上步骤进行推理时,可知联合分布包含 $(\prod |X_{i}|) - 1$ 个独立变量。


将联合分布通过链规则可表示为:$P(X_{1},...,X_{n})=\prod_{i=1}^{n} P(X_{i}|X_{1},...,X_{i-1})$。此时独立参数的个数为 $\sum_{i=1}^{n} \prod_{j=1}^{i} |X_{j}|$,与链规则分解前一致。

若对任意 $X_{i}$ 存在 $\pi(X_{i}) \subseteq {X_{1},...,X_{i-1}}$,使得 $X_{i} \perp (\{X_{1},...,X_{i-1}\}$ \ $\pi(X_{i}))$,则有 $P(X_{i}|X_{1},...,X_{i-1})=P(X_{i}|\pi(X_{i}))$,其中,若 $\pi(X_{i})=\varnothing$,则 $P(X_{i}|\pi(X_{i}))$ 为边缘分布 $P(X_{i})$。

此时,联合分布可表示为 $P(X_{1},...,X_{n})=\prod_{i=1}^{n} P(X_{i}|\pi(X_{i}))$,此时独立参数的个数降为 $\sum_{i=1}^{n} |\pi(X_{i})|$


通过链规则分解通过独立性减少变量后的联合分布可以由图论中的有向无圈图表示。每个随机变量表示为一个节点,从 $\pi(X_{i})$ 中每个随机变量所对应的节点起连接一条边指向 $X_{i}$ 所对应的节点,表示节点(随机变量)间的依赖关系。

如图表示五个随机变量 $A,B,E,M,J$ 组成的贝叶斯网,联合分布为 $\prod_{A,B,E,M,J}P(X_{i}|\pi(X_{i}))$


  • 由一组随机变量 $X$ 中所有或部分变量的状态所构成的向量称为一个数据样本,简称样本
  • 对于所有变量状态已知的样本,称为完整样本。否则成为缺值样本
  • 一些数据样本放一起组成数据组,简称数据。只包含完整样本的数据组称为完整数据组,否则称为缺值数据组

所谓用贝叶斯网分析一组数据,即指找到一个相对于该数据在某种意义下最优的贝叶斯网。所得的结果为关于该数据组的一个统计模型,称之为贝叶斯网络模型

一个贝叶斯网 $N$ 包括变量之间的网络结构 $g$ 和各变量的概率分布 $\theta$,前者称为模型结构,又称模型,后者称为模型参数。称获得贝叶斯网模型的过程为贝叶斯网学习,当模型结构已知时称为参数学习,模型结构未知时称为结构学习


参数学习


最大似然估计

若有数据 $\wp$ 、模型参数 $\theta$ 和 $\theta$ 的似然函数 $L(\theta|\wp) = P(\wp|\theta)$,则参数 $\theta$ 的最大似然估计,简称MLE,是令 $L(\theta|\wp)$ 达到最大的那个取值 $\theta^{\ast}$,即

$\theta^{\ast} = arg\ sup_{\theta}L(\theta|\wp)$


通常为了计算最大似然估计,会假设数据由样本在给定参数 $\theta$ 时相互独立且分布相同,即独立同分布,简称i.i.d.假设

设数据 $\wp$ 由样本 $D_{1},...,D_{m}$ 组成,则有:$L(\theta|\wp)=P(\wp|\theta)=\prod_{i=1}^{m}P(D_{i}|\theta)$

为了便于计算最大值,通常对似然函数取对数,得到对数似然函数:$l(\theta|\wp)=logL(\theta|\wp)$


  • 记随机变量 $X_{i}$ 共有 $r_{i}$ 个取值,$\pi(X{i})$ 共有 $q_{i}$ 个组合
  • 定义贝叶斯网络的参数为:$\theta_{ijk} = P(X_{i}=k|\pi(X_{i})=j)$
  • 定义样本 $D_{l}$ 的特征函数: $ \chi(i,j,k:D_{l})= \left\{\begin{matrix} 1,if\ D_{l}.X_{i} = k,D_{l}.\pi(X_{i})=j\\
    0,else
    \end{matrix}\right. $
  • 记 $m_{ijk}$ 为数据中满足 $X_{i}=k,\pi(X_{i})=j$ 的样本数量,即:$m_{ijk}=\sum_{l=1}^{m}\chi(i,j,k:D _{l})$,该值为充分统计量

则可认为对数似然为:

$l(\theta|\wp) = \sum_{l=1}^{m}logP(D_{l}^{m}|\theta)$ $=\sum_{l=1}^{m}\sum_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}\chi(i,j,k:D_{l})log\theta_{ijk}$ $=\sum_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}m_{ijk}log\theta_{ijk}$

推论1可知,最大似然估计的值为:

$ \theta_{ijk}^{\ast} = \left\{\begin{matrix} \frac{m_{ijk}}{\sum_{k=1}^{r_{i}}m_{ijk}},\ if\ \sum_{k=1}^{r_{i}}m_{ijk} > 0 \\ \frac{1}{r_{i}},\ else \end{matrix}\right. =\frac{|\{D \in \wp|X_{i}=k,\pi(X_{i})=j\}|}{|\{D \in \wp|\pi(X_{i})=j\}|} $

另外可以证明,当样本量趋于无穷时最大似然估计能够找出数据的原生分布,即最大似然估计是一致的


考虑存在缺值样本的情况,此时无法直接计算参数 $\theta$ 的值,故采用期望优化(expectation maximization),即EM算法,来获取 $\theta$。

对任一样本 $D_{l}$,记 $X_{l}$ 是 $D_{l}$ 中所有值缺变量的集合,随机产生 $\theta^{0}$,考虑第 $t$ 轮迭代:

E-步骤,找到 $Q(\theta|\theta^{t})$ 表达式:

  • 考虑 $\theta$ 基于 $\wp$ 和 $\theta^{t}$ 的对数似然函数:$l(\theta|\wp,\theta^{t})=\sum_{l=1}^{m}logP(D_{l},\theta^{t}|\theta)$ $=\sum_{\{l|X_{l}=\varnothing\}}logP(D_{l}|\theta) + \sum_{\{l|X_{l}\neq \varnothing\}}logP(D_{l},\theta^{t}|\theta)$
  • 对于后一项,即 $X_{l}\neq \varnothing$ 的值缺样本 $D_{l}$ 对应的 $\theta$ 的对数概率值 $logP(D_{l},\theta^{t}|\theta)$,采用 $\sum_{x_{l} \in \Omega_{X_{l}}} P(X_{l}=x_{l}|D_{l},\theta^{t})logP(D_{l},X_{l}=x_{l}|\theta)$ 代替。直观上,该值为在已知 $D_{l}$ 时,$X_{l}$ 取不同值时 $P(D_{l},X_{l}=x_{l}|\theta)$ 的对数期望值。
  • 对于前一项,当 $X_{l}=\varnothing$ 时,记$\sum_{l=1}^{m}P(X_{l}=x_{l}|D_{l},\theta^{t})=1$。
  • 故 $\theta$ 基于 $\wp$ 和 $\theta^{t}$ 的对数似然函数可写成:$l(\theta|\wp,\theta^{t})=\sum_{l=1}^{m}\sum_{X_{l} \in \Omega_{X_{l}}} P(X_{l}=x_{l}|D_{l},\theta^{t})logP(D_{l},X_{l}=x_{l}|\theta)$

上式称为 $\theta$ 的基于 $\wp$ 的期望对数似然函数,简记为$Q(\theta|\theta^{t})$

M-步骤,求解 $\theta^{t+1} = arg\ sup_{\theta}Q(\theta|\theta^{t})$:

  • 称补全 $X_{l}=x_{l}$ 后的样本 $(D_{l},X_{l}=x_{l})$ 为碎权样本
  • 定义特征函数: $ \chi(i,j,k:D_{l},X_{l}=x_{l})= \left\{\begin{matrix} 1,if\ (D_{l},X_{l}=x_{l}).X_{i} = k,(D_{l},X_{l}=x_{l}).\pi(X_{i})=j\\
    0,else
    \end{matrix}\right. $
  • 记 $m_{ijk}^{t}$ 为 $\wp$ 在第 $t$ 轮中所有碎权样本的权重之和:
    • $m_{ijk}^{t}=\sum_{l=1}^{m}\sum_{x_{l} \in \Omega_{X_{l}}} P(X_{l}=x_{l}|D_{l},\theta^{t})\chi(i,j,k:D_{l},X_{l}=x_{l})$ $=\sum_{l=1}^{m}\sum_{x_{l} \in \Omega_{X_{l}}} \frac{P(X_{l}=x_{l},D_{l}|\theta^{t})}{P(D_{l}|\theta^{t})}\chi(i,j,k:D_{l},X_{l}=x_{l})$ $=\sum_{l=1}^{m}\frac{\sum_{x_{l} \in \Omega_{X_{l}}}P(X_{l}=x_{l},D_{l}|\theta^{t})\chi(i,j,k:D_{l},X_{l}=x_{l})}{P(D_{l}|\theta^{t})}$ $=\sum_{l=1}^{m}\frac{\sum_{x_{l} \in \Omega_{X_{l}}}P(X_{l}=x_{l},X_{i}=k,\pi(X_{i})=j,D_{l}|\theta^{t})}{P(D_{l}|\theta^{t})}$ $=\sum_{l=1}^{m}\frac{P(X_{i}=k,\pi(X_{i})=j,D_{l}|\theta^{t})}{P(D_{l}|\theta^{t})}$ $=\sum_{l=1}^{m}P(X_{i}=k,\pi(X_{i})=j|D_{l},\theta^{t})$
    • 直观上,$P(X_{l}=x_{l}|D_{l},\theta^{t})$ 可视为权重
  • $\theta$ 对于每个碎权样本的对数似然函数为:$logP(D_{l},X_{l}=x_{l}|\theta) = \sum_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}\chi(i,j,k:D_{l},X_{i}=x_{i})log\theta_{ijk}$
  • 故 $\theta$ 的期望对数似然函数为:$l(\theta|\wp,\theta^{t})=\sum_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}\sum_{l=1}^{m}\sum_{x_{l} \in \Omega_{X_{l}}} P(X_{l}=x_{l}|D_{l},\theta^{t})\chi(i,j,k:D_{l},X_{l}=x_{l})log\theta_{ijk}$ $=\sum_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}m_{ijk}^{t}log\theta_{ijk}$

  • 推论1可知: $ \theta_{ijk}^{t+1}= \left\{\begin{matrix} \frac{m_{ijk}^{t}}{\sum_{k=1}^{r_{i}} m_{ijk}^{t}},if\ \sum_{k=1}^{r_{i}} m_{ijk}^{t} > 0\\ \frac{1}{r_{i}},else \end{matrix}\right. $

考虑 $\delta_{t}=l(\theta^{t+1}|\wp)-l(\theta^{t}|\wp)$,当 $\delta^{t}$ 小于设定的阈值 $\delta$ 时EM算法停止迭代,得到 $\theta^{\ast}=\theta^{t+1}$


贝叶斯估计

与最大似然估计把 $\theta$ 当成未知但固定的参数不同,在贝叶斯估计的框架中,参数 $\theta$ 被视为随机变量,所以有:

$P(\theta|\wp) \propto P(\theta)L(\theta|\wp)$

贝叶斯估计的结果为概率分布 $P(\theta|\wp)$,故预测下一个样本的分布为:

$P(D_{m+1}=x|\wp)=\int P(D_{m+1} = x,\theta|\wp)d\theta$ $=\int P(D_{m+1}=x|\theta,\wp)P(\theta|\wp)d\theta$

当 $D_{m+1}$ 取值给定时,上式称为 $P(D_{m+1}=x|\wp)$ 的完全贝叶斯估计。实际工程中上式的积分运算往往比较复杂,通常采用贝叶斯MAP估计代替,也称最大后验估计,简称MAP

$P(D_{m+1}=x|\wp) \approx \theta^{\ast} = arg\ sup_{\theta}P(\theta|\wp)$

通常来说,会选择和似然函数的共轭分布族中的函数作为先验分布,如此得到的后验分布也是属于同一分布族,且易于计算。


  • 记 $\theta_{ij.}$ 为由 $\theta_{ij1},...,\theta_{ijr_{i}}$ 组成的向量,表征所有关于分布 $P(X_{i}|\pi(X_{i})=j)$ 的参数
  • 记 $\theta_{i..}$ 为由 $\theta_{i1.},...,\theta_{iq_{i}.}$ 组成的向量,表征所有关于变量 $X_{i}$ 的条件概率分布 $P(X_{i}|\pi(X_{i}))$ 的参数
  • 假设对于不同变量 $X_{i}$,参数互相独立,即全局独立假设:$P(\theta)=\prod_{i=1}^{n}P(\theta_{i..})$
  • 假设给定 $X_{i}$,对应 $\pi(X_{i})$ 的不同取值的参数相互独立,即局部独立假设:$P(\theta_{i..})=\prod_{j=1}^{q_{i}}(\theta_{ij.})$
  • 假设 $P(\theta_{ij.})$ 是狄利克雷分布:$D[\alpha_{ij1},...,\alpha_{ijr_{i}}]$

由上述三个假设可知:$P(\theta)=\prod_{i=1}^{n}\prod_{j=1}^{q_{i}}P(\theta_{ij.}) \propto \prod_{i=1}^{n}\prod_{j=1}^{q_{i}}\prod_{k=1}^{r_{i}}\theta_{ijk}^{\alpha_{ijk}-1}$,称为乘积狄利克雷分布

又由之前对参数估计的讨论可知有:$P(\theta|\wp) \propto P(\theta)\prod_{i=1}^{n}\prod_{j=1}^{q_{i}}\prod_{k=1}^{r_{i}}\theta_{ijk}^{m_{ijk}}$ $=\prod_{i=1}^{n}\prod_{j=1}^{q_{i}}\prod_{k=1}^{r_{i}}\theta_{ijk}^{m_{ijk}+\alpha_{ijk}-1}$

这表明,后验分布 $P(\theta|\wp)$ 也是一个狄利克雷分布,具有全局和局部独立性,且 $P(\theta_{ij.}|\wp)$ 的狄利克雷分布为 $D[m_{ij1}+\alpha_{ij1},...,m_{ijr_{i}}+\alpha_{ijr_{i}}]$


考虑下一个样本 $D_{m+1}=(X_{1},...,X_{n})$,有:

  • $P(D_{m+1}|\theta)=P(X_{1},...,X_{n}|\theta)$ $=\prod_{i=1}^{n}P(X_{i}|\pi(X_{i}),\theta)$ $=\prod_{i=1}^{n}P(X_{i}|\pi(X_{i}),\theta_{i..})$
  • $P(\theta|\wp)=\prod_{i=1}^{n}P(\theta_{i..}|\wp)$

所以样本 $D_{m+1}$ 的概率分布为:

$P(D_{m+1}|\wp) = \int P(D_{m+1}|\theta)P(\theta|\wp)d\theta$ $=\prod_{i=1}^{n}\int P(X_{i}|\pi(X_{i}),\theta_{i..})P(\theta_{i..}|\wp)d\theta_{i..}$ $=\prod_{i=1}^{n}P(X_{i}|\pi(X_{i}),\wp)$

可知该分布可表示为一个贝叶斯网,其参数为:$\theta'=\{\theta'_{ijk}|i=1,..,n;j=1,...,q_{i};k=1,...,r_{i}\}$

$\theta'_{ijk}$ 与 $\theta_{ijk}$ 不同,是个固定值,为:

$\theta'_{ijk} = P(X_{i}=k|\pi(X_{i})=j,\wp)$ $=\int P(X_{i}=k|\pi(X_{i})=j,\theta_{ijk})P(\theta_{ijk}|\wp)d\theta_{ijk}$ $=\int \theta_{ijk}P(\theta_{ijk}|\wp)d\theta_{ijk}$ $=\frac{m_{ijk}+\alpha_{ijk}}{\sum_{k=1}^{r_{i}}(m_{ijk}+\alpha_{ijk})}$

所以有 $P(D_{m+1}|\wp)=\prod_{i=1}^{n}\sum_{j=1}^{q_{i}}\sum_{k=1}^{r_{i}}\chi(i,j,k:D_{m+1})\frac{m_{ijk}+\alpha_{ijk}}{\sum_{k=1}^{r_{i}}(m_{ijk}+\alpha_{ijk})}$


考虑存在值缺样本的情况,采用碎权更新的方法作为近似。

  • 首先设置先验概率分布 $P(\theta)$ 为乘积狄利克雷分布,然后按一定顺序处理样本。
  • 假设已处理完样本 $D_{1},...,D_{l}$,则有 $P(\theta|D_{1},...,D_{l})$ 为参数为 $\alpha^{l}={\alpha_{ijk}^{l}}$ 的乘积狄利克雷分布
  • 考虑下一个样本 $D_{l+1}$,可知 $P(D_{l+1}|D_{1},...,D_{l})$ 可由 $N^{l}=(g,\theta^{t})$ 的贝叶斯网络表示,记为 $P^{l}$。与存在值缺样本的参数学习类似,对 $D_{l+1}$ 补全为碎权样本组。其中:
    • $\theta_{ijk}^{l}=\frac{\alpha_{ijk}^{l}}{\sum_{k=1}^{r_{i}}\alpha_{ijk}^{l}}$
    • $\alpha_{ijk}^{l+1}=\alpha_{ijk}^{l}+P(X_{i}=k,\pi(X_{i})=j|D_{1},...,D_{l+1})$

需要注意的是,碎权更新的结果和样本的处理顺序有关。

xiehao

Read more posts by this author.