您现在的位置:新闻首页>促销信息

自动贝叶斯的状态、参数、模型优化

2024-10-18编辑:admin(来源:原创/投稿/转载)


  。另一方面,模型比较过程仍然需要易出错且耗时的手动推导,尽管其重要性,但往往被忽视。本文通过在带有自定义混合节点的Forney风格因子图上传递消息,有效地

  关键词 因子图 · 消息传递 · 模型平均 · 模型组合 · 模型选择 · 概率推断 · 比例因子

  乔治·博克斯的名言指出:“所有模型都是错误的,但有些是有用的”[1]。统计学家和数据分析师的任务是找到对给定问题最有用的模型。构建、计算、批判和重复的循环[2],也称为博克斯循环[3],是一种迭代方法,用于找到最有用的模型。缩短这一设计周期的任何努力都会增加开发更有用模型的机会,从而可能产生更可靠的预测、更有利可图的回报或更高效的操作。

  在本文中,我们选择采用贝叶斯形式主义,因此我们将博克斯循环中的所有任务指定为原则性的概率推断任务。除了众所周知的参数和状态推断任务外,设计周期中的批判步骤也被表述为推断任务,称为贝叶斯模型比较,它自动体现了奥卡姆剃刀原则[4, Ch. 28.1]。与在批判步骤中仅选择单一模型相反,对于不同模型,我们最好量化我们对哪个模型最好的信心,特别是在数据有限的情况下[5, Ch. 18.5.1]。通过使用贝叶斯定理,可以自然地包括来自模型集m上的先验信念p(m)和有限观察的不确定性‍

  状态和参数估计的任务已经在各种工具中得到了自动化,例如[8-14]。然而,贝叶斯模型比较通常被视为一个单独的任务,尽管它与状态和参数估计一样提交给相同的贝叶斯形式主义。在模型任务中忽视模型比较阶段的一个原因是,在大多数情况下,模型证据p(D m)的计算没有自动化,因此仍然需要易出错且耗时的手动推导,尽管其重要性和通过在模型过程中包括贝叶斯模型组合阶段可以实现的潜在数据表示改进[7]。

  本文旨在自动化贝叶斯模型比较任务,并介于[15]的混合模型和[16]的“门”方法之间,我们将在第2节中更详细地描述这些方法。具体来说,我们将模型比较任务指定为一个混合模型,类似于[15],在带有自定义混合节点的因子图上,我们推导出可自动化的消息传递更新规则,这些规则执行参数和状态估计以及模型比较。这些更新规则将模型比较推广到提交给精确推断的任意模型,因为混合节点的操作对相邻子图是不可知的。此外,我们使用自定义混合节点从文献中推导出三种常见的模型比较方法(贝叶斯模型平均、选择和组合)。

  简而言之,本文推导了在因子图中使用消息传递的自动化贝叶斯模型比较。在第2节定位我们的论文并在第3节回顾因子图和基于消息传递的概率推断之后,我们做出以下贡献:

  1. 我们展示了贝叶斯模型比较可以通过在图上传递消息来执行,其中单个模型的性能在一个因子节点中捕获,如第4.1节所述。

  2. 我们在第4.2节中指定了一个通用混合节点,并推导出一组自定义消息传递更新规则。使用此节点与比例因子进行概率推断会产生不同的贝叶斯模型比较方法。

  3. 通过在模型选择变量m上施加特定结构或局部约束,我们在第5.1-5.3节中恢复并自动化了贝叶斯模型平均、选择和组合。

  我们在第6.1节中验证了我们提出的方法。在第6.2.1节中,我们说明了它在具有连续和离散随机变量的模型中的使用,之后在第6.2.2节中我们继续以语音活动检测为例,我们在m上添加了时间结构。第7节讨论了我们的方法,第8节总结了论文。

  本节讨论相关工作,旨在为我们在接下来的章节中将要做出的贡献提供明确的定位。模型比较的任务在文献中广泛存在[17],例如关于假设检验[18, 19]。贝叶斯模型平均[6]可以解释为使用贝叶斯形式主义保留模型选择过程中第一级不确定性的模型比较的最简单形式[20]。贝叶斯模型平均已被证明是一种有效且有原则的方法,随着无限数据的收敛,它会在候选模型集中达到单一最佳模型[21-23]。当真实的基础模型不在此集合中时,数据通常通过临时方法[24]更好地表示,例如集成方法。在[7]中介绍了贝叶斯模型比较的概念,它基本上在包含候选模型的混合模型之间执行贝叶斯模型平均,具有不同的权重。另一种集成方法在[23, 25]中提出,它使用(分层)堆迭[26]构建预测密度,其权重是数据依赖的。

  在贝叶斯形式主义下自动化模型设计周期[2]一直是许多概率编程语言[8-14]的目标。本文关注基于消息传递的方法,这些方法利用模型结构中的条件独立性来执行概率推断,例如[27-30],我们将在第3.2节中正式介绍这些方法。与基于采样的替代方法相反,消息传递在模块性、速度和效率方面表现出色,特别是当模型提交给封闭形式的(变分)消息计算时。

  在本文中,我们遵循[31]的精神,它表明许多概率推断算法,例如(循环)信念传播[32, 33]、变分消息传递[30, 34]、期望最大化[35]、期望传播[36]都可以表述为约束Bethe自由能[37]最小化过程。具体来说,在第5节中,我们旨在将不同的贝叶斯模型比较方法表述为可自动化的消息传递算法。这不仅有可能缩短设计周期,而且还有可能开发新的模型比较方案。

  (可自动化)状态和参数推断与模型比较之间的联系最近由[15, 22]探索,他们将模型比较问题框架化为“混合模型估计”任务,通过将各个模型组合成一个混合模型,权重表示模型选择变量。[15, 22]中的阐述基于相对简单的例子,不容易推广到更复杂的模型选择变量和单个集群组件。在本文中,我们旨在通过可自动化的基于消息传递的推断框架来推广混合模型估计方法。具体来说,我们基于最近开发的尺度因子[38, Ch. 6]、[39]的结果,我们将在第3.3节中介绍这些结果。这些尺度因子支持对模型证据的局部摘要进行高效跟踪,从而在通用混合模型中实现模型比较,参见第4节和第5节。

  在本文中,我们使用尺度因子将门扩展到提交给精确推断的模型,这允许推广和自动化[15,22]的混合模型。通过这些进展,我们可以使用消息传递自动化众所周知的贝叶斯模型比较方法,从而开发新的比较方法。

  本节旨在简要回顾因子图和消息传递算法,我们认为这些概念对于理解我们在第4节和第5节中提出的核心贡献至关重要。这次回顾有意不全面,而是提供了有助于更深入理解此处涵盖材料的参考文献。在第3.1节中,我们介绍因子图作为可视化可分解(概率)模型的一种方式。第3.2节描述了如何通过利用模型的固有分解,通过消息传递高效地执行概率推断。如第3.3节所述,可以使用尺度因子通过消息传递局部跟踪模型证据。最后,第3.4节介绍了变分自由能作为模型证据的界限。

  因子图是一种特定类型的概率图模型。这里我们使用[41]中引入的Forney风格因子图(FFG)框架,并采用[27]中的符号约定来可视化我们的概率模型。FFG可以用来表示一个可分解的函数。

  通过将推断表述为约束Bethe自由能最小化过程,推导出(5)中的消息传递更新规则,详见[31]。通过类似的过程,可以获得替代的消息传递算法,如变分消息传递[30,34,40]、期望传播[36]、期望最大化[35]和混合算法。

  变分自由能可以作为模型比较中(1)中模型证据的界限[42, Ch. 10.1.4],[44]。重要的是要强调,VFE不仅包含模型证据,还包括从推断过程中获得变分后验分布和精确后验分布之间的Kullback-Leibler(KL)散度。

  本节推导出一个自定义因子节点,允许在第5节中将模型比较作为可自动化的消息传递过程执行。在第4.1节中,我们为多个模型同时指定了一个变分优化目标,其中模型选择变量的优化可以重新表述为在包含封装模型特定性能指标的因子节点的单独图上的概率推断过程。第4.2节进一步指定此节点,并推导出自定义消息传递更新规则,允许联合计算(1)并执行状态和参数推断。

  在实践中,先验模型p(m)可能具有分层或时间动态,包括额外的潜在变量。由于因子图的模块性和相应的消息传递算法的支持,这些可以在不失一般性的情况下被纳入,如图2所示。

  在本小节中,我们介绍了在通用混合模型中计算变量s和模型选择变量m的后验分布的一般配方。第4.3节提供了一个说明性示例,有助于本节的阐述。这两个部分的阅读顺序取决于个人偏好。

  带有模型选择变量m。这里,重迭因子从混合组件中被分解出来。图3展示了从K个不同模型到单个混合模型的转换的可视化。通过图3中展示的不同模型到单个混合模型的转换,可以将模型选择变量m包含在相同的概率模型中。

  计算联合后验分布的过程可以通过带有比例因子的消息传递与模型比较过程联合进行。为了达到这一点,我们结合了不同的模型,形成了一个受[15, 22]启发的单个混合模型。然而,与[15, 22]相比,我们的混合模型规范更为通用,因为它不限制重迭或不同模型的层次深度,也适用于嵌套混合模型。

  表1介绍了一个新的混合节点,它作为不同模型之间的切换机制,基于选择变量m。它连接了模型选择变量m和不同模型mk的重迭变量sj mk = 1,到变量sj在m上边缘化。这里,变量sj连接了重迭因子与非重迭因子。

  在本节中,我们介绍了文献中的三种贝叶斯模型比较方法:模型平均[6]、选择和组合[7]。对于每种方法,我们描述了如何使用表1中的混合节点通过消息传递来自动化它们。这里的因子图方法有助于直观理解不同的方法,因为它们在文献中的区别有时并不明显。正如我们将展示的,每种方法描述了模型选择变量m的略有不同的模型上的推断过程,可能具有不同的变分约束,如图5所示。

  贝叶斯模型平均(BMA)可以被认为是模型比较的最简单形式,因此在许多作品中被提及,例如[6],[42, Ch. 14.1]。BMA通过在模型m上指定一个分类先验分布来完成模型规范,如下所示。

  贝叶斯模型选择(BMS)是BMA的进一步规范,如图5b所示,它从一组模型中选择m的最大后验(MAP)估计模型,例如[46, Ch. 5.3]。BMA返回模型m的后验概率,而BMS只返回最可能的模型。除了(22)中模型先验的规范外,BMS可以解释为对变量m施加形式约束[31]。具体来说,我们将后验分布q(m)约束为Kronecker delta函数δ(·),以m的MAP估计为中心,如下所示。

  与一些人认为的名称所暗示的不同,BMA并不找到最能解释数据的最佳加权模型集,因此经常被误解[21]。相反,它从候选模型集中进行最可能模型的软选择[7, 21]。随着无限数据,BMA收敛到可能模型组中的单一最佳模型[15]。在真实模型在待评估模型子集内的情况下,这将正确识别真实模型。然而,通常真实基础模型不在此子集中,因此选择了次优模型。在这种情况下,实际上可能存在一个特定加权的模型组合,在模型证据方面比单一最佳模型更能代表观察到的数据[21]。

  贝叶斯模型组合(BMC)[7]被引入以找到最佳可能的加权模型集,同时保留对这种加权的不确定性。[7]的开创性工作提出了两种BMC方法:1)通过对模型权重离散子空间进行广泛搜索,2)通过从扩展常规分类模型先验的Dirichlet分布中采样。这里我们将使用π上的Dirichlet先验来说明后一种方法,因为在这个模型中可以使用消息传递高效地执行推断。

  在这个模型中,精确推断是难以处理的,因为π的后验类似于Dirichlet分布的混合,其组件数量随观察数量的增加呈指数增长。因此,文献中的先前工作提出了在这个模型中执行概率推断的近似算法,例如采样[7]。这里我们将介绍两种在这个模型中执行近似推断的替代方法。

  第一种方法涉及将mn的后验分布约束为Kronecker delta函数δ(·),类似于第5.2节中的方法,如下所示

  这里的波浪号“˜”用来指示变分后验分布的参数。变分消息传递通过迭代计算变分消息和后验直到收敛来最小化变分自由能。相应的变分消息传递更新规则在[47, 附录A.5]中推导。

  在本节中,我们为之前介绍的基于消息传递的模型比较技术提供了一组实验。第6.1节验证了从已知混合分布生成的数据中,模型平均、选择和组合的推断程序的基本操作。在第6.2节中,模型比较方法在基于应用的示例上得到了验证。

  所有实验均使用科学编程语言Julia [48]和最先进的概率编程包RxInfer.jl [9]进行。第4.2节中指定的混合节点已集成到其消息传递引擎ReactiveMP.jl [49, 50]中。除了即将到来的小节中呈现的结果外,交互式Pluto.jl笔记本也在线提供,允许读者实时更改超参数。

  这些结构由第5节中引入的m上施加的结构完成。根据第5.1-5.3节中概述的比较方法,我们在z上添加了一个无信息的分类先验,或在事件概率π上添加了一个无信息的Dirichlet先验,以建模z。目的是推断组件分配变量z的边际(近似)后验分布,用于模型平均和选择,以及事件概率π的后验分布,用于模型组合。

  除了使用混合节点验证第5节中消息传递实现的正确性外,本节还通过一组验证实验进一步说明了其在解决实际问题中的有用性。

  为了说明表1中混合节点的应用,我们展示了它如何用于连接连续变量和离散变量的混合模型。考虑一个假设情况,我们希望将具有固定组件但未知混合系数的混合模型拟合到一组观察数据。为了突出混合节点的通用性,混合组件被选择为反映移位乘积分布,其中可能的移位限制为一组离散值。单个观察y的假设概率模型由以下公式给出。

  我们在这个模型中使用贝叶斯模型平均和贝叶斯模型组合进行离线概率推断。对于后一种方法,我们按照第5.3节将z的先验扩展为Dirichlet分布,并假设变分均场分解。移位乘积分布不会产生易于处理的封闭形式消息,因此这些分布按照[51]进行近似。图7显示了从标准正态分布中抽取的1500个观察数据集上的数据拟合结果。这个分布故意不反映(31)中使用的模型,以说明当真实基础模型不是其中一个组件时的行为。正如预期的那样,模型平均收敛到最主要的组件,而模型组合试图通过组合具有固定移位的不同组件来改进拟合。

  在本节中,我们使用表1中的混合节点,说明了在加性白高斯噪声干扰下的语音活动检测的消息传递方法。我们将语音信号st建模为一阶自回归过程,如下所示

  其中自回归参数为ρ,过程噪声方差为。语音缺失通过独立同分布变量nt建模,并强制其接近0,如下所示。

  图8显示了干净和被噪声干扰的音频信号。音频以16 kHz的采样频率进行采样。被噪声干扰的信号用于推断zt,如图8底部所示。尽管音频信号受到干扰,但这个简单的模型能够有效地检测语音,如图8底部所示。

  本文提出的概率推断和模型比较的统一观点使我们能够利用高效的消息传递方案来完成这两项任务。有趣的是,这一观点允许在连接到模型选择变量m的子图周围使用信念传播[32]、变分消息传递[30, 34, 40]和其他基于消息传递的算法。这一见解催生了一类新的模型比较算法,其中模型选择变量的先验不再局限于分类分布,而是可以直接引入分层和/或时间动态。此外,消息传递算法的自动化性使得这些模型比较算法可以轻松高效地实现,而无需易出错且耗时的手动推导。

  尽管本文仅关注基于消息传递的概率推断,但我们设想了替代概率编程包的有趣方向,例如Stan [14]、Pyro [11]、Turing [10]、UltraNest [12]、PyMC [13]。目前只有PyMC框架通过其compare()函数允许模型比较。然而,这些包通常允许通过采样估计(对数)证据,或计算证据下界(ELBO),它类似于(10)的负VFE,使用随机变分推断[52]进行优化。未来研究的一个有趣方向是使用这些估计来构建(14)中的因子节点f(m),从而设计新的模型比较算法,例如模型选择变量变得观察依赖,如[25]。

  当模型允许使用尺度因子[38, Ch.6],[39]时,所提出的方法特别方便。这样我们可以高效地计算模型证据,如[39]所示。表1中引入的混合节点依次实现了简单的模型规范,如我们实验的源代码所示。

  尺度因子的一个限制是它们只能在模型提交给精确推断时高效计算[39]。将尺度因子扩展到变分设置将允许混合节点与更多种类的模型一起使用。如果解决了这个限制,那么所提出的方法可以与更复杂的模型结合,例如贝叶斯神经网络,其性能由变分自由能衡量,例如[53, 54]。这为多任务机器学习问题提供了一种新颖的解决方案,其中任务数量事先未知[55]。每个贝叶斯神经网络可以针对特定任务进行训练,如果合适,可以添加额外的组件或网络。

  本文中介绍的混合节点也可以相互嵌套。因此,可以实现分层混合模型,这可以快速增加嵌套模型的复杂性。问题很快出现:在哪里停止。贝叶斯模型简化[43, 44]为这个问题提供了一个答案。贝叶斯模型简化允许在分层模型的一部分被修剪时高效计算模型证据。这种方法允许修剪分层模型,以努力限制整个模型的复杂性。

  本文弥合了状态和参数的概率推断与模型比较之间的差距,允许同时自动化这两项任务。本文展示了可以通过在由节点终止的图上传递消息来进行模型比较,该节点捕获不同子模型的性能,从变分自由能的角度出发。在模型提交给精确推断的情况下,我们可以使用我们新提出的混合节点高效地实现模型比较,该节点利用高效计算的尺度因子。基于此节点描述,我们展示了如何通过改变选择变量上的(分层)先验和后验约束来自动化贝叶斯模型平均、选择和组合。

本文地址:http://www.caipu88.cn/2024/10/87797.html


  • 本网转载的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请联系我们进行修改或删除。