介绍
在一本开创性但未受到足够重点关注的书籍中,标题为《通用人工智能:基于算法概率的顺序决策》,Marcus Hutter尝试对通用人工智能进行数学表达,简称为AIXI。本文旨在将AIXI概念和形式化地让数据科学家、技术爱好者和一般观众易于理解。
我们从概率论公理的简要概述开始。随后,我们深入研究条件概率,其计算受贝叶斯定理的控制。虽然贝叶斯定理为更新信念提供了框架,但如何分配先验依旧是一个悬而未决的问题。为了解决这个问题,我们转向算法信息论,它将科尔莫哥洛夫复杂性(定义为输出字符串的最短程序长度)与贝叶斯先验的分配联系起来。这两个想法之间的桥梁是所罗门诺夫先验,也被称为通用先验。通用先验为我们提供了必要的支撑,以探索AIXI形式化方法,该方法整合了顺序决策理论、所罗门诺夫先验和奥卡姆剃刀原理。在最后一节中,我们简要讨论了AIXI的局限性以及形式化通用智能体的替代方法,同时承认“通用智能体”这一术语具有重大的哲学含糊性。特别是,我们讨论了主动推理作为AIXI的哲学替代方案,前者模拟了具有预测能力的具体智能体,而后者模拟了一个无实体的效用最大化算法。
注意:博客中的所有图片均由作者创建。
概率公理
科尔莫戈洛夫公理将概率空间定义为一个三元组(Ω,,),其中Ω定义了总体样本空间,是感兴趣事件的子集合的集合,是将概率分配给每个事件并归一化到单位区间的函数。
1. 如果 ∈ ,则 () ≥ 0
2. 如果,属于且A∩B = ∅,那么P(A⋃B) = P(A) + P(B)
3. P(Ω) = 1
第一个公理,非负性,确保概率作为信念或频率的实值度量是有意义的。第二个公理,可加性,形式化了互斥结果的概率是它们各自概率的总和的原则。第三个公理,归一化,确保分配给整个样本空间的总概率等于一。
不过,尽管概率公理规定了概率的结构规则,但它们并没有规定在面对新证据时概率应该如何更新。在这个意义上,科尔莫哥洛夫框架是分析的和先验的:它定义了概率测度必须满足的条件,但没有规定这种测度如何通过证据进行修订。要从静态概率分配转向动态推理,我们需要一种将新数据与现有假设联系起来的方法,即条件概率。在频率主义统计学中,通过解释条件概率为重复事件的长期频率来解决这一认识上的差距,一般在假设这些事件是独立同分布的情况下进行,而贝叶斯定理提供了一个规范性的规则,用于根据新证据更新关于假设的信念,特别在观察逐渐进行或样本空间未明确定的情况下尤为有用。
贝叶斯推断
最初由一位苏格兰修道士正式提出,贝叶斯定理是条件概率的代数推导。一旦我们理解了如何计算条件概率,贝叶斯定理可以通过几个代数运算推导出来。让我们回顾一下我们如何计算条件概率:

条件概率公式
这意味着给定证据D的假设H的概率是假设和证据的联合概率除以证据的概率。
为什么我们要这样计算条件概率呢?让我们通过一个例子来逐步解释。假设下雨的概率——假设——在地面潮湿的情况下——数据——假定这两个事件是相关的。如果它们是独立的,那么它们共同发生的概率将通过它们的乘积P(H)·P(D)来计算。这是由于P(H|D) = P(H)和P(D|H)=P(D)的概率假定地面潮湿与下雨是独立的。请注意我们刚刚断言的内容:P(H∩D) = P(H)·P(D)。这意味着独立事件的交集是通过它们各自概率的乘积来计算的。
但是如何计算相关事件的交集P(H∩D)呢?从集合论的角度来看,联合概率被定义为两个集合的交集:

为了理解样本空间分布的比例,我们可以将我们尝试计算的条件概率可视化如下:

但实际上,我们几乎从来没有联合概率分布的先验知识。这就是我们可以使用简单的代数步骤来协助我们近似计算联合概率的地方。我们将方程的两边都乘以分母来解出联合概率 P(H∩D):

目前相反地,如果我们想计算地面潮湿的概率,假设下雨了,我们的条件概率公式将如下:

同样的变换给了我们:

注意到问题中两个事件的联合概率是两个条件概率共享的项。由于P(H∩D)是一个对称关系,因此是方程之间的一个代数常数,我们得到以下关键等式:

因此,如果我们想要测试“下雨了”这个假设,假设“地面是湿的”,我们可以重新排列这个等式以获得贝叶斯公式:

在贝叶斯术语中,我们将P(H|D)称为后验(即我们希望确定的概率),P(H)称为先验,P(D|H)称为似然,P(D)称为边际。
在处理贝叶斯统计时,这种传统的命名方式很重大。似然提供了在假设下数据点的条件概率(用于更新我们的信念的值),而边际将后验归一化到条件或数据的样本空间。
由于我们需要贝叶斯公式中所有项的值的近似值,贝叶斯统计学中的一个主要障碍是如何最好地分配这些值。特别是,指定先验可能是具有挑战性的,由于我们并不总是事先具有必要的知识。一些近似先验的策略包括使用均匀分布的先验,其中我们为所有可能结果分配一样的概率,称为拉普拉斯的不确定性原则,其他策略包括使用信息先验,即旨在近似事件的实际概率分布的先验。在我们的例子中,这可能是每日降雨的泊松分布。
随着我们从将假设视为固定值转变为将其视为随机变量,目标变为推断完整的后验分布,而不是单个估计。因此,我们目前可以从将假设视为点估计转向对具有相应概率分布的随机变量进行统计推断。为此,我们将先验P(H)和似然P(D|H)建模为概率分布,并计算数据的边际概率P(D),可以通过求和(离散变量的概率质量函数)或积分(连续变量的概率密度)获得。这些组件使我们能够应用贝叶斯定理获得后验分布:P(H|D)。

总概率法则(边缘)表明为对离散变量的假设空间求和。
概率质量函数(PMF)是分布所有值的总和,等于一,而概率密度函数(PDF)是分布曲线下面积的积分,当极限趋于一时。对于连续变量,我们进行积分,由于在分布中涉及无限值。以下是连续变量的边际概率的公式,即作为概率密度函数表达的总概率法则:

总概率法则(边缘)表明为对连续变量的假设空间的积分。
贝叶斯统计学构成了统计学中更为成熟的频率主义方法的另一种框架。尽管其历史根源和频率主义公式一样深厚,但在大部分二十世纪由于计算复杂性的限制,贝叶斯方法的应用受到限制。随着计算能力的进步,贝叶斯方法经历了快速发展并得到了广泛应用。如今,贝叶斯统计学在机器学习(ML)中发挥着核心作用,特别是在概率建模、不确定性估计和不确定性决策方面。
科尔莫戈洛夫复杂性
我们看到,科尔莫哥洛夫公理为计算概率提供了一个分析框架,其中将不相交集合的并定义为总和,它们的交集定义为乘积。但它并没有告知我们如何计算联合集。为此,我们引入了贝叶斯定理,它利用集合交集推导出条件概率的通用公式。
不过,在我们对贝叶斯概率的阐释中,我们确定了先验分配是该框架的一个问题:应该在先验中编码什么信息?我们应该让它保持中立,遵循中立原则,还是让它具有信息性?
这就是科尔莫哥洛夫复杂性概念的来源。虽然科尔莫哥洛夫复杂性不涉及概率,但通过编码定理(我们将在下文详细说明),它将一种后验元理论假设编码为数学选择偏差。这种元理论概括表明,简单性编码着更高的概率。如果我们面对地面潮湿的数据或结果,我们应该从所有可能假设的存储中选择哪个假设?直觉上,我们希望选择将观察结果赋予最高概率的假设。但是在没有额外信息的情况下,我们如何知道哪个假设最大化了结果的概率?科尔莫哥洛夫在算法信息理论的范围内回答了这个问题:最简单的假设是编码信息最少或长度最短的序列。
为了理解这背后的动机,让我们第一阐明算法信息理论中的问题,然后回到它在不那么抽象的现实场景中的应用。
在算法信息理论中,我们根据某种符号基础(如二进制字符串)对符号序列或字符串进行编码。我们定义一个通用图灵机U作为一个(部分的 – 由于p不能对所有输出进行定义)从程序p到输出x的函数,即U(p) = x。可以将其大致视为:f(x) = y。程序p代表假设或理论,而输出x代表数据或证据。理解这种映射对于理解该理论的直观推动力很重大。
信息对象的科尔莫哥洛夫复杂性定义为输出该对象的最短算法序列的长度,其中 K(x) 定义为程序的位长度:

这个表达告知我们,在所有产生输出的程序中,我们选择最短的那个,即最小的{|p|}。科尔莫哥洛夫复杂性是定义在有限二进制字符串 x ϵ {0,1} 上的。
我们目前需要做的是将科尔莫哥洛夫复杂性与概率论联系起来,以便它可以指导我们的贝叶斯先验。为了做到这一点,我们注意到科尔莫哥洛夫复杂性和香农信息熵之间存在一种联系,至少乍看之下是这样。两者似乎都量化了某种信息内容的度量:K(x)定义了位长度,而信息熵H定义了编码随机变量分布所需的平均信息量,其中信息被定义为不确定性,并以位为单位的-log P(x)在所有可能结果上的期望值来量化。不确定性越大,编码事件所需的信息量就越大。K(x)和H(X)都以位为单位进行测量,那么它们之间有什么区别呢?
K(x)描述以比特为单位的输出字符串x的最短程序的长度,而H(X)计算从可能的x值的概率分布中绘制的程序平均需要编码的比特数,样本空间为X。这两个度量之间似乎必须存在某种深刻的联系。那么,Kolmogorov复杂度和Shannon熵之间的关系是什么?我们需要从原始长度值到它们的概率之间建立一个桥梁。
如果我们从香农分布中孤立出一个单一结果,我们可以将其定义为我们程序的输出x的自信息:

单个概率结果的自信息
这意味着自信息(将其视为单个结果的熵度量)与x发生的对数倒数概率成正比。I(x)是定义特定事件的Shannon熵的完整分布的一个实例:

香农熵定义了整个分布的期望自信息为平均熵。
目前,编码定理表明科尔莫哥洛夫复杂性大约等于字符串中包含的香农信息。

这表明输出 x 的最短程序大约与输出 x 的总概率的对数倒数一样长。换句话说,我们的香农分布包含最短程序,即分配最高概率的程序!我们目前将原始程序长度与概率理论联系起来:程序输出越易压缩,发生的可能性就越大。
这就是我们如何将算法可压缩性(即为实例定义的程序长度)与概率和信息理论联系起来,使我们能够将可压缩性视为贝叶斯似然。顺便提一下,上面方程中我们没有准确的相等性的缘由是,假设的关系并非完全准确,存在一个加法常数 c,取决于通用图灵机(UTM)的选择,使得 K(x) 在各个UTM上的上限 c 之前是机器相关的:

目前你可能在想,是什么样的分布使我们能够为所有可能的程序长度分配概率?这个分布就是Solomonoff通用先验。
Solomonoff归纳
正如我们讨论过的,先验选择会在样本量足够小时对后验产生影响。这引出了一个问题:如果我们有一个可以应用于样本空间中所有可能事件的先验函数会怎样?这就是所罗门诺夫先验所编码的内容。具体来说,所罗门诺夫先验编码了观察到输出序列x的概率,即在通用图灵机上,一个随机程序输出x的总概率。
目前,让我们来看一下Solomonoff的通用先验公式,这应该能够解释我们之前的断言,即算法概率与简单性密切相关。Solomonoff将通用先验P(x)定义为所有有限二进制前缀自由程序p的概率之和,其中p的概率由其简单性定义,即2^-|p|。

通用的Solomonoff先验
由于我们将程序的概率定义为每增加一个比特就减半,所以程序中包含的信息比特越多,它在分布中的权重就越小。因此,所有前缀自由二进制程序的总概率将由最短的程序主导。
我们指出,Solomonoff先验是针对字符串的无前缀有限二进制序列定义的。让我们确保我们理解每个限定词。我们使用二进制序列,由于通用图灵机可以用二进制输入和输出来定义,我们可以用二进制编码表明任何信息对象。我们定义有限序列的先验是为了满足可计算性的条件:无限序列是图灵不可计算的。
如果集合中没有字符串是另一个字符串的前缀,则该字符串集合是前缀自由的。

这会产生一组不相交的有限二进制字符串序列。换句话说,我们需要不相交的集合来计算它们的并集。根据科尔莫戈洛夫可加性公理,集合成员的并集的概率可以表明为它们概率的总和。
不相交性确保与每个假设或先验字符串相关联的概率遵守克拉夫特不等式,该不等式规定所有概率之和不超过单位区间:

Kraft不等式
这告知我们,对于一些无前缀字符串 C,该序列的概率可以表明为 2 的负指数次方,其中指数描述了长度。由于所有序列是不相交的,它们的总和不能超过 1(尽管可以小于 1,使其成为半测度)。这使我们能够将编码权重点关注为概率,从而通过对字符串权重求和来计算整个分布的概率质量函数。
因此,Solomonoff的先验概率被定义为有限二进制程序p的权重或概率之和:
因此,为了计算从可能的程序中获得某个输出 x 的概率,我们将该概率条件化为所有可能程序的概率之和:

所罗门诺夫边际
由于 p 是确定性的,似然和后验被定义为 delta 函数:程序要么输出 x,要么不输出。

此外,由于先验是在无前缀的二进制字符串上定义的,我们可以用位字符串来表达条件化:

与事件的联合分布不同,我们有一个加权和,其中比特串以语法生成x作为所有可能事件的替代。这揭示了形式主义的一些局限性:形式上的可压缩性是否足以作为某些程序或理论相对于其他程序或理论的解释偏见?我们将在稍后探讨这些局限性,例如缺乏结构偏见和表征对齐。
与编码定理一起,Solomonoff先验提供了归纳和可压缩性之间的深刻联系:泛化被揭示为形式上等同于信息压缩,即数据集越可压缩,产生它的程序越可能。不过,在现实世界中,我们知道,最“可压缩”的理论并不总是具有最强解释或预测能力的理论,尽管最佳理论近似往往趋向于简单性。
下面的公式表达了我们对算法复杂性、通用先验和信息熵的概念,在特定范围的 x 值下大致等同于彼此:

AIXI
就目前而言,我们将所罗门诺夫先验和贝叶斯后验结合起来的普遍归纳理论并不适用于受限制的智能体。如果我们将所罗门诺夫归纳与顺序决策理论相结合会怎样呢?
这就是Marcus Hutter的AIXI理论的作用:它整合了Solomonoff归纳、决策理论和强化学习,使我们的通用先验能为一个代理做出贡献。
从Solomonoff归纳过渡到决策理论和强化学习领域需要扩展我们的本体论到行动、观察和奖励。AIXI模拟了一个通用智能体,其与任何可计算环境的交互使其能够选择最大化期望奖励的行动。更正式地说,AIXI在每个时间步选择一个行动,并从环境中获得观察和奖励。AIXI如何选择最优行动?正如我们将看到的那样,由于AIXI编码了一个理想的贝叶斯智能体,它构成了一个基于模型的智能体。不过,与典型的基于贝尔曼方程的确定性智能体不同(后者通过解决贝尔曼方程来确定最优性,详情请参阅我之前关于强化学习的文章),AIXI对所有可能的环境保持不确定性。它通过计算可能性的乘积之和来实现,即给定行动空间的环境反馈的概率和分配给每个可计算环境(或程序)的Solomonoff权重,称为通用混合体。
简而言之,通用混合物构成了AIXI中的一个术语,定义了在给定当前动作的情况下,对下一个观察和奖励对的概率预测。它被计算为每个可能环境的加权分布的乘积之和。通用混合物通过对每个环境权重及其概率分布的乘积求和来穷尽环境空间,其中每个环境模型μ为迄今为止的动作分配观察-奖励序列的概率。通用混合物由以下公式给出:

通用混合物根据行动历史分配概率给未来观测和奖励对。
这种通用混合物通过每个采取的动作积累对环境的预测分布。将ξ看作是为每个可能的未来观测和奖励轨迹分配概率,给定一系列动作。
通用混合物为我们提供了在行动历史下观测和奖励对的概率,但它并没有告知我们哪条轨迹是最有价值或最大化奖励的。为此,我们对每个环境或轨迹的奖励进行求和:

累积奖励之和,其中 k 是时间索引,m 是最远的时间步。
为了找出选择哪条轨迹,我们将每条轨迹的奖励总和乘以通用混合分配给该轨迹的概率:

在环境预测下的预期奖励计算
因此,我们通过将每条轨迹的累积奖励加权来计算期望。
在计算期望之后,最后一步涉及选择最大化预期回报的动作,思考奖励的加权和环境概率。为此,我们使用arg max函数如下:

Arg max选择在所有可能的轨迹中最大化累积回报的动作:

AIXI旨在形式化一个通用代理,其装备了Solomonoff先验,使其偏向于具有最小Kolmogorov复杂性的环境。除了假设所有可能的可计算环境并将可压缩性与更高概率相关联外,AIXI代理通过与环境的互动获得结构偏差。这确保了AIXI应该能够在任何环境中导航(前提是它起初是结构化的/可计算的)。
虽然AIXI形式化了一个通用智能体,但它并没有足够地偏向这个智能体,以便它能够高效地在实际环境中导航。也就是说,AIXI形式化的最优行动或决策程序并没有编码高效的结构偏差,列如领域特定的启发式方法或架构约束,这些偏差会加速学习。不过,这个特点是AIXI在设定对所有可能环境的决策最优性的通用边界范围内的结果。原则上,AIXI通过贝叶斯更新间接地获得高效的结构偏差。通过足够的环境采样,AIXI在无限次交互中渐近地收敛到真实环境,假设环境是可计算的并且具有非零先验概率。不过,在实践中,由于过度扩散到后验权重,导致收敛可能是低效的,使得智能体的行动在无限期内都不是最优的。
非可计算性与结构偏差
在其通用形式中,AIXI不可算法实现,由于科尔莫哥洛夫复杂度和所罗门诺夫先验都是不可计算的。所有能够停机并产生有效(可计算)环境的程序类是不可数的或不可递归枚举的。计算通用先验需要对环境进行无限模拟,而计算未来期望需要无限远见,所有这些在数学上都是难以处理的。
因此,存在AIXI的可计算近似,例如AIXItl。 AIXItl引入了时间和程序长度限制(这就是tl的含义),限制了环境空间Mtl到≤t时间步长和l位长。不过,AIXItl依旧效率低下,由于环境的组合可能性是指数级的:O(2^l)。无模型替代方案,如DQN和基于梯度的替代方案,如Dreamer和World Models代表了寻找通用智能体的替代方案。这些后续替代方案使用启发式和基于采样的方法进行探索,例如蒙特卡洛树搜索,以进行最佳决策。从根本上讲,竞争在于基于模型和无模型方法之间,后者完全从与环境的互动中获得其偏见。
表征对齐
正如我们已经提到的,AIXI将宇宙视为通过有限二进制字符串表明的可计算序列。假设环境是图灵可计算的并不包含在哥德尔-图灵论题中,因此代表了AIXI的额外假设。这一假设的真实性原则上是一个悬而未决的问题,即不涉及可实现的机器,尽管有充分理由认为它是错误的。
正如我们所看到的,AIXI将观测视为比特串,而真实世界的数据需要结构化表明,例如因果结构、时间关系和空间维度等。为了在AIXI中编码更丰富的结构,我们需要编码结构化表明,如图形、张量、微分方程等的先验。编码结构偏见会使AIXI更加高效,但会牺牲其普适性。在贝叶斯模型中编码真实世界的表征结构的成本是专门化模型以牺牲环境泛化能力。鉴于实践中无法实现AIXI代理,因此我们应该寻找能够编码真实世界表征的代理,如AIXItl、无模型代理或基于深度学习的代理。
主动推理
我们看到AIXI包含了一个最大信息的先验,但这个先验完全没有结构化,并且不包含关于世界的任何先验知识,除了元选择偏差认为短或可压缩程序最有可能。我们还看到这使得AIXI和Solomonoff先验在计算上难以处理,这阻碍了其以完整形式实现。
另一个代理建模的分支,最近被称为主动推理,其核心是自由能最小化原则,旨在将效用最大化、强化学习、贝叶斯推断、预测编码、统计力学以及远离热力学平衡动力学的建模谱系整合到一个层次生成式贝叶斯代理的统一模型中。在主动推理生成式贝叶斯模型中,最优性包括最小化自由能,其中自由能被定义为关于感知和推断缘由的联合发生的预期惊讶。
用口语化的说法来说,生成模型通过一个前向模型来预测未来的感知,该前向模型通过先验估计那些感觉的缘由,反之亦然,通过一个反向模型来估计或预测实现偏好状态所需的行动。代理通过前向和反向模型的循环,或者更简单地说,通过感知和行动的循环来动态地在环境中导航。自由能量来自于预测与环境反馈之间的不匹配,通过模型先验的层次贝叶斯更新来最小化。
下面的公式正式表达了变分自由能的计算,作为识别密度(近似后验)和条件密度(真实后验)之间的散度,其中ỹ代表观察输入,代表潜在缘由,p(ỹ, )定义了生成模型,作为感知和潜在缘由的联合概率密度,而q()定义了近似后验:

公式中的第一个表达式定义了近似后验概率 q() 与真实后验概率 p(| ỹ) 之间的Kullback-Leibler散度减去对数模型证据 log p(ỹ)。一般来说,Kullback-Leibler散度量化了模型分布Q与实际分布P之间的几何散度。自由能源源于近似后验与真实后验之间的信息论散度,减去对数模型证据。我们通过对潜在缘由的近似和真实联合分布之间的对数比率进行积分来计算变分自由能。第二项将这个一样的量表达为近似后验 q() 的熵和后验与生成模型 p( ỹ, ) 之间的交叉熵的和。最小化自由能意味着减少识别模型与条件密度之间的散度。
AIXI和主动推理以不同的方式提供最优贝叶斯代理。但是,AIXI在其无界形式上在形式上是不可计算的,而主动推理通过变分贝叶斯模型实现了可处理的近似。在AIXI中,优化包括最大化奖励,而在主动推理中是最小化自由能。在前者中,模型准确性隐含地来自于最大化奖励,而在后者中,最大化奖励隐含地来自于最小化预期惊奇或自由能。在这方面,主动推理构成了一个结构化的生成模型,通过层次估计潜在缘由,通过推理引导动作选择,而不是AIXI的枚举,后者从所有可能的环境中选择最大化奖励的动作。不过,主动推理依旧是一个不完整的框架,由于它忽略了关于具体代理的许多细节,列如目标设定、模型学习(在这方面超级模糊)以及对代理边界的可行描述(马尔可夫毯的表述是不充分的,无法区分生物代理和不构成实际代理的物理系统)。
















暂无评论内容