腾讯AI Lab联合ETH提出合作博弈新范式为可解释性等机器学习估值问题提供新方法

  习应用中变得越来越重要估值问题在各种机器学,erg and Lee从特征解释(Lundb,horbani & Zou2017)、数据估值(G,mberczki & Sarkar2019)到集成模型估值(Roze,21)20。博弈中的玩家估值问题它们通常被表述为合作。的合作博一个典型弈

  以证明我们可,方面可以恢复经典的估值算法所提出的 K 步变分估值一,个基本的估值公理另一方面它满足三。

  & Zou (2019)的设置我们按照 Ghorbani ,的代码复用 。准返回的估值对训练样本进行排序我们进行数据去除:根据不同标,序去除样本然后按顺,确率下降了多少以检查测试准。地说直观,导致性能下降最快最好的估值算法会。

  变分估值为了计算,quilibrium condition)我们首先分析目标函数(2)的均衡条件(E。

  于能量学习的合作博弈处理方式我们提出了一种理论上合理的基。均场推断通过平,值方法提供了统一的视角我们为流行的博弈论估。有标准提供了另一种动机这通过解耦的观点为现,n 个玩家之间的相关性即通过平均场方法解耦 。

  T 和运行步数 K 控制的变分估值我们的能量学习框架引入了一系列由 。layer)、边缘性 (marginalism) 和对称性 (symmetry)我们可以证明所提出的 K 步变分估值满足三个基本估值公理:零玩家(null p。论文附录 E详细的证明在。

  联合ETH提出合作博弈新范式原标题:《腾讯AI Lab,习估值问题提供新方法为可解释性等机器学》

   S 中玩家的个数其中 S 表示联盟。看出可以,模的联盟的权重较小它对 n/2 规。

  例子举个,bani & Zou数据估值 (Ghor,合作博弈中的玩家估值问题2019)通常被表述为。计每个玩家在此合作博弈中的价值其中的玩家估值问题目的在于估。1 所示如图 ,题使用 n 个训练样一个典型的数据估值问本

  ,一个训练样本对应一个玩家进行某种机器学习任务:,本来训练得到的模型在给定的某个测试数据集上的预测器性能此时价值函数 F(S) 表示使用子集合 S 中的训练样。rczki & Sarkar集成模型评估(Rozembe,中单个模型的重要性2021)测量集合,型映射到一个玩家其中每个预训练模,型子集的预测性能价值函数测量模。

  讶的是令人惊,变分估值恢复经典估值标准可以通过提出的 K 步。先首,af 值容易推导出对于 Banzh:

  准确实产生了不同的特征排名从瀑布图可以看出这三个标。ss” 和“Relationship”作为前两个特征以第一行为例:所有标准都将 “Capital Lo。而然,表示 “Marital Status” 应该排在第三位剩下的特征有不同的排名:变分指数和 Banzhaf ,y 则排在第四位而 Shaple。排名是最好的很难说哪个,在一些 “完美模型” 的基本事实排名因为:1)没有确定特征线) 即使存,st 模型可能无法复制它这里训练的 xgboo,完美模型” 不一致因为它可能与 “。

  的变分估值的优异特性多个实验证明我们提出,差和更好的估值表现包括更低的解耦误。

  弈的概率分布对于合作博,在所有可能分布中实现了最大熵方程(1)中所示的概率分布。题:博弈中的 n 个玩家可能以非常复杂的方式任意相关人们可以很自然地将合作博弈中的玩家估值问题视为解耦问。而然,分配一个单独的重要性值为了给它们中的每一个,耦它们的交互我们必须解,们相关性的一种方式这可以被视为简化它。

  数据去除实验类似的方式:我们根据返回标准定义的顺序逐一去除特征Feature removal results! 该实验遵循与,测概率的变化然后观察预。报告了三种方法的行为Figure 3 。分类器的结果(准确度:0。893)第一行显示来自 xgboost ,器(准确度:0。842)第二行显示逻辑回归分类,准确度:0。861)第三行是多层感知器(。下降的结果对于概率,引起最快的下降变分指数通常,小的解耦误差它总能达到最,质所预期的那样正如其平均场性。

   Lee ( 2017)的设置我们沿用 Lundberg &,许可证重用 的代码并使用 MIT 。数据集 上训练分类器我们在 Adult ,人的年收入是否超过 5 万美元该数据集根据人口普查数据预测成。

  工合作提出基于能量学习的合作博弈新范式腾讯 AI Lab 与瑞士苏黎世联邦理,估值问题提供新理论新方法为可解释性等机器学习中的,R 2022 接收论文已被 ICL。

  初始化的 1 步变分估值这是在 0。5*1 处。恢复 Shapley 值(Owen我们还可以通过与多线性扩展的连接来,7219;h et alGrabisc,00)20:

  述推导经常上,视角的目标函数我们得出了解耦,的 ELBO 目标函数就是公式 (2) 中。

  1 作为子模块通过把算法 ,K 步变分估值方法为我们可以定义新的 :

  量学习的合作博弈方法本文介绍了一种基于能,中的若干估值问题以解决机器学习。探索: 1)选择温度 T未来在以下方向非常值得去。公平性水平温度控制,当时因为,有同等重要性所有参与者具,时当, 或 1 重要性参与者具有 0。合作博弈的设定2)给定概率,家之上添加先验自然可以在玩,多领域知识以便编码更。架中探索一群玩家的互动非常有意义3)在基于能量学习的合作博弈框,联盟之间的 “互动” 指数这有助于研究导致多个玩家。

  中的最大熵分布鉴于式(1),过完全分解的乘积分布 q(S经典的平均场推断方法旨在通;似 p(S)x) 来近,back‑Leibler 散度测量的距离通过最小化 q 和 p 之间的 Kull。由于

  具有收益 F(S)假设每个联盟 S ,S) 相关联与概率 p(。 H(p) = 我们寻求最大化熵-

  处理方式的概率。式进行学习和推理成为可能这样的处理使得以统一的方,估值方法的联系并将产生与经典。来说具体,率分布 p(S)我们寻求一组概, S 的出现几率以衡量特定子集合。

  ,一个训练样本对应一个玩家进行某种机器学习任务:,本来训练得到的模型在给定的某个测试数据集上的预测器性能此时价值函数 F(S) 表示使用子集合 S 中的训练样。种方式使用这,成了合作博弈中的玩家估值问题对于一个样本点的估值就转化。

  率分布的概。是有道理的这个设计,分布中内置的先验信息量因为最大化熵会最小化,西不做任何假设即对未知的东,匀” 的分布选择最 “均。(S) 变成了以下的约束优化问题现在寻求一个合适的概率分布 p:

  好的解耦性能为了得到更,步定点迭代我们运行多,系列变分估值从而生成一。组博弈论公理它们都满足一,估值标准所必备的这些公理是合适的。误差的估值定义为变分指数我们将具有最佳可想象解耦。

  Kullback‑Leibler 散度接下来我们定义两个分布之间的距离为 , field inference)这样就恢复了平均场方法 (mean。场方法的目标函数接下来推导出平均。

  ure attribution)实2。 特征估值 / 归因(feat验

  此因,数控制的代理分布 q(S我们考虑由 x 中的参;)x。(Sq;必须简单x) , 个玩家之间的相关性因为我们打算解耦 n。择是将 q(S一个自然的选;完全可分解的x) 限制为,S) 的平均场近似这导出了对于 p(。(Sq;个 n 独立的伯努利分布x) 的最简单形式是一,即

  前目,undberg & Lee大多数类型的估值问题(L,17 20;i & ZouGhorban,19 20;et alSim ,20 20;ki & SarkarRozembercz,pley 值作为估值标准2021 )使用 Sha。发展(Zeiler & Fergus随着过去几十年可解释性机器学习的快速,1420;o et alRibeir,1620;g & LeeLundber,1720;jan et alSundarara,1720;k et alPetsiu,1820;et alWang ,1a)202,模型 M 的特定数据实例 (x基于属性的解释旨在为给定黑盒,征分配重要性y) 的特。射到博弈中的玩家这里每个特征映,)通常是模型的响应而价值函数 F(S,喂给模型时分类问题的预测概率例如当把子集 S 中的特征。使用 n 个训练样本N一个典型的数据估值问题=

  过改变分配给任何玩家的价值这种均衡条件意味着无法通,整体的解耦性能以进一步提高。点迭代来更新对于每个玩家的估值它还意味着我们应当使用如下的定:

  nzhaf 值都可以被视为通过为解耦 ELBO 目标运行一步定点迭代来逼近变分指数这些结论为这两个经典估值指数提供了一种新颖、统一的解释:Shapley 值和 Ba。来说具体,zhaf 值对于 Ban, 初始化为它将 x,步定点迭代并运行一。pley 值对于 Sha,步定点迭代它还执行一。而然,个初始点开始它不是从单,所有可能的初始化值进行平均而是通过等式中的线积分对。

  示:在某些情况下图 2 中结果显,最快的下降率变分指数达到。(如每个图中的图例所示)它总是达到最低的解耦误差。haf 表现出相似的性能有时变分指数和 Banz,af 值是变分指数的一步近似值我们估计这是因为 Banzh,虑的具体问题并且对于所考,点迭代之后在一步不动,不会改变解的排名。

  述分析基于上,Inference with Full Gradient)我们提出下述的全梯度平均场算法 (Mean Field ,如下过程:

  好处:i) 在有监督的情况下上述基于能量学习的处理有两个,练技术来学习价值函数 F(S)它可以通过基于能量学习的有效训,ann & Hyvärinen例如噪声对比估计 (Gutm,配(Hyvärinen2010) 和分数匹,05)20。用近似推理技术ii) 可以采,样来解决估值问题如变分推理或抽。来说具体,均场变分推断它能够执行平,可以用作原则上的玩家估值其中推断的代理分布的参数。

  过程中在实验,1)与其他估值方法相比我们试图理解以下两点:,解耦误差?2)与经典估值标准相比提出的变分估值方法是否具有更低的,指数能否获得好处我们提出的变分?

  lity mass function)中在所有可能的概率质量函数(probabi,(S)?我们选择具有最大应该如何构造合适的 p熵

  主对角线积分多线性扩展的偏导数其中的积分表示沿单位超立方体的。出了一个独立的证明论文附录 D 给。

  分推断的另一个好处在于基于能量学习的平均场变,与经典估值标准的联系我们可以直接建立其。体地具,nt iteration)来最大化平均场目标通过只进行一步定点迭代(fixed poi,典的估值标准我们恢复了经, 值 (Shapley例如 Shapley,haf 值(Penrose1953) 和 Banz,4619;af IIIBanzh,64)19。一步支持了现有方法这一观察结果也进,法解耦玩家之间的相关性因为它们均通过平均场方。多步定点迭代而通过运行,系列估值轨迹我们获得了一,耦误差的估值定义为变分指数其中我们将具有最佳可想象解。

  最小化 q(S接下来我们通过;(S) 的距离x) 和 p,熵分布 p(S)来近似原来的最大。

分享: