人工智能

为什么机器算法公平性难以捉摸

2020-09-02 18:41:11　|　来源：中培企业IT培训网

在现实生活中，我们经常会看到某个平台利用算法给我们带来的问题，这些问题是由一系列原因引起的。有些是根本的社会根基;如果您对种族分类有偏见，为此而创建的数据库，利用机器学习来获取算法，则会得到有偏见的算法。有些只是统计伪像;如果让机器学习，通过算法找到最适合整体人群的方式，那么在少数族裔方式上有所不同的情况下，他们的分类或建议必然会较差。

两者兼而有之：偏向人类会导致偏向算法，这些算法提出的建议会强化不合理的刻板印象。例如，对较贫困社区的更严厉治安政策会导致该社区中更多的犯罪报告。更多犯罪报告会触发治安分析，建议部署更多警察到那些街区，您的反馈循环令人讨厌。问题在于，如何使算法公平还不清楚。在这方面，关于算法公平性的讨论已成为社会道德的放大镜子。有关如何定义和衡量公平性的辩论反映了当今进行的更广泛的道德对话。

最近，我很高兴采访了斯坦福大学计算政策实验室的执行主任Sharad Goel。我们必须讨论他在算法公平性方面的一些应用工作。特别是，我们必须讨论关于如何从算法上概念化公平性的辩论的三个方面的弊端。技术人员可以在本文中找到对辩论的更完整处理，但我将尝试将其归结为本文。

　　公平的三种概念

某些组标签应该超出限制。这种思维方式认为，在进行预测时，不应允许算法考虑某些受保护的类别。例如，在这种观点下，不应使用用于预测贷款资格或累犯的算法来基于种族或性别的预测。这种实现公平的方法是简单易懂的。但是有两个主要问题：

1. 区分受保护类别的可接受和不可接受的代理。即使从算法中删除了此类类别，由这些受保护类别解释的统计方差也倾向于滑入其他可用变量。例如，虽然种族可能不包括在贷款申请中，但与种族高度相关的邮政编码可能在模型中具有较高的预测权重并掩盖了歧视。出于所有目的和目的，邮政编码成为新的比赛变量。哪些代理是受保护类别的非法替代品，哪些是可接受的，独特的变量，这具有挑战性和争议性。这条模糊线使我们面临另一个问题，即使某些标签“超限”。

2. 社会成本很高。受保护的类别通常可以对算法旨在预测的行为产生有意义的影响。例如，众所周知，男性驾驶员的保险费较高，因为男性驾驶员确实确实占总保险支出的更多。从这些算法中消除性别会导致男性的汽车保险费下降，但会增加女性的保险费率。是否应要求妇女支付高于其风险份额的费用，以便从风险算法中消除性别，仍有待商de。简而言之，尽管这可能会创造出完全的平等，但似乎却缺少了按比例公平的标记。有人会认为这种方法实际上是不公平的。

刑事司法环境中的风险更高。从旨在预测累犯的算法中删除诸如性别或种族之类的受保护类别会降低算法的效率，这意味着将拘留更多具有较低实际风险的人，并让更多具有较高实际风险的人被释放。结果将是，一般而言，尤其是在已经遭受更高犯罪的社区中，更多的犯罪发生。要看到这一点，请记住，大多数暴力犯罪发生在彼此认识的人之间。因此，当算法效率被大幅度降低时，已经遭受暴力犯罪困扰的社区可能会经历其他重新犯罪的暴力犯罪。

大多数人都同意，在没有明显正当理由的情况下，基于受保护类别的决定在道德上是应受谴责的。困难的部分是，使用这些受保护的类别似乎可以有效地减少有害的后果。这种权衡导致一些人采取了替代方法来通过算法定义公平性。有没有办法使预测准确性最大化，同时仍然是公平的？

在某些小组中，算法性能应同样出色。与忽略种族和性别之类的受保护类别不同，该公平性方法主张算法性能的指标在受保护类别中应相同。例如，将罪犯分类为再犯风险高或低的算法，应该对白人和黑人罪犯均等地产生预测误差。这种方法不像色盲方法那样直观，但是至少在理论上允许算法更有效地进行预测，并且避免了关于哪个代理的棘手判断，从而具有额外的优势。包含在算法中，现在也是不可接受的。

尽管如此，这种方法还是不完善的。要了解原因，了解不同的人群将代表不同的人群非常重要。通常，当我们谈论公平时，我们希望所有人，无论其团体成员身份，都遵循相同的标准。但是，如果将相同的临界值阈值用于不同的人群，则预测能力和错误率很有可能在不同群体之间有所不同-这仅仅是统计工作原理的自然结果。如果政府法规强迫企业采用在受保护群体中保持相同性能的算法。

他们通常有两个选择：1.通过玩弄代码来降低其算法的质量和效率，从而使各组的算法性能均等2.公司可以针对不同的人群采用不同的算法阈值，以使不同群体的分界点不同。但是很明显，这似乎与公平的观念相违背，并且通常在道德上被皱眉并且被认为是非法的。跨组强制实现算法性能均衡的负面影响不只是理论上的-这些负面影响已被记录在案，例如，警察在白人和黑人公民中发现违禁品的可能性。

算法分数应该代表不同组成员之间的相同事物。实现算法公平性的第三种方法是，确保算法的分数意味着受保护类别中的事物相等。从表面上看，这种方法似乎正在达到我们想要的目标—看起来很公平。问题在于，在存在故意歧视行为的情况下，它不能保证公平，因此基于公平定义的算法调节仍将为模糊的歧视处理留出空间。至少有两种方法可以发生这种情况：

1.代理仍然可以用于满足高于或低于算法的临界值的人群总数得分。例如，可以将贷款违约风险较高的个人与贷款违约风险较低的个人配对，以便可以将受保护类别的风险评分随意推高或低于临界值。这本质上可以归结为算法重新定义。

2.如上所述，不同的组将具有不同的统计风险曲线。如果在组内离散化量化分数，则实际风险曲线中的这些差异可以掩盖不同的组截止值，同时保持单板在受保护的类别中，标有“高”风险的个人会以相似的比率再次犯罪，违约和发生车祸。例如，在上图中，根据组内百分位数为一个人分配“高”，“中”或“低”风险标签将有效地产生不同的组截止阈值，同时可能保持相同的算法性能每个受保护群体的风险都标记为“高”。

对于B2C公司而言，似乎似乎很少使用这些技术，因为通过这种方式进行歧视通常会蒙受利润损失，但对于B2B公司而言，仍然存在激励措施。例如，广告匹配公司有动力将某些群体推高或低于临界值，以根据受保护的类别证明广告定位的合理性。不难想象，政治运动或说客会被这些方法的力量所吸引，从而在战略子群之间摇摆公众舆论，同时留下很少的面包屑和混乱的面包屑。

　　挑战

通过算法定义公平性的每种方法都有其优点和缺点。我认为最麻烦的不是每种方法都面临的弱点，而是这些方法从根本上彼此不兼容。在使用保护类别作为检测公平性的基准时，我们不能忽略保护类别。而且，我们不能要求相似的算法错误率，而要求相似的风险评分实际上确实会在组之间带来相似的结果。在算法上定义公平性的竞赛仍在进行。但是我的道德心理学背景也让我停下来。民主党人，共和党人和自由党人无法就公平问题达成共识，我认为将算法公平问题视为数学，计算机科学问题太乐观了。问题不在于解决一些复杂的统计魔方，还在于它试图在仅能捕获阴影的洞穴壁上展现柏拉图的完美公平形式。很难预测我们将采用哪种解决方案，以及当这些解决方案与监管和经济激励措施相互作用时的成本是多少。从本质上讲，算法公平是一个社会道德问题。更多关于机器算法的信息，请继续关注中培伟业。