最优传输及其在公平中的应用
例如,如果住房抵押贷款批准的数据集包含申请人的种族信息,但由于使用的方法或无意识的偏见,少数民族在收集过程中受到歧视,那么基于该数据训练的模型将在一定程度上反映潜在的偏见。从实际的角度来看,这是非常有用的,因为许多真实的数据集会表现出一定程度的偏差,而收集无偏差的数据可能非常昂贵、耗时或不可行。在上面的例子中,假设我们建立了一个模型来预测一个人的年龄和收入,该数据集包含一个敏感属性,例如婚姻状况,可以采用三个可能的值:单身(蓝色)、已婚(绿色)和丧偶/离婚(洋红色)。散点图显示了每个不同值的模型