LIME：算法讲解

56 阅读 0 评论 37 点赞

我是靠谱客的博主可靠斑马，这篇文章主要介绍LIME：算法讲解，现在分享给大家，希望可以做个参考。

一、简介

1. 主要用途

2. 样例分析

二、基础理论

1. 对解释器算法的要求

2. 算法原理

3. 算法实现

4. 算法流程

三、优缺点分析

优点

缺点

一、简介

LIME算法是Marco Tulio Ribeiro2016年发表的论文《“Why Should I Trust You?” Explaining the Predictions of Any Classiﬁer》中介绍的局部可解释性模型算法。该算法可以用在文本类与图像类的模型中，以分析模型提取到的特征是否符合直观理解。

1. 主要用途

在实际建模过程中，我们不仅需要使客户能够信服，同时也需要使自己信服。如果仅仅以数字，描述一个系统的性能，则显得略有偏颇，比如神经网络普遍可以达到高性能的效果，但可解释性低，因此如果能够从模型本身的底层逻辑出发，以它的视角观察事物，分析事物，解释事物，便可以明确模型的性能为什么好，为什么不好。这种时候，就可以利用本文要介绍的LIME算法，全称Local Interpretable Model-agnostic Explanations，可以理解为模型的解释器。

2. 样例分析

一瓶葡萄酒的品质将对售卖价格产生直接影响，通过分析其化学成分，即可明确某一瓶葡萄酒的品质。通过LIME，从葡萄酒的可解释特征中分析得出，当alchol>11.4时将对其品质产生正向影响，真正做到搞清楚模型为什么认为好还是不好。

根据一封邮件的文本内容，判断发信者是与“基督教“有关还是与”无神论教“有关，分类器本身达到了90%的准确率。但是利用LIME解释器，发现”无神论教“的重要特征，是”Posting“(邮件标头的一部分)，这个词与无神论本身并没有太多的联系。这意味着尽管模型准确率很高，但所学习到的特征是错误的。

二、基础理论

1. 对解释器算法的要求

可解释性
解释器的模型与特征都必须是可解释的，像决策树、线性模型因其严格的数学推导都是很适合拿来解释的模型；而可解释的模型必须搭配可解释的特征，才是真正的可解释性，让不了解机器学习的人也能通过解释器理解模型。

局部保真度
在实际情况中，解释器不需要在全局上达到复杂模型的效果，但至少在局部上效果要很接近，而此处的局部代表我们想观察的那个样本的周围。

泛化性强
这里所指的是与复杂模型无关，换句话说无论多复杂的模型，像是SVM或神经网络，该解释器都可以工作，都能进行可解释性分析。

2. 算法原理

对于一个分类器（复杂模型），想用一个可解释的模型（简单模型如线性规划），搭配可解释的特征在全局上进行分析是极其困难的，相反，如果我们能在某一局部的决策边缘上验证其可解释性，即可说明该分类器的优越性能。

具体来说，我们从加粗的红色十字样本（待解释样本）周围采样，所谓采样就是对原始样本的特征做一些扰动，将采样出的样本用分类模型分类并得到结果（红十字和蓝色点），同时根据采样样本与加粗红十字的距离赋予权重（权重以标志的大小表示）。虚线表示通过这些采样样本学到的局部可解释模型，在这个例子中就是一个简单的线性分类器。在此基础上，我们就可以依据这个局部的可解释模型对这个分类结果进行解释了。

3. 算法实现

（1）目标函数

解释模型定义为模型g∈G，我们进一步使用 $pi _{x} (z)$ 作为实例z与x之间的接近度，以定义x周围的局部性。定义一个目标函数ξ，这里的L函数作为一个度量，描述如何通过 $pi_x$ 在局部定义中，g如何逼近f（复杂模型），在当Ω(g)(解释模型复杂度)足够低可以被人类理解时，我们最小化L函数得到目标函数的最优解。LIME产生的解释如下：