概述
注释:
1、留出法:即我们常用到的将数据集3-7分,2-8分,划分为训练集和测试集。
2、在使用留出法划分数据集的时候需要注意要保留数据分布一致性。
解答:
根据注释2,我们在划分的过程中,训练集的数据应当包含
500
∗
70
500*70
500∗70%=350的正例和
500
∗
30
500*30
500∗30%=150的反例,其余为测试集。要保证数据是随机划分的,根据概率论知识有
C
500
350
∗
C
500
350
C_{500}^{350}*C_{500}^{350}
C500350∗C500350(或者
C
500
150
∗
C
500
150
C_{500}^{150}*C_{500}^{150}
C500150∗C500150)种划分方式。
注释:
1、先搞清楚10折交叉验证法和留一法是如何划分的,对应书本P26。
解答:
(1)对于10折交叉验证法:
按照最理想的划分方式,
D
1
−
D
10
D_1-D_{10}
D1−D10每个集合都是正反样例个数一样,训练集中正反例的个数一样,那么此时进行随机猜测,则预测结果要么是正确,要么是错误,即错误率和准确率都为50%。
(2)对于留一法(k=m):
每次划分只有一个样本,这个用来进行测试的样本要么是正例,要么是反例。题目中总样本是正反例数目一样,所以根据题目给的条件,当测试样本为正例时,预测结果为反例(因为此时训练集中反例样本比正例样本多);同理当测试样本为反例时,预测结果为正例。因此,当使用留出法时,它的正确率为0%,错误率为100%。
注释:
1、F1 =
2
∗
P
∗
R
P
+
R
frac{2*P*R}{P+R}
P+R2∗P∗R ,BEP(Break-Even Point): 是 P=R时的取值。
2、在PR曲线上,每个(P,R)点都对应一个F1值。
解答:
F
1
A
F1_A
F1A =
2
∗
P
1
∗
R
1
P
1
+
R
1
frac{2*P1*R1}{P1+R1}
P1+R12∗P1∗R1 ,
F
1
B
F1_B
F1B =
2
∗
P
2
∗
R
2
P
2
+
R
2
frac{2*P2*R2}{P2+R2}
P2+R22∗P2∗R2
(1)P = R时,
F
1
A
F1_A
F1A = P1,
F
1
B
F1_B
F1B = P2,由题知
F
1
A
F1_A
F1A >
F
1
B
F1_B
F1B, 所以P1>P2,x即
B
E
P
A
BEP_A
BEPA>
B
E
P
B
BEP_B
BEPB。
(2)P!=R时,根据注释2,可以看出F1和BEP并没有相关的关系,所以推不出大小关系。
解
答:
分类结果混淆矩阵:
预测结果 | ||
---|---|---|
真实情况 | 正例 | 反例 |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
TPR = T P T P + F N frac{TP}{TP+FN} TP+FNTP , FPR = F P T N + F P frac{FP}{TN+FP} TN+FPFP
P =
T
P
T
P
+
F
P
frac{TP}{TP+FP}
TP+FPTP , R =
T
P
T
P
+
F
N
frac{TP}{TP+FN}
TP+FNTP
从公式上看,TPR = P。
式(2.22)
参考链接
题目2.6-2.10参考文章:参考链接
最后
以上就是苗条翅膀为你收集整理的西瓜书第二章习题及答案题目2.6-2.10参考文章:参考链接的全部内容,希望文章能够帮你解决西瓜书第二章习题及答案题目2.6-2.10参考文章:参考链接所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复