python boxplot significance_R使用笔记：ggplot2 & ggpubr 给boxplot添加significance levels

74 阅读 0 评论 49 点赞

我是靠谱客的博主阔达铅笔，最近开发中收集的这篇文章主要介绍python boxplot significance_R使用笔记：ggplot2 & ggpubr 给boxplot添加significance levels，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

本次笔记内容：

用ggpubr的stat_compare_means()给boxplot加上significant labels

编写函数选择P值小于某一值的pairs，并只在图上标注这些pairs

多图使用ggpubr的ggarrange()和annotate_figure()整理，注意aes_string()的使用

把一个List的plots: list(plot1, plot2, plot3...)拼在一起

对手头的数据，你需要对每个变量按照固定分组画一个boxplot，并加上Kruskal-Wallis多组检验结果及post-hoc两两比较结果，其中两两比较的结果只需要有显著性的。以此画多个图后将他们“拼图”成一个。

以iris数据集为例，根据以下代码用ggplot2绘制了"Sepal.Width"变量的基本箱线图，并用ggpubr包的stat_compare_means()加上了significant labels。这里是加上了所有组合的labels。combn()用于获取所有不重复的两两组合pairs。注意comparisons = 这里需要传递一个list(), list中包含了以c()储存的pairs，你也可以自己指定pairs是什么，比方说comparisons = list(c(a,b), c(b,c))

geom_boxplot(position = position_dodge(0.8)) +

geom_point(position = position_jitterdodge()) +

scale_fill_aaas() +

theme_classic(base_size = 16)+

labs(x = "", y = 'Sepal.Width') +

stat_compare_means() +

stat_compare_means(comparisons = combn(levels(iris$Species), 2, simplify =FALSE))

在iris数据集中组间都很显著，但是如果是很多组在Kruskal-Wallis(或者ANOVA)检验后的两两比较(post-hoc)，可能会出现boxplot上有一堆label, 图被压缩的很丑。而且主要是想把显著的label标注上去。

首先stat_compare_means()是通过pairwise.wilcox.test做post-hoc两两比较的：

> test

Pairwise comparisons using Wilcoxon rank sum test

data: iris$Sepal.Width and iris$Species

setosa versicolor

versicolor 2.1e-13 -

virginica 7.1e-09 0.0046

P value adjustment method: none

于是可以写个函数选择p < "你想要一个cutoff值" 的pairs, 为了防止因为没有p值小于你想要的cutoff值而报错，在没有的时候返回一个空list()。

which_pair_to_use

pair_p

ind

if (nrow(ind) > 0) {

compairs

for (i in 1:nrow(ind)){

pair

compairs[[i]]

}

return(compairs)

} else {

return(list())}

}

注意由于是把变量的名称字符串传递给上述函数，所以参数需要用引号括起来，cutoff =一般来说是0.05，这里由于p值都太小了所以我用一个比较小的值来举例。为了可以画多个图方便，可以简单写成一个函数。注意在把ggplot2写进函数的时候，给aes()传参数会出现问题。因为aes()中并不是引号括起来的字符串。这时需要使用aes_string()

fun_to_plot

geom_boxplot(position = position_dodge(0.8)) +

geom_point(position = position_jitterdodge()) +

scale_fill_aaas() +

theme_classic(base_size = 16)+

labs(x = "", y = variable) +

stat_compare_means() +

stat_compare_means(comparisons = which_pair_to_use(data,

variable,

group,

cutoff = 0.0005))

return(p)