我是靠谱客的博主 犹豫鱼,最近开发中收集的这篇文章主要介绍标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我们阅读量破万的综述:RNA-seq这十年(3万字长文综述)给粉丝朋友们带来了很多理解上的挑战,所以我们开辟专栏慢慢介绍其中的一些概念性的问题,上一期:

RNA-seq的counts值,RPM, RPKM, FPKM, TPM 的异同

在数据挖掘过程,数据的归一化和标准化是必须的。取log值就是一种归一化的方法,z-score是常用的标准正态分布化的方法。

归一化和标准化的区别

实际上口语里面通常是没办法很便捷的区分这两个概念。
归一化:将每个样本的特征值(在转录组中,特征值就是表达量)转换到同一量纲下,把表达量映射到特定的区间内,区间的上下限由表达量的极值决定,这种区间缩放法是归一化的常用方法
标准化:按照表达矩阵中的一个基因在不同样本中的表达量处理数据,每个样本点都能对标准化产生影响,通过求z-score值,转换为标准正态分布,经过处理的数据的均值为0,标准差为1,因此z-score也称为零-均值规范化。

取log对表达量的影响

原始的raw counts矩阵是一个离散型的变量,离散程度很高。有的基因

最后

以上就是犹豫鱼为你收集整理的标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值的全部内容,希望文章能够帮你解决标准正态分布表_表达矩阵的归一化和标准化,去除极端值,异常值所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部