概述
近年来,单细胞技术日益火热,并且有着愈演愈烈的趋势。在2015年至2017年,甚至对某细胞群体或组织进行单细胞测序,解析其细胞成分就能发一篇CNS级别的文章。近两三年,单细胞技术从最开始的基因组,转录组测序,发展成现在的单细胞DNA甲基化,单细胞ATAC-seq等等。测序手段也从早期的10X Genomics、 Drop-seq等,发展为现在的多种多样个性化的方法。研究内容更不仅仅局限于解析细胞群体的成分,而是向研究细胞功能和生物学特性发展。今天小编向大家简单一个实用并且易上手的单细胞数据分析软件——Seurat,大家躺在床上为国家做贡献的同时也能get新技能。
介绍一下今天的主角,Seurat是由New York Genome Center, Satija Lab开发的单细胞数据分析集成软件包。其功能不仅包含基本的数据分析流程,如质控,细胞筛选,细胞类型鉴定,特征基因选择,差异表达分析,数据可视化等等。同时也包括一些高级功能,如时序单细胞数据分析,不同组学单细胞数据整合分析等。今天,小编以官网中提供的单细胞基因表达数据为例,为大家简单介绍一下Seurat软件包中的基础分析流程,希望能够抛砖引玉,祝大家在科研的道路上越走越远。
第一步,数据集导入
在本教程中,我们将分析从10X基因组学免费获得的外周血单个核细胞(PBMC)数据集,来源于Illumina NextSeq 500测得的2700个单细胞转录组数据。首先,我们需要把数据集存储成Seurat可识别的数据格式,
读入的数据可以是一个矩阵,行代表基因,列代表细胞。
library(dplyr)library(Seurat)# Load the PBMC datasetpbmc.data # Initialize the Seurat object with the raw (non-normalized data).pbmc pbmc## An object of class Seurat ## 13714 features across 2700 samples within 1 assay## Active assay: RNA (13714 features)
数据导入成功以后,我们可以看到pbmc对象中包含了一个13714(基因数)X 2700(细胞数)的矩阵,其实在数据导入的时候,数据集中测到的少于200个基因的细胞(min.features = 200),和少于3个细胞覆盖的基因(min.cells = 3),就已经被过滤掉了。
第二步,数据质控
质控的参数主要有两个:1.每个细胞测到的unique feature数目(unique feature代表一个细胞检测到的基因的数目,可以根据数据的质量进行调整)2.每个细胞检测到的线粒体基因的比例,理论上线粒体基因组与核基因组相比,只占很小一部分。所以线粒体基因表达比
最后
以上就是微笑硬币为你收集整理的seurat提取表达矩阵_单细胞数据分析神器——Seurat的全部内容,希望文章能够帮你解决seurat提取表达矩阵_单细胞数据分析神器——Seurat所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复