概述
发表该流程的文章题目是hppRNA-a Snakemake-based handy parameter-free pipeline for RNA-Seq analysis of numerous samples. 该流程涵盖了6个核心流程,分别是:
- Tophat-Cufflink-Cuffdiff
- Subread-featureCounts-DESeq2
- STAR-RSEM-EBSeq
- Bowtie-eXpress-edgeR
- kallisto-sleuth
- HISAT-StringTie-Ballgown
该流程做的很全面,同时也很精细,并且细数了以前发表的22个流程的不足,分别是Chipster, wapRNA, PRADA, RseqFlow and RobiNA,RSEQtools,TRAPLINE ,TCW,ArrayExpressHTS and easyRNASeq,NGSUtils, ViennaNGS and S-MART ,RAP and FX ,QuickNGS ,ExpressionPlot ,GeneProf ,GenomeSpace ,Galaxy
下载并且安装该流程
cd ~/biosoft
mkdir hppRNA && cd hppRNA
wget https://sourceforge.net/projects/hpprna/files/hppRNA_v1.3.2.zip
unzip hppRNA_v1.3.2.zip
step1:设置流程运行环境
mkdir -p ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software
cd ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software
perl ~/biosoft/hppRNA/hppRNA_v1.3.2/main_script/generate_hppRNA_installation.pl -i ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software -o hppRNA_installation_script.sh
nohup bash ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software/hppRNA_installation_script.sh &
这个脚本会自动下载所需要的全部软件,还有hg19/mm10这两个参考基因组相关数据,但是需要自己新建 hppRNA_software 这个文件夹来存放下载的软件。唯一例外的是GATK需要自己下载,因为这个软件是受版权保护的,需要自行注册才可以申请下载。
软件安装好之后,用作者提供的软件生成一个软件目录文件
perl generate_path.pl -i ~/biosoft/hppRNA/hppRNA_v1.3.2/hppRNA_software -o path.txt
step2:准备fastq测序数据
单端或者双端的原始fastq测序数据均可,但是双端数据的后缀需要一致,如下:
ERR315352.R1.fastq ERR315352.R2.fastq
ERR315391.R1.fastq ERR315391.R2.fastq
T_S517N701.fastq
T_S517N702.fastq
T_S517N703.fastq
很容易可以看出作者给的测试数据是 E-MTAB-2836 - RNA-seq of coding RNA from tissue samples of 122 human individuals representing 32 different tissues 所以可以自行下载其fastq文件。这里也选择3个testis和3个brain的数据。下载后放在特定的文件夹里面,是整个流程的工作目录。
这个文件里面存放着该项目 E-MTAB-2836 的所有测序数据,
mkdir -p ~/biosoft/hppRNA/hppRNA_v1.3.2/test
cd ~/biosoft/hppRNA/hppRNA_v1.3.2/test
wget https://www.ebi.ac.uk/arrayexpress/files/E-MTAB-2836/E-MTAB-2836.sdrf.txt
得到的下载数据如下:
testis_7e ERS327016 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315415/ERR315415_1.fastq.gz
testis_7e ERS327016 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315415/ERR315415_2.fastq.gz
testis_7b ERS327017 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315456/ERR315456_1.fastq.gz
testis_7b ERS327017 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315456/ERR315456_2.fastq.gz
testis_7f ERS327023 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315492/ERR315492_1.fastq.gz
testis_7f ERS327023 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315492/ERR315492_2.fastq.gz
brain_3c ERS326996 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315455/ERR315455_1.fastq.gz
brain_3c ERS326996 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315455/ERR315455_2.fastq.gz
brain_3b ERS327019 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315477/ERR315477_1.fastq.gz
brain_3b ERS327019 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315477/ERR315477_2.fastq.gz
brain_a ERS327024 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315432/ERR315432_1.fastq.gz
brain_a ERS327024 ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR315/ERR315432/ERR315432_2.fastq.gz
step3:填写配置表格
包括软件参数信息,样本描述信息,差异分析的group信息。这些信息的填写指导在软件自带的测试数据可以找到,excel打开仔细填写,最后保存为tab键分割文本文件即可。
配置好的文件,会被perl程序generate_hppRNA_main_snakemake.pl 调用,首先会输出这个流程需要的每个步骤的脚本。
特别注意:每个步骤都要生成自己的配置文件 其中Analysis_type有"protein-coding", “known lncRNA”, “novel lncRNA” or “circRNA” 这2种,核心流程有6个!只有分析"protein-coding", “known lncRNA”,才有核心流程的选择。“novel lncRNA” or "circRNA"分析比较特殊一点。
工作目录就是你的fastq文件所在的目录。
perl generate_hppRNA_main_snakemake.pl -i workflow_1_protein_coding_paired.txt -o workflow_1_protein_coding_paired.snakemake
perl generate_hppRNA_main_snakemake.pl -i workflow_2_protein_coding_paired.txt -o workflow_2_protein_coding_paired.snakemake
perl generate_hppRNA_main_snakemake.pl -i workflow_3_protein_coding_paired.txt -o workflow_3_protein_coding_paired.snakemake
perl generate_hppRNA_main_snakemake.pl -i workflow_4_protein_coding_paired.txt -o workflow_4_protein_coding_paired.snakemake
perl generate_hppRNA_main_snakemake.pl -i workflow_5_protein_coding_paired.txt -o workflow_5_protein_coding_paired.snakemake
perl generate_hppRNA_main_snakemake.pl -i workflow_6_protein_coding_paired.txt -o workflow_6_protein_coding_paired.snakemake
单端测序,双端测序数据运行方法一致,关键就是配置文件的填写。
提交任务
如果是集群,那么提交任务需要配置qsub或者condor。
如果是单机服务器,那么直接把软件的环境变量生效,然后运行流程的各个步骤的snakemake文件即可
snakemake -p --cores 32 /data/hppRNA_data/workflow_1_protein_coding_paired.snakemake
转载自生信技能树论坛
最后
以上就是勤劳发带为你收集整理的一站式转录组数据分析流程的试用(hppRNA)的全部内容,希望文章能够帮你解决一站式转录组数据分析流程的试用(hppRNA)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复