参考基因组与数据比对
参考基因组准备
FASTA与GFF/GTF文件格式
参考基因组包含两种文件: 基因组文件 fasta与注释文件 gff/gtf。
FASTA 格式
FASTA和FASTQ一样,都是一种记录序列的文本格式,前者同样可以记录氨基酸序列。
与FASTQ相比,FASTA的格式更加简单,其核心的序列表示块仅包含两部分:序列描述与序列内容,前者以">"开头,后者允许空格与空行的出现,直到下一个">"算作这一段序列的结束。
举例如下:
>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
MADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*
了解更多,看看wikipedia!
FASTA format: https://en.wikipedia.org/wiki/FASTA_format
gff/gtf
基因转移格式GTF (gene transfer format) 是一种用于保存基因结构信息的文件格式,它以固定的格式标记了基因组件在基因组上的坐标。
了解更多,看看Ensembl是怎么说的?
GFF/GTF File Format - Definition and supported options: https://asia.ensembl.org/info/website/upload/gff.html
FASTA文件负责回答“序列是什么”,GFF/GTF文件负责回答“基因组有什么组件,他们在哪里?”
GFF格式的总结如下表:
关于GFF格式第九列的详细描述如下:
GTF文件格式总结如下:
数据库
常见三大基因组数据库: Ensembl、NCBI与UCSC。
三者链接如下:
Ensembel: https://asia.ensembl.org/
NCBI: https://www.ncbi.nlm.nih.gov/
UCSC: https://genome.ucsc.edu/
在Ensembel中可以下载到对应物种的基因组测序文件,如果是转录组文件则要注意从cdna
目录下下载。
注释文件的release版本应当同测序文件一致。
对于不同数据库所提供的基因ID各有其特点,对于Ensembl来说,其基因ID格式为
一般来说人类默认省略物种名。
有关于功能前缀Feature prefixes
的说明:
数据比对
数据比对的过程就好像是“拼图”,只是这个“拼图”是有重叠的那种,我们会将我们测序出来的读段比对到参考基因组上,这样就知道每个读段具体来自于哪个基因的那个片段上。
数据比对主要涉及两个工具: Hisat2和
Hisat2
Hisat2主要用于转录组数据比对,其运行前需要先构建对基因组的索引。
Hisat2 官方网站: https://daehwankimlab.github.io/hisat2/
Hisat2 官方仓库: https://github.com/DaehwanKimLab/hisat2
# 通过conda安装
❯ conda install bioconda::hisat2
# 构建索引
❯ hisat2-build <your_fasta_file> <prefix_for_index_file>
# 进行比对
# 输出文件名一般是.sam结尾
❯ hisat2 -x /path/to/your/index_file_prefix -1 /path/to/your/fastq/file -2 /path/to/your/fastq/file -p <thread_amount> -S /path/to/your/output/file
Hisat2常用参数如下:
由Hisat2可以得到SAM文件,其可以通过samtools
转化为BAM文件(体积更小)