常见序列文件格式的后缀名是(生信分析必须了解的4种文件格式)

Posted

篇首语:愚昧从来没有给人带来幸福;幸福的根源在于知识。本文由小常识网(cha138.com)小编为大家整理,主要介绍了常见序列文件格式的后缀名是(生信分析必须了解的4种文件格式)相关的知识,希望对你有一定的参考价值。

常见序列文件格式的后缀名是(生信分析必须了解的4种文件格式)

在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
+
IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
  • 第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

  • 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

  • 第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
    第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')

sam格式介绍

sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。

第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;

VCF文件格式介绍

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
8.INFO

文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1



相关参考

文件后缀名格式不显示(文件扩展名怎么显示)

...“此电脑”,点击菜单栏的“查看”按钮,勾选右侧的“文件扩展名”选项即可。win7或xp系统:打开桌面上的“我的电脑”,依次点击菜单栏的“工具”-“文件夹选项”。在弹出的文件夹选项窗口,点击“查看”选项卡,找到...

格式印刷(平面设计常见的图片格式)

平面设计零基础自学视频教程(部分精选)JPEG是JointPhotographicExpertsGroup(联合图像专家组)的缩写,文件后缀名为“.jPg”或“.jeg”,是最常用的图像文件格式,由一个软件开发联合会组织制定,是一种有损压缩格式,能够将图像压缩...

文件格式后缀名怎么显示(办公小技巧:如何将图片文件被隐藏的扩展名全部显示出来?)

应用场景下图为一个名为"图片"的文件夹,文件夹中有两张格式不同的熊猫图片,但是目前两张图片的文件扩展名均被隐藏,我们要怎样将扩展名显示出来方便查看呢?操作步骤(以win7系统为例)1、在熊猫图片所在的文...

文件名exe是什么意思啊(电脑文件后缀名即扩展名大全)

...列:A开头:ACE:Ace压缩档案格式;ACT:Microsoftoffice助手文件;AIF,AIFF:音频互交换文件,SiliconGraphicandMacintosh应用程序

文件格式错误(格式会影响论文查重结果吗?)

...测没有任何影响,其实这种认知是错误的,但查重报告中常见的

常见网址格式(一个小技巧,教你国际邮箱格式怎么写才能获得用户?)

向国外发邮件时,因为邮件格式不正式导致客户忽略自己的邮件,导致客户流失,无法签单,让人痛心疾首。接下来小编教你专业的国际邮箱格式怎么写,为什么那么多外贸企业用TOM企业邮箱。国际邮箱格式怎么写?以TOM企业邮...

ape是什么格式

1、APE是Monkey\'sAudio的扩展名,这是一种常见的无损音频压缩编码格式。与有损音频压缩(如MP3、Ogg或者AAC等)不同的是,Monkey\'sAudio压缩时不会丢失数据。一个压缩为Monkey\'sAudio的音频文件听起来与原文件完全一样。2、该格式和M...

无损格式哪个音质最好(如何区分音乐质量的好坏?一分钟,教你如何从音频格式看音乐等级)

...有什么不同呢?我们一起来了解一下。1、【MP3】我们最常见的应该就是MP3格式了,常见的MP3是属于损失音频格式,它是以换掉音乐文件质量去换取一些比较小的文件体积,这种压缩形式称为【MPEGAudioLayer3】它的简称就我们平时...

常见三维模型文件格式(PPT导入3D模型损坏,ppt具体支持哪些3D格式呢?)

我们知道2017年11月微软提升了office系列软件的性能,其中包括平滑、缩放功能,和导入3D模型功能。这让我们熟悉的PPT变得更有趣,同时也让广大PPT设计者们痛并快乐。很多人试用后表示,很多3D模型拖进PPT里会丢失表面纹理贴...

文件类型文件(第二十六章 Bat文件)

第二十六章Bat文件bat文件是dos下的批处理文件。批处理文件是无格式的文本文件,它包含一条或多条命令。它的文件扩展名为.bat或.cmd。在命令提示下输入批处理文件的名称,或者双击该批处理文件,系统就会调用cmd.exe按照该文...