Variant Call Format
Das Variant Call Format (VCF) ist ein wichtiges Text-Format in der Bioinformatik zur Speicherung von Gensequenz-Variationen. Das Format wurde mit dem Aufkommen von groß angelegten Genotypisierungs- und DNA-Sequenzierungs-Projekten, wie dem 1000-Genome-Projekt, entwickelt. Andere Formate für genetische Daten wie das General feature format (GFF) speicherten alle genetischen Daten, von denen viele redundant sind, da sie über die Genome hinweg gemeinsam genutzt werden. Bei Verwendung des Variant-Call-Formats müssen nur die Variationen zusammen mit einem Referenzgenom gespeichert werden. Die neuste Version des Standards ist derzeit 4.3[1][2]. Version 4.4 ist aktuell in Entwicklung[3]. Es gibt auch ein Genomic VCF (gVCF) erweitertes Format, das zusätzliche Informationen über "Blöcke", die mit der Referenz übereinstimmen, und deren Qualitäten enthält.[4] Für die Bearbeitung und Manipulation der Dateien steht eine Reihe von Tools zur Verfügung.[5] [6] Aufbau des VCF-HeaderDer Header beginnt die Datei und enthält Metadaten, die den Hauptteil der Datei beschreiben. Header-Zeilen werden als mit # beginnend gekennzeichnet. Spezielle Schlüsselwörter im Header werden mit ## gekennzeichnet. Empfohlene Schlüsselwörter sind fileformat, fileDate und reference. Der Header enthält Schlüsselwörter, die optional semantisch und syntaktisch die im Körper der Datei verwendeten Felder beschreiben, insbesondere INFO, FILTER und FORMAT (siehe unten). Aufbau des VCF-BodyDer Body einer VCF folgt auf die Kopfzeile und ist durch Tabulatoren in 8 Pflichtspalten und eine unbegrenzte Anzahl von optionalen Spalten unterteilt, die zur Aufzeichnung anderer Informationen über die Probe(n) verwendet werden können. Wenn zusätzliche Spalten verwendet werden, wird die erste optionale Spalte verwendet, um das Format der Daten in den folgenden Spalten zu beschreiben.
Beispiel##fileformat=VCFv4.2 ##FILTER=<ID=PASS,Description="All filters passed"> ##samtoolsVersion=1.12+htslib-1.12 ##samtoolsCommand=samtools mpileup -d 250 -ugf Homo_sapiens.GRCh37.dna.primary_assembly.gz read.sorted.bam ##reference=file:Homo_sapiens.GRCh37.dna.primary_assembly.gz ##contig=<ID=1,length=249250621> ##contig=<ID=10,length=135534747> ##contig=<ID=11,length=135006516> ##contig=<ID=12,length=133851895> ##contig=<ID=13,length=115169878> ##contig=<ID=14,length=107349540> ##ALT=<ID=*,Description="Represents allele(s) other than observed."> ##INFO=<ID=INDEL,Number=0,Type=Flag,Description="Indicates that the variant is an INDEL."> ##INFO=<ID=RPB,Number=1,Type=Float,Description="Mann-Whitney U test of Read Position Bias (bigger is better)"> ##INFO=<ID=MQB,Number=1,Type=Float,Description="Mann-Whitney U test of Mapping Quality Bias (bigger is better)"> ##INFO=<ID=MQ0F,Number=1,Type=Float,Description="Fraction of MQ0 reads (smaller is better)"> ##FORMAT=<ID=PL,Number=G,Type=Integer,Description="List of Phred-scaled genotype likelihoods"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##bcftools_callVersion=1.12+htslib-1.12 ##bcftools_callCommand=call -vmO z -o 'variants.vcf.gz' 'read.pileup'; Date=Sun May 27 15:04:45 2021 #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT read.sorted.bam 3 10035634 . C T 35.3302 . DP=16;VDB=0.907611;SGB=-0.636426;RPB=0.966012;MQB=0.428703;BQB=0.0628765;MQ0F=0;AC=1;AN=2;DP4=7,0,7,0;MQ=49 GT:PL 0/1:68,0,85 3 10035648 . G A 43.0805 . DP=17;VDB=0.539658;SGB=-0.636426;RPB=0.887766;MQB=0.621145;BQB=0.708895;MQ0F=0;AC=1;AN=2;DP4=10,0,7,0;MQ=54 GT:PL 0/1:76,0,114 3 10035654 . C A 42.1818 . DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0253122;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57 GT:PL 0/1:75,0,98 3 10035655 . A G 42.1042 . DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0292791;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57 GT:PL 0/1:75,0,105 3 10035685 . T C 57.2592 . DP=28;VDB=0.877004;SGB=-0.680642;RPB=0.877755;MQB=0.933359;BQB=0.0384;MQ0F=0;AC=1;AN=2;DP4=16,0,12,0;MQ=58 GT:PL 0/1:90,0,109 3 10035697 . G A 67.1854 . DP=29;VDB=0.67865;SGB=-0.676189;RPB=0.923174;MQB=1;BQB=0.628158;MQ0F=0;AC=1;AN=2;DP4=17,0,11,0;MQ=60 GT:PL 0/1:100,0,122 3 10035774 . A G 27.9794 . DP=49;VDB=0.245012;SGB=-0.692976;RPB=0.976675;MQB=3.31401e-07;BQB=1.09401e-05;MQ0F=0.0204082;AC=1;AN=2;DP4=22,0,26,0;MQ=37 GT:PL 0/1:61,0,112 3 10035778 . AAGTCT A 70.9586 . INDEL;IDV=24;IMF=0.5;DP=48;VDB=0.14127;SGB=-0.692914;MQ0F=0.0208333;AC=1;AN=2;DP4=21,0,25,0;MQ=35 GT:PL 0/1:105,0,255 3 10037079 . T C 58.4147 . DP=26;VDB=0.120141;SGB=-0.692976;MQ0F=0.0769231;AC=2;AN=2;DP4=0,0,26,0;MQ=12 GT:PL 1/1:88,78,0 3 10044262 . G A 23.0139 . DP=5;VDB=0.309755;SGB=-0.511536;RPB=0.333333;MQB=1;BQB=0;MQ0F=0;AC=1;AN=2;DP4=2,0,3,0;MQ=60 GT:PL 0/1:56,0,26 Einzelnachweise
|