Share to: share facebook share twitter share wa share telegram print page

SAM (formát souboru)


Mapa aligmentu sekvencí (Sequence Alignment Map; SAM) je textový formát původně pro ukládání biologických sekvencí zarovnaných s referenční sekvencí, který vyvinuli Heng Li, Bob Handsaker a kolektiv. [1] Byl vyvinut, když se projekt 1000 Genomes Project rozhodl opustit formát MAQ mapper a navrhnout nový formát. Celkový charakter formátu odděleného tabulátory (TAB) vychází z dřívějšího formátu inspirovaného PSL od BLAT. Název SAM pochází od Gabora Martha z Utažské univerzity, který původně měl formát se stejným názvem, ale s jinou syntaxí, která se více podobala výstupu BLAST . [2] Je široce používán pro ukládání dat, jako jsou nukleotidové sekvence, generované sekvenčními technologiemi nové generace, a standard byl rozšířen tak, aby zahrnoval i nemapované sekvence. Formát podporuje krátké i dlouhé ready (až 128 Mbp [3]) produkované různými sekvenčními platformami a používá se k uchovávání mapovaných dat v rámci sady nástrojů pro analýzu genomu (GATK) a napříč Broad Institute, Wellcome Sanger Institute a v rámci 1000 Genomes Project .

Formát

Formát SAM se skládá ze hlavičky a sekce alignmentu. [1] Binárním ekvivalentem souboru SAM je soubor Binary Alignment Map (BAM), který ukládá stejná data v komprimované binární podobě. [4] Soubory SAM lze analyzovat a upravovat pomocí softwaru SAMtools . [1] Pokud existuje hlavička, musí předcházet sekci alignmentu. Nadpisy začínají symbolem '@', který je odlišuje od sekce alignmentu. Sekce alignmentu má 11 povinných polí a proměnný počet volitelných polí. [1]

Povinná pole

Sloup Pole Typ Stručný popis
1 QNAME Řetězec Název požadovaného templátu
2 FLAG Integer Bitový příznak
3 RNAME Řetězec Název referenční sekvence
4 POS Integer Počáteční (levá) pozice, číslovaná od 1
5 MAPQ Integer Kvalita mapování
6 CIGAR Řetězec CIGAR string
7 RNEXT Řetězec Referenční název párového/následujícího readu
8 PNEXT Integer Pozice párového/následujícího readu
9 TLEN Integer Pozorovaná délka templátu
10 SEQ Řetězec Sekvence segmentu
11 QUAL Řetězec ASCII s Phred škálovanou bází QUALity+33

Volitelná pole

Podle specifikace volitelných polí pro zarovnání/mapování sekvencí (SAMtags) [5] může mít pole jeden z následujících typů: Typ může být jeden z A (znak), C (celé číslo 0–255), f (reálné číslo), H (hexadecimální pole), i (celé číslo) nebo Z (řetězec). Může se jednat o jednu hodnotu nebo B (obecné pole).

Související články

  • Formát FASTA, používaný k reprezentaci genomových sekvencí
  • Formát FASTQ, používaný k reprezentaci čtení sekvencerů DNA spolu se skóre kvality
  • Formát GVF (Genome Variation Format), rozšíření založené na formátu GFF3
  • Formát BAM
  • SAMtools

Reference

V tomto článku byl použit překlad textu z článku SAM (file format) na anglické Wikipedii.

  1. a b c d LI, H.; HANDSAKER, B.; WYSOKER, A.; FENNELL, T.; RUAN, J.; HOMER, N.; MARTH, G. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009, s. 2078–2079. Dostupné online. ISSN 1367-4803. doi:10.1093/bioinformatics/btp352. PMID 19505943. 
  2. EDMUNDS, Scott. Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" [online]. 2021-02-17. Dostupné online. (anglicky) 
  3. DÖRPINGHAUS, J.; WEIL, V. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. [s.l.]: Springer International Publishing, 2023. Dostupné online. ISBN 978-3-031-08411-9. 
  4. SAM/BAM Format Specification [online]. Dostupné online. 
  5. Sequence Alignment/Map Optional Fields Specification [online]. Dostupné online. 

[[Kategorie:Bioinformatika]]

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia

Kembali kehalaman sebelumnya