Tento článek není uspokojivě zatříděn do tematických
kategorií.
Je třeba jej zařadit do jedné nebo více
vhodných kategorií. Můžete Wikipedii pomoci tím, že ho vhodně
zařadíte. Inspirovat se můžete u jiných článků s podobným zaměřením.
Mapa aligmentu sekvencí (Sequence Alignment Map; SAM) je textový formát původně pro ukládání biologických sekvencí zarovnaných s referenční sekvencí, který vyvinuli Heng Li, Bob Handsaker a kolektiv. [1] Byl vyvinut, když se projekt 1000 Genomes Project rozhodl opustit formát MAQ mapper a navrhnout nový formát. Celkový charakter formátu odděleného tabulátory (TAB) vychází z dřívějšího formátu inspirovaného PSL od BLAT. Název SAM pochází od Gabora Martha z Utažské univerzity, který původně měl formát se stejným názvem, ale s jinou syntaxí, která se více podobala výstupu BLAST . [2] Je široce používán pro ukládání dat, jako jsou nukleotidové sekvence, generované sekvenčními technologiemi nové generace, a standard byl rozšířen tak, aby zahrnoval i nemapované sekvence. Formát podporuje krátké i dlouhé ready (až 128 Mbp [3]) produkované různými sekvenčními platformami a používá se k uchovávání mapovaných dat v rámci sady nástrojů pro analýzu genomu (GATK) a napříč Broad Institute, Wellcome Sanger Institute a v rámci 1000 Genomes Project .
Formát SAM se skládá ze hlavičky a sekce alignmentu. [1] Binárním ekvivalentem souboru SAM je soubor Binary Alignment Map (BAM), který ukládá stejná data v komprimované binární podobě. [4] Soubory SAM lze analyzovat a upravovat pomocí softwaru SAMtools . [1] Pokud existuje hlavička, musí předcházet sekci alignmentu. Nadpisy začínají symbolem '@', který je odlišuje od sekce alignmentu. Sekce alignmentu má 11 povinných polí a proměnný počet volitelných polí. [1]
Povinná pole
Sloup
|
Pole
|
Typ
|
Stručný popis
|
1
|
QNAME
|
Řetězec
|
Název požadovaného templátu
|
2
|
FLAG
|
Integer
|
Bitový příznak
|
3
|
RNAME
|
Řetězec
|
Název referenční sekvence
|
4
|
POS
|
Integer
|
Počáteční (levá) pozice, číslovaná od 1
|
5
|
MAPQ
|
Integer
|
Kvalita mapování
|
6
|
CIGAR
|
Řetězec
|
CIGAR string
|
7
|
RNEXT
|
Řetězec
|
Referenční název párového/následujícího readu
|
8
|
PNEXT
|
Integer
|
Pozice párového/následujícího readu
|
9
|
TLEN
|
Integer
|
Pozorovaná délka templátu
|
10
|
SEQ
|
Řetězec
|
Sekvence segmentu
|
11
|
QUAL
|
Řetězec
|
ASCII s Phred škálovanou bází QUALity+33
|
Volitelná pole
Podle specifikace volitelných polí pro zarovnání/mapování sekvencí (SAMtags) [5] může mít pole jeden z následujících typů:
Typ může být jeden z A (znak), C (celé číslo 0–255), f (reálné číslo), H (hexadecimální pole), i (celé číslo) nebo Z (řetězec). Může se jednat o jednu hodnotu nebo B (obecné pole).
Související články
- Formát FASTA, používaný k reprezentaci genomových sekvencí
- Formát FASTQ, používaný k reprezentaci čtení sekvencerů DNA spolu se skóre kvality
- Formát GVF (Genome Variation Format), rozšíření založené na formátu GFF3
- Formát BAM
- SAMtools
Reference
V tomto článku byl použit překlad textu z článku SAM (file format) na anglické Wikipedii.
- ↑ a b c d LI, H.; HANDSAKER, B.; WYSOKER, A.; FENNELL, T.; RUAN, J.; HOMER, N.; MARTH, G. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009, s. 2078–2079. Dostupné online. ISSN 1367-4803. doi:10.1093/bioinformatics/btp352. PMID 19505943. Je zde použita šablona
{{Cite journal}}
označená jako k „pouze dočasnému použití“.
- ↑ EDMUNDS, Scott. Play it again, SAMtools. Q&A with the SAMtools team on 12 years of providing bioinformatics "glue" [online]. 2021-02-17. Dostupné online. (anglicky)
- ↑ DÖRPINGHAUS, J.; WEIL, V. Computational Life Sciences: Data Engineering and Data Mining for Life Sciences. [s.l.]: Springer International Publishing, 2023. Dostupné online. ISBN 978-3-031-08411-9.
- ↑ SAM/BAM Format Specification [online]. Dostupné online.
- ↑ Sequence Alignment/Map Optional Fields Specification [online]. Dostupné online.
[[Kategorie:Bioinformatika]]