În bioinformatică , asamblarea constă în alinierea și / sau fuzionarea fragmentelor de ADN sau ARN dintr-o secvență mai lungă pentru a reconstitui secvența originală. Aceasta este o etapă de analiză in silico care urmărește secvențierea ADN-ului sau ARN-ului unui singur organism, al unei colonii de clone (bacteriene de exemplu) sau chiar a unui amestec complex de organisme .
Problema asamblării poate fi comparată cu cea a reconstituirii textului unei cărți din mai multe exemplare ale acesteia, anterior mărunțite în bucăți mici.
Strategiile de asamblare pot fi organizate în 3 paradigme principale .
Din punct de vedere istoric, prima strategie de asamblare, aceasta constă în efectuarea sistematică a celei mai bune alegeri disponibile, fără posibilitatea reconsiderării acestei alegeri ulterior. Principalul dezavantaj al acestei strategii este că duce la optima locală fără a lua în considerare relația globală dintre fragmente. Majoritatea ansamblor lacomi folosesc euristica pentru a evita asamblarea proastă a secvențelor repetate. Majoritatea ansamblorilor timpurii, cum ar fi Phrap sau TIGR, se bazează pe această paradigmă, precum și pe unele instrumente mai recente, cum ar fi VCAKE.
Această strategie de asamblare are loc în 3 etape:
O variantă a acestei strategii constă în eliminarea legăturilor tranzitive din graficul suprapus pentru a construi un grafic șir .
Această paradigmă a fost popularizată în special de lucrarea lui Gene Myers integrată în ansamblul Celera. Asamblatorii de acest tip au dominat lumea asamblării până la apariția noilor tehnologii de secvențiere (NGS). Acestea din urmă se caracterizează prin producerea unei cantități foarte mari de fragmente mici (de la câteva zeci la câteva sute de nucleotide ), iar limitele de calcul ale abordării OLC au făcut dificilă aplicarea acestei strategii la datele moderne de secvențiere. Recent, ansamblorul SGA a introdus o nouă abordare mai eficientă, bazată pe structuri eficiente pentru indexarea șirurilor.
De Bruijn graph- asamblorii pe baza modelului relația dintre subșirurile exacte extrase din fragmente de secventiere. Într-un grafic De Bruijn, nodurile sunt cuvinte de dimensiunea k (k-mers), iar muchiile sunt suprapuse de dimensiunea k-1 între k-mers. De exemplu, cele 5 mări ACTAG și CTAGT împărtășesc exact 4 litere. Fragmentele nu sunt modelate direct în această paradigmă, ci sunt reprezentate implicit de căi în graficul De Bruijn.
Întrucât ansamblurile bazate pe această paradigmă se bazează pe identificarea suprapunerilor exacte, acestea sunt deosebit de sensibile la prezența erorilor de secvențiere. Prin urmare, aceste metode necesită utilizarea secvențierii pașilor de corectare a erorilor înainte și în timpul asamblării pentru a realiza ansambluri de înaltă calitate.
Această abordare a fost popularizată de asamblorul Euler și apoi a dominat lumea asamblării moderne a datelor de secvențiere a fragmentelor scurte, cu instrumente precum Velvet, SOAPdenovo și ALLPATHS.
Numele de familie | Tip | Tehnologii | Autor | Publicat / Ultima actualizare | Licență* | Site |
---|---|---|---|---|---|---|
Abis | (mari) genomi | Solexa, SOLiD | Simpson, J. și colab. | 2008/2014 | NC-A | legătură |
ALLPATHS-LG | (mari) genomi | Solexa, SOLiD | Gnerre, S. și colab. | 2011 | OS | legătură |
AMOS | genomi | Sanger, 454 | Salzberg, S. și colab. | 2002? / 2011 | OS | legătură |
Arapan-M | genomi medii (de exemplu, E.coli) | Toate | Sahli, M. și Shibuya, T. | 2011/2012 | OS | legătură |
Arapan-S | (mici) genomi (viruși și bacterii) | Toate | Sahli, M. și Shibuya, T. | 2011/2012 | OS | legătură |
Celera WGA Assembler / CABOG | (mari) genomi | Sanger, 454, Solexa | Myers, G. și colab.; Miller G. și colab. | 2004/2015 | OS | legătură |
CLC Genomics Workbench & CLC Assembly Cell | genomi | Sanger, 454, Solexa, SOLiD | CLC organic | 2008/2010/2014 | VS | legătură |
Cortex | genomi | Solexa, SOLiD | Iqbal, Z. și colab. | 2011 | OS | legătură |
ADN Baser Assemble | (mici) genomi | Sanger, 454 | Heracle BioSoft SRL | 06.2015 | VS | legătură |
Dragonul ADN | genomi | Illumina, SOLiD, Genomică completă, 454, Sanger | SequentiX | 2011 | VS | legătură |
DNAnexus | genomi | Illumina, SOLiD, Genomică completă | DNAnexus | 2011 | VS | legătură |
Edena | genomi | Illumina | D. Hernandez, P. François, L. Farinelli, M. Osteras și J. Schrenzel. | 2008/2013 | OS | legătură |
Euler | genomi | Sanger, 454 (Solexa?) | Pevzner, P. și colab. | 2001/2006? | (C / NC-A?) | legătură |
Euler-sr | genomi | 454, Solexa | Chaisson, MJ. și colab. | 2008 | NC-A | legătură |
Fermi | (mari) genomi | Illumina | Li, H. | 2012 | OS | legătură |
Forja | (mari) genomi, EST, metagenomi | 454, Solexa, SOLID, Sanger | Platt, DM, Evers, D. | 2010 | OS | legătură |
Genios | genomi | Sanger, 454, Solexa, Ion Torrent, Complete Genomics, PacBio, Oxford Nanopore, Illumina | Biomatters Ltd. | 2009/2013 | VS | legătură |
Constructor grafic | (mari) genomi | Sanger, 454, Solexa, SOLiD | Convey Computer Corporation | 2011 | VS | legătură |
IDBA (Iterative De Bruijn graph short read Assembler) | (mari) genomi | Sanger, 454, Solexa | Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin | 2010 | (C / NC-A?) | legătură |
LIGR Assembler (derivat din TIGR Assembler) | genomi | Sanger | - | 2009/2012 | OS | legătură |
MaSuRCA (Maryland Super Read - Celera Assembler) | (mari) genomi | Sanger, Illumina, 454 | Aleksey Zimin, Guillaume Marçais, Daniela Puiu, Michael Roberts, Steven L. Salzberg, James A. Yorke | 2012/2013 | OS | legătură |
MIRA (Mimicking Intelligent Read Assembly) | genomi, EST-uri | Sanger, 454, Solexa | Chevreux, B. | 1998/2014 | OS | legătură |
NextGENe | (genomi mici?) | 454, Solexa, SOLiD | Softgenetică | 2008 | VS | legătură |
Newbler | genomi, EST-uri | 454, Sanger | 454 / Stâncă | 2009/2012 | VS | legătură |
PADENA | genomi | 454, Sanger | 454 / Stâncă | 2010 | OS | legătură |
PAŞĂ | (mari) genomi | Illumina | Liu, Schmidt, Maskell | 2011 | OS | legătură |
Phrap | genomi | Sanger, 454, Solexa | Verde, P. | 1994/2008 | C / NC-A | legătură |
TIGR Asamblați | genomi | Sanger | - | 1995/2003 | OS | „ Link ” ( Arhivă • Wikiwix • Archive.is • Google • Ce să faci? ) |
Ray | genomi | Illumina, amestec de Illumina și 454, asociat sau nu | Sébastien Boisvert, François Laviolette și Jacques Corbeil. | 2010 | OS [GNU General Public License] | legătură |
Sequencher | genomi | date secvențiale tradiționale și de generația următoare | Gene Codes Corporation | 1991/2009/2011 | VS | legătură |
SeqMan NGen | (mari) genomi, exomi, transcriptomi, metagenomi, EST | Illumina, ABI SOLiD, Roche 454, Ion Torrent , Solexa, Sanger | DNASTAR | 2007/2014 | VS | legătură |
SGA | (mari) genomi | Illumina, Sanger (Roche 454?, Ion Torrent?) | Simpson, JT și colab. | 2011/2012 | OS | legătură |
SHARCGS | (mici) genomi | Solexa | Dohm și colab. | 2007/2007 | OS | legătură |
SOPRA | genomi | Illumina, SOLiD, Sanger, 454 | Dayarian, A. și colab. | 2010/2011 | OS | legătură |
SparseAsemble | (mari) genomi | Illumina, 454, torentul Ion | Voi, C. și colab. | 2012/2012 | OS | legătură |
SSAKE | (mici) genomi | Solexa (SOLiD? Helicos?) | Warren, R. și colab. | 2007/2014 | OS | legătură |
SOAPdenovo | genomi | Solexa | Li, R. și colab. | 2009/2013 | OS | legătură |
PICĂ | (mici) genomi, unicelulari | Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore | Bankevich, A și colab. | 2012/2015 | OS | legătură |
Pachetul Staden gap4 | BAC (, genomi mici?) | Sanger | Staden și colab. | 1991/2008 | OS | legătură |
Taipan | (mici) genomi | Illumina | Schmidt, B. și colab. | 2009/2009 | OS | legătură |
VCAKE | (mici) genomi | Solexa (SOLiD?, Helicos?) | Jeck, W. și colab. | 2007/2009 | OS | legătură |
Fusion asambla | (mari) genomi | Sanger | Mullikin JC și colab. | 2003/2006 | OS | legătură |
SRA cu valoare de calitate (QSRA) | genomi | Sanger, Solexa | Bryant DW și colab. | 2009/2009 | OS | legătură |
Catifea | (mici) genomi | Sanger, 454, Solexa, SOLiD | Zerbino, D. și colab. | 2007/2011 | OS | legătură |
Canu | genomi | PacBio, Oxford Nanopore | Koren, S. și colab. | 2017/2018 | OS | legătură |
* Licențe: OS = Open Source; C = Comercial; C / NC-A = Comercial, dar gratuit pentru necomercial și academic; Paranteze = probabil C / NC-A |