O superfamilie sau superfamilie proteică este cea mai mare grupare ( cladă ) de proteine pentru care este posibil să se identifice un strămoș comun prin omologie . Acest strămoș comun este de obicei dedus de alinierea structurală (en) și asemănarea mecanică, chiar și atunci când nu este detectabilă nicio asemănare între secvențe . Superfamilii conțin de obicei mai multe familii de proteine cu asemănări de secvență în acele familii. Termenul de clan este adesea folosit pentru superfamilii peptidazei în conformitate cu clasificarea lor MEROPS .
Mai multe metode fac posibilă identificarea super-familiilor de proteine.
Din punct de vedere istoric, observarea asemănărilor dintre mai multe secvențe de aminoacizi a fost cea mai comună metodă de a deduce existența omologiei între proteine . Similaritatea dintre secvențe este considerat a fi un bun indicator al înrudire între proteine , deoarece aceste similitudini sunt mai susceptibile de a fi rezultatul suprapunerii a genelor urmate de evoluție divergență , mai degrabă decât să fie rezultatul evoluției convergente. . Secvența de aminoacizi este în general mai bine conservată decât secvența ADN a genelor datorită degenerării codului genetic , făcându-l o metodă de detectare mai sensibilă. Înlocuirea unui aminoacid cu altul având proprietăți similare (dimensiune, sarcină electrică, caracter hidrofil sau hidrofob în special) nu are, în general, niciun efect asupra funcției unei proteine, astfel încât secvențele cele mai bine conservate corespund regiunilor care sunt funcționale critice pentru o proteină, cum ar fi situsurile de legare și situsul activ al unei enzime , deoarece aceste regiuni sunt mai puțin tolerante la modificările secvenței.
Cu toate acestea, utilizarea similarității secvențiale pentru a deduce omologia evolutivă are mai multe limitări. Nu există un nivel minim de similaritate între secvențe care să garanteze că structurile produse vor fi identice. După perioade lungi de evoluție, proteinele înrudite pot să nu mai prezinte asemănări secvențiale detectabile între ele. Secvențele cu multe inserții și ștergeri pot fi, de asemenea, dificil de aliniat, ceea ce face dificilă identificarea regiunilor omoloage corespunzătoare. Astfel, în clanul PA (en) al peptidazelor , niciunul dintre reziduuri nu este conservat în cadrul superfamiliei, nici măcar cele din triada catalitică . În schimb , familiile care constituie super-familii sunt definite pe baza alinierii secvenței lor , așa cum este cazul familiei C04 a clanului PA.
Cu toate acestea, similitudinea secvențială rămâne metoda cea mai utilizată pentru a determina relațiile dintre proteine, deoarece numărul secvențelor cunoscute este mult mai mare decât numărul structurilor terțiare cunoscute. Permite în special definirea contururilor super-familiilor în absența informațiilor structurale.
Structurile sunt mult mai conservate decât secvențele din timpul evoluției, astfel încât proteinele cu structuri extrem de similare pot avea secvențe complet diferite. După perioade lungi de evoluție, foarte puține reziduuri sunt reținute, în timp ce elementele structurale secundare și motivele structurale terțiare rămân foarte conservate. Modificările conformaționale pot fi, de asemenea, conservate, așa cum se observă în superfamilia serpină . În consecință, structura terțiară poate face posibilă detectarea omologiei între proteine chiar și atunci când nu mai rămâne între ele o omologie structurală.
Dintre algoritmi de aliniere structurală (în), cum ar fi DALI, compară structura tridimensională a proteinelor cu o anumită proteină pentru a identifica pliuri similare.
Cu toate acestea, în cazuri rare, proteinele evoluează în așa fel încât să nu mai prezinte nici similitudine secvențială, nici structurală, iar omologia lor poate fi dedusă doar folosind alte metode.
Mecanismul de reacție a enzimatic cataliză este , în general conservat într - un superfamiliei deși specificitatea spre substraturile pot varia considerabil. Reziduuri Catalizatorul tind să apară în aceeași ordine în secvența de proteine . Astfel, în peptidazele din clanul PA (en) toate folosesc același mecanism catalitic în ciuda evoluției lor divergente , care a modificat chiar și reziduurile lor triada catalitică . Cu toate acestea, existența unei similitudini mecanice nu este suficientă pentru a deduce o relație de rudenie între proteine în măsura în care anumite mecanisme catalitice pot rezulta dintr-o evoluție convergentă care a avut loc independent în momente diferite; astfel de enzime sunt aranjate în acest caz în superfamilii distincte.
Superfamilii de proteine reprezintă limitele actuale ale capacității noastre de a ne întoarce la strămoșii comuni. Acestea sunt cele mai largi grupări de proteine pe care în prezent este posibil să le stabilim pe baza asemănărilor directe. Prin urmare, ele fac posibilă întoarcerea la cele mai vechi stadii de evoluție pe care este posibil să le studieze. Unele dintre acestea sunt prezente în toate regatele vii , indicând faptul că datează cel puțin de la ultimul strămoș comun universal ( LUCA ).
Proteinele aceleiași super-familii pot fi găsite la diferite specii , forma ancestrală a acestor proteine fiind în acest caz cea a speciilor ancestrale comune tuturor acestor specii: în acest caz este vorba de o relație de ' ortologie ; pe de altă parte , ele pot fi găsite în cadrul aceluiași organism și, în acest caz, provin de la o singură proteină a cărei genă a evoluat prin duplicare în cadrul genomului : în acest caz este vorba de o relație de paralogie .
Majoritatea proteinelor conțin mai multe domenii . Aproximativ 66% până la 80% din proteinele eucariote au domenii multiple, în timp ce aproximativ 40% până la 60% din proteinele procariote au domenii multiple. Multe superfamilii de domenii proteice au ajuns să se amestece de-a lungul timpului, deci este foarte rar să găsești superfamilii care sunt încă izolate. Cu toate acestea, numărul de combinații de domenii observate în natură rămâne redus în comparație cu numărul de combinații posibile, ceea ce sugerează că selecția acționează asupra tuturor combinațiilor.