Banche dati di sequenze
proteiche
Le banche dati proteiche sono il secondo grande aggregato di dati biologici. Esse raccolgono sia sequenze proteiche ottenute dalla sperimentazione della sequenza amminoacidica, sia dalla traduzione di nucleotidiche. Qui si trovano i dati estratti dalle banche dati di acidi nucleici relativi a proteine che vengono poi accuratamente validati e arricchiti di informazioni specifiche.
Le banche dati di sequenze proteiche più importanti sono la SWISSPORT, la
TREMBL e la PIR
La PIR, Protein Information Resource è sviluppata in collaborazione fra due grossi
centri: la Georgetown University negli USA e il MIPS a Monaco di Baviera.
Questa è una banca dati valida per il livello di annotazioni e il livello di aggiornamento ma è poco integrata con altre banche dati.
La SWISSPORT è la banca dati di proteine di riferimento per tutti gli studi correlati in silicio di proteine e patterns proteici.E' sviluppata in Svizzera a Ginevra dal gruppo di Amos Bairoch che afferisce all’istituto nazionale SIB.
La entry in SWISSPORT differisce per quella in EMBL soprattutto per le features che in questo caso descrivono la presenza nella proteina di amminoacidi modificati, regioni peptidiche, domini strutturali, siti di splicing proteici, polimorfismi e altri segnali e dati rilevanti per la struttura della proteina.
C’è grande cura per l’annotazione del nome della proteina ma un problema è che spesso allo stesso gene vengono dati nomi differenti, rendendo difficile la ricerca per nome del gene.
Per risolvere il problema è stato costituito un consorzio: Gene Ontology (GO). Sul sito del consorzio è disponibile un dizionario con tutti i nomi dei geni.
In SWISSPROT sono riportate anche le informazioni relative ad alterazioni della proteina.; tali informazioni derivano da
OMIM (On-line Mendelian Inheritance in Man).
L’aggiornamento di SWISSPROT avviene tramite l’EBI dove viene sviluppata un’altra banca dati di proteine, TREMBL, che altro non è che il risultato della traduzione automatica in amminoacidi di tutte le sequenze annotate nella banca dati EMBL come sequenze codificanti di proteine. Una parte di queste sequenze costituisce la SPTREMBL che si occupa delle proteine immunologiche,la REMTREMBL invece si occupa delle proteine brevettate e a frammenti non caratterizzanti.
Se si vuole consultare contemporaneamente SWISSPROT e SPTREMBL si fa riferimento a SWALL che è una raccolta di sequenze proteiche ridondante e non accurata in tutti i suoi elementi