BANCHE DATI PRIMARIE E BANCHE DATI SPECIALIZZATE

Le banche dati primarie (o banche dati di sequenze di acidi nucleici) contengono solo informazioni molto generiche che vengono associate ad una sequenza per poterla identificare dal punto di vista specie-funzione.

Le banche dati primarie sono tre:

La EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio europeo di biologia molecolare di Heidelberg (Germania). La GenBank è la corrispondente banca dati americana costituita nel 1982 e la DDBJ è la corrispondente Giapponese.
  Le banche dati primarie vengono aggiornate continuamente, attraverso internet, sia da ricercatori, che producono nuove sequenze, sia da annotatori reclutati dai centri di raccolta dei dati, anche se quest’ultimi forniscono un apporto minore.
  Precedentemente abbiamo scritto che le informazioni contenute nelle banche dati primarie sono molto generiche, quindi è possibile trovare delle ridondanze delle informazioni, ossia le sequenze vengono immesse più volte, e ciò implica che le statistiche effettuate sono poco attendibili. Per far fronte a questo inconveniente viene applicato il software CleanUP che genera un insieme di sequenze non ridondanti.
  Oltre alle banche dati primarie vi sono numerosissime banche dati specializzate (o banche dati sequenze proteiche) che raccolgono sia sequenze proteiche ottenute dalla determinazione sperimentale della sequenza amminoacidica, sia sequenze proteiche derivate dalla traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la funzione di gene codificante per una proteina. I dati estratti dalle banche dati primarie relativi a proteine vengono accuratamente validati e arricchiti di informazioni specifiche.

Le banche dati specializzate sono tre:

La SWISSPROT è sviluppata in Svizzera a Ginevra dal gruppo di Amos Bairoch che afferisce all'istituto nazionale SIB e che ha sviluppato numerose altre banche dati, tutte integrate fra loro. Grande cura in SWISSPROT è posta all'annotazione del nome della proteina e al codice del relativo gene anche se a tal proposito vi è il problema della nomenclatura dei geni e delle proteine. Numerosissimi sono i casi in cui a uno stesso gene in specie diverse viene attribuito un nome differente e anche diversi sono i casi di geni aventi lo stesso nome pur svolgendo una differente funzione. Per ovviare a questo problema è stato costituito un consorzio da parte dei gruppi coinvolti nei progetti genomici per realizzare Gene Ontology (GO), un vocabolario controllato descrittivo delle funzioni molecolari, dei processi biologici e delle localizzazioni cellulari relative a ciascun gene e al suo prodotto.
  La banca dati SWISSPROT è aggiornata dal gruppo svizzero in collaborazione con l'EBI dove viene sviluppata un'altra banca dati di proteine, TREMBL, risultato della traduzione automatica in amminoacidi di tutte le sequenze annotate nella banca dati EMBL come sequenze codificanti proteine. La PIR (Protein Information Resource) è sviluppata in collaborazione fra due grossi centri: la Georgetown University negli USA e il MIPS a Monaco di Baviera. La PIR è senz'altro una banca dati valida dal punto di vista della qualità delle annotazioni e del livello di aggiornamento dei dati ma è poco integrata con le altre banche dati biologiche.


[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39  ]