Biologia Molecolare

BANCHE DATI DEL TRASCRITTOMA

Nell'evoluzione dei progetti genomici si è diffusa la tendenza a raggruppare le categorie di dati biologici in omics e in tale contesto è inserito il trascrittoma, ossia l'insieme di tutti i trascritti di un dato organismo ottenuti attraverso il sequenziamento dei cDNA completi o delle EST (Expressed Sequenze Tags), sequenze parziali che consentono di caratterizzare i cloni di cDNA, etichettandoli con le rispettive sequenze terminali. Si stanno così realizzando i database del trascrittoma o comunque database associati ai dati del trascrittoma. Fra i database del trascrittoma vi è dbEST che è stato realizzato per raccogliere le EST prodotte per ciascun gene.
  Nella banca dati dbEST, intorno alla metà del 2002, erano registrate più di 12 milioni di EST, appartenenti a oltre 400 organismi diversi. Soltanto le EST umane superavano i 4,5 milioni, mentre quelle di topo superavano i 2,5 milioni. Assumendo che i geni umani siano circa 35000, ogni gene umano dovrebbe essere rappresentato in media oltre 120 volte. In realtà alcuni geni sono rappresentati molto più di altri geni ed è probabile che alcuni geni umani non siano ancora stati identificati come EST. Il clustering di EST ha lo scopo di raggruppare (in inglese to cluster) tutte le EST appartenenti allo stesso gene.
  Per eseguire il clustering di EST non si possono dare delle regole generali o dei programmi pronti da eseguire. Il problema sta nel fatto che ogni progetto di clustering è in qualche modo diverso dagli altri; nei casi più complessi il clustering può essere realizzato a partire da tutte le sequenze note di trascritti di un determinato organismo, mentre nei casi più semplici è limitato a piccoli progetti di EST di organismi precedentemente ignorati dal punto di vista molecolare.
  Uno dei problemi generali più difficili da risolvere riguarda i criteri secondo cui due sequenze debbano essere poste in uno stesso cluster piuttosto che in due cluster diversi.

Algoritmi di clustering

Gli algoritmi di clustering possono essere divisi in

Gerarchici - Non è necessaria alcuna informazione a priori sui dati di espressione e il risultato dell’algoritmo è una serie annidata di gruppi (o cluster);
Non-Gerarchici - Cercano di raggruppare gli elementi (in questo caso i geni) in un numero predefinito k di gruppi, senza specificare alcuna relazione tra di essi.

Metodi Gerarchici. La classificazione gerarchica è semplice e facile da interpretare. Esso è un metodo agglomerativo e, quindi, parte con un numero di cluster pari al numero totale di geni per raggrupparli successivamente in base al grado di similarità. I punti principali sono i seguenti:

calcolo di una matrice di distanze a coppie in cui il numero di righe e di colonne è pari al numero di geni e ogni cella rappresenta la distanza tra i due rispettivi geni;
individuazione della coppia di geni o di cluster più simili per raggrupparli in un unico cluster; nel caso di più di una coppia di geni/cluster con lo stesso grado di similarità delle procedure standard scelgono la coppia da prendere;
aggiornamento della matrice di distanza a coppie;
ripetizione della procedura dal punto 2, finché non si ottiene un unico cluster (la radice dell'albero) contenente tutti gli elementi.

Metodi non-gerarchici. Se si è in grado di avere delle informazioni a priori sul numero finale di possibili cluster allora i metodi non-gerarchici possono essere una valida alternativa ai metodi gerarchici. Gli algoritmi di analisi non-gerarchica cercano di raggruppare gli elementi in modo tale che siano il più possibile omogenei all’interno dei cluster e il più possibile disomogenei tra i vari cluster. Non viene inoltre prodotto alcun albero come risultato. I passi principali sono:

tutti gli elementi sono assegnati casualmente nei k cluster definiti a priori;
è calcolato un vettore di espressione media per ogni cluster e quindi è generata una matrice di distanze a coppie tra tutti i k cluster, sulla base di questo vettore medio la matrice di distanza a coppie è ricalcolata e aggiornata;
con un processo iterativo gli elementi sono spostati tra un cluster e l’altro, a ogni spostamento è calcolata la distanza tra l’elemento spostato e il nuovo cluster, l’elemento può rimanere nel nuovo cluster solo se la sua distanza con il vettore medio del nuovo cluster è minore di quella con il vecchio cluster;
ripetizione della procedura dal punto 2, finché gli spostamenti non generino ulteriori variabilità intra- o inter-cluster.