ANALISI DEL TRASCRITTOMA E DEL PROTEOMA
Clustering e assemblaggio di sequenze di trascritti
Per eseguire il clustering di EST non si possono dare regole generali o dei programmi pronti da eseguire. Il problema sta nel fatto che ogni progetto di clustering è in qualche modo diverso dagli altri; nei casi più complessi il clustering può essere realizzato a partire da tutte le sequenze note di trascritti di un determinato organismo, mentre nei casi più semplici è limitato a piccoli progetti di EST di organismi precedentemente ignorati dal punto di vista molecolare.
Uno dei problemi generali più difficili da risolvere riguarda i criteri secondo cui due sequenze debbano essere poste in uno stesso cluster piuttosto che in due cluster diversi.
Algoritmi di clusterig
Gli algoritmi di clusterig possono essere divisi in
- Gerarchici - Non è necessaria nessuna informazione a priori sui dati e il risultato dell’algoritmo è una serie di cluster
- Non-Gerarchici - Cercano di raggruppare gli elementi in un numero predefinito k di gruppi, senza specificare alcuna relazione tra di essi
Metodi Gerarchici: Sono semplici e facili da interpretare. Esso è un metodo agglomerativo e, quindi, parte con un numero di cluster pari al numero totale di geni per raggrupparli successivamente in base al grado di similarità. Esso si articola nel seguente modo
- Calcolo di una matrice di distanze a coppie in cui il numero di righe e di colonne è pari al numero di geni e ogni cella rappresenta la distanza tra i due rispettivi geni;
- Individuazione della coppia di geni di cluster più simili per raggrupparli in un unico cluster; nel caso di più di una coppia di geni/cluster con lo stesso grado di similarità delle procedure standard scelgono la coppia da prendere;
- Aggiornamento della matrice di distanza a coppie;
- Ripetizione della procedura dal punto2, finché no si ottiene un unico cluster contenente tutti gli elementi.
Metodi non-gerarchici: cercano di raggruppare gli elementi in modo tale che siano il più possibile omogenei all’interno dei cluster e il più possibile disomogenei tra i vari cluster. Non viene prodotto alcun albero come risultato. I passi principali sono:
- Tutti gli elementi sono assegnati casualmente nei k cluster definiti a priori;
- È calcolato un vettore di espressione media per ogni cluster e quindi è generata una matrice di distanze a coppie tra tutti i k cluster, sulla base di questo vettore medio la matrice di distanza a coppie è ricalcolata e aggiornata;
- Con un processo iterativo gli elementi sono spostati tra un cluster e l’altro, a ogni spostamento è calcolata la distanza tra l’elemento spostato e il nuovo cluster, l’elemento può rimanere nel nuovo cluster solo se la sua distanza con il vettore medio del nuovo cluster è minore di quella con il vecchio cluster;
- Ripetizione della procedura dal punto 2, finché gli spostamenti non generino ulteriori variabilità intra- o inter-cluster.