Nell'evoluzione dei progetti genomici si è diffusa la tendenza a raggruppare le categorie di dati biologici in omics e in tale contesto è inserito il trascrittoma, ossia l'insieme di tutti i trascritti di un dato organismo ottenuti attraverso il sequenziamento dei cDNA completi o delle EST (Expressed Sequenze Tags), sequenze parziali che consentono di caratterizzare i cloni di cDNA, etichettandoli con le rispettive sequenze terminali. Si stanno così realizzando i database del trascrittoma o comunque database associati ai dati del trascrittoma. Fra i database del trascrittoma vi è dbEST che è stato realizzato per raccogliere le EST prodotte per ciascun gene.
Nella banca dati dbEST, intorno alla metà del 2002, erano registrate più di 12 milioni di EST, appartenenti a oltre 400 organismi diversi. Soltanto le EST umane superavano i 4,5 milioni, mentre quelle di topo superavano i 2,5 milioni. Assumendo che i geni umani siano circa 35000, ogni gene umano dovrebbe essere rappresentato in media oltre 120 volte. In realtà alcuni geni sono rappresentati molto più di altri geni ed è probabile che alcuni geni umani non siano ancora stati identificati come EST. Il clustering di EST ha lo scopo di raggruppare (in inglese to cluster) tutte le EST appartenenti allo stesso gene.
Per eseguire il clustering di EST non si possono dare delle regole generali o dei programmi pronti da eseguire. Il problema sta nel fatto che ogni progetto di clustering è in qualche modo diverso dagli altri; nei casi più complessi il clustering può essere realizzato a partire da tutte le sequenze note di trascritti di un determinato organismo, mentre nei casi più semplici è limitato a piccoli progetti di EST di organismi precedentemente ignorati dal punto di vista molecolare.
Uno dei problemi generali più difficili da risolvere riguarda i criteri secondo cui due sequenze debbano essere poste in uno stesso cluster piuttosto che in due cluster diversi.
Algoritmi di clustering
Gli algoritmi di clustering possono essere divisi in
Metodi Gerarchici. La classificazione gerarchica è semplice e facile da interpretare. Esso è un metodo agglomerativo e, quindi, parte con un numero di cluster pari al numero totale di geni per raggrupparli successivamente in base al grado di similarità. I punti principali sono i seguenti:
Metodi non-gerarchici. Se si è in grado di avere delle informazioni a priori sul numero finale di possibili cluster allora i metodi non-gerarchici possono essere una valida alternativa ai metodi gerarchici. Gli algoritmi di analisi non-gerarchica cercano di raggruppare gli elementi in modo tale che siano il più possibile omogenei all’interno dei cluster e il più possibile disomogenei tra i vari cluster. Non viene inoltre prodotto alcun albero come risultato. I passi principali sono: