RICERCA DI PATTERN E DI MOTIVI FUNZIONALI IN SEQUENZE NUCLEOTIDICHE E PROTEICHE

Non ci sono stumenti che possano essere utilizzati indifferentemente per l'analisi di qualsiasi tipo di sequenza nucleotidica. Nello studio dei segnali importanti per l'identificazione di singoli geni, ci sono alcuni punti fondamentali che devono essere considerati:

Spesso per l'analisi di un'unica sequenza di DNA è necessario utilizzare diversi strumenti che utilizzino vari tipi di informazione, perché l'uso di un solo tipo di dati non sarebbe sufficiente a ottenere una predizione sicura della funzione.
  Spesso l'informazione per identificare un segnale in una sequenza di DNA è codificata in una consensus. Talvolta le informazioni vengono invece raccolte in espressioni regolari o in matrici posizionali di peso (PWMs: Position Weight Matrices), matrici in cui viene associato un punteggio proporzionale alla frequenza di ogni nucleotide presente a ogni possibile posizione della sequenza segnale considerata.

Come già visto la maggior parte delle proteine note può essere raggruppata in un numero relativamente limitato di famiglie sulla base della similarità di sequenza. In generale, inoltre, le proteine appartenenti a una stessa famiglia condividono attributi funzionali e/o strutturali derivanti da un progenitore comune. Dallo studio degli allineamenti multipli delle sequenze appartenenti a una stessa famiglia di proteine è evidente che alcune regioni sono più conservate di altre. Queste regioni sono in generale importanti per la funzione o per la struttura di una proteina.
  Inoltre è importante notare che, mentre gli acidi nucleici sono composti da sequenze di 4 caratteri, le sequenze proteiche sono formate da 20 diversi residui aminoacidici. Se ne deduce che motivi proteici, anche corti, hanno un contenuto informazionale sempre maggiore di quello relativo a un motivo di nucleotidi della stessa lunghezza.
  In rete si trova la banca dati PROSITE per l'individuazione di motivi funzionali.

PROSITE è stata a lungo l'unico strumento in grado di stabilire la funzione di una proteina. In Prosite ogni motivo è catalogato insieme con un’approfondita documentazione di carattere bibliografico e a informazioni sulla sensitività e specificità del motivo stesso.
  La banca dati PROSITE contiene motivi codificati in due modi diversi: i pattern e le matrici. I pattern sono motivi definiti con una sintassi riconducibile a espressioni regolari. Le matrici sono invece definite facendo ricorso alle matrici posizionali di peso. La sintassi usata è molto flessibile e consente l'utilizzo di altri descrittori di motivi, compresi gli Hidden Markov Models che saranno trattati nel prossimo paragrafo.


[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39  ]