BLAST
BLAST (Basic Local Alignment Search Tool) è un programma per la ricerca rapida di similarità di sequenza in banche dati di DNA e proteine, sviluppato e successivamente migliorato da Altschul e da altri ricercatori del NCBI a partire dal 1990. Come FASTA, anche BLAST si basa sull'indicizzazione di parole, ma i due programmi differiscono sia per il contenuto degli indici, sia per il modo di procedere dopo avere trovato parole comuni.
L'algoritmo può essere diviso in tre parti.
- Creazione di un elenco di parole creato leggendo a una a una tutte le parole di lunghezza W della sequenza query. Per ogni parola della sequenza query viene generata una lista di parole affini (chiamate W-mers) che producono uno score maggiore di una soglia T quando sono allineati con la parola della sequenza query. Tutti questi W-mers sono inseriti nell'elenco.
- Analisi di tutte le sequenze della banca dati ricercando la presenza dei W-mers corrispondenti esattamente alle parole della lista prodotta dall'analisi della sequenza query. Ogni corrispondenza trovata (hit) potrebbe rappresentare una porzione di un possibile allineamento più esteso e viene pertanto considerata come tale.
- Verifica della possibilità di estendere ogni hit. Questo processo è svolto cercando di estendere l'allineamento in entrambe le direzioni, senza considerare la possibilità di inserire gap. In questo modo si ottiene un segmento di allineamento locale, non ulteriormente estendibile, che viene definito High-scoring Segment Pair (HSP). Il parametro S definisce una soglia di score, sopra la quale un HSP viene ritenuto degno di attenzione.

Procedura di BLAST
I parametri principali usati dall'algoritmo di BLAST sono quattro: W, T, S e X. Particolarmente importanti sono W e T perchè determinano la grandezza della lista di W-mers.
Un aspetto molto importante di BLAST deriva dalla sua base statistica estremamente solida che consente di produrre una stima accurata del significato di ogni allineamento. Il parametro T è generalmente impostato automaticamente dal programma.

Principali risorse disponibili in rete