LE MATRICI BLOSUM

Le matrici BLOSUM furono introdotte nel 1992 da S. Henikoff e J.G. Henikoff per attribuire un punteggio alle sostituzioni nei confronti tra sequenze aminoacidiche. Il loro scopo era quello di sostituire la matrice di Dayhoff con un'altra che permettesse di identificare meglio le sequenze scarsamente correlate, facendo uso della quantità molto maggiore di dati che si era resa disponibile successivamente al lavoro della Dayhoff.
  Le matrici BLOSUM sono basate sulla banca dati BLOCKS, che contiene una collezione di allineamenti multipli di segmenti proteici senza gap. Ogni blocco di allineamenti contiene sequenze con un numero di aminoacidi identici superiore ad una certa percentuale P. Da ognuno di questi blocchi è possibile ricavare la frequenza relativa di sostituzione degli aminoacidi, la quale può essere utilizzata per calcolare una matrice di log-odds scores applicando gli stessi criteri adottati per le matrici PAM. Ne risulta la seguente formula con la probabilità di sostituzione B(a,b) osservata nei BLOCKS al posto della probabilità M(a,b) calcolata a partire dalla matrice PAM 1.

CALCOLO DI UNA MATRICE BLOSUM

s(a,b) = int[kxlog(B(a,b)/C(a,b))]

dove int sta per intero del valore ottenuto moltiplicando per k il logaritmo decimale del rapporto fra B(a,b) e C(a,b).

M(a,b) è la frequenza di sostituzione dell’amminoacido a nell’amminoacido b, osservata nei blocchi di proteine omologhe considerate.

C(a,b) è la frequenza di sostituzione attesa, stimata come prodotto delle frequenze degli amminoacidi a e b nella totalità dei blocchi di proteine omologhe considerate.


[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39  ]