Introduzione

Il sequenziamento del patrimonio genetico di alcuni organismi, principalmente quello umano, assieme allo sviluppo e ai progressi nei metodi e nelle tecnologie di analisi, hanno aperto nuovi scenari conferendo alle proteine un ruolo sempre più importante suscitando un interesse sempre maggiore presso la comunità scientifica internazionale rendendo necessaria la nascita di un’ontologia che permettesse di riferirsi al nuovo campo di ricerca: la proteomica.
La proteomica è una disciplina scientifica che studia il proteoma, essa mira ad identificare le proteine ed ad associarle con uno stato fisiologico in base all’alterazione del livello di espressione fra controllo e trattato. Permette di correlare il livello di proteine prodotte da una cellula o tessuto e l’inizio o la progressione di uno stato di stress.
La proteomica assieme alla genomica, ricoprono un ruolo fondamentale nella ricerca biomedica e, in futuro, avrà un impatto significativo sullo sviluppo dei sistemi diagnostici debellando patologie quali il morbo di Alzheimer e le neoplasie.
Questo elaborato ha il fine di trattare le tecniche di laboratorio e gli algoritmi di programmazione dinamica fondamentali della proteomica ovvero verranno introdotte le varie tecniche per l’identificazione e il sequenziamento delle proteine e gli algoritmi associate ad esse per il raggiungimento dell’obiettivo.
Ci si soffermerà sulla tecnica della spettrometria di massa il cui risultato è uno spettro e sugli algoritmi di programmazione dinamica in grado di sequenziare ed identificare le proteine partendo proprio da esso; più precisamente saranno dunque affrontati la problematica del sequenziamento di un peptide (proteina) partendo da uno spettro e gli algoritmi di supporto per l’identificazione delle proteine mediante ricerca su database compreso le varie soluzioni da adottare per una migliore efficienza.
All’interno dell’elaborato stesso sarà possibile reperire una panoramica sulle proteine che metterà a fuoco alcuni aspetti di biologia che saranno utili per chi non ha tali basi, ma trascurabili per gli "addetti ai lavori", si è pensato quindi di suddividere l’elaborato in sette sezioni che sono:

Introduzione
Le proteine
Tecniche di laboratorio
Problemi computazionali
Conclusioni
Glossario
Bibliografia

Le prima sezione presenta al lettore per grandi linee cosa si accingerà a leggere e come è strutturato complessivamente l’elaborato, la seconda sezione è una breve introduzione al mondo delle proteine che può servire a chi si avvicina per la prima volta a questo argomento.
Le sezioni "Tecniche di laboratorio" e "Problemi computazionali" costituiscono la parte principale dell’elaborato, la prima tratta delle varie tecniche applicate nei laboratori per l’identificazione e sequenziamento delle proteine ed è divisa in otto sottosezioni (una costituisce l'introduzione alle tecniche, le altre costituiscono le diverse tecniche).
Nella sezione "Problemi computazionali" vengono trattati gli algoritmi utili al sequenziamento e all’identificazione delle proteine mettendo a fuoco le problematiche legati ad essi, tale sezione è stata suddivisa in quattro parti.
Le conclusioni forniscono una sintesi di tutto l’elaborato più le considerazioni finali ed infine, le ultime due sezioni vengono fornite per dare un aiuto e ulteriori riferimenti al navigatore.

In fase di stesura sono state seguite le seguenti regole che è utile sapere per una corretta navigazione e comprensione del testo:

Testo rosso per evidenziare le sezioni principali
Testo blu per evidenziare le sottosezioni
Testo blu sottolineato per collegamento al glossario o a wikipedia
Nella sezione bibliografia testo blu per evidenziare link esterni

E possibile accedere direttamente alle varie sottosezioni dell’elaborato mediante il click sulle voci che si trovano sulla sinistra.

Il sito è stato ottimizzato per una risoluzione 800*600, è possibile che con risoluzioni maggiori alcune immagini possano risultare non leggibili, per tali foto è possibile ottenere un ingrandimento cliccandoci sopra.

E’ indispensabile attivare javascript.

Le proteine

Introduzione alle proteine
Le proteine costituiscono il 50% della composizione di una cellula.
Sono tutte costituite da:

carbonio;
idrogeno;
azoto;
ossigeno.

Alcune invece presentano lo zolfo.
Altre presentano il ferro, lo zinco, il fosforo.

La proteina è una sostanza fondamentale per gli organismi viventi, animali o vegetali ed formata da parti più piccole chiamate amminoacidi.
Gli amminoacidi sono dei composti, costituiti essenzialmente di carbonio ed ossigeno, sono circa una ventina e possono essere sintetizzati dal nostro organismo oppure introdotti con la dieta.
Dal punto di vista chimico, un amminoacido si rappresenta con un carbonio centrale, detto carbonio alpha ed attorno a questo carbonio ci sono tutta una serie di gruppi chimici, tra cui due fissi che sono -COOH e -NH₂ (vedi figura 1).

img. non disp.

Figura 1 - Struttura chimica di un amminoacido, "R1" ed "R2" sono gruppi chimici diversi o uguali tra loro e che distinguono un amminoacido da un altro.

La composizione chimica di un amminoacido influenza la natura della proteina in quanto l’amminoacido è un suo composto essenziale.

Gli amminoacidi si classificano in base ai gruppi "R" in:

Polari (costituiti da una certa affinità per l’acqua)
Apolari (mancata affinità per l’acqua)
Carichi positivamente (se presentano una carica positiva)
Carichi negativamente (se presentano una carica negativa)
Aromatici (se hanno un gruppo benzenico)

Una caratteristica importante è che gli amminoacidi si possono legare tra loro, attraverso un legame forte definito legame peptidico.
Questo tipo di legame si forma tra il gruppo -NH₂ e -COOH di due amminoacidi adiacenti. L’ insieme di più amminoacidi costituisce un peptide. Più peptidi formano un polipeptide ossia una proteina per cui polipeptide è un sinonimo di proteina. Talvolta può capitare di leggere davanti al nome di un amminoacido la lettera L oppure D ad indicare che quel amminoacido appartiene alla serie LEVOGIRA (ossia quelli che hanno il gruppo -NH₂ sulla sinistra) oppure DESTROGIRA (quelli col gruppo -NH₂ sulla destra) ad esempio: L-alanina oppure D-alanina. Le proteine possono contenere solo L-amminoacidi, quelli della serie D sono presenti in cellule di alcuni batteri; affinché si possano ottenere delle strutture stabili come quelle delle proteine è necessario che gli amminoacidi siano tutti della stessa serie.

Le proteine sono tutte diverse tra loro. Si differenziano per:

composizione chimica
peso
tipo di amminoacido che la compongono

esse derivano da un lungo processo, chiamato sintesi proteica, che vede la partecipazione del Dna (acido deossiribonucleico), una molecola caratterizzata da unità fondamentale chiamata gene il quale è responsabile della trasmissione dei caratteri ereditari. Il compito del gene è quello di codificare un’intera sequenza di amminoacidi. Tuttavia un gene non costituisce direttamente una proteina, il collegamento tra proteine e geni è rappresentato dall’acido ribonucleico, o meglio conosciuto come RNA.

Figura 2 - Sintesi proteica: le varie fasi (clicca sull’immagine per ingrandire)

Per quanto riguarda la sintesi proteica è importante sapere che essa è rappresentata da due fasi in particolare:

trascrizione (si svolge nel nucleo e porta alla formazione del RNA)
traduzione (si svolge nel citosol e il risultato è una proteina)

quello descritto sino ad ora rappresenta secondo i biologi il dogma fondamentale e viene riassunto con:

DNA-> RNA ->PROTEINA

Una proteina viene classificata:

In base alla sua funzione (può essere di sostegno, trasporto, protettrice...)
In base alla sua costituzione:
- semplice: se è costituita solo da aminoacidi
- complessa: presenta altri composti oltre agli aminoacidi

Struttura delle proteine
Le proteine possono avere livelli strutturali diversi, e per questo distinguersi in:

struttura primaria: costituita da una sequenza lineare
struttura secondaria: quando la struttura è caratterizzata da una torsione
struttura terziaria: rappresenta l’ulteriore ripiegamento della proteina fino a formare delle strutture tridimensionali prodotte a causa delle interazioni tra i vari amminoacidi posti in punti diversi.
struttura quaternaria: quando più strutture terziarie si intrecciano.

Esempi:

Figura 3 - Le strutture delle proteine (clicca sull’immagine per ingrandire)

Esistono due varianti della struttura secondaria:

alpha elica
foglietto beta

Si dice alpha elica perché è la più semplice disposizione che possa assumere una catena di polipeptidi ed ha forma elicoidale:

alfa elica

Figura 4 - Variante alpha elica, si noti la forma elicoidale

per riportarla nel quotidiano, l’elica è la tipica struttura della proteina che compone i nostri capelli.
La seconda variante viene chiamata foglietto beta poiché la struttura assume una conformazione di una fisarmonica a zig zag con un angolo di circa 120°.
Questa è la tipica struttura che ritroviamo nella seta:

beta

Figura 5 - Variante foglietto beta, struttura della seta

Le proteine sono strutturate in un certo modo tanto che si può parlare di conformazione, con tale termine si intente l’organizzazione strutturale che può subire modifiche senza che si abbia la rottura dei legami, tuttavia tra le tante forme che una proteina può assumere, una in particolare è quella maggiormente stabile dal punto di vista energetico. Questo tipo di conformazione viene detta nativa. Per giunta quando si parla di stabilità di una proteina ci si riferisce alla tendenza a mantenere la conformazione nativa. Un esempio di proteina stabile è l’alpha elica e il foglietto beta.

Affinché una proteina conservi la sua stabilità e quindi la sua conformazione nativa sono necessarie una serie di interazioni chimiche, chiamate interazioni deboli, che essendo tantissime si sommano, predominano e stabilizzano la proteina.

Poiché la struttura di una proteina è legata alla sua funzione ciò implica che un’alterazione della struttura provocherà anche un’ alterazione nella funzione che viene definita denaturazione.
Denaturazione non necessariamente vuol dire che la proteina ha perso la sua struttura, ma semplicemente che non si è avvolta correttamente. Le cause che provocano la denaturazione sono:

Calore
Ambienti molto acidi
Acetone

Tuttavia ci sono batteri resistenti alle alte temperature, che sopravvivono fino ai 100°C, mentre altri batteri che strutturalmente non differiscono molto da questi, sono invece sensibilissimi alle temperature troppo elevate. Questo serve a testimoniare che basta una piccolissima variazione, anche di un solo amminoacido per poter ottenere una variazione di funzionalità.
Questo processo è reversibile perché tutte le informazioni necessarie di una struttura proteica sono contenute nella sequenza di amminoacidi.

Tecniche di laboratorio

Introduzione
La proteomica si pone molteplici obiettivi tra i quali troviamo quello dell’identificazione e del sequenziamento delle proteine. L’identificazione è una metodica che permette di identificare le proteine, il sequenziamento è una procedura che ha come scopo di determinare l’esatta sequenza peptidica (l’ordine esatto delle proteine).
Per raggiungere tali obiettivi si avrà prima la necessità di separare le proteine al fine di determinarne in dettaglio le proprietà chimico-fisiche e la loro composizione amminoacidica. A breve saranno introdotte le diverse tecniche utilizzate nei laboratori:

Elettroforesi
Cromatografia su colonna
- LC (cromatografia liquida)
  - HPLC (High Performance Liquid Chromatography)
  - TLC (Thin Layer Chromatography)
- GC (cromatografia gassosa)
- Cromatografia a scambio ionico
Spettrometria di massa (metodi di ionizzazione)
- MALDI MS
- ESI MS
- Tandem MS (MS/MS)
Sequenziamento automatizzato

La prima tecnica si pone l’obiettivo di separare le proteine che compongono l’elemento da analizzare al fine di poterle poi successivamente identificare con una delle varie tecniche quali la cromatografia (nelle sue diverse varianti) o spettrometria di massa (nelle sue varianti). Il sequenziamento automatizzato consente poi di determinare l’esatta sequenza delle proteine che compongono un composto.

Elettroforesi
E’ metodo per la separazione delle proteine, in pratica poiché ogni proteina ha una propria carica elettrica, si sfrutta questa proprietà e la si fa migrare in un campo elettrico. Questo è tuttavia un metodo poco utilizzato, ma che risulta molto vantaggioso quando si vuole stabilire il numero di proteine oppure si vogliono conoscere determinate proprietà fisiche come ad es. il punto isoelettrico o la massa molecolare.
Meccanismo d’azione: questo tipo di analisi viene effettuata utilizzando degli opportuni gel come ad esempio il gel di poliacrilamide. In cima al gel vengono posti campioni di proteine da analizzare, le quali penetrano nel gel non appena viene applicato un campo elettrico. Le proteine migrano in zone differenti del gel secondo il loro peso. La visualizzazione delle proteine può avvenire utilizzando un colorante, impermeabile al gel così si potrà vedere come ogni banda sul gel appartiene ad una proteina diversa, in pratica quelle più piccole si muovono più velocemente rispetto alle più grandi che si trovano più vicine al fondo.

elettroforesi

Figura 6 - Il risultato proveniente dalla tecnica dell’elettroforesi, con la lettera C sono contrassegnate le proteine di un cane, con la lettera U sono contrassegnate le proteine di un umano

Cromatografia su colonna:
La cromatografia su colonna sfrutta le differenze:

di dimensioni
di carica
l’affinità di legame con altre proteine.

La cromatografia è un metodo che ci consente di separare, identificare i componenti all’interno di una miscela.
Distinguiamo:

una fase stazionaria, ossia una fase immobile all’interno di una colonna cromatografica
una fase mobile, ossia una fase che si muove lungo la colonna, attraversando la fase stazionaria, e trasportando con sé l’elemento da analizzare, definito analita.

La fase mobile può essere:

liquida
gassosa

e quindi si hanno due distinte tecniche cromatografiche:

LC, ossia cromatografia liquidaa
GC, ossia gas cromatografia

Il meccanismo d’azione è il seguente: la soluzione contenente l’ analita, in questo caso sono proteine, viene posta alla superficie della colonna, i vari componenti si distribuiscono tra le due fasi, fin quando la frazione di sostanza disciolta migrerà lungo la colonna, secondo le varie proprietà e capacità di agire con la fase stazionaria. In particolare, le proteine con carica positiva migreranno più lentamente se instaureranno delle interazioni con la fase stazionaria. o vice versa. Alla fine della colonna, verrà posto un rivelatore, in grado di indicare in funzione del tempo, i vari stadi di fuoriuscita del soluto dalla colonna.

Figura 7 - Rappresentazione di una colonna di scorrimento nelle sue fasi.

L’efficienza della colonna cromatografica viene indicata dalla banda cromatografica, in particolare:

l’ampiezza delle curve che si formano
la separazione delle varie curve le une dalle altre.

Maggiore è l’ampiezza del picco, minore sarà l’efficienza della colonna utilizzata.
L’allargamento della banda cromatografica può essere dato da una serie di fattori, tra cui:

percorsi multipli: in pratica, alcune molecole seguono percorsi tortuosi, lunghi rispetto ad altre che invece seguono percorsi più lineari. Questo genera una differenza nel passaggio all’interno di una colonna. Questo tipo di inconveniente può essere ovviato utilizzando particelle piccole.
diffusione longitudinale: legata al fatto che ci sono differenze di concentrazione all’interno del liquido,ragion per cui alcune molecole di soluto tenderanno a diffondersi da zone a maggiore concentrazione a zone a minore.
trasferimenti di massa in fase mobile: indicano che il fluido vicino alle particelle si muove con una velocità differente rispetto al fluido posto al centro della corrente di fluidi.

HPLC
Una variante della tecnica cromatografica, può essere l’HPLC (cromatografia liquida ad alta prestazione).
Questo tipo di cromatografia, impiega una fase mobile liquida ed una fase stazionaria che può essere un gel di silice. Si utilizzano pompe ad alta pressione, che spingono la fase mobile attraverso le colonne contenenti il gel di silice, ed anche in questo caso alla fine della colonna ci sarà un rivelatore pronto a segnalare i vari stadi di espulsione del nostro soluto.

colonna

Figura 8 - Le colonne utilizzate nella tecnica dell’HPLC

hplc

Figura 9 - Uno schema di funzionamento dell’HPLC, con la sigla LQ viene indicato il laser, la sigla D contrassegna il rilevatore

TLC
Altra tecnica cromatografia liquida è la TLC (cromatografia su strato sottile).
Questo tipo di tecnica è praticata su una lastrina di vetro. Essa viene posta all’interno di un barattolo, il quale è rivestito di carta da filtro (o altro materiale sottile) ed è completamente inumidito con un solvente che rappresenta la fase stazionaria (questa può essere gel di silice, anche se per l’identificazione dei peptidi si preferisce il gel di silice ODS). Il solvente ha come caratteristica principale quella di risalire lungo la lastrina per effetto capillare; il metodo più comune è quello di immergere un’estremità della lastrina nel solvente, posizionare una goccia di analita ad un bordo della lastrina, segnando la posizione con una matita. Il solvente sale per evaporazione lungo la lastrina, la lastrina è allontanata dal contenitore, marcata, con opportuno rivelatore, ed essiccata. Il campione che fuoriesce per primo è quello che ha composizione chimica diversa dal solvente, mentre il campione che è ultimo, sarà quello con le stesse caratteristiche e quindi viene maggiormente trattenuto. Dopo l’allontanamento dal solvente, le posizioni degli amminoacidi vengono valutate spruzzando sulla lastrina un reagente che forma con gli amminoacidi un prodotto colorato da rosa a porpora chiamato ninidrina. Le macchie vengono identificate, confrontando la loro posizione con quella standard.

tlc

Figura 10 - Rappresentazione di una separazione per cromatografia su strato sottile. L’immagine a sinistra rappresenta la situazione iniziale, quella a destra rappresenta la fine della separazione

tlc

Figura 11 - Risultato finale della TLC (separazione dei componenti di una goccia di inchiostro nero per TLC)

Cromatografia a scambio ionico
Questo tipo di cromatografia si basa sul principio di attrazione di ioni di carica opposta. Molti composti organici, come ad esempio gli amminoacidi, possono avere parti della molecola polari favorendo quindi la loro separazione tramite questo metodo. La carica netta che questi composti presentano dipende dal loro pK e dal pH della soluzione.
Come nella normale cromatografia abbiamo una colonna cromatografica impaccata con uno speciale tipo di resina in grado di scambiare ioni. Esistono due tipi di resine: scambiatrici anioniche e scambiatrici cationiche. Queste ultime possiedono gruppi carichi negativamente e attraggono, quindi, molecole cariche positivamente.
Molti scambiatori ionici sono costituiti da polimeri di stirene e di divinilbenzene (polistirene). Il polistirene essendo un polimero lineare è solubile in numerosi solventi. Condensando invece stirene con divinilbenzene si ottengono polimeri con legami crociati e quindi insolubili. più è alto il numero di legami crociati maggiore sarà la capacità di trattenere composti ad alto peso molecolare.
Alla lunga queste colonne devono essere rigenerate e di solito si usano sali in grado di creare composti più stabili con gli ioni in colonna, in questo modo si rigenera la resina (di solito si usa cloruro di sodio).
E’ un metodo che ci permette di separare molto semplicemente ioni. E’ molto utile per la purificazione di campioni analitici poiché, ad esempio, potremmo aver bisogno di analizzare un anione in una matrice di cationi.

Spettrometria di massa (e cenni di spettroscopia)
Tra le varie tecniche oltre a quelle viste fino ad ora che ci permettono di visualizzare la struttura delle proteine, una particolarmente usata è la spettroscopia di massa che è fondata sugli studi sulla spettroscopia.
In fisica e chimica fisica la spettroscopia è lo studio degli spettri associati all’emissione o all’assorbimento di radiazione elettromagnetica da parte di nuclei, atomi, molecole. La spettroscopia costituisce un potente strumento di analisi chimica poiché ogni elemento chimico, e in generale ogni sostanza, presenta uno spettro caratteristico che fornisce informazioni dettagliate e precise sulla sua struttura o sulla sua composizione.

Associando una radiazione elettromagnetica ad una determinata lunghezza d’onda possiamo avere:

Onde Radio
Radiazioni MICROONDE in grado di provocare una rotazione delle molecole.
Radiazioni INFRAROSSE in grado di provocare la vibrazione delle molecole.
Radiazioni VIS/UV (visibile/ultravioletto) in cui le molecole, passano da una stato di energia basso ad uno più alto.
Radiazioni RAGGI X in grado di rompere i legami che compongono le molecole.
Radiazioni RAGGI GAMMA prodotte da radioattività o da altri processi nucleari subatomici

Tipo di radiazione elettromagnetica Frequenza Lunghezza d’onda

Onde radio < 3 GHz > 10 cm

Microonde 3 GHz – 300 GHz 10 cm – 1 mm

Infrarossi 300 GHz – 428 THz 1 mm – 700 nm

Luce visibile 428 THz – 749 THz 700 nm – 400 nm

Ultravioletti 749 THz – 30 PHz 400 nm – 10 nm

Raggi X 30 PHz – 300 EHz 10 nm – 1 pm

Raggi gamma > 300 EHz < 1 pm

Tabella 1 - Classificazione delle onde elettromagnetiche.

Foto 12 - La figura mostra le diverse classi di onde elettromagnetiche ordinate per la loro lunghezza d’onda. Il dettaglio raffigura il campo delle onde visibili all’occhio.

La spettroscopia sfrutta la caratteristica delle molecole organiche ed inorganiche di assorbire la luce, questo è possibile grazie ad alcuni gruppi funzionali. Si deve premettere che determinati composti per poter assorbire nell’ultravioletto e nel visibile (UV\VIS) devono possedere una struttura elettronica eccitabile, mentre le regioni ultraviolette e visibili devono possedere l’ energia necessaria per poter spostare gli elettroni di questi composti. La struttura eccitabile è affidata proprio a quei gruppi funzionali, di cui sopra, chiamati cromofori. L’eccitazione di questi elettroni, vengono studiate attraverso gli spettri di assorbimento. Lo spettro di assorbimento è un diagramma cartesiano, in cui sono messe a paragone un fascio di radiazioni che diminuisce di intensità, con i vari parametri di un’onda elettromagnetica. Un’onda elettromagnetica è rappresentata dalla:

LUNGHEZZA D’ONDA( la distanza tra due punti massimi, indicata con λ in foto)
FREQUENZA (il numero di oscillazioni compiute dall’onda al secondo)
AMPIEZZA (la distanza cioè dal picco dell’onda alla base)

onda elettromagnetica

Figura 13 - schematizzazione di un’onda elettromagnetica non polarizzata che si propaga lungo l’asse t. Come si può notare questa è un fenomeno generatosi dalla sovrapposizione degli effetti di due campi, il campo elettrico E e il campo magnetico B. Con λ viene indicata la lunghezza d’onda

Lo strumento di cui ci si serve per poter misurare l’assorbimento della luce è chiamato spettrofotometro. Nel nostro caso i risultati che ci vengono forniti servono ad identificare e valutare la concentrazione delle nostre proteine in una soluzione. Quando facciamo passare un fascio di luce attraverso una soluzione di concentrazione "c" e di spessore "b" l’intensità del fascio di luce diminuisce perché essa viene assorbito. Questa relazione è rappresentata della Legge di Lambert e Beer: essa presuppone che la luce incidente sia parallela e monocromatica e che la concentrazione della soluzione sia bassa, poiché ad alte concentrazioni si ha un avvicinamento tra le particelle, che genera delle interazioni che sono in grado di modificare la capacità di assorbimento ad una data lunghezza d’onda. A= a*b*c dove "A" sta per attenuazione del raggio. Quello che abbiamo fino ad ora descritto è un modello di uno spettrofotometro:

spettrofotometro

Figura 14 - Modello di uno spettrofotometro

Per la spettroscopia di massa gli analiti vengono dapprima ionizzati in fase gassosa in modo che introdotti in un campo elettrico possano raggiungere una certa velocità, questa operazione può essere effettuata mediante diverse tecniche: l’espulsione di elettroni (genera uno ione-radicale, ossia una molecola caricata elettronicamente che presenta un solo elettrone spaiato rendendo la particella estremamente reattiva), la protonazione, la deprotonazione, la cationizzazione. Le molecole così ionizzate sono instabili e si frammentano in ioni più leggeri secondo schemi tipici in funzione della loro struttura chimica, le molecole caricate vengono poi esaminate attraverso un analizzatore cioè entrano in un dispositivo capace di separare gli ioni in funzione del loro rapporto massa/carica (m/z), infine viene utilizzato un rilevatore: si tratta generalmente di dinodo, cioè un moltiplicatore elettronico capace di amplificare la debolissima corrente prodotta dagl’ioni che hanno superato l’analizzatore. I segnali ottenuti in questo modo vengono poi trasmessi ad un calcolatore in grado, con l’opportuno software, di rappresentare l’abbondanza di ogni ione in funzione della sua massa, cioè lo spettro di massa finale. Gli spettri vengono normalmente rappresentati come istogrammi che riportano l’abbondanza di ogni ione in funzione della sua massa, ipotizzando ragionevolmente che tutti gli ioni prodotti dall’analisi abbiano carica singola. Le abbondanze vengono riportate come rapporto rispetto al picco base, che è il picco più abbondante osservato nello spettro. Tale normalizzazione permette di avere spettri che sono funzione solamente dell’analita e delle condizioni di analisi. Il picco base non sempre coincide con il picco genitore, che è invece il picco che corrisponde alla molecola ionizzata e che consente di stabilire quindi il peso molecolare dell’analita. In genere, più uno ione molecolare è stabilizzato (per effetto induttivo o per risonanza, maggiore è la sua probabilità di giungere intatto al rivelatore, maggiore quindi sarà la sua abbondanza. Dall’abbondanza del picco genitore è possibile già ipotizzare a quale classe di composti appartenga l’analita. Nel caso della ionizzazione da impatto a medie energie si ha:

dallo 0 al 10% circa: alcani lineari, alogenuri alchilici, esteri, alcoli, acidi carbossilici
dal 10% al 50% circa: alcheni, polieni coniugati, aldeidi, chetoni, eteri
dal 50% circa al 100%: composti aromatici, cicloalcani, mercaptani

Qualora si desideri aumentare l’abbondanza del picco genitore, occorre o ridurre l’energia impiegata nella ionizzazione da impatto o ricorrere a tecniche di ionizzazione più soft quali la ionizzazione chimica o di campo. L’immagine seguente tenta di schematizzare tutto il processo della spettroscopia di massa:

spettrometria

Figura 15 - Schema della spettroscopia di massa, l’analita passerà dapprima in una camera di ionizzazione, poi in due settori (analizzatore) ed infine mediante l’uso del rivelatore di ioni saranno percepite le sue caratteristiche. Questa procedura genererà uno spettro di massa (istogramma)

C’è da aggiungere che questa tecnica inizialmente non veniva applicata alle proteine poiché le misure di m/z venivano effettuate nella fase gassosa e siccome sia il riscaldamento sia gli altri trattamenti per portare la molecola in fase gassosa erano in grado di decomporla si è preferito introdurre due nuove tecniche per ovviare al problema:

MALDI MS (MATRIX ASSISTED LASER DESORPTION IONIZATION MASS SPECTROMETRY)
ESI MS (ELECTROSPRAY IONIZATION MASS SPECTROMETRY)

Nella prima tecnica le proteine sono poste in una sostanza, come il glicerolo, che assorbe luce (chiamata matrice). Con un impulso breve di luce laser (luce UV), le proteine si staccano da questa matrice ed aumentano la loro velocità e sono rilasciate in sistema sotto vuoto, che rappresenta un analizzatore. Questo metodo è molto utilizzato per studiare la massa di moltissime macromolecole.

Figura 16 - Schema di una spettrometia di massa di tipo MALDI. Il raggio laser viene fatto passare attraverso una lente (focusing lens) con lo scopo di metterlo a fuoco, successivamente colpirà il campione posto sul vetrino (sample slide), le proteine a questo punto si staccano aumentando la loro velocità e sono rilasciate nel sistema (analizzatore), infine un rivelatore (detector) individuerà le caratteristiche che saranno riportate su un istogramma (clicca sull’immagine per ingrandire)

Per quanto riguarda la seconda tecnica: la miscela di analiti passa attraverso un ago carico mantenuto ad alto potenziale elettrico e viene disperso sotto forma di micro gocce cariche. Il solvente dalle gocce evapora e gli ioni delle macromolecole che si sono prodotti passano in fase gassosa, senza subire danni. Tuttavia i protoni aggiunti durante il passaggio attraverso l’ago procurano un’aggiunta di cariche alle proteine, il rapporto massa /carica lo si può analizzare in camera da vuoto.

esi

Figura 17 - Schematizzazione della tecnica dell’ ESI MS. L’analita, assieme ad un solvente, passa attraverso un ago (Taylor cone) tenuto ad alto potenziale (che rappresenta l’anodo) e viene disperso sottoforma di gocce. Il solvente dalle gocce evapora e gli ioni delle macromolecole che si sono prodotti passano in fase gassosa (droplet fission), senza subire danni.

La spettrometria di massa richiede piccolissime quantità di materiale e quindi può essere applicata a piccole quantità di un campione estratto mediante elettroforesi. Uno dei parametri per poter identificare una proteina è la massa, per cui una volta che la si è calcolata attraverso la spettroscopia si possono considerare i vari cambiamenti.

La spettrometria di massa può essere utilizzata per sequenziare frammenti di amminoacidi piuttosto brevi, quindi è un’ottima tecnica di identificazione di una proteina. Un’importante tecnica, in questo senso, è TANDEM MS o meglio conosciuta come MS/MS: la proteina viene pretrattata con un reagente chimico per ottenere vari frammenti, la miscela viene iniettata in uno strumento che altro non è che due spettrometri posti in serie.

ms-ms

Figura 18 - Schema della tecnica TANDEM MS, attraverso l’ESI si avrà l’analita ionizzato che verrà iniettato successivamente in due spettrometri di massa posti in serie (MS-1 e MS-2) , successivamente saranno individuate le caratteristiche mediante l’uso di un rivelatore (detector).

Lo spettrometro è costituito da una camera MS-1 che ha come compito quello di selezionare tra i vari ioni quello desiderato.
Lo ione selezionato viene messo a contatto con un gas (può essere dell’elio) nella cella di collisione. Dall’urto tra il gas e lo ione si ottengono dei frammenti, che vengono separati nella camera MS-2, in base al rapporto massa/carica.
Ciò comporta che ogni gruppo contiene tutti i frammenti carichi, dovuti alla rottura dello stesso tipo di legame, anche se in posizioni differenti, per cui ogni picco successivo ha un amminoacido in meno rispetto a quello che lo precede. La differenza di massa tra un picco e l’altro identifica l’amminoacido che è stato perso e quindi la sequenza del peptide. Attraverso questo metodo siamo in grado di catalogare proteine cellulari separate attraverso elettroforesi.

Sequenziamento automatizzato (metodo di Edman e Sanger)
Le tappe necessarie per poter sequenziare un polipeptide sono:

determinazione della composizione amminoacidica
identificazione del residuo -NH₂

Per quanto riguarda la composizione amminoacidica, essa è diversa per ogni proteina per cui può essere utilizzata una specie di impronta digitale (fingerprint) che serve a stabilire ad esempio se il tipo di proteine isolate in laboratori differenti sono o meno le stesse. Tuttavia l’idrolisi (reazione chimica causata da una molecola d’ acqua nella quale si verifica la scissione della proteina in tanti aminoacidi o peptidi) di una sola proteina non è sufficiente per poter determinare la sequenza amminoacidica di un intero complesso, per cui si procede con una seconda tecnica che è quella dell’identificazione di -NH₂. Questo tipo di identificazione si basa su di una tecnica di marcatura del residuo -NH₂ (chiamato N-terminale) con dei reagenti. Attraverso questi reagenti il polipeptide viene idrolizzato (scisso in parti più piccole) e si ottiene l’identificazione degli amminoacidi marcati. Purtroppo questa metodica ha una limitazione:a causa dell’idrolisi il polipeptide viene distrutto, per cui è applicabile una sola volta di conseguenza non può identificare i residui successivi all’ N-terminale. Per ovviare a questo tipo di inconveniente è stata utilizzata un’altra tecnica, in cui si marca e stacca soltanto il residuo -N terminale, lasciando intatta l’intera catena. A differenza della precedente tecnica, questa può essere usata più volte, ed è sfruttata da uno strumento detto sequenziatore che è una macchina in grado di mescolare i reagenti, separare i prodotti ed infine registrare i risultati. Nell’eventualità che ci trovassimo di fronte a delle proteine di grandi dimensioni, sarà necessario prima staccare i singoli frammenti attraverso dei metodi chimici e poi sequenziare e purificare ogni singolo frammento ottenuto con il sequenziatore. Dopo tale procedura si prosegue nella determinazione dell’ordine in cui i frammenti sono stati disposti nella proteina di partenza: si prende in considerazione un altro campione della stessa proteina, che subisce lo stesso sequenziamento ma i punti di rottura della proteina saranno differenti rispetto al primo campione. In questo modo è possibile esaminare i frammenti ottenuti con le due rotture con la possibilità di sovrapporli e cercando di riscontrare dei punti di contatto. Così facendo si ottiene l’esatta combinazione dei peptidi ottenuti dalla prima rottura.

Problemi computazionali

Il problema del Sequenziamento di un peptide
Consideriamo A = {a₁, a₂, …, a_n} essere l’insieme di amminoacidi ognuno dei quali avente massa molecolare m(a_i). Un peptide P = p₁…p_n è una sequenza di amminoacidi con massa sorgente . Esprimeremo il peptide parziale N-terminale p₁, …,p_i di massa come P_i ed esprimeremo il peptide parziale C-terminale p_i+1, …,p_n di massa come , per 1 ≤ i ≤ n. Lo spettro di massa ottenuto da una spettrometria di massa tandem (MS/MS) è composto essenzialmente di peptidi parziali N-terminali e C-terminali.
Uno spettrometro di massa di solito rompe nei vari legami un peptide p₁p₂…p_n e ne rivela le masse dei risultanti peptidi parziali; chiameremo N-terminali quelli che “partono” con una estremità amminica ossia partono con un atomo di azoto (simbolo chimico N), chiameremo C-terminali quei peptidi parziali le cui estremità “finiscono” con un atomo di carbonio (simbolo chimico C, estremità carbossilica). Per esempio il peptide GPFNA può essere spezzato nei peptidi N-terminali G, GP, GPF, GPFN e nei peptidi C-terminali PFNA, FNA, NA, A.

gpfna

Figura 19 - Le possibili rotture della proteina GPFNA

Durante questa fase può accadere che si perdano delle piccole parti e conseguentemente il frammento risulterà di massa più bassa..
Ad esempio quando si spezza il peptide GPFNA in GP e in FNA si potrebbe verificare la perdita rispettivamente delle molecole di H₂O (acqua) e NH₃ (ammoniaca) per cui il valore della massa rilevato sarà il valore della massa di GP meno il valore della massa di acqua (18 dalton ossia 1+1+16)e per quanto riguarda FNA sarà rilevato un valore di massa pari al valore della sua massa meno quello della massa di ammoniaca (17 dalton ossia 1+1+1+14). I peptidi senza acqua e ammoniaca sono due tipi di ioni differenti che è possibile trovare nella fase di frammentazione di un peptide in uno spettrofotometro.
La frammentazione peptidica in uno spettrofotometro di massa tandem può essere caratterizzata da un insieme di numeri δ = {δ₁, … , δ_k} che rappresentano i tipi diversi di ioni che corrispondono alla rimozione di determinati gruppi chimici da un frammento peptidico. L’insieme di tipi di ioni verrà chiamato Δ. Un δ-ione di un peptide parziale N-terminale P_i è una modifica di P_i che ha massa m_i – δ, corrispondente al gruppo chimico perso (in genere piccolo) con massa δ quando P è stato frammentato in P_i. Il δ-ione del C-terminale è definito nello stesso modo. Gli ioni più diffusi degli N-terminali sono chiamati b-ioni (lo ione b_i corrisponde a P_i con δ = -1) e gli ioni più diffusi dei C-terminali sono chiamati y-ioni (lo ione y_i corrisponde a con δ = 19). Esempi di altri ioni diffusi degli N-terminali sono il b-H₂O e il b-H₂0-NH₃.

immagine nn disp.

Figura 20 - I vari punti di rottura di un peptide

Per quanto riguarda lo spettrofotometria di massa tandem, lo spettro teorico T(P) di un peptide P può essere calcolato sottraendo tutti i possibili ioni δ₁, … , δ_k dalle masse di tutti i parziali peptidi di P cosicché ogni peptide generi k masse nello spettro teorico:

	Sequenza	massa	meno H₂O	meno NH₃	meno entrambi
	GPFNA	486	468	469	451
b₁	G	57	39	40	22
y₄	PFNA	429	411	412	394
b₂	GP	154	136	137	119
y₃	FNA	332	314	315	297
b₃	GPF	301	283	284	266
y₂	NA	185	167	168	150
b₄	GPFN	415	397	398	380
y₁	A	71	53	54	36

Tabella 2 - Possibili valori di uno spettro teorico T(P)

Uno spettro sperimentale S ={s₁, ..., s_q} è un insieme di numeri ottenuti da un esperimento (di spettrometria di massa) comprendendo anche le masse di alcuni ioni di frammenti e il rumore (distorsioni, disturbi) chimico. Distinguiamo lo spettro teorico T(P) da quello sperimentale S in quanto viene generato matematicamente a partire dalla sequenza del peptide P, contrariamente S viene generato sperimentalmente senza sapere quale sia la sequenza peptidica che l’abbia generato.
L’immagine di sotto mostra come viene costruito lo spettro teorico del peptide GPFNA:

.

immagine non disp.

Figura 21 - costruzione dello spettro teorico del peptide GPFNA

I punti di coincidenza tra lo spettro sperimentale S e il peptide P esprime il numero di masse in S che sono uguali alle masse in T(P), questo numero viene chiamato shared peaks count (SPC).
Nella realtà l’algoritmo del sequenziamento peptidico usa funzioni oggettive più sofisticate del più semplice SPC ed incorpora diverse funzioni di pesatura per le masse che coincidono. Definiamo il Problema del Sequenziamento di un Peptide come:

Problema del Sequenziamento di un Peptide:
Trovare una peptide il cui spettro teorico sia il più coincidente allo spettro misurato sperimentalmente.

Input: Uno spettro sperimentale S, l’insieme dei possibili tipi di ioni Δ e la massa sorgente m.

Output: Un peptide P di massa m il cui spettro teorico coincide con S meglio di qualsiasi altro peptide di massa m.

In realtà lo spettrometro di massa misura la massa e l’intensità rispecchiando il numero di ioni di frammenti di una data massa rivelati dallo spettrometro e di conseguenza gli spettrometristi di massa rappresentano lo spettro in due dimensioni parlando di masse nello spettro come picchi.
Ci sono due tipi di approcci che i ricercatori hanno sperimentato per la risoluzione del problema del sequenziamento del peptide: uno basato su una completa ricerca tra tutte le sequenze di aminoacidi di una certa lunghezza, l’altro analizzando il grafo dello spettro che sarà introdotto a breve.

immagine non disp.

Figura 22 - Il possibile approccio per ricavare la sequenza esatta da uno spettro di massa, a sinistra la ricerca mediante database, a destra l’approccio De novo.

Il primo approccio implica la generazione di tutte le 200^l sequenze di aminoacidi di lunghezza l e i propri spettri teorici corrispondenti, con l’obiettivo di trovare una sequenza con il miglior matching tra gli spettri sperimentali e gli spettri teorici della sequenza. Dato che il numero di sequenze cresce esponenzialmente con la lunghezza del peptide, sono state progettate diverse tecniche (di tipo branch-and-bound) per limitare l’impennata combinatoria in questi metodi. La tecnica del prefix pruning (taglio del prefisso) restringe lo spazio computazionale alle sequenze i cui prefissi coincidono bene con lo spettro sperimentale. La tecnica del prefix pruning ha il problema che frequentemente scarta la sequenza corretta se i suoi prefissi sono scarsamente rappresentati nello spettro.
L’approccio mediante l’utilizzo del grafo dello spettro non implica la generazione di tutte le sequenza amminoacidiche e offre un algoritmo veloce per il sequenziamento del peptide. In questo approccio si costruisce un grafo dallo spettro sperimentale. Assumiamo per semplicità che uno spettro sperimentale S ={s₁, ..., s_q} sia solamente formato da ioni di N-terminali ignorando per il momento gli ioni dei C-terminali. Ogni massa s S può essere stata creata da un peptide parziale da uno dei k diversi tipi di ioni. Dacché non si conosce quale tipo di ione da Δ = {δ₁, ... , δ_k} ha creato la massa s nello spettro sperimentale, si formulano k “supposizioni” per ognuna delle masse nello spettro sperimentale. Ogni supposizione corrisponde all’ipotesi che s = x – δ dove x è la massa di alcuni peptidi parziali e 1 ≤ j ≤ k. Quindi per ogni massa s nello spettro sperimentale ci sono k supposizioni per la massa x di alcuni peptidi parziali: s + δ₁, s + δ₂, ... , s + δ_k. Come risultato ogni massa nello spettro sperimentale è trasformata in un insieme di k vertici nel grafo degli spettri, uno per ogni possibile tipo di ione. Il vertice per δ_i per la massa s è etichettato con massa s + δ_i. Colleghiamo due vertici qualsiasi u e v nel grafo mediante lo spigolo diretto (u,v), tutto ciò accade se la massa di v è più grande di u per la massa di un singolo aminoacido. Se si addiziona un vertice a 0 e un vertice alla massa sorgente m, allora il problema del sequenziamento del peptide può essere considerato come trovare il percorso da 0 a m nel grafo aciclico diretto (DAG) risultante.
Per riassumere, l’insieme dei vertici del grafo dello spettro risultante è un insieme di numeri s_i+ δ_j rappresentanti le masse potenziali dei peptidi N-terminali regolato dal tipo di ione δ_j. Ogni massa s_i dello spettro S genera k diversi vertici V_i = {s_i + δ₁, ... , s_i + δ_k}, sebbene gli insiemi V_i e V_j possono sovrapporsi se s_i e s_j sono vicini. L’insieme dei vertici in un grafo dello spettro è quindi {s_iniziale} V₁ ... V_q {s_finale} dove s_iniziale = 0 e s_finale = m. Il grafo dello spettro può avere al più qk+ 2 vertici. Noi etichettiamo lo spigolo del grafo dello spettro per l’amminoacido la cui massa è uguale alla differenza tra le masse del vertice. Se si guardassero i vertici come un N-terminale potativo, lo spigolo tra u e v implicherebbe che la sequenza dell’ N-terminale corrispondente a v può essere ottenuta estendendo la sequenza al punto u per aminoacido che etichetteremo come (u,v).
Uno spettro S di un peptide P = p₁...p_n è definito completo se S contiene almeno un tipo di ione corrispondente ad ogni peptide parziale N-terminale P_i per ogni 1 ≤ i ≤ n. L’uso del grafo dello spettro si basa sull’osservazione che per uno spettro completo esiste un percorso di lunghezza n + 1 da s_iniziale a s_finale all’interno del grafo dello spettro che è etichettato da P. Questa osservazione descrive il Problema del Sequenziamento del Peptide come la ricerca del percorso corretto nell’insieme di tutti percorsi tra due vertici all’interno di un grafo aciclico diretto. Se lo spettro è completo, allora il percorso che si sta cercando è di solito il percorso avente il numero maggiore di spigoli, ossia il percorso più lungo per il DAG problem.
Sfortunatamente gli spettri sperimentali sono di solito incompleti inoltre anche se lo spettro sperimentale è completo, ci sono spesso molti percorsi nel grafo dello spettro da scegliere poiché hanno tutti la stessa lunghezza (o persino grandezza), impedendo una ricostruzione disambigua del peptide.
Il problema della scelta del percorso con un numero massimo di spigoli non riflette adeguatamente “l’importanza” dei vertici diversi. Per esempio, un vertice nel grafo dello spettro ottenuto da uno spostamento di +1 come s_i+1 (corrispondente al b-ione più frequente) potrebbe essere segnato più alto rispetto al vertice ottenuto da uno spostamento di un raro b-H₂O-NH₃ (s_i + 1 – 18 -17 = s_i - 34). Inoltre, ogni volta che ci sono due picchi s_ie s_i’ tali che s_i + δ_j = s_i’ + δ_i’, i vertici corrispondenti a quella massa potrebbero anche prendere un valore più alto rispetto ad un vertice ottenuto da un singolo spostamento.
Dal punto di vista probabilistico del sequenziamento del peptide, ogni tipo di ione δi può capitare con una certa probabilità che sarà indicata come p(δ_i). Assumendo il più semplicisticamente, la probabilità che δ_i capiti per qualche peptide parziale è indipendente dalle volte che δ_j può anche capitare per lo stesso peptide parziale. Sotto questa assunzione, qualsiasi dato peptide può contribuire più delle k masse nello spettro [ciò accade con probabilità pari a ] e meno con 0 [].
Il modello probabilistico proposto a breve segna i vertici del grafo dello spettro basandosi su queste semplici assunzioni. Supponiamo che un peptide parziale N-terminale P_i di massa m_i produca ioni δ₁, ... , δ_l (gli ioni “presenti” di massa m_i - δ₁, m_i – δ_2,... , m_i - δ_l), ma fallisca nel produrre ioni δ_l+1, ... , δ_l(gli ioni mancanti) nello spettro sperimentale. Tutti i l ioni presenti risulteranno in un vertice del grafo dello spettro alla massa m_i_, corrispondendo a P_i. Come segnare questo vertice? Un semplicistico approccio potrebbe compensare P_i per ogni tipo di ione che lo esprime, suggerendo un valore . Comunque questo approccio ha lo svantaggio di non considerare gli ioni mancanti, combinando il tutto definiamo il valore del peptide parziale essere:

img. non disp.

Comunque ci sono probabilità inerenti a rumore chimico, cioè esso può produrre qualsiasi massa (che non ha niente a che fare un l’interesse per un peptide) con una certa probabilità p_R. Perciò bisogna aggiustare il valore probabilistico come:

img. non disp.

Ad esempio per k = 4 e assumendo che per un peptide parziale P’ si vedano solo gli ioni δ₁, δ₂ e δ₄, il valore calcolato sarà:

Identificazione delle proteine mediante la ricerca su database
Gli algoritmi di sequenziamento De Novo sin qui esposti sono importanti per l’identificazione delle proteine (conosciute e sconosciute), ma essi sono molto utili quando si lavora con spettri ad alta qualità completi o prossimi al completamento, molti spettri però sono lontani dal completamento e spesso gli algoritmi De Novo per il sequenziamento producono soluzioni ambigue per tali spettri. Avendo a disposizione un database di tutte le proteine a partire da un genoma, noi non dovremo considerare tutte le 20^l sequenze di peptidi per interpretare un spettro di tipo MS/MS, ma invece potremo limitare la nostra ricerca ai peptidi presenti in questo database. Oggigiorno, molte proteine sono identificate attraverso la ricerca via database, infatti uno spettro sperimentale può essere comparato con uno teorico, peptide per peptide con quelli presenti sul database, e la voce nel database che coincide al meglio con lo spettro osservato di solito fornisce la sequenza del peptide sperimentale. L’algoritmo popolare denominato SEQUEST, sviluppato da John Yates e i suoi colleghi, si basa proprio su queste fondamenta. Il problema dell’identificazione delle proteine può essere formulato come:

Problema dell’identificazione delle proteine:
Trovare una proteina da un database che coincide al meglio con uno spettro sperimentale.

Input: Un database di proteine, uno spettro sperimentale S, un insieme di ioni ∆, e una massa m.

Output: Una proteina di massa m dal database che coincide al meglio con lo spettro S.

L’approccio di base dell’algoritmo SEQUEST è una ricerca lineare attraverso il database. Spesso i peptidi in una cellula sono leggermente differenti dal “canonico” peptide presente nel database e ciò rappresenta un ostacolo per gli algoritmi di ricerca (come il SEQUEST) su database di tipo MS/MS. C’è da dire che per una proteina la sintesi su un ribosoma non è il passo finale nel suo ciclo di vita, infatti molte proteine sono soggette a ulteriori modifiche che consentono di regolare le proprie attività e tali modifiche possono essere sia permanenti che reversibili. Per esempio, l’attività enzimatica di alcune proteine è regolata attraverso la rimozione o l’aggiunta di un gruppo fosfatico (serina, tirosina, treonina) ad un specifico residuo, ciò accade con la fosforilazione che è un processo reversibile: la proteina chinasi aggiunge il gruppo fosfatico invece la fosforilasi rimuove tale gruppo.

img. non disp.

Figura 23 - Processo di fosforilazione, l’amino acido (sinistra) diventa un proteina fosforilezzata (destra) mediante processo di fosforilasi (da sinistra a destra), tale proteina, in modo reversibile, potrà ridiventare aminoacido attraverso il processo di proteina chinasi (da destra a sinistra).

Le proteine sono formate da un sistema complesso necessario al signaling cellulare e la regolazione metabolica e sono perciò spesso soggette a un vario numero di modifiche biochimiche (per esempio la fosforilazione o la glicolisazione). Infatti, quasi tutte le sequenze delle proteine sono modificate dopo essere state costruite dal loro modello di mRNA, si conosco 200 tipi di modifiche dei residui degli aminoacidi. Siccome siamo impossibilitati nel prevedere queste modifiche post-traduzione da una sequenza di un DNA, la ricerca delle modifiche che avvengono rimane un importante problema aperto.
A livello computazionale, una modifica chimica delle proteine p₁p₂…p_i…p_n alla posizione i risulta essere l’incremento della massa del N-terminale dei peptide P_i, P_i+1,…, P_ne l’incremento della massa del C-terminale dei peptidi P^-₁, P^-_2,…, P^-_i-1. L’analisi computazionale dei peptidi modificati fu anch’essa instradata da John Yates, che propose un approccio di ricerca completo che (implicitamente) generava un database virtuale di tutte le possibili modifiche dei peptidi partendo da un piccolo set di modifiche potenziali, successivamente si faceva confrontare lo spettro sperimentale con il database virtuale. Questa prassi porta a molti problemi combinatori, persino per un piccolo set di modifiche.

Problema dell’identificazione di proteine modificate:
Trovare un peptide da un database che coincide al meglio con uno spettro sperimentale avente al più k modifiche.

Input: Un database di proteine, uno spettro sperimentale S, un insieme di ioni di tipo ∆, una massa sorgente m, e un parametro k che fissa il numero massimo di modifiche.

Output: Una proteina di massa m che coincide al meglio con lo spettro S che differisce al massimo di k modifiche rispetto ad una voce nel database

La maggiore difficoltà che si ha con il problema dell’identificazione di proteine modificate è che peptidi molto simili P₁(il peptide presente nel database) e P₂ (il peptide corrispondente alle versione modificata di P₁) possono avere spettri S₁ e S₂ molti differenti.
Il nostro obiettivo sarà definire le basi delle similarità di spettro che correlano con la similarità di sequenza. In altre parole, se P₁ e P₂ hanno poche modifiche distinte, la similarità spettrale tra S₁ e S₂ dovrà essere alta.
Un modo intuitivo per misurare la similarità spettrale è di utilizzare un numero (SPC Shared Peak Count) che indica i picchi comuni tra spettri, questa misura, però, diventa sempre più inefficace all’aumentare delle mutazioni e conseguentemente porta limitazioni nella determinazione di similitudini quando si ricerca sul database. Inoltre, ci sono molte correlazioni tra lo spettro e i relativi peptidi, e solo una piccola porzione di queste correlazioni sono catturate attraverso il conteggio dei picchi condivisi.

img. non disp.

Figura 24 - Tecnica dell’ SPC (Shared Peak Count). In alto lo spettro origine da confrontate, andando sempre in basso gli spettri con 0 mutazioni, 1 mutazioni e 2 mutazioni.

L’immagine di sopra dimostra l’inefficacia dell’utilizzo del SPC, senza mutazioni l’SPC è pari a 10 (per la proteina PRTEIN il cui spettro è pari a {98, 133, 246, 254, 355, 375, 476, 484, 597, 632}) , con una singola mutazione il valore di SPC è 5 (PRTEIN mutata in PRTEYN con spettro uguale a {98, 133, 254, 296, 355, 425, 484, 526, 647, 682}) infine per due mutazioni il valore di SPC scende a 2 (PRTEIN mutata in PGTEYN il cui spettro {98, 133, 155, 256, 296, 385, 425, 526, 548, 583}).
A breve si introdurrà l’algoritmo della convoluzione spettrale che è in grado di rivelare le possibili modifiche del peptide senza effettuare una ricerca completa e perciò non richiede la generazione di un database di peptidi modificati.

La convoluzione spettrale
Dati due spettri S₁e S₂, definiamo la convoluzione spettrale essere il multi-insieme S₂ӨS₁ = {s₂ – s₁ : s₁ є S₁, s₂ є S₂} e definiamo (S₂ӨS₁)(x) essere la molteplicità dell’elemento x in questo multi-insieme, ossia (S₂ӨS₁)(x) è il numero di coppie (s₁ S₁, s₂ S₂) tali che s₂ – s₁ = x.

img. non disp.

Figura 25 - Convoluzione spettrale

La figura 25 mostra gli elementi della convoluzione spettrale S₂ӨS₁ rappresentati come elementi di una matrice di differenza. S₁ e S₂ sono rispettivamente gli spettri teorici dei peptide PRTEIN e PRTEYN. Gli elementi nella convoluzione spettrale aventi molteplicità più grande di 2 sono colorati, invece gli elementi aventi molteplicità pari a 2 sono cerchiati. L’SPC introdotto nella sezione precedente indica il numero di masse comuni a S₁ e a S₂ ed è semplicemente (S₂ӨS₁)(0), ritornando alla figura 25 sono colorati di rosso..
Gli algoritmi di ricerca su database MS/MS che massimizzano il numero SPC trovano un peptide nel database che massimizza (S₂ӨS₁)(0), dove S₂ è uno spettro sperimentale e S₁ è lo spettro teorico del peptide presente nel database. Comunque se S1 e S2 corrispondo a peptidi che differiscono di k mutazioni o modifiche, il valore di (S₂ӨS₁)(0) può essere troppo piccolo per determinare che gli spettri S₁ e S₂ sono stati realmente generati da peptidi simili.
Di conseguenza l’utilità dell’utilizzo del SPC per discernere che i due peptidi sono simili diminuisce vertiginosamente con l’incrementare del numero delle modifiche (è scarso per k=1, e pressoché inutile per k>1)
I picchi nella convoluzione spettrale permettono di individuare mutazioni e modifiche, persino se l’SPC è piccolo. Se i peptidi P₂ e P₁ (corrispondenti agli spettri S₂ e S₁) differiscono solo per una mutazione (k = 1) con la differenza degli amminoacidi data da δ = m(P₂)- m(P₁) allora ci si aspetta che S₂ӨS₁ abbia due picchi uguali approssimativamente ad x=0 e x=δ. Se la mutazione avviene nella posizione t nel peptide, allora il picco alla posizione (S₂ӨS₁)(0) corrisponderà al N-terminale del peptide P_i per i < t e corrisponderà al C-terminale del peptide P^-_i per i ≥ t. Il picco alla posizione (S₂ӨS₁)(δ) corrisponderà al N-terminale del peptide P_i per i ≥ t e corrisponderà al C-terminale del peptide P^-_i per i < t.
Assumiamo ora che P₂ e P₁ siano due sostituzioni distinte, una con differenza di massa δ^I e l’altro con differenza di massa pari a δ – δ^I, dove δ denota la differenza tra le massi sorgenti di P₁ e P₂. Queste modifiche generano due picchi nella convoluzione spettrale al punto (S₂ӨS₁)(δ^I) e al punto (S₂ӨS₁)(δ – δ^I). E’quindi ragionevole definire la similarità tra lo spettro S₁ e S₂ come l’altezza totale dei k picchi più alti in S₂ӨS₁. Anche se la convoluzione spettrale aiuta ad identificare i peptidi, essa ha alcune limitazioni. Consideriamo lo spettro:

S={10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

associato al peptide P (per semplicità assumiamo che produca solo b-ioni).
Consideriamo poi:

S^I={10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

S^II={10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

che sono gli spettri teorici presenti nel database rispettivamente dei peptidi P^I e P^II. A questo punto viene da chiedersi quale dei due spettri sia il più appropriato ad S. Attraverso l’uso del SPC non ci è consentito rispondere a questa domanda perché sia S^I sia S^II hanno cinque picchi in comune con S. Inoltre, anche la convoluzione spettrale non è in grado di dare risposta a questa domanda siccome sia SӨS^I e SӨS^II indicano picchi forti della stessa altezza a 0 e a 5. Questo implica che entrambi P^I e P^II possono essere generati da P mediante una singola mutazione con differenza di massa pari a 5. Attraverso una analisi più approfondita si dimostra poi che questa mutazione può avvenire introducendo uno spostamento di 5 dopo la massa 50 solo per P^I e non per P^II. La differenza maggiore tra gli spettri S^I e S^II sta nel fatto che per il primo le posizioni in cui si ha la migliore coincidenza con lo spettro S sono raggruppate.
L’allineamento spettrale si concentra su questo problema:
consideriamo l’insieme ordinato di interi A = {a₁, …, a_n} dove a₁ < a₂ < … < a_n. Uno spostamento ∆_i trasforma l’insieme A in {a₁, … a_i-1, a_i +∆_i, …, a_n + ∆_i} cioè ∆i altera tutti gli elementi nella sequenza ad eccezione di quelli precedenti ai i-1 elementi. Saranno considerati solo gli spostamenti che con alternano l’ordine degli elementi, cioè gli spostamenti con ∆_i ≥a_i-1-a_i. Tra due insiemi A e B definiamo la k-similarità D(k) come il numero massimo di elementi comuni ad essi dopo i k spostamenti. Per esempio, uno spostamento -5₆ (decrementare di 5 dalla sesta posizione) trasforma:

S={10, 20, 30, 40, 50, 60, 70, 80, 90, 100}

S^I={10, 20, 30, 40, 50, 55, 65, 75, 85, 95}

perciò D(1)=10 (dopo 1 spostamento 10 elementi sono in comune) per questi due insiemi. L’insieme

S^II={10, 15, 30, 35, 50, 55, 70, 75, 90, 95}

ha cinque elementi in comune con S (gli stessi di S^I) ma non c’è una la possibilità che un singolo spostamento trasformi S in S^II (infatti con uno spostamento abbiamo 6 elementi in comune D(1)=6). Sotto analizzeremo e risolveremo il problema dell’Allineamento dello spettro:

Problema dell’allineamento spettrale
Trovare la k-similarità tra due insiemi.

Input: Gli insiemi A e B, che rappresentano due spettri, e un numero k (numero di spostamenti)

Output: La k-similarità, D(k), tra A e B

Per primo possiamo rappresentare i due insiemi A = {a₁, …, a_n} e B = {b₁, …, b_m} come array contenenti 0 e 1 di nome a e b di lunghezza pari a a_n e b_m. L’array a conterrà n 1 (alla posizione a₁, …, a_n) e a_n-n 0, finché l’array b non conterrà m 1 (alla posizione b₁, …, b_m) e b_m-m 0. In tale modello, uno spostamento δ_i < 0 è semplicemente l’eliminazione dei δ_i 0 in a. Tenendo presente questo modello, il problema dell’allineamento spettrale è semplicemente trovare la distanza di edit (il numero di operazioni per trasformare a in b o b in a) tra a e b quando le operazioni elementari sono l’eliminazione e l’inserimento di blocchi di 0. Queste operazioni possono essere modellate da tante punte orizzontali e verticali in un grafico di tipo Manhattan. Il problema dell’Edit Distance e quello dell’allineamento spettrale si differenziano per un alfabeto alquanto inusuale e il tracciato del percorso nel grafico risultante.
L’analogia tra il problema dell’Edit Distance e quello dell’allineamento spettrale ci porta ad inquadrare l’allineamento spettrale come un tipo di problema più lungo di percorso.
Definiamo il prodotto spettrale A B essere la matrice bidimensionale a_n b_m con nm 1 corrispondenti a tutte le coppie di indici (a_i, b_j) e con i restanti elementi 0. Il numero di 1 sulla diagonale principale descrivono l’SPC tra gli spettri A e B, o in altre parole la 0-similarità tra A e B (ossia i picchi in comune tra gli spettri A e B quando non si è effettuato alcuno spostamento). La prossima immagine mostrerà il prodotto spettrale S S^I e S S^II.

img. non disp.

Figura 26 - Prodotto spettrale di 2 spettri

In entrambi i casi, il numero di 1 sulla diagonale principale è lo stesso, e D(0) = 5. Il δ-SPC è il numero di 1 sulla diagonale che è δ distante dalla diagonale principale. La limitazione della convoluzione spettrale è che essa considera le diagonali separatamente senza combinarle in un possibile scenario di mutazione. La k-similarità della convoluzione spettrale è definita come il numero massimo di 1 su un percorso lungo la matrice spettrale che usa al massimo k + 1 diagonali, e il k-allineamento spettrale ottimale è definito come il percorso che usa queste k + 1 diagonali. Per esempio, l’ 1-similarità è definita come il numero massimo di 1 sul percorso attraverso questa matrice che usa al più due diagonali. La figura 27 illustra il concetto di 1-similarità e mostra che S è assomiglia più a S^I che a S^II; nel primo caso il percorso bidimensionale copre dieci 1 (la matrice di sinistra) contro i sei del secondo caso (la matrice di destra).

img. non disp.

Figura 27 - Esempio di 1-similarità, sono contrassegnati col triangolo gli elementi in comune tra gli spettri con 0-similarità, sono contrassegnati col il quadrato gli elementi comuni tra gli spettri con 1-similarità.

La figura 28 mostra che l’allineamento spettrale rileva più e più similarità impercettibili tra spettri semplicemente incrementando di k, si vedrà che D(0) = 3, D(1) = 5 e D(2) =8.

img. non disp.

Figura 28 - Esempio di allineamento spettrale, sono contrassegnati col triangolo gli elementi in comune tra gli spettri con 0-similarità, sono contrassegnati col il quadrato gli elementi comuni tra gli spettri con 1-similarità, sono contrassegnati con il rombo gli elementi in comune con 2-similarità

L’allineamento spettrale spettrale
Definiamo A_i e B_j essere rispettivamente l’i-prefisso di A e il j-prefisso di B, definiamo poi D_ij(k) come la k-similarità tra A_i e B_j tali che gli ultimi elementi di A_i e B_j siano coincidenti. In altre parole D_ij(k) è il numero massimo di 1 presenti su un percorso verso (a_i,b_j) che usa al più k + 1 diagonali differenti. Diremo che (i’,j’) e (i,j) sono codiagonali se a_i – a_i’ = b_j – b_j’ e che (i’,j’) < (i, j) se i’ < i e j’ < j. Per le condizioni iniziali introduciamo un elemento fittizio (0,0) con D_0,0(k) = 0 e assumiamo che (0,0) è codiagonale con qualsiasi altro (i,j). La ricorrenza per la programmazione dinamica per D_ij(k) è allora:

La k-similarità tra A e B è data da:

L’algoritmo sin qui esposto per l’allineamento spettrale è piuttosto lento ed ha tempo di esecuzione pari a O(n⁴k) per due spettri di n-elementi.
A breve verrà introdotto un algoritmo con tempo di esecuzione O(n²k).
Definiamo diag(i,j) come il massimale della coppia codiagonale di (i,j) tale che diag(i,j) < (i,j), cioè diag(i,j) è la posizione dei precedenti 1 sulla stessa diagonale come (a_i,b_j) o (0,0) se una tale posizione non esiste.
Definiamo:

Allora la ricorrenza per D_ij(k) può essere scritta come:

La ricorrenza per M_ij(k) è data da:

img. non disp.

La trasformazione del grafo di programmazione dinamica può essere ottenuta attraverso l’introduzione di spigoli verticali ed orizzontali che forniscono la possibilità di commutare tra le diagonali.

img. non disp.

Figura 29 - Grafo risultante

Il punteggio (score) del percorso è il numero di 1 su questo percorso, mentre k corrisponde al numero di commutazioni (il numero delle diagonali usate meno 1).
Questo algoritmo semplice di programmazione dinamica tracciato sin qui nasconde molti dettagli che rendono l’allineamento spettrale un problema complicato. Uno spettro può essere considerato come una combinazione di due serie di numeri, una che incrementa (gli ioni N-terminali) e l’altra che decrementa (gli ioni C-terminali). Queste due serie formano le diagonali nel prodotto spettrale S S la diagonale principale e la diagonale perpendicolare. Queste corrispondono, rispettivamente, agli accoppiamenti di ioni N-terminali e C-terminali. L’algoritmo appena descritto si occupa solo della diagonale principale.
La ricerca di proteine post-mutazione attraverso la spettrometria di massa resta un problema che nessuno ha ancora risolto, e impegni significanti sono in corso per estendere l’algoritmo di allineamento spettrale per venire a capo di queste complicazioni e per sviluppare nuove idee di algoritmi per l’identificazioni delle proteine.

Conclusioni

Si è visto che le proteine sono composti organici tra i più complessi costituenti fondamentali di tutte le cellule animali e vegetali. Dal punto di vista chimico, una proteina è un polimero (o anche una macromolecola) costituita da una combinazione variabile di 20 diversi monomeri detti amminoacidi spesso in associazione con altre molecole e/o ioni metallici (in questo caso si parla di proteina coniugata).
Le proteine hanno una organizzazione tridimensionale (struttura) molto complessa a cui è associata sempre una funzione biologica. Da questa considerazione deriva uno dei dogmi fondamentali della biologia: "Struttura <--> Funzione", nel senso che ad ogni diversa organizzazione strutturale posseduta da una proteina (detta proteina nativa) è associata un specifica funzione biologica.
Il processo in cui si derivano le proteine è detto sintesi proteica, in questo processo sono coinvolti l’RNA e il DNA. Per identificare le proteine ci sono diverse tecniche:

Cromatografia su colonna
- LC (cromatografia liquida)
  - HPLC (High Performance Liquid Chromatography)
  - TLC (Thin Layer Chromatography)
- GC (cromatografia gassosa)
- Cromatografia a scambio ionico
Spettrometria di massa (metodi di ionizzazione)
- MALDI MS
- ESI MS
- Tandem MS (MS/MS)

La cromatografia si basa sul fatto che i vari componenti di una miscela tendono a ripartirsi in modo diverso tra due fasi, in funzione della loro affinità con ciascuna di esse. Mentre una fase rimane fissa (la fase stazionaria), ed è generalmente un solido o un gel, un’altra fase, liquida o gassosa, (la fase mobile) fluisce su di essa trascinando con sé in quantità maggiore i componenti della miscela che più risultano affini a lei.
La spettrometria di massa si basa sulla possibilità di separare una miscela di ioni in funzione del loro rapporto massa/carica generalmente tramite campi magnetici statici o oscillanti. Tale miscela è ottenuta ionizzando le molecole del campione, principalmente facendo loro attraversare un fascio di elettroni ad energia nota. Le molecole così ionizzate sono instabili e si frammentano in ioni più leggeri secondo schemi tipici in funzione della loro struttura chimica.
Il dispositivo utilizzato nella spettrometria di massa è lo spettrofotometro, esso può essere suddiviso in tre parti: ionizzatore della sorgente, analizzatore e rilevatore.
Il prodotto della spettrometria di massa è lo spettro di massa ossia il diagramma che riporta l’abbondanza di ogni ione in funzione del rapporto massa/carica ed è tipico di ogni composto in quanto direttamente correlato alla sua struttura chimica ed alle condizioni di ionizzazione cui è stato sottoposto.
In relazione al sequenziamento delle proteine esistono due problemi computazionali:

il sequenziamento De novo
l’identificazione della proteina

Il primo è la delucidazione della sequenza della proteina nel caso in cui un campione biologico contenga una proteina che non è presente sul database o differisce dalla versione canonica presente sul database, il secondo è l’identificazione di una proteina che è presente in un database. Entrambi i problemi computazionali hanno lo stesso obbiettivo, lo stesso input e lo stesso output, la differenza principale tra i due è che il secondo problema fa riferimento ad un database.
Sebbene il sequenziamento di tipo De Novo offra un un algoritmo più veloce rispetto all’altra soluzione in quanto non necessita di scandire tutti i peptidi poiché è un approccio modellato su ricerca su grafo, non è possibile sempre usarlo dato che richiede una qualità dei dati elevata e comunque produce errori (circa il 30% dei peptidi che si sequenziano sono giusti), è dunque preferibile identificare le proteine attraverso il database (mediante l’algoritmo SEQUEST). Bisogna però considerare che le proteine molto spesso sono lontane dalla forma canonica presente sul database. La ricerca ha fornito soluzioni quali la creazione di un database virtuale, la convoluzione spettrale ed infine l’allineamento spettrale, ma il problema resta ancora aperto.