Come si è già potuto notare dai paragrafi precedenti, la conoscenza di motivi strutturali delle proteine è fondamentale per la comprensione funzionale delle biosequenze. Per dati strutturali di una proteina s’intende la distribuzione spaziale degli atomi componenti gli amminoacidi e quindi degli amminoacidi stessi; tali dati corrispondono alle coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X. L’unica banca dati che raccoglie tali informazioni è la PDB (Protein Data Bank) che a dicembre 2002 riportava circa 19400 strutture che comprendono:
Essa è un riferimento unico per tutti gli studi strutturali di interesse biologico.
Il PDB è una banca dati ridondante, ossia contiene molte strutture della stessa proteina o proteine simili e purtroppo è non ideale perché i files non sono tra loro omogenei.