Resumen

La Bioinformática Estructural se ocupa del estudio de la estructura molecular de proteínas y ácidos nucleicos con el fin de reconstruir su historia evolutiva e inferir sus posibles funciones. El objetivo de este material es ayudar a comprender las diferentes estrategias y algoritmos que se utilizan habitualmente con este fin. El curso no incluye la disección formal de la eficiencia de cada algoritmo; en cambio, se apoya en validaciones empíricas publicadas en la literatura para describir los puntos fuertes y débiles de las diferentes estrategias. Solamente conociendo cómo funcionan estos algoritmos podremos elegir los más apropiados para cada problema y evaluar de manera crítica los resultados obtenidos.

Tras un breve repaso de fundamentos bioquímicos, este material presenta algunos algoritmos básicos, en su mayoria heurísticos, plantea problemas y estrategias para resolverlos. A lo largo del curso encontraréis referencias a artículos que profundizan sobre aspectos particulares de cada tema, junto con ejemplos que a veces requieren de ciertos conocimientos de programación (en Perl y Python). Los enlaces al código fuente en el texto tienen un formato distinto: [fuente: prog3.1.py]

Este curso creció como material didáctico de la Licenciatura en Ciencias Genómicas-UNAM desde 2008 hasta 2019. En 2022 lo actualicé para añadir el capítulo de AlphaFold.

Agradezco a los alumnos por sus comentarios para mejorarlo, a M.Medina, J.Fernández-Recio y A.Pascual-García por participar en el proceso de revisión abierta por pares para Digital.CSIC en 2018, y a la Fundación ARAID por el apoyo.

Cómo descargar y citar este curso

Puedes descargar este material en formato PDF en Digital.CSIC y navegarlo en http://eead-csic-compbio.github.io/bioinformatica_estructural.

Este contenido se mantiene en el repositorio https://github.com/eead-csic-compbio/bioinformatica_estructural, que incluye código fuente dentro de la carpeta code.

Puedes citarlo como:

Contreras-Moreira B (2018) Algoritmos en bioinformática estructural. Edición 2022. doi:10.20350/digitalcsic/8544

@book{
  Author = {Contreras-Moreira, Bruno},
  Title = {Algoritmos en bioinform\'{a}tica estructural},
  Publisher = {Digital.CSIC},
  Edition = {2022},
  Year = {2018},
  url="https://doi.org/10.20350/digitalcsic/8544",
  doi = "10.20350/digitalcsic/8544"
}

Recursos complementarios

Si tuviese que recomendar un libro de texto como acompañamiento para este material sería posiblemente Structural Bioinformatics: An Algorithmic Approach.

En español, el compendio Bioinformática con Ñ tiene varios capítulos que pueden ser muy buen complemento para este material, varios de ellos citados en el texto.

En el blog de nuestro laboratorio también tratamos frecuentemente estos temas: https://bioinfoperl.blogspot.com/

1 TEORÍA: Fundamentos de estructura de macromoléculas

1.1 Papel biológico de las macromoléculas: relación entre secuencia, estructura y función

Los ácidos nucleicos y las proteı́nas son las dos macromoléculas biológicas más importantes. Ambas son los canales principales de los flujos de información genómica dentro de la célula, que convierten en acciones moleculares el legado genético acumulado. Sabemos que el ácido desoxirribonucleico (ADN) puede guardar información genética a largo plazo, mientras que el ácido ribonucleico (ARN) lo hace normalmente a muy corto plazo. Son las proteı́nas, y algunas clases especiales de ARN, quienes convierten en el contexto celular esa información en acción. Para comprender cómo realizan estas funciones es muy importante tener una idea de su estructura molecular. Esto debemos tenerlo siempre en cuenta en el ámbito bioinformático, donde a veces hablamos de genes y proteı́nas como entidades abstractas cuya función es sólo un verbo.

Figura. Flujos moleculares de información en la célula. Los flujos azules solamente se encuentran en algunos seres vivos, las negras son universales.

La función biológica de estas moléculas está ı́ntimamente ligada a su estructura. Por ejemplo, la estructura en doble hélice del ADN es en si mismo un mecanismo de protección de la información genética, ya que la información está contenida por duplicado, y asimismo es la base de su mecanismo de replicación.

Figura. Estructura helicoidal del ADN (DNA en inglés) en conformaciones A, B y Z. Figura de dominio público tomada de https://en.wikipedia.org/wiki/Nucleic_acid_structure.

Las macromoléculas naturales deben plegarse, es decir, deben tomar una determinada conformación tridimensional relativamente estable para desempeñar su función biológica. A esta conformación, sostenida por una red de interacciones no covalentes, se le llama nativa (ver sección 1.2.3). Por el contrario, las moléculas se despliegan al perderse estas interacciones. Cuando una macromolécula pierde su estructura tridimensional nativa, normalmente pierde también su función. O al menos antes lo creíamos así. Ahora conocemos cada vez más proteı́nas intrı́nsecamente desordenadas no plegadas, que participan en complejos proteicos o que sólo se pliegan al unirse a sus ligandos y reducir su entropía (Flock et al. 2014; Riback et al. 2017), que desempeñan funciones celulares importantes (Wright and Dyson 1999). Recientemente hay mucho interés en estudiar estos fenómenos por su relación con la complejidad de los organismos (I. Yruela et al. 2017) y con proteínas de importancia en medicina como los priones (Sabate et al. 2015).

Figura. Algunas regiones desordenadas tienen un rol autoinhibitorio, como el fragmento en color rosa de la figura. Figura tomada de (Trudeau et al. 2013) y reproducida con permiso de los autores.

1.2 Componentes y enlaces

Proteı́nas y ácidos nucleicos pueden considerarse polı́meros, moléculas generadas por la sucesión de monómeros elegidos de un repertorio limitado. En ambos casos la secuencia de monómeros da la especificidad biológica a cada macromolécula. En el caso de las proteı́nas los monómeros son aminoácidos y el repertorio incluye generalmente 20 distintos. Por otro lado, los ácidos nucleicos están compuestos por nucleótidos (ver sección 1.2.2).

1.2.1 El enlace peptı́dico y los aminoácidos

Los 20 aminoácidos que forman parte de las proteı́nas naturales están compuestos por un grupo amino y uno carboxilo unidos por el carbono \(\alpha\), del que parten diferentes cadenas laterales (R, ver figura 1.4). La cadena lateral R diferencia a los 20 aminoácidos y les confiere propiedades quı́micas especı́ficas (Inmaculada Yruela and Sebastián 2014).

Figura. Estructura quı́mica de los L-aminoácidos. En el panel de la derecha se muestra su polaridad, con grupos con cargas positivas (en azul) y negativas (en rojo).

Figura. Clasificación de los 20 aminoácidos naturales,tomada de http://www.russelllab.org/aas. La selenocisteı́na, que contiene un átomo de Se en vez de S, se considera el aminoácido 21 (Santesmasses, Mariotti, and Guigo 2017; Granold et al. 2018).

Figura. L-4,4’-bifenilalanina, un aminoácido no natural empleado en biotecnología. Figura tomada de http://www.chemicalbook.com.

Los aminoácidos se encadenan por medio de enlaces peptı́dicos para formar proteı́nas, también llamadas cadenas polipeptı́dicas, como se muestra en la figura 1.7. Si excluimos las cadenas laterales R de los aminoácidos de la cadena obtenemos el esqueleto peptı́dico (backbone), cuya geometría puede describirse con precisión conociendo los ángulos diedros \(\phi\) y \(\psi\) (ver sección 1.3.2).

Figura. Estructura del enlace peptı́dico y la cadena polipeptı́dica. Este enlace es rı́gido, plano y no permite el giro. Figura tomada de https://www.chemistry.ucla.edu.

1.2.2 El enlace fosfodiéster y los nucleótidos

Los nucleótidos que forman los ácidos nucleicos se componen a su vez de moléculas: un fosfato, una pentosa y una base nitrogenada. Entre el ADN y el ARN la diferencia fundamental es la pentosa que incluyen: ribosa para el ARN, 2-desoxirribosa para el ADN. Las 4 bases nitrogenadas que pueden unirse a las pentosas dan identidad al nucleótido. La otra diferencia entre ADN y ARN es precisamente su repertorio de bases nitrogenadas. Comparten la adenina, la guanina y la citosina, mientras que la timina es especı́fica del ADN y el uracilo del ARN.

Figura. Las 5 bases nitrogenadas de los ácidos nucleicos, tomadas de superfund.pharmacy.arizona.edu. A y G son purinas, mientras que C, T y U son pirimidinas.

Figura. Ejemplo de nucleótido, tomado de superfund.pharmacy.arizona.edu.

Figura. Dibujo de un trinucleótido 5’-TAA-3’ mostrando dos enlaces fosfodiéster consecutivos, tomado de http://www.wikiwand.com/gl/Enlace_fosfodi%C3%A9ster. Figura reproducida con permiso de los autores.

Los nucleótidos se enlazan por medio de enlaces fosfodiéster para formar polinucleótidos, es decir, cadenas de ADN o ARN, cuyo sentido viene definido por los 2 carbonos que intervienen en este enlace.

1.2.3 Interacciones no covalentes en las macromoléculas

Además de los enlaces peptı́dico y fosfodiéster, debemos conocer otras interacciones atómicas no covalentes más débiles, pero muy importantes para comprender las macromoléculas (Lehninger 1982). Son sobre todo de estos tipos:

  • Interacciones hidrofóbicas entre solutos en soluciones acuosas. Se consideran hidrofóbicas aquellas sustancias que son repelidas por el agua o que no se pueden mezclar con ella.

  • Atracción de van der Waals entre átomos no cargados, hasta el punto en que casi se solapan sus orbitales externos.

  • Interacciones electrostáticas inversamente proporcionales a la distancia entre átomos de cargas propias o inducidas. Dentro de las proteínas reciben a veces el nombre de puentes salinos, y son más frecuentes entre residuos cercanos en secuencia (Donald, Kulp, and DeGrado 2011).

  • Puentes de H, de longitud fija, entre átomos de cargas opuestas que son además parte de enlaces covalentes parciales. En proteı́nas es común entre grupos -NH y O=C-, puesto que en estos casos el H tiene carga parcial positiva y el O negativa. En los ácidos nucleicos encontramos sobre todo los puentes que sostienen los pares de bases.

1.3 Análisis jerárquico de la estructura de macromoléculas

La estructura de ácidos nucleicos y proteı́nas puede analizarse de forma jerárquica en 4 niveles, partiendo de la estructura primaria, su secuencia de monómeros, hasta llegar a su estructura cuaternaria, el nivel de asociación de diferentes cadenas.

1.3.1 Estructura primaria

La estructura primaria de una proteı́na se corresponde con la secuencia lineal de aminoácidos codificada en su correspondiente unidad de transcripción y suele representarse por medio de una cadena donde cada letra identifica a un aminoácido o residuo. Por ejemplo, los primeros 30 aminoácidos de la proteı́na insulina de la mosca Drosophila melanogaster son:
MFSQHNGAAV HGLRLQSLLI AAMLTAAMAM...
donde por ejemplo M es metionina, Q es glutamina o A es alanina. El sentido de la cadena es desde el extremo amino-terminal hacia el carboxilo-terminal.

A ALA Alanina M MET Metionina
C CYS Cisteı́na N ASN Asparagina
D ASP Aspartato P PRO Prolina
E GLU Glutamato Q GLN Glutamina
F PHE Fenilalanina R ARG Arginina
G GLY Glicina S SER Serina
H HIS Histidina T THR Treonina
I ILE Isoleucina V VAL Valina
K LYS Lisina W TRP Triptófano
L LEU Leucina Y TYR Tirosina
X - desconocido

Tabla. Nomenclatura de los 20 aminoácidos esenciales

De igual manera, la estructura primaria de los ácidos nucleicos es su secuencia de nucleótidos, que tiene un sentido dado por la dirección de los enlaces fosfodiéster. De igual modo se suele representar de forma simplificada, asignando una sola letra a cada nucleótido, o mejor dicho, a cada base nitrogenada. Además se suele usar el sentido 5’-3’. Por ejemplo, el principio del gen de la insulina de la mosca Drosophila melanogaster tiene una secuencia similar a:
5’ atgtttagcc agcacaacgg tgcagcagta 3’
donde A es adenina, T timina, C citosina y G guanina. En el caso del ADN, que como veremos suele formar una doble hélice antiparalela, se sobreentiende que hay una secuencia complementaria que corre en sentido opuesto. En este caso serı́a:
5’ atgtttagcc agcacaacgg tgcagcagta 3’
3’ tacaaatcgg tcgtgttgcc acgtcgtcat 5’
En el caso de secuencias codificantes, la secuencia primaria se puede representar en forma de codones o tríos de pares de bases, donde cada uno codifica para un aminoácido o un codón STOP:
5’ atg ttt agc cag cac aac ggt gca tga 3’
3’ tac aaa tcg gtc gtg ttg cca cgt act 5’
La estructura primaria en nucleótidos es por tanto el soporte físico de las secuencias codificantes que son posteriormente traducidas a proteı́nas. Por tanto, si ocurren mutaciones en un gen es posible que la secuencia codificante correspondiente se vea alterada. Se pueden dar varios tipos de mutaciones, tanto si son sustituciones de un nucleótido (SNP), inserciones o deleciones:

  • Sustituciones sinónimas que cambian un codón pero no el aminoácido correspondiente.

  • Sustituciones no sinónimas que cambian un codón y el aminoácido correspondiente. En la literatura se llaman mutaciones missense.

  • Sustituciones, inserciones o deleciones que introducen un codón STOP prematuro. En la literatura se llaman mutaciones nonsense.

  • Inserciones o deleciones que alteran el marco de lectura, o los bordes entre exones e intrones, y por tanto el péptido resultante.

1.3.2 Estructura secundaria

Para neutralizar las cargas polares del esqueleto peptı́dico, las proteı́nas adoptan conformaciones que maximizan la formación de puentes de hidrógeno, gracias a la libertad de giro de los enlaces situados inmediatamente antes y después del enlace peptı́dico. Esto lo hacen principalmente formando \(\alpha\)-hélices dextrógiras, láminas \(\beta\), como se muestra en las figuras 1.11, 1.12, 1.13 y 1.14, y giros de varios tipos, en menor medida.

Figura. Esquema de \(\alpha\)-hélice en una cadena polipeptı́dica, tomado de https://www.uoguelph.ca/chemistry.

\(\alpha\)-hélice mostrando cadenas laterales y puentes de hidrógeno entre residuos vecinos (en azul), tomada de http://structuralbioinformatics.com.

Figura. Esquema de las dos disposiciones posibles (paralelas y anti-paralelas) de láminas beta en cadenas polipeptı́dicas, tomado de https://www.uoguelph.ca/chemistry.

Figura. Diagrama de láminas beta antiparalelas mostrando la orientación a ambos lados del plano de las cadenas laterales, tomado de http://structuralbioinformatics.com.

La estructura secundaria de las proteínas se puede codificar de manera similar a la secuencia primaria, asignando a cada residuo una letra que identifica el estado de estructura secundaria en que se encuentra. Se suele identificar a los residuos de una \(\alpha\)-hélice con H, los de una lámina \(\beta\) con E y los demás con C, del inglés coil. Ésta sería la clasificación simple de 3 estados, que puede afinarse más llegando a 8 estados:

G hélice \(3_{10}\) con vuelta de 3 residuos
H \(\alpha\)-hélice con vuelta de 4 residuos
I \(\pi\)-hélice con vuelta de 5 residuos
T giros de 3-5 residuos con puentes de H entre residuos vecinos
E conformación extendida de lámina \(\beta\)
B puente \(\beta\) entre segmentos de tres residuos en conformación extendida \(\beta\)
S giro de gran curvatura sin puentes de H
C resto de conformaciones

Tabla. Estados de estructura secundaria definidos por el algoritmo DSSP en base a patrones de puentes de hidrógeno.

La misma secuencia que vimos antes podría tener esta estructura secundaria de 3 estados:

MFSQHNGAAV HGLRLQSLLI AAMLTAAMAM...
EEEECCEEEE HHHHHHHHHH CCCCCCCCCC...
Cuando forman parte de un elemento de estructura secundaria, los aminoácidos adoptan conformaciones características, que se pueden resumir en forma de diagramas de Ramachandran (Ramachandran and Sasisekharan 1968), que muestran la distribución de valores de los ángulos \(\phi\) y \(\psi\) observados a la largo del esqueleto de una proteína:

Ángulos diedros en el esqueleto proteico, figura tomada de (Balaji et al. 2017).

Figura. Diagrama de Ramachandran tomado de wikimedia. Figura reproducida con permiso de sus autores.

La estructura secundaria de los ácidos nucleicos está también basada en la formación de puentes de hidrógeno, dada la naturaleza polar de los nucleótidos. Para el caso del ADN, como se muestra en la figura 1.17, el repertorio de puentes de hidrógeno posibles es muy limitado: adenina (A) con timina (T) y guanina (G) con citosina (C).

Figura. Posibles emparejamientos de bases en el ADN, figura tomada de superfund.pharmacy.arizona.edu.

Estos emparejamientos son la base de la estructura secundaria de los ácidos nucleicos, que suelen ser patrones repetidos helicoidales. En el caso del ADN se suelen formar entre dos polinucleótidos de secuencia complementaria, mientras que en el ARN son estructuras (stems,loops,...) que se forman dentro del mismo polinucleótido, como se muestra en la siguiente figura:

Figura. Ejemplo de estructura secundaria de una molécula de ARN mostrando la formación de tallos entre segmentos alejados en secuencia. La secuencia es la del consenso del rRNA 26S mitocondrial de Marchantia, Physcomitrella y otras plantas. Las posiciones coloreadas cambian en algunas especies, como se describe en (Mower and Bonen 2009). Figura reproducida con permiso de los autores.

1.3.3 Estructura terciaria y cuaternaria

La mayorı́a de las proteı́nas forman glóbulos compactos al plegarse, compuestos de elementos de estructura secundaria organizados de una forma especı́fica y unidos por lazos (loops en inglés). Las unidades globulares de plegamiento pueden llamarse dominios (Porter and Rose 2012), y tienen en su interior sobre todo cadenas laterales hidrofóbicas (Isom et al. 2010), mostrando hacia el solvente los lazos (Branden and Tooze 1999). En raras ocasiones, una proteı́na puede formar nudos al plegarse (Potestio, Micheletti, and Orland 2010; King et al. 2010) o agregarse como amiloides (Schnabel 2010). Aunque no es una definición universal, en general un dominio tiene autonomía funcional y termodinámica y una historia evolutiva. Desde el punto de vista de la secuencia primaria, un dominio puede representarse por las secuencias alineadas de las proteı́nas que lo contienen.

Las clasificaciones estructurales de proteı́nas se hacen generalmente a nivel de dominios, como en el caso de http://www.cathdb.info o la taxonomı́a de Richardson, aunque también se han propuesto otros esquemas, como la tabla periódica de (Taylor 2002), donde la unidad básica de plegamiento es una combinación compacta de elementos de estructura secundaria sostenida por una red de contactos que coevoluciona (Mackenzie, Zhou, and Grigoryan 2016; Granata et al. 2017). Se puede ampliar este tema en Alberto Pascual-García (2014b).

Figura. Estructura terciaria de una proteı́na (tioesterasa), con los elementos de estructura secundaria coloreados (amarillo para la láminas betas, rosa para alfa-hélices y blanco para los lazos). Figura exportada con el programa RasMol.

Figura. Alineamiento de secuencias primarias y secundarias de diferentes dominios de tipo tioesterasa anotados en la base de datos Pfam. Se colorean con distintos colores las columnas con G, P, las cadenas laterales pequeñas o hidrofóbicas (C,A,V,L,I,M,F,W), residuos con grupo hidroxilo o amina (S,T,N,Q), los cargados (D,E,R,K) y finalmente los residuos H o Y.

Figura. Representación estilo CIRCOS de la estructura terciaria de una proteı́na, con los elementos de estructura secundaria coloreados. Figura creada con el programa PDBCirclePlot.

Otra manera de representar la estructura terciaria es por medio de matrices de contactos, que resumen en forma matricial los contactos observados entre los residuos de una secuencia. Es habitual que las matrices de contactos o contact maps se calculen excluyendo los contactos entre residuos inmediatamente vecinos. La siguiente figura muestra de qué manera se reflejan los elementos de estructura secundaria en una matriz de contactos, donde los ejes son los residuos ordenados por su posición en la secuencia.

Figura. Elementos de estructura secundaria en una matriz de contactos. Figura reproducida con permiso de http://en.wikipedia.org/wiki/Protein_contact_map.

Esta manera de condensar una estructura terciaria es literalmente el fundamento de la resolución de estructuras por NMR (ver sección 1.4), donde las observaciones experimentales de partida son esencialmente contactos atómicos entre residuos.

Figura. Distribución de plegamientos de proteı́nas de las 4 clases principales de SCOP (\(\alpha\), \(\beta\), \(\alpha+\beta\), \(\alpha/\beta\)) tras reducir la dimensionalidad de los datos originales por escalado multidimensional. Figura tomada de (Hou et al. 2005). Copyright (2005) National Academy of Sciences.

Figura. Posible camino evolutivo que conecta 5 plegamientos distintos de la clase \(\alpha/\beta\) de SCOP. La ruta visita 8 dominios distintos que comparten parte de su topología y estructura. Para cada pareja de dominios se indica el total de residuos alineados, el RMSD y el % similitud de secuencia. Figura tomada de (Nepomnyachiy, Ben-Tal, and Kolodny 2014) con permiso de los autores.

En cuanto a los ácidos nucleicos, su estructura terciaria es muy distinta según se trate de ADN o ARN.
El ADN suele formar una doble hélice dextrógira antiparalela donde dos cadenas polinucleotı́dicas, de secuencia complementaria, corren en sentidos opuestos, como se muestra en la figura 1.25. El grado de enrollamiento del ADN puede variar e incluso sabemos que hay al menos 3 tipos de dobles hélices posibles, una de ellas levógira, y una triple hélice.

Figura. Estructura atómica en doble hélice antiparalela del ADN, generada con RasMol.

Las combinaciones de diferentes cadenas de proteı́na y/o ácidos nucleicos para formar una unidad biológica funcional se dan ya al nivel de estructura cuaternaria, como ocurre con la hemoglobina humana, que funciona como un tetrámero, o con muchos factores de transcripción que ejercen su papel regulador como multímeros, como se muestra en la figura 1.26:

Figura. Estructura del dı́mero de CRP unido a su ADN operador, generada con el programa http://www.rcsb.org/pdb/explore.do?structureId=1cgp del Protein Data Bank. Las cadenas de proteı́na están coloreadas en diferentes tonos de verde.

1.3.4 Estructura 3D de la cromatina

La cromatina es una fibra formada por asociación de DNA genómico y proteínas, no sólo histonas, y es el constituyente esencial del núcleo celular. Cada vez disponemos de más evidencias de que la estructura de la cromatina es clave para entender las funciones de genes, cromosomas e incluso del genoma entero. Algunos de los algoritmos fundamentales que veremos en este curso, ideados originalmente para el estudio de moléculas individuales, se están reciclando en la actualidad para el estudio de la cromatina, puesto que en cierto modo podemos modelarla como una fibra lineal; algo parecido a un polipéptido al que sólo podemos acceder mediante técnicas de resolución limitada. Se puede ampliar este tema en Bau (2014).

Figura. Diagrama de flujo del proceso de modelado en 3D de la cromatina, tomado de (Dekker, Marti-Renom, and Mirny 2013). Los paneles, comenzando arriba a la izquierda, muestran etapas sucesivas del modelado de un cromosoma bacteriano. La primera etapa es la captura de datos, que concluye con una matriz de contactos genómicos. la segunda consiste en construir un primer modelo que integre los contactos observados con otros datos disponibles, por ejemplo evolutivos o físicos. En la tercera etapa se prueban diferentes funciones con el fin de optimizar el modelo inicial que representa las conformaciones de la cromatina. La cuarta etapa es el análisis objetivo del modelo refinado. Si los resultados no son satisfactorios es necesario comenzar de nuevo. Copyright (2013) Springer Nature.

1.3.5 Relación entre estructura primaria y terciaria: alineamientos y superposiciones

(Chothia and Lesk 1986) analizaron por vez primera la relación entre la secuencia y la estructura de las proteı́nas, que se puede resumir en esta figura:

Figura. Correlación no lineal entre la conservación de secuencia y estructura de las proteı́nas, tomada de (Chothia and Lesk 1986) y reproducida con permiso de los autores.

Este artículo pionero publica la observación de que a una determinada conservación entre las secuencias A y B, calculada por medio de un alineamiento, le corresponde una mayor o menor divergencia en la comparación de sus estructuras terciarias, medida en términos de desviaciones (RMSD, en Angstrom) en las posiciones de sus residuos, dependiendo de si las mutaciones ocurren en el interior (core) o exterior del plegamiento.

\[RMSD = \sqrt \frac{\sum_{i=1}^n dist(C\alpha_{i}^A - C\alpha_{i}^B)^2}{n}\]

Además, éste y otros trabajos posteriores, como Illergard, Ardell, and Elofsson (2009; Pascual-Garcia et al. 2010), sugieren que la estructura es una propiedad de las proteínas que se conserva en mayor medida que la secuencia durante la historia evolutiva. Lo excepcional es que secuencias similares tengan grandes diferencias estructurales (Kosloff and Kolodny 2008).

Figura. Conservación de la estructura de tioredoxinas separadas 4 mil millones de años. (A) Árbol filogenético moestrando la distancia evolutiva entre H. sapiens y E. coli y algunos de sus ancestros desaparecidos. (B) Superposición estructural de varias tioredoxinas humanas, de E. coli, y de algunos ancestros precámbricos. (C) Alineamiento múltiple de las secuencias y estructuras secundarias de las tioredoxinas estudiadas. Figura reproducida con permiso de (Ingles-Prieto et al. 2013).

El panel C de la figura 1.29 es útil para recordar la correspondencia que se puede establecer entre un alineamiento de secuencias y la superposición de las correspondientes estructuras. En un alineamiento de secuencia se establece qué residuos de una proteı́na ocupan el mismo lugar en la secuencia que los de otras proteı́nas similares. En cambio, en una superposición buscamos residuos que ocupan el mismo lugar en la estructura, a los que llamamos residuos equivalentes. Mientras el primero se puede calcular aun sin tener las estructuras, solamente con la secuencia, la superposición requiere conocer las coordenadas en tres dimensiones de las proteı́nas en cuestión. Con aquellas proteı́nas con estructuras resueltas es posible hacer el siguiente ejercicio, que tiene como objeto explorar esta correspondencia y aprender que un alineamiento de secuencias con baja identidad puede contener errores que se hacen patentes al comprobar la correspondiente superposición.

Tomemos por ejemplo las coordenadas de dos lisozimas del PDB, como 2NWD y 1GD6 (2nwd.pdb, 1gd6.pdb), y alineemos sus secuencias:

2nwd   KVFERCELARTLKRLGMDGYRGISLANWMCLAKWESGYNTRATNYNAGDRSTDYGIFQIN 60
1gd6   KTFTRCGLVHELRKHGFEEN---LMRNWVCLVEHESSRDTSKTNTNR-NGSKDYGLFQIN 56

2nwd   SRYWCNDGKTPGAVNACHLSCSALLQDNIADAVACAKRVVRDPQGIRAWVAWRNRCQNRD 120
1gd6   DRYWCSKGASPG--KDCNVKCSDLLTDDITKAAKCAKKIYKR-HRFDAWYGWKNHCQG-- 111

2nwd   VRQYVQGCGV 130
1gd6   SLPDISSC-- 119

En este alineamiento las columnas alineadas son parejas de residuos equivalentes o inserciones/deleciones sin alinear (indels).

Mediante un algoritmo similar al descrito en este Mediante un algoritmo similar al descrito en este trabajo de McLachlan (1979), que hace uso de la descomposición en valores singulares, podemos calcular la superposición correspondiente. El siguiente programa, que importa el módulo SVD, lo implementa: [fuente: prog3.1.py]

Al cambiar el alineamiento cambia la superposición, demostrando la importancia que tiene la variable ‘calidad de los alineamientos’ si vamos a hacer inferencias estructurales. Sabrías editar el código para replicar el algoritmo de superposición de (Chothia and Lesk 1986)?

1.4 Métodos experimentales para el estudio de la estructura y dinámica de macromoléculas

Los principales métodos experimentales para determinar la estructura de macromoléculas son:

  • Microscopı́a electrónica, para el estudio de grandes complejos moleculares. Dentro de esta familia, la microscopı́a crio-electrónica (crio-EM) es la aproximación más prometedora porque ha permitido resolver con alta resolución grandes complejos moleculares, como ribosomas, inasequibles por cristalografı́a de rayos-X (Callaway 2015).

  • Cristalografı́a de rayos-X, aplicable a todas las macromoléculas, permite obtener las descripciones estructurales estáticas de más calidad a partir de cristales. Un buen libro para leer sobre esto es (Rhodes 2000). Las fuentes de radiación de rayos X de láser de electrones libres (XFEL) permiten estudiar cristales pequeños y proteı́nas de membrana (Marx 2014).

  • Dispersión de rayos X a bajos ángulos (SAXS), que no requiere la obtención de cristales y se ha utilizado para el estudio de proteı́nas desordenadas.

  • Análisis de espectros de resonancia magnética nuclear (NMR), aplicable a todas las macromoléculas, permite estudiar comportamientos dinámicos, como uniones entre moléculas y movimientos moleculares (Y. Jiang and Kalodimos 2017). La construcción de modelos de proteı́nas a partir de datos de NMR se ha logrado automatizar en casos sencillos (Rosato et al. 2012; Liu et al. 2017). Un libro de referencia sobre esta metodología es (Cavanagh et al. 2005).

  • Análisis de espectros de dicroísmo circular (CD), que permite estimar de manera sencilla en el laboratorio el porcentaje de residuos de una secuencia que adquieren estructura secundaria. Los espectros obtenidos se pueden comparar con los de estructuras conocidas (Mavridis and Janes 2017).

  • Espectrometrı́a de masas de moléculas entrecruzadas, que ha permitido obtener información estructural para modelar complejos de proteı́nas (Rappsilber 2011).

  • Captura de conformaciones cromosómicas, que permiten analizar la organización especial de la cromatina celular. Esta familia de métodos cuantifican las interacciones entre loci cercanos en el espacio pero alejados en la secuencia del cromosoma (Bau 2014).

Además de estos métodos, enfocados a obtener información estructural directamente, hay otras aproximaciones basadas en la biología molecular que permiten extraer información estructural indirectamente. Por ejemplo, la ultrasecuenciación se usa para diseñar proteı́nas y estudiar mutantes (Wrenbeck, Faber, and Whitehead 2017; Rocklin et al. 2017; Butterfield et al. 2017). Tambien se han empleado ensayos en paralelo para el descubrimiento de regiones desordenadas transactivadoras (Ravarani et al. 2018).

En cualquier caso, los métodos experimentales de obtención de estructuras de macromoléculas producen descripciones atómicas de variada calidad y resolución que se suelen describir de manera cuantitativa por medio de formatos como el formato PDB, utilizado por el repositorio Protein Data Bank (PDB, ver sección 1.5).

En ocasiones puede ser necesario comprobar los datos experimentales crudos sobre los que se construye una estructura del PDB, para lo cual podemos recurrir a software como Coot. Para evaluar independientemente la calidad de una estructura del PDB podemos usar la plataforma MolProbity.

En el PDB la mayor parte de las estructuras se derivan de cristales o espectros de NMR, y de hecho hay una buena colección de proteínas que se han resuelto con ambas metodologías, lo que ha permitido concluir que son complementarias y que construyen descripciones moleculares muy parecidas, pero no idénticas (Brunger 1997; Sikic, Tomic, and Carugo 2010; Koehler Leman et al. 2018). De hecho, comparar estructuras resueltas con ambas metodologías permite identificar fragmentos (Hrabe et al. 2016) y proteínas intrínsecamente desordenadas (Ota et al. 2013), así como proteínas que cambian de plegamiento (Porter and Looger 2018).

Figura. Primer modelo en la historia de una proteı́na, la mioglobina a 6Å de resolución (Kendrew et al. 1958). Figura reproducida con permiso de https://www2.mrc-lmb.cam.ac.uk/about-lmb/archive/scientific-models

1.5 El Protein Data Bank y sus formatos

En las siguientes secciones utilizaremos el formato clásico PDB (con sus hermanos PDBML y PDBx/mmCIF), el estándar histórico para codificar la estructura tridimensional de macromoléculas biológicas, sobre todo proteı́nas y ácidos nucleicos, por medio de las coordenadas cartesianas de sus átomos. El fichero 1LFU muestra el contenido de uno de estos archivos.

Figura. Esquema de un fichero de texto en formato PDB. Mientras la columna ocupancia se usa para registrar residuos con diferentes conformaciones, la columna de factor de temperatura o B-factor resume, para estructuras cristalográáficas de forma numérica cuánto oscilan los átomos en la nube de densidad electrónica. Valores por encima de 50 indican que los átomos se mueven mucho, como pasa en la parte expuesta al solvente. Figura tomada de https://www.bioinfo.bisr.res.in.

Estos archivos pueden visualizarse de forma interactiva usando programas como RasMol, Jmol, PyMOL, Chimera, o interfaces web como AQUARIA.

Desde 2022 el Protein Data Bank adoptó por defecto el formato PDBx/mmCIF porque supera al PDB a la hora de representar estructuras cuaternarias complejas con muchas cadenas. El software gemmi permite convertir entre estos formatos.

Hasta 2022 las estructuras del PDB se han nombrado con una combinación de 4 caracteres, empezando por un número, pero el espacio de nombres posibles se agotará pronto y se plantea que las nuevas estructuras tengan nombres con la estructura pdb_00017fgz.

Finalmente, aunque en este curso usaremos coordenadas cartesianas, conviene recordar que en muchas aplicaciones se prefiere usar coordenadas internas para hacer operaciones geométricas con moléculas de manera eficiente.

2 TEORÍA: Plegamiento y dinámica de macromoléculas

Ahora que conocemos de qué están hechas las macromoléculas y sabemos lo importantes que son en biologı́a, haremos un pequeño repaso sobre las ideas centrales del proceso de plegamiento (folding), responsable de que estas moléculas adquieran la estructura tridimensional que les confiere su función.

2.1 Plegamiento y desnaturalización

El interés sobre el plegamiento de las macromoléculas se despertó al estudiar sus reacciones de desnaturalización. Si tenemos proteı́nas o ácidos nucleicos en disolución y cambiamos de forma notable las condiciones en que suelen encontrarse en su medio biológico, pierden su estructura y función nativas. Este proceso, llamado reacción de desnaturalización, puede ser reversible en ciertas condiciones y los cambios pueden ser por ejemplo de temperatura, por encima de su temperatura de fusión (\(T_{m}\)), o en la naturaleza del solvente.
Anfinsen et al. (1961) mostró experimentalmente que la desnaturalización es reversible al menos para proteı́nas pequeñas, añadiendo y retirando agentes desnaturalizantes a disoluciones de enzimas que ganaban y perdı́an su actividad. Ası́ demostró que el plegamiento de una proteı́na depende exclusivamente de su secuencia, aunque hoy sabemos que algunas necesitan la ayuda de chaperoninas (Hartl and Hayer-Hartl 2002).
Todavía hoy el proceso de plegamiento no se comprende bien debido a su complejidad (ver secciones 2.3 y 2.4), aunque llevemos 50 años estudiándolo (Dill and MacCallum 2012).

Figura. Reacción de desnaturalización y renaturalización (hibridación) de una molécula de ADN, tomada de Hernandez-Lemus, Nicasio-Collazo, and Castaneda-Priego (2012) y reproducido con permiso de los autores.

La \(T_{m}\) de los ácidos nucleicos es proporcional al contenido en bases GC de su secuencia, ya que estos pares de bases (ver figura 1.17) establecen entre sı́ 3 puentes de hidrógeno, mientras que los AT/AU sólo 2. Si la temperatura supera \(T_{m}\), las moléculas de ADN se separan en dos hebras polinucleotı́dicas (como se muestra en la figura 2.1), pero si la bajamos lentamente ambas hebras vuelven a unirse de forma complementaria en una reacción llamada hibridación. De nuevo vemos cómo en este caso la secuencia es suficiente para guiar el plegamiento, al menos para moléculas pequeñas.

2.2 Fuerzas que influyen en el proceso de plegamiento de macromoléculas

Se han reconocido varias propiedades e interacciones fı́sicas que guı́an al proceso de plegamiento, como las que mencionamos en la sección 1.2.3. Algunas son especı́ficas del plegamiento de proteı́nas, como la formación de enlaces disulfuro entre cisteı́nas o la formación de puentes salinos entre aminoácidos básicos y ácidos, pero en general se acepta que las principales son la hidrofobicidad en un medio acuoso y la formación de puentes de hidrógeno (Dill 1990; Lehninger 1982; Mathews, Holde, and Ahern 1999).

Algunas de estas propiedades pueden estimarse directamente desde la secuencia. Por ejemplo, se han propuesto escalas de hidrofobicidad como la de la tabla siguiente, que quedan englobadas en clasificaciones de aminoácidos como la de sección 1.5.

A 1.8 M 1.9
C 2.5 N -3.5
D -3.5 P -1.6
E -3.5 Q -3.5
F 2.8 R -4.5
G -0.4 S -0.8
H -3.2 T -0.7
I 4.5 V 4.2
K -3.9 W -0.9
L 3.8 Y -1.3

Tabla. Escala de hidrofobicidad de los 20 aminoácidos, con valores positivos para los residuos hidrofóbicos y negativos para los demás (Kyte 1982).

Como resultado del proceso de plegamiento en medios acuosos, las macromoléculas se empaquetan mostrando hacia el solvente superficies hidrofı́licas y ocultando los componentes más hidrofóbicas. En el interior las interacciones de van der Waals dan estabilidad al conjunto. Como siempre, hay excepciones notables (Sun et al. 2014). En el caso de las proteı́nas otro factor que condiciona el plegamiento es su tendencia natural a formar multı́meros (Garcia-Seisdedos et al. 2017).

2.3 Complejidad algorı́tmica del plegamiento

Sabemos que bajo condiciones fisiológicas el proceso de plegamiento es termodinámicamente favorable, es decir, que las macromoléculas son más estables en su conformación nativa que en otras posibles conformaciones. Y conocemos al menos los factores más importantes que afectan y guı́an al proceso de plegamiento. Por último, sabemos que el plegamiento es un proceso rápido, que tarda a lo sumo tiempos del orden de segundos. A pesar de esto, a dı́a de hoy no sabemos predecir de forma precisa cómo se plegará una proteı́na o un ácido nucleico partiendo solamente de su secuencia.

Cuáles son las dificultades? Esto lo veremos tomando como ejemplo las proteı́nas, que se han estudiado mucho más a este nivel. Son fundamentalmente dos:

  • el enorme número de posibles conformaciones que puede tomar una cadena polipeptı́dica

  • la necesidad de cuantificar la estabilidad en condiciones fisiológicas de cada una de ellas

El proceso de plegamiento puede entonces verse como una exploración en un embudo (funnel) como el de la figura 2.2, donde observamos un máximo de estabilidad que se corresponde con un mínimo de energía libre (conformaciones nativas), y otros máximos secundarios o locales denominados estados metaestables. En ciertas condiciones las proteínas pueden quedarse atrapadas en estos estados y perder funcionalidad o agregarse, de ahí la importancia de las chaperonas (Pascual García 2014).

Figura. Superficie energética del plegamiento de proteı́nas desde su sı́ntesis hasta su estado final plegado o agregado. Algunas conformaciones metaestables deben superar barreras energéticas para retomar su ruta de plegamiento favorable, en ocasiones con ayuda de chaperonas (izquierda). Cuando varias moléculas se pliegan en el mismo compartimento pueden formar contactos que propicien la acumulación de agregados amorfos, oligómeros tóxicos o fibrillas amiloides (derecha). Figura tomada de Amm, Sommer, and Wolf (2014) y reproducida con permiso de los autores.

Figura. Contribuciones de cada uno de los residuos de una proteı́na camaleónica, que puede adoptar un plegamiento \(\alpha\) (izquierda) u otro \(\alpha + \beta\) (derecha) con muy pocos cambios en la secuencia. Arriba: los residuos que favorecen el plegamiento se empaqueten en la estructura globular correspondiente. Medio: las medidas de energı́a libre por residuo revelan las partes de la secuencia que favorecen el plegamiento. Abajo: la energı́a libre por residuo puede generalmente atribuirse a la secuencia (GA30 o GB30) que favorece cada plegamiento. Figura tomada de Roy et al. (2014) y reproducida con permiso de los autores.