Translate

martes, 21 de abril de 2020

PROGRAMA GENÉTICO O INTERACCIÓN ORGANISMO-AMBIENTE




¿Genética o medio ambiente?

Esta disyuntiva aparece frecuentemente en muchos planteamientos biológicos, a veces sin profundizar demasiado en estos conceptos, provocando cierta confusión. A mi juicio, el primer error, por parte de algunos autores, viene de la hipertrofia e imprecisión de los conceptos asociados a “lo genético”; necesariamente acompañado de la minimización y simplificación de lo relativo al medio ambiente. Así, es frecuente encontrar textos donde prácticamente se asimila genotipo con organismo, al exagerar la fórmula: Fenotipo = genotipo + ambiente; en una identificación, parcelada y mecanicista, del fenotipo con el organismo, como mera expresión del genotipo. En este contexto, el medio ambiente aparece meramente, de forma deslavazada, como las influencias externas que afectan al genotipo. Aún más confusión provoca la frecuente identificación -con el mismo planteamiento de la fórmula anterior- de la personalidad humana como la suma de naturaleza y medio ambiente. Aquí, por naturaleza se entiende el genotipo con el que un individuo viene al mundo. Pero el término genotipo se queda pequeño en estos planteamientos. Por una parte, frecuentemente, representa sólo una visión parcial y aislada de ciertos caracteres fenotípicos, refiriéndose, con él, al conjunto pequeño de genes que se exhiben como responsables de un carácter o unos pocos. Por ello, para darle más profundidad e importancia a estos planteamientos reduccionistas, se emplea cada vez más el término “programa genético”; pero ¿Qué se entiende por programa genético? Para llegar a este concepto vamos a tocar, aunque sea someramente, otros que he mencionado previamente, como naturaleza y gen.

¿Qué entendemos por naturaleza? En lo referente al término naturaleza, por su implicación en el concepto básico de la teoría de la evolución darwiniana, voy a recoger la argumentación de Darwin a las críticas de algunos autores a la selección natural, en el sentido de atribuir a este término una elección consciente por parte de los animales que se modifican, y que, por esto mismo, no se podría aplicar a las plantas, por carecer éstas de voluntad. Darwin expresa, dolido, la incomprensión de su concepto evolucionista fundamental (1):

“Se ha dicho que hablo de la selección natural como de un poder activo o divino; pero ¿quién critica a un autor cuando habla de la atracción o de la gravitación como rectoras de los movimientos de los planetas? … También es muy difícil evitar personificar el término Naturaleza; pero por Naturaleza entiendo solamente la acción combinada y los resultados complejos de un gran número de leyes naturales; y por leyes, la sucesión de hechos, en cuanto son conocidos con seguridad por nosotros.”
 Así pues, para Darwin el término Naturaleza tiene el mismo poder y alcance que otros como Cosmos y medio ambiente; aunque, éste, reducido a las dimensiones de la vida en la Tierra-.  En todos estos términos hablamos de seres materiales, de diferentes niveles de integración, que interaccionan y se modifican, de forma regular, sometidos a leyes. El concepto de medio ambiente tiene un uso más práctico, y abarca todos los factores bióticos (los seres vivos y los agentes relacionados con la vida) y los abióticos (seres no vivos, o factores físicos y químicos), que interaccionan entre sí de forma natural. Darwin lo tiene presente, sin nombrarlo especialmente (1):
“…yendo hacia el norte, o ascendiendo una montaña, con mayor frecuencia nos encontramos con formas enanas, debido a la acción directamente perjudicial del clima…”
“…plantas y animales se hallan entrelazados por una trama de complejas relaciones.”
“La estructura de todo ser orgánico está relacionada, de la manera más esencial, con la de todos los seres orgánicos con los que entra en competencia, de los que tiene que escapar o a los que depreda.”
Así pues, Darwin deja claro, en su enfoque evolutivo, cómo las especies se relacionan tanto entre sí como con su ambiente físico y químico, en una red dinámica de interacciones mutuas, mantenidas en el espacio y en el tiempo. Todos los organismos vivos, lo son -tanto en la ontogenia, como en la filogenia y la fisiología- como resultado necesario de esta red dinámica de interacciones naturales.

¿A qué llamamos gen? Como ya hemos visto en post anteriores, el término gen aparece, históricamente, como sustituto de los factores hereditarios que Mendel postuló como unidades o partículas de información, responsables de determinados caracteres observables y heredables. Durante la década de los 40, del siglo XX, se alcanzó la fusión de dos de las ramas de la biología, que nacieron en 1900 y más éxito alcanzarían -la genética y la bioquímica- al relacionar una enfermedad metabólica con los genes. La ciencia estableció, de forma rigurosa, la relación “un gen una enzima”, que más tarde se universalizó a “un gen un polipéptido”. Pero, a algunos, esta relación les parecía demasiado prosaica; así pues, como nos dice Gary Zweiger, un investigador de la Standford University Schooll of Medicine, procuraron elevarla a un terreno más místico (2):
“Morgan et al. establecieron el postulado de la genética: “un rasgo, un gen” e inspiraron un siglo de parloteo acerca de “un gen para…”, donde se podía incluir cualquier característica, conducta o enfermedad.”
“Un gen puede proporcionar la piedra angular… para diagnosticar una enfermedad, tratarla con eficacia… o ganar millones de dólares. Alrededor del gen se ha construido una estructura para la investigación biológica que se conoce como determinismo genético. Es un paradigma científico que ha guiado a muchos investigadores en la búsqueda de genes causales de enfermedad, rasgos, etc.”
Estos comentarios críticos, sobre el gen, tienen aún más importancia dado que Zweiger combina su visión genética académica con la empresarial, en compañías biotecnológicas como Genentech e Incyte.
Otros genetistas prestigiosos, como Richard C. Lewontin, autor y coautor de muchos libros y artículos de éxito -alguno con el conocido evolucionista Stephen Jay Gould-, presentan una visión menos reduccionista y determinista de la biología. Así, en su excelente libro de divulgación Genes, organismo y ambiente (3), dice:
“En primer lugar, así como no puede existir un organismo sin un ambiente, tampoco puede existir un ambiente sin algún organismo.”
“… los organismos determinan biológicamente la naturaleza física efectiva de las señales procedentes del exterior. Transforman una señal física en una completamente diferente y el resultado de este cambio es lo que las funciones del organismo perciben como una variable ambiental.”
“Los fenómenos externos corrientes del mundo físico y biótico pasan a través de un filtro de transformación creado por la biología específica de cada especie y es el producto de esta transformación lo que llega a los organismos y se convierte en algo relevante para ellos.”
No voy a hacer ningún comentario a este respecto; sólo recuerdo que en el último post (4 de marzo de 2020) hablamos del sistema de transducción de señales del exterior, desde la membrana plasmática al interior de la célula, siguiendo una pauta básica general de información biológica (pregenética, genética y epigenética), tanto en la filogenia, como en la ontogenia y en la fisiología:
1.    Cambio ambiental.
2.    Cambio conformacional en las proteínas de la membrana plasmática.
3.    Este cambio conformacional activa un sistema de transducción de señales en cascada hacia el interior de la célula, que también implican determinados cambios conformacionales en proteínas.
4.    Modificaciones genéticas y epigenéticas, de mayor o menor alcance, como respuesta al cambio ambiental.
Además, Lewontín plantea un problema, de índole epistemológica, en la investigación biológica:
“En los últimos trescientos años, el modelo analítico alcanzó un éxito inmenso, porque explica la naturaleza de una manera tal que nos permite manipularla y prever sus comportamientos… Pero el éxito del modelo mecánico, a diferencia del fracaso del modelo holístico, considerado oscurantista, ha producido una visión hipersimplificada de las relaciones entre las partes y el todo y entre las causas y los efectos. El éxito del reduccionismo ingenuo y del análisis simplista se debió en parte a la naturaleza, por así decirlo, oportunista del trabajo científico. Los hombres de ciencia abordan el estudio de aquellos problemas que se adaptan a sus métodos… La ciencia, tal como la practicamos hoy, resuelve los problemas para los cuales sus métodos y sus instrumentos son adecuados, y los científicos pronto aprenden a plantearse sólo las cuestiones que pueden ser resueltas.”

¿Qué es un programa genético?

Es cierto que el enfoque genético -reduccionista y determinista- es como un farol que ilumina, y mucho, una parcela de la realidad; pero que no sólo deja muchas zonas de oscuridad, sino que, además de deslumbrar a los investigadores, proyecta sombras fantasmagóricas acerca de su alcance e importancia, que va desde la más realista relación entre genotipo y fenotipo, la que se da entre la secuencia de bases de un gen y la secuencia de aminoácidos de un polipéptido; hasta la delirante proposición de un programa genético. Es frecuente encontrarse en libros o artículos científicos de biología con expresiones del tipo: “los estímulos pueden desencadenar la activación de programas genéticos en el cerebro”, u otras parecidas. Pero ¿qué es un programa genético? ¿Cómo se hizo y cómo funciona en la ontogenia y en la filogenia? ¿Quién es el programador?
Debo admitir que no he hecho un gran barrido, por libros y revistas científicas, buscando una definición de programa genético; pero creo que mi búsqueda es suficientemente significativa: algunos de los textos más conocidos de Genética; Biología Molecular y Celular; Bioquímica y Biología General. En ningún caso he encontrado esta entrada ni en el glosario ni en el índice analítico; ni siquiera en el texto del Curtis (Invitación a la biología), cuyo capítulo 14 lleva por título:  Desarrollo: La ejecución de un programa genético, que tampoco desarrolla este concepto en ningún epígrafe de este capítulo. Tampoco en la Wikipedia aparece este término claramente definido: aparece programación genética, refiriéndose a la inteligencia artificial inspirada en supuestos principios de la evolución biológica, y una definición muy simple de la Real Academia de Ingeniería: “Conjunto de funciones desarrolladas y expresadas a través de la activación y supresión de los genes en un organismo.” Por otra parte, en los diccionarios generales, todo lo relativo a programa o programar gira alrededor de: instrucciones escritas en lenguaje de programación, proyecto, sucesión de operaciones conducentes a un fin determinado. En general, todo programa tiene un planteamiento teleológico, ya que implica un programador que establezca un proyecto con un orden espacial y temporal: una sucesión de actividades con un sentido y una finalidad.
No obstante, lo más interesante que he encontrado en la Wikipedia, sobre el término programa genético, está en el Atlas of Genetics and Cytogenetics in Oncology and Haematology:
“El programa genético es un mensaje escrito por medio de las letras A, C, G, T. ¿En qué se considera un programa? Lo es en el sentido en que un texto escrito puede transmitir instrucciones. En nuestro lenguaje habitual, el menor enlace de las veintiséis letras de nuestro alfabeto que tiene significación individual es una palabra. El equivalente en el lenguaje genético es un gen. El sentido de la frase, y el sentido de la obra literaria compuesta de frases, no es en ningún caso reducible al sentido de la palabra: la palabra contribuye a este sentido por el juego de las combinaciones. La significación de la palabra suele ser más bien contextual. Del mismo modo, un gen no determina en caso alguno la totalidad de las propiedades biológicas de una célula y con mayor motivo de un organismo.”
Como vemos, todo lo referente al gen y lo genético gira alrededor de símiles o metáforas -según el menor o mayor grado de comparación que le demos- relativos al lenguaje escrito o a la información cifrada. En el texto anterior comparan o identifican gen con palabra: una secuencia de letras, en un determinado orden -esto es, formando una estructura o significante- que representa un concepto mental o significado. Comparan gen con palabra, y no con frase u obra literaria “por el juego de las combinaciones”, y porque “la significación de la palabra suele ser más bien contextual.” Para seguir probando el grado de adecuación de esta metáfora a la información biológica, podríamos identificar el significante con estructura, y el significado con acción (sensu lato con función); y, al igual que ocurre con las palabras en las frases, su significado preciso depende del contexto, esto es del entorno con el que se encuentra el gen. Pero conviene precisar, aún más, la metáfora gen-palabra. Para empezar por lo último señalado, no es el gen el sujeto que interacciona con el entorno o medio ambiente. De la misma manera que no es la palabra la que se encuentra con un contexto -sino la persona que las utiliza según el contexto en el que habla o escribe, combinándolas convenientemente-, no es el gen sino el organismo, celular o pluricelular, y las proteínas -fundamentalmente los receptores de membrana- los que se enfrentan directamente a las contingencias medio ambientales. Por otra parte, al igual que las palabras tienen un significado, y una función en la oración, anterior al significante (estructura); las funciones biológicas preceden, son prioritarias, a las estructuras seleccionadas para realizarlas. Como veremos a continuación, desarrollando la metáfora gen-palabra, las funciones y subfunciones biológicas -que integran los organismos vivos- se sustentan en estructuras -sistemas y subsistemas- que van realizando acciones cada vez más elementales. Tanto las funciones como las estructuras logradas a lo largo de la evolución están jerarquizadas y guardan coherencia en sus respectivos niveles de organización e integración. El nivel de acción más elemental, en las funciones biológicas, está en el nivel supramolecular subcelular, y les corresponde a las proteínas.

¿Qué son las proteínas? Las proteínas son biopolímeros informativos, constituidos por uno o más polipéptidos, que también están formadas por secuencias de letras, correspondientes a veinte aminoácidos. Como ya dijimos anteriormente, la genética se basa en la relación entre genotipo y fenotipo, más una confusa intervención del ambiente. El fundamento molecular de esta relación, sin ningún añadido dogmático, está en la correspondencia, de código genético, entre las secuencias de bases nitrogenadas de los nucleótidos del ADN y las secuencias de aminoácidos de los polipéptidos de las proteínas. Así pues, podríamos considerar a las proteínas como las palabras -con su significado y su significante, esto es, su función y su estructura- y a los genes como los depositarios de la información codificada de las palabras. Extendiendo la metáfora, las proteínas se podrían identificar con la palabra hablada, más vinculada a la acción -tanto en el origen de la humanidad y su evolución, como en el desarrollo del niño y en la lectura de un texto-, mientras que los genes se identificarían mejor con la palabra escrita. Así pues, del mismo modo que los humanos fuimos los agentes que construimos un lenguaje, sobre la actividad social, propiciando así una evolución cultural; podríamos decir que las proteínas son los agentes que -mediante el código genético- construyen su lenguaje molecular, genético y epigenético, su cultura molecular, tanto en la filogenia, como en la ontogenia y en la fisiología celular.  

El dogma central de la biología molecular: un edificio en ruinas

Más que hablar de programa genético, habría que desentrañar el encadenamiento histórico de la herencia pregenética, genética y epigenética; esto es, sensu lato, de toda la información biológica que se ha formado y pasado, a lo largo de la evolución, de una generación a la siguiente. Así pues, partimos del único hecho que el denominado dogma central de la biología molecular (DCBM) ha establecido con rigor científico; esto es, la relación secuencial -en el orden o secuencia de sus monómeros- que se da entre el ADN/ARN y los polipéptidos de las proteínas. Desde que, en el transcurso de la evolución, se estableció esta relación, de código genético, todos los polipéptidos se sintetizan en el ribosoma siguiendo la pauta de la información cifrada en las moléculas del ARN mensajero (ARNm); más el concurso del ARN transferente (ARNt) -portador de los aminoácidos- y de veinte enzimas aminoacil- ARNt sintetasas, que unen específicamente los aminoácidos a los ARNt. Pero lo que no puede decir el DCBM es cuándo se estableció esta relación; ni que el flujo de información es o ha sido siempre unidireccional, del ADN a los polipéptidos; ni que la información secuencial contenida en el orden de los aminoácidos en un polipéptido determine inexorablemente su estructura terciaria conformacional; ni que ésta esté siempre vinculada a una determinada función. Después de la relación secuencial ADN/ARN/Proteínas -auténtica relación genotipo/fenotipo en estado puro- todo es fisiología celular, con la intervención del ambiente molecular. No hay ningún gen que albergue ningún programa de actuaciones, ni genes reguladores, ni gen alguno que acompañe a las proteínas a su posición de trabajo: rutas metabólicas, “máquinas proteicas”, receptores de membrana y rutas de transducción de señales, proteínas reguladoras, etc.
Lewontin (2000), dice al respecto:        
Naturalmente, las informaciones sobre la estructura de las proteínas no están todas almacenadas en la secuencia del ADN porque el plegamiento de los polipéptidos contenidos en las proteínas no está del todo especificado en su secuencia de aminoácidos.
Generalmente los biólogos moleculares no llaman la atención sobre el hecho de que ignoramos cómo se determina la estructura de las proteínas, pero continúan repitiéndonos que es el ADN el que las fabrica.
Los límites metodológicos de los experimentos se confunden con las explicaciones correctas de los fenómenos. La tesis que muchos sostienen, según la cual son los genes los que determinan las características de los organismos, nace de la facilidad con que pueden producirse importantes modificaciones genéticas en el curso de los experimentos… Por otra parte, sólo se toman en consideración aquellos fenómenos que se prestan a ser estudiados mediante ese método.
El hecho de que algunas secuencias de aminoácidos puedan adoptar múltiples conformaciones -en respuesta a distintas interacciones frente al ambiente molecular-, produciendo, así, múltiples fenotipos a partir de una única secuencia, no es obstáculo para que estos fenotipos, así generados, puedan ser heredables. Esto contradice algunos postulados del DCBM, como el que afirma que la información genética fluye unidireccionalmente, como información secuencial -del ADN al ARN, y de éste a las proteínas- que determinará la aparición de un determinado carácter. Por otra parte, el DCBM asume que sólo los caracteres con una base genética son hereditarios, al contrario que los caracteres adquiridos durante la peripecia del ser vivo frente a su medio ambiente, que desaparecerán con él. Por el contrario, hay que tener en cuenta que, en primer lugar, hay más caracteres que proteínas, y más proteínas (y aún más polipéptidos) que genes; lo que difícilmente se puede explicar con el actual sentido de la información biológica, dirigida del ADN a las proteínas. En segundo lugar, desde un punto de vista evolutivo, lo más importante es la permanencia del mensaje biológico en el tiempo, de manera que pueda constituir una tendencia evolutiva en forma de caracteres fenotípicos seleccionables. Así, el ADN puede mantener su invariancia reproductiva y, sobre ella, mutar repetidamente, y, sin embargo, no poder mantener un fenotipo seleccionable. Por el contrario, una variación ambiental, mantenida en el tiempo, puede provocar los mismos cambios fenotípicos, igualmente mantenidos, en una población, en función de la plasticidad de las proteínas y de la información epigenética generada por los organismos de dicha población.
 La herencia, esto es, la información biológica que pasa de una generación a la siguiente, se fundamenta aquí en la invariancia genética de la secuencia de bases del ADN y en la necesaria coherencia de los cambios ambientales mantenidos frente a la misma secuencia de aminoácidos. En general, el denominado ruido del desarrollo es una fuente importante de variaciones fenotípicas, para un organismo, frente a los cambios ambientales que, de forma contingente, acontecen en esta etapa de su ontogenia. Aquí, son importantes tanto los cambios ambientales como el orden en que aparecen. Concretamente, en el nivel supramolecular, la información conformacional de las proteínas más plásticas está supeditada a la sucesión de cambios con los que se encuentran en el ambiente molecular de la célula. Así pues, por decirlo en términos genéticos, y siguiendo la lógica del DCBM, tenemos que pasar de la fórmula Fenotipo = genotipo + ambiente, a Fenotipo = polipéptido + ambiente; naturalmente, cambiando la perspectiva, mecanicista y parcelada, del individuo como fenotipo, a una funcional e integrada del individuo como organismo. Así, tendríamos que ver al polipéptido -como parte de las proteínas- enfrentado a su ambiente molecular, tanto en el nivel subcelular, como de organismo celular y pluricelular.

El fenotipo de las proteínas

Acabamos de ver el planteamiento totalmente determinista del DCBM: una secuencia de ADN, un carácter; mediante el flujo informativo, en un único sentido -y en una relación de código genético-, desde la secuencia de bases del ADN hasta la secuencia de aminoácidos de un polipéptido, pasando por la información, también codificada, del ARN.
Pero el DCBM deja una serie de preguntas abiertas:
·       ¿El flujo de información ha sido siempre en este sentido, del ADN o ARN a los polipéptidos? ¿Pudo inicialmente haber sido a la inversa, de la información conformacional de los polipéptidos a la secuencial del ARN y del ADN?
·       ¿Determina inexorablemente la información secuencial de un polipéptido su estructura terciaria conformacional?
·       ¿Está la estructura tridimensional de una proteína siempre vinculada a una función que determina? O lo que es lo mismo, ¿la función de una proteína viene siempre determinada por su estructura previa?
·       ¿Quién es prioritario en la evolución biológica, la estructura o la función?
Todas estas preguntas se agrupan alrededor de numerosas excepciones que vulneran tanto el DCBM como otros paradigmas actuales, relativos a la relación entre estructura y función. Entre estas excepciones destacan los priones y las proteínas intrínsecamente desestructuradas (IDPs).
Mucho antes del surgimiento de la biología molecular -y su dogma central-, en los albores del nacimiento de la bioquímica, Emil Fischer propuso (1894) el modelo llave-cerradura para explicar el ajuste específico de las enzimas con los sustratos objeto de su actividad enzimática. Con este modelo se asentó el concepto una secuencia, una estructura una función, que ha llegado hasta la actualidad.
 Pero, en los inicios del siglo XX, además de las enzimas, otra familia de proteínas exhibía una fuerte especificidad por sus ligandos. Se trataba de los anticuerpos que presentan una especificidad notable, con distintos grados de afinidad, frente a sus ligandos específicos, denominados antígenos por ser las moléculas generadoras de anticuerpos. Los trabajos de Karl Landsteiner (1868-1943) pusieron de manifiesto que los vertebrados pueden elaborar anticuerpos específicos frente a un número prácticamente ilimitado de determinantes antigénicos. Para algunos inmunólogos, como Landsteiner, y bioquímicos, como Linus Pauling, esta enorme diversidad de anticuerpos específicos implicaba formas geométricas complementarias entre cada determinante antigénico y el correspondiente sitio de unión del anticuerpo. Pauling y Landsteiner propusieron la denominada “teoría del molde directo” (1940) donde el antígeno debía actuar como molde sobre el cual las moléculas de anticuerpo desplegadas (inmaduras) se plegarían hasta adquirir la forma globular (madura). En este proceso de plegamiento, la inmunoglobulina se pondría en contacto con el antígeno moldeándose según la forma complementaria requerida (4). Con este planteamiento, podríamos decir que lamarckiano, sobre la formación de los anticuerpos -anterior al conocimiento de la estructura del ADN y al establecimiento posterior del DCBM- Pauling y Landsteiner se adelantaron a su tiempo, en más de medio siglo, acerca de la influencia del medio ambiente en el fenotipo de las proteínas, concretamente en lo relativo al conocimiento actual sobre las proteínas intrínsecamente desordenadas (IDPs) y su vulneración manifiesta del paradigma estructura-función.
En 1961, Christian B. Anfinsen (1916-1995) reforzaría la creencia una secuencia, una estructura una función, con sus trabajos de desnaturalización y renaturalización, in vitro, de la enzima ribonucleasa. En estos trabajos, de renaturalización, observó que la ribonucleasa era capaz de recuperar su estructura y actividad enzimática al volver a las condiciones fisiológicas adecuadas; concluyendo que en la secuencia de aminoácidos está toda la información necesaria por parte de la proteína para adquirir su conformación nativa: única, estable y formada con un consumo mínimo de energía libre. Al menos para proteínas globulares pequeñas, in vitro, este postulado se conoce como el dogma de Anfinsen.  Pero, en la biosíntesis de proteínas en el ribosoma, las cosas son distintas. En la síntesis in vivo una misma secuencia puede presentar dos conformaciones diferentes. En el ribosoma, distintos factores pueden afectar a la cinética del proceso de biosíntesis de proteínas y, en consecuencia, producir variaciones conformacionales (5). Además, en el proceso de plegamiento correcto influyen otros factores: como, por ejemplo, que la cadena polipeptídica naciente interaccione con el interior del ribosoma, y con otras proteínas como los chaperones moleculares, que facilitan el mantenimiento de su estructura nativa.
Pero ¿hasta qué punto una determinada estructura terciaria y su función específica asociada precisan de una fidelidad secuencial? Al examinar los patrones de variabilidad de diversas familias proteicas observamos que, en contraste con la permisibilidad a los cambios secuenciales, existen fuertes restricciones estructurales a dicha variabilidad, que afectan fundamentalmente a los residuos hidrofóbicos -que forman parte del núcleo hidrofóbico de la proteína-y mucho menos a los residuos hidrofílicos de la superficie globular. En este sentido, la comparación de secuencias de hemoglobinas de distintas especies revela que algunas difieren en 137 de sus 141 aminoácidos conservando su identidad estructural y funcional. Así pues, no es cierto que la información genética contenida en la secuencia de aminoácidos sea muy exclusiva ni para el plegamiento ni para la conformación de las proteínas. Son muchos los factores -externos e internos-que intervienen en el plegamiento y conformación final de las proteínas; y esto dificulta enormemente el encontrar programas para predecir estructuras a partir de secuencias, como bien saben los bioinformáticos.
Antes de meternos más a fondo con las proteínas intrínsecamente desordenadas, quiero abordar más someramente algunas cuestiones relativas a los priones, como proteínas que implican una excepción notable del dogma de Anfinsen y del DCBM; para un desarrollo más en profundidad, de las ideas que voy a exponer a continuación, consultar los posts de 10 de marzo de 2017 y de 4 de marzo de 2020.

Las proteínas que aparentemente se comportan como virus y genes: priones y conformones

Los priones se descubrieron como agentes infecciosos, exclusivamente proteicos, en determinadas enfermedades neurodegenerativas de mamíferos, donde se comportan como un virus. También se asociaron, e identificaron, a determinados procesos de “herencia no mendeliana” donde, aparentemente, se comportan como un gen; en cuyo caso, a estas proteínas funcionales -propagadoras de información conformacional- es mejor denominarlas conformones, para diferenciarlas del comportamiento patológico de los priones (6). En ambos tipos de procesos -patológicos y fisiológicos- los priones y conformones pueden transmitir información estructural y autorreplicarse, induciendo el correspondiente cambio conformacional en otras formas proteicas con idéntica o muy semejante secuencia.  El comportamiento anómalo de estas proteínas hidrofóbicas fue estudiado por S. Prusiner, quien en 1982 acuñó el acrónimo Prión a partir de la denominación de estos agentes como proteinaceus infectious particles, más eufónico que proin, (7). Prusiner propuso la hipótesis de “la proteína sólo”: la propagación priónica se realiza mediante un mecanismo de cambio conformacional o moldeamiento inducido de la proteína celular normal por la proteína patogénica, mediante interacción directa entre ambas. Más sorprendentes aún para el tema que nos ocupa -la prioridad entre información secuencial y conformacional, y entre estructura y función- son las diferencias de los patrones de variabilidad con los virus, a los que, en principio, se asemejan en comportamiento. Antes de seguir con este tema, tan sólo quiero aclarar que utilizo el término prioridad no en el sentido de capricho o preferencia, sino en la acepción de “anterioridad o precedencia de una cosa respecto de otra que depende o procede de ella”. En los patógenos clásicos, las diferencias aparecen en su genoma (ADN o ARN), manifestándose en forma de especies y subespecies o cepas.  Pero, en el caso de los priones, ¿cómo puede sólo una proteína, sin el concurso de los ácidos nucleicos, codificar, producir y transmitir variabilidad? Esto parece imposible en el paradigma genocéntrico actual. El problema se agrava cuando vemos aparecer la inconmensurabilidad en conceptos, como especie y cepa, entre nuevos agentes infecciosos, como los priones, y otros agentes infecciosos clásicos, como los virus. Como hemos visto, una especie vírica viene definida por unas determinadas características genéticas de tipo secuencial, esto es, codificadas en secuencias de bases nitrogenadas de su ADN o ARN. Las subespecies o cepas víricas comprenden algunas variantes secuenciales menores dentro de una especie; que, por lo tanto, es prioritaria a la cepa. Por su parte, para los priones los conceptos de especie y cepa son muy distintos y desconcertantes. La especie de un prión viene definida por la secuencia de la proteína celular normal (PrPc), transformada por él, y perteneciente al último mamífero por el que ha pasado. El paso de priones de una especie a otra viene limitado por lo que se conoce como barrera de especie: la mayor o menor dificultad que tienen los priones producidos en una especie, para propagar sus conformaciones en otra especie. En general, cuanto más se parezcan las secuencias de la proteína del prión (PrP), la priónica (PrPsc) y la forma celular del huésped (PrPc), tanto más será la probabilidad de saltar la barrera de especie. Hasta aquí no parece haber demasiada diferencia con los virus. Pero otros factores también influyen en el fenómeno de la barrera de especie: la cepa del prión y la especificidad de especie de una proteína que actúa como un chaperón, uniéndose a la PrPc y facilitando su conversión en PrPsc. Por su parte, las cepas priónicas se definen como subespecies del agente infeccioso capaces de mantener perfiles fenotípicos específicos. Siguiendo la lógica genética secuencial, del paradigma genocéntrico, las cepas presentarían secuencias que procederían de su especie priónica (que por tanto sería prioritaria a la cepa), pero no es así: la variabilidad que manifiestan las cepas de un prión no son atribuibles a diferencias en la secuencia de aminoácidos. Se ha observado que, además de diferencias fisicoquímicas, las cepas también presentan diferentes conformaciones. Varios estudios apoyan la hipótesis de que cada cepa de prión parece identificarse con una determinada conformación de las diferentes que puede adoptar una especie de PrPsc, identificada por su secuencia. Estas conformaciones se pueden propagar induciendo el correspondiente cambio conformacional en PrPc con secuencias idóneas, cuyas diferencias no supongan una barrera de especie. Esta barrera generalmente será mayor cuanto más alejadas evolutivamente estén las especies, aunque teóricamente podrían existir especies “puente” entre dos que presenten el efecto barrera (6). En este fenómeno de propagación de cepas por especies diferentes se pone de manifiesto que la conformación de la cepa se impone a la secuencia de la especie: nos encontramos tanto con secuencias (especies) que pueden adoptar diferentes conformaciones (cepas), como con conformaciones que pueden estar en diferentes secuencias. Estos datos, relativos a la propagación del fenotipo molecular que caracteriza las distintas cepas proporcionan un fuerte apoyo a la hipótesis de la proteína sólo, tanto en lo relativo a los mecanismos de transmisión priónica como en la codificación de la variabilidad de cepas en la estructura terciaria de este tipo de proteínas. Aquí se nos presenta una paradoja, ¿dónde está la prioridad? ¿En la cepa o en la especie? ¿En la conformación o en la secuencia? Para explicar esta y otras paradojas debemos salirnos del paradigma genocéntrico que incluye el dogma de Anfinsen y el DCBM. Las conformaciones (cepas) no son subespecies en el sentido filogenético, es decir, no han derivado de una especie (definida por su secuencia). Como ya se ha expuesto repetidamente en este blog, muchos hechos -como los recogidos en esta paradoja- llevan a pensar que la evolución de las proteínas se pudo producir en dos etapas distintas:
·       Una primera etapa prebiótica de selección de información conformacional proteica pregenética, origen de los conformones.
·       Una segunda etapa, biótica, donde en coevolución conformacional con el ARN, se establecería el código genético: primero conformacional y luego secuencial.
Así pues, la posible solución de esta paradoja vendría de deslindar y situar correctamente las etapas evolutivas: las cepas (conformaciones) son prioritarias a las especies (secuencias) ya que lo pregenético es prioritario a lo genético y a lo epigenético, y esto tanto en la filogenia, como en la ontogenia y en la fisiología (incluidas sus disfunciones patológicas).
Ahora estamos en condiciones de poder dar alguna respuesta alternativa a las preguntas que nos hicimos antes:
·       ¿El flujo de información ha sido siempre en este sentido, del ADN o ARN a los polipéptidos?
Efectivamente, desde la etapa prebiótica pudo haber sido a la inversa: de la información conformacional de los polipéptidos, y del ARN, a la secuencial del ARN y del ADN, invirtiendo el DCBM (6 y blog 2017). Aún más, hay hechos que apuntan a que, dado que las páginas de la evolución se escriben mediante el continuo diálogo entre organismo y ambiente, es posible que no sólo, desde el origen de la vida, la información conformacional pregenética sea prioritaria a la genética; sino que también esta información conformacional opere en todos los procesos epigenéticos a lo largo de la evolución: en la filogenia, en la ontogenia y en la fisiología.

·       ¿Determina inexorablemente la información secuencial de un polipéptido su estructura terciaria conformacional?
Ya hemos visto sobradamente con las especies y cepas priónicas que la respuesta es no. A continuación, veremos que las IDPs también niegan estos postulados del dogma de Anfinsen y del DCBM.
·       ¿Está la estructura tridimensional de una proteína siempre vinculada a una función que determina? O lo que es lo mismo, ¿la función de una proteína viene siempre determinada por su estructura previa?
Esta pregunta también se contestará preferentemente en el siguiente apartado.

En las proteínas intrínsecamente desordenadas la función es prioritaria a la estructura

En el post anterior -4 de marzo de 2020- tratamos algunos temas relacionados con estas proteínas desestructuradas, que no vamos a repetir (8). Aquí vamos a centrarnos fundamentalmente en cómo estas proteínas intrínsecamente desordenadas (IDPs) desafían el paradigma básico de la biología estructural: “la estructura de las proteínas determina su función”. El DCBM engloba este paradigma con el dogma de Anfinsen, en un paradigma genético superior; y marca un flujo de información secuencial en un único sentido, que determina la estructura y la función de las proteínas: la información genética secuencial fluye unidireccionalmente del ADN a las proteínas, pasando por el ARN, determinando una única secuencia de aminoácidos, que determina una única estructura tridimensional (TD) y una única función. El paradigma genético del DCBM ha conducido la investigación de la estructura proteica hacia proteínas con estructuras únicas, bien definidas, mediante estudios de sus estructuras cristalinas con Rx. Estos estudios estructurales reforzaban una visión estática de las proteínas funcionales como cerraduras únicas para llaves únicas, aunque se admitía un cierto grado de flexibilidad conformacional, como, por ejemplo, en las proteínas alostéricas.
Sin embargo, desde hace una veintena de años se ha acumulado una cantidad notable de conocimiento acerca de muchas proteínas que contienen segmentos funcionales desordenados, parcial o totalmente, carentes de una estructura TD bien definida, pero que pueden adoptar conformaciones funcionales cuando se unen, de forma poco específica, a diversos ligandos (9). Las IDPs y las proteínas híbridas -que contienen tanto dominios ordenados como regiones funcionales intrínsecamente desordenadas (IDPRs)- son muy abundantes en la naturaleza. Tanto las IDPs como las IDPRs poseen sesgos bien reconocibles, en su composición -fundamentalmente hidrofílica- y en su secuencia de aminoácidos. Presentan una notable heterogeneidad estructural, en la que diferentes partes de una determinada cadena polipeptídica pueden exhibir diferentes grados de orden: potencialmente plegable, parcialmente plegable, diferentemente plegable o no plegable. Estos segmentos estructurales cambian de estructura en diferentes momentos, y su distribución también cambia constantemente en respuesta a los cambios ambientales. Así pues, las IDPs y las IDPRs no tienen una única estructura en equilibrio bien definida y existen como uniones heterogéneas de confórmeros. Esta organización estructural en mosaico es crucial para sus funciones, y muchas IDPs están comprometidas en funciones biológicas que dependen de una alta flexibilidad conformacional, como regulación, señalización, control; y, en general, adaptación a los cambios del medio ambiente molecular.  

Evolución ondulante del desorden proteico intrínseco

Para analizar estos datos generales, con más detalle, en principio, vamos a ver cómo las diferencias estructurales -entre los polipéptidos y dominios de las proteínas globulares ordenadas, y las IDPs e IDPRs- se justifican sobre la base de las peculiaridades de sus secuencias de aminoácidos (9). Las IDPs solubles presentan un bajo contenido de residuos hidrofóbicos, y alto de residuos hidrofílicos. Las proteínas globulares ordenadas necesitan un núcleo (core), fuertemente hidrofóbico, sobre el que ordenar su estructura TD. Por ese motivo, las IDPs exhiben, fundamentalmente, una baja cantidad de residuos promotores de orden, y una mucho mayor de residuos promotores de desorden. Entre el primer tipo de residuos destacan: los hidrofóbicos alifáticos (como Ile, Leu y Val) y aromáticos (como Trp, Tyr y Phe); y también Cys y Asn. Entre los residuos promotores de desorden -abundantes en las IDPs- tenemos los apolares hidrofóbicos (Ala y Pro) y los polares hidrófilos (Arg, Gly, Gln, Ser, Glu y Lys). Una escala más completa de residuos (de promotores de orden a promotores de desorden) comprendería: Trp, Phe, Tyr, Ile, Met, Leu, Val, Asn, Cys, Thr, Ala, Gly, Arg, Asp, His, Gln, Lys, Ser, Glu y Pro.   
Las IDPs y las proteínas híbridas -que contienen tanto dominios ordenados como regiones funcionales intrínsecamente desordenadas (IDPRs)- son muy abundantes en la naturaleza -de hecho, han pasado de ser la excepción a ser la regla-, aunque hay mucha mayor representación en eucariotas que en arqueas, y bastante más en éstas que en bacterias. Esta distribución asimétrica en los tres dominios biológicos plantea un problema complejo que requiere una explicación lo más sencilla posible. Uversky lo explica sobre la base del repertorio funcional de las proteínas desordenadas (9). Las IDPs e IDPRs están comúnmente implicadas en procesos de señalización, reconocimiento y regulación; por lo que es frecuente su presencia en las complejas redes de regulación de los eucariotas, especialmente los pluricelulares. Esta asociación de desorden estructural con complejidad morfológica evolutiva está en línea con la lógica del vigente paradigma genocéntrico; aunque se ha visto que muchos eucariotas unicelulares acumulan más cantidad y variabilidad de estructuras desordenadas que los eucariotas pluricelulares. Por esta razón, Uversky razona que la cantidad y variedad de IDPs e IDPRs, en eucariotas unicelulares, iría vinculado al aumento de variabilidad ambiental: mayor para los protistas que para las células eucariotas de un organismo pluricelular, dotado de mecanismos de homeostasis.
Uversky nos muestra en una gráfica -figura 2, de la página 6 de su libro (9)- sobre la distribución del desorden intrínseco en varios proteomas, que algunos virus presentan un promedio de residuos desordenados mayor que bacterias, arqueas y eucariotas; aunque, en general, la distribución del desorden, en los virus analizados, guarda cierta simetría con la de las células de los tres dominios. Además, también es llamativo ver una gran cantidad de arqueas agrupadas con la mayoría de las bacterias en el área de porcentaje bajo de residuos desordenados. Igualmente, también aparecen bastantes arqueas -y un grupo de bacterias- con un porcentaje de desorden similar a algunos eucariotas unicelulares. Una posible explicación de estos datos coincidentes, en determinadas especies de los tres dominios, es la posible coevolución de estas especies en algunos ecosistemas especiales.
A la hora de explicar el origen y evolución de las proteínas desordenadas, Uversky acude a una explicación tortuosa, que denomina “wavy evolution”, sobre la base de una serie de datos, como -además de los analizados anteriormente, entre otros- la vinculación de mecanismos genéticos como el splicing alternativo de ARNm y la generación de IDPs e IDPRs, relacionadas con la señalización y diferenciación celular en eucariotas. Estos datos, le llevan a pensar en la aparición de las estructuras desordenadas alrededor del origen de los eucariotas. Pero, por otra parte, razona que es difícil imaginar la aparición súbita de estructuras ordenadas en la etapa prebiótica; y -tomando como referencia el famoso experimento de Stanley L. Miller and Harold C. Urey, donde sólo se encontraron alrededor de la mitad de los modernos aminoácidos- concluye que las primeras proteínas estarían formadas tan sólo por unos pocos de ellos; apoyándose, también, en la teoría biosintética de la evolución del código genético, de F. Crick, donde una forma primitiva de éste (con dobletes antes de la aparición de tripletes) codificaría tan sólo para unos pocos aminoácidos.

¿Cuáles serían los primeros aminoácidos? Con estas y otras premisas, se ha intentado saber qué aminoácidos son más o menos antiguos. Así, se ha propuesto la siguiente lista con el supuesto orden de aparición de los aminoácidos: Gly/Ala, Val/Asp, Pro, Ser, Glu/ Leu, Thr, Arg, Asn, Lys, Gln, Ile, Cys, His, Phe, Met, Tyr, Trp. Muchos de los primeros aminoácidos (como Gly, Asp, Glu, Pro y Ser) son promotores de desorden y abundan en las IDPs; mientras que los promotores de orden (Cys, Trp, Tyr y Phe) fueron incorporados posteriormente.  La leucina (Leu) y la valina (Val) aparecen como excepciones, ya que serían aminoácidos tempranos, pero promotores de orden.  
Interpretar los datos obtenidos, en cualquier campo de la actividad científica, supone enhebrarlos con el hilo de un razonamiento causal y lógico, para construir un discurso o argumento. Pero los datos, así unidos, pueden ofrecer diversas interpretaciones: según los ensartemos en un orden u otro; según los unamos todos o escarbemos entre ellos, escogiendo sólo los que nos interesan; o, lo que es peor, según veamos el dato sólo como dato -obtenido rigurosamente mediante el método científico experimental- o, por el contrario, lo distorsionemos elevándolo injustificadamente a teoría o a dogma. En este último caso, el dato no se deja enhebrar, y opera más bien como una roca dura que desvía el curso de un río, ocasionando un meandro. Por este motivo, al construir una teoría, debemos apreciar tanto la integración del mayor número de datos significativos posible, como la sencillez de sus explicaciones, en un discurso directo e inclusivo, sin desvíos innecesarios.  
Los datos aquí presentados sugieren que los primeros polipéptidos fueran intrínsecamente desordenados, pero Uversky propone que, éstos, carecieran de cualquier actividad catalítica; y, que, por el contrario, actuasen como chaperones del ARN. Argumenta, a favor de esta hipótesis: que está en línea con “the RNA world theory”; y que, durante la evolución de la actividad enzimática, la catálisis sería transferida desde el ARN a las ribonucleoproteínas, primeramente, y después a las proteínas. Continúa su argumentación valorando positivamente la capacidad, como chaperones, de las proteínas desordenadas para mantener la estructura del ARN, dada su tendencia al plegamiento incorrecto. Igualmente valora la mayor variabilidad de las propiedades físicas y químicas de los aminoácidos frente a los nucleótidos, y la mayor estabilidad estructural de las proteínas respecto al ARN; concluyendo, por lo tanto, que la transición de la actividad enzimática desde las ribozimas a las proteínas, guarda una lógica evolutiva. Pero, y aquí viene otro meandro en el curso de la argumentación: una catálisis eficiente requiere una estructura estable, por lo que la actividad enzimática generaría una fuerte presión selectiva a favor de las estructuras ordenadas y bien plegadas. Uversky propone que la evolución global de las proteínas desordenadas sigue una senda ondulada (wavy pattern): primero, proteínas muy desordenadas con actividad de chaperones del ARN; seguida de sustitución gradual por enzimas bien plegadas y con estructuras muy ordenadas; y, por último, con la aparición de los eucariotas, el desorden fue “reinventado” para hacer frente a sus complejos procesos de regulación.
En relación con todo esto, otra cuestión importante hace referencia a la comparación de la velocidad de cambio evolutivo entre las proteínas y regiones desordenadas (IDPs e IDPRs) y las ordenadas. Los datos disponibles ofrecen un poco de todo, pero, aunque en la generalidad de las proteínas los residuos hidrofílicos -característicos de las estructuras desordenadas- son más permisivos con los cambios que los hidrofóbicos; la explicación no puede atender exclusivamente a consideraciones estructurales, siendo tan importantes o más las funcionales. Efectivamente, es bien sabido que generalmente, en las proteínas globulares, los residuos hidrofóbicos forman parte del núcleo (core) de la proteína, y que, por lo tanto, presentan fuertes restricciones estructurales al cambio. Por el contrario, también en general, los residuos hidrofílicos están más en superficie, y, si no están implicados directamente en alguna relación funcional, son más permisivos con los cambios. No obstante, siempre hay excepciones a esta regla: residuos hidrofóbicos implicados en las interacciones con el ligando; o, mejor aún, anfipáticos como la Tyr, que dan mucho juego en el sitio de unión, por su doble posibilidad de interacción, polar y apolar. En cualquier caso, vemos que las excepciones a las generalidades estructurales atienden siempre a criterios funcionales. Así, por ejemplo, en la comparación interespecífica de las mismas enzimas, la variabilidad se concentra en residuos permisivos con la estructura TD de la enzima en cuestión, y está totalmente restringida en los residuos que forman el centro catalítico, específico del sustrato. Por el contrario, en los anticuerpos, la variabilidad se concentra en las tres regiones determinantes de la variabilidad (CDRs 1, 2 y 3) de los dominios variables de las cadenas pesadas y ligeras de las inmunoglobulinas. No hay una velocidad de cambio de los residuos independiente de la funcionalidad global de la proteína, en la célula y en el individuo pluricelular.
No obstante, se observa una tendencia significativa de selección positiva, en proteínas, de IDPRs en comparación con regiones de hélices α, láminas β o estructura terciaria. Uversky lo explica por el potencial adaptativo de estas regiones, mediante variación genética, que facilitaría la evolucionabilidad de células y organismos. En este sentido, en el último post -de 4 de marzo de 2020- vimos algún ejemplo (anticuerpos catalíticos) de cómo las proteínas pueden especializarse adaptativamente, con un aumento de especificidad y afinidad, pasando de estructuras más desordenadas a más ordenadas, al tiempo que se selecciona un mecanismo funcional de tipo llave-cerradura a partir de otro de tipo ajuste inducido. Estos procesos de transición de estructuras más desordenadas (adaptadas directamente a los cambios del ambiente molecular) a más ordenadas -mediante mecanismos genéticos, más o menos dirigidos- podrían representar el modelo general de especialización funcional de las proteínas.
Antes de continuar con otros aspectos de las IDPs, vamos a recapitular los datos mostrados por Uversky, y su forma de enlazarlos (evolución ondulada de las IDPs), para razonar otro posible relato, más directo. Podemos empezar con los hallazgos de splicing (corte y empalme) alternativo de ARNm, que codifica para IDPRs con mucha más frecuencia que para regiones estructuradas. De momento, sólo quiero señalar que tanto el mecanismo del splicing como el complejo molecular que lo ejecuta, el spliceosoma, constituyen una de las señas de identidad eucariota. Por otra parte, se otorga una prioridad al ARN sobre las proteínas, basada en: la insuficiencia de aminoácidos entre las moléculas obtenidas en el experimento de Miller; en el código primitivo de dupletes, que formarían proteínas con aminoácidos promotores de desorden; en la actividad catalítica de las ribozimas (según el modelo del mundo de ARN), aunque con la ayuda de IDPs como chaperones no específicos. Con estas y otras premisas, vamos a mostrar que la hipótesis de la “wavy evolution” de las IDPs, puede ser sustituida por otra más directa.

Origen y evolución de las proteínas: desde la “sopa primordial” hasta los eucariotas, sin “meandros

Primeramente, vamos a analizar de nuevo algunos de los datos vistos hasta ahora. En primer lugar, si en el experimento de Miller no aparecieron los veinte aminoácidos que constituyen todas las proteínas biológicas; debemos tener en cuenta que menos aún aparecieron las bases nitrogenadas, que son la esencia informativa de los ácidos nucleicos (ARN y ADN). Por otra parte, es difícil encontrar, en las revisiones sobre la etapa prebiótica del origen de la vida, referencia alguna a los experimentos de síntesis prebiótica de Sidney Fox acerca de lo que él denominó proteinoides termales y microesferas.

¿Qué son los proteinoides termales y las microesferas de Fox? Al igual que Miller, Fox consiguió la síntesis de aminoácidos a partir de moléculas inorgánicas. Con algunos de estos monómeros -especialmente los obtenidos por Miller- consiguió la síntesis de polipéptidos a los que llamó proteinoides termales; y, a partir de éstos, obtuvo unos glóbulos, que realizaban algunas actividades enzimáticas poco específicas, a los que llamó microesferas. Todos estos procesos los llevó a cabo con el concurso de energía térmica (entre 130º y 180º C) compatible con las emanaciones termales en zonas volcánicas (abundantes en la etapa prebiótica terrestre). A diferencia de los coacervados de Oparin -que portaban una enzima, extraída de una célula actual-, las microesferas de Fox presentaban una actividad enzimática inherente a su propia estructura, como reacciones de oxidación, rotura de enlaces por hidrólisis, etc. Las microesferas de Fox, además de proteínas, están rodeadas de una membrana parecida a la bicapa lipídica, y son capaces de crecer y dividirse mediante fenómenos de bipartición y de gemación; así como de llevar a cabo la fusión entre microesferas.
Para tener una visión, lo más panorámica posible, de todos los datos manejados hasta ahora, vamos a revisar las clasificaciones de aminoácidos -según su capacidad promotora de desorden u orden, y según su supuesto orden de aparición en la Tierra- indicando, en cursiva, los aminoácidos mayoritarios en la síntesis de Miller; y, en negrita, los aminoácidos obtenidos por Fox.
 Así, en la lista de aminoácidos según su capacidad promotora de desorden u orden, colocando los residuos de promotores de desorden a promotores de orden: Pro, Glu, Ser, Lys, Gln, His, Asp, Arg, Gly, Ala, Thr, Cys, Asn, Val, Leu, Met, Ile, Tyr, Phe y Trp.
Igualmente, la lista con el supuesto orden de aparición de los aminoácidos quedaría así: Gly/Ala, Val/Asp, Pro, Ser, Glu/ Leu, Thr, Arg, Asn, Lys, Gln, Ile, Cys, His, Phe, Met, Tyr, Trp.  
Como vimos anteriormente, muchos de los propuestos como primeros aminoácidos (Gly, Asp, Glu, Pro y Ser) son promotores de desorden y abundan en las IDPs; mientras que los promotores de orden (Cys, Trp, Tyr y Phe) serían incorporados posteriormente.  Pero, la leucina (Leu) y la valina (Val) aparecen como excepciones, ya que serían aminoácidos tempranos y promotores de orden; y, por otra parte, hay que tener en cuenta que aminoácidos como Ile, Tyr y Phe, propuestos para su aparición tardía en el escenario de síntesis prebiótica, y promotores de orden, aparecen en la síntesis llevada a cabo por Sidney Fox.

¿Cuáles eran realmente los aminoácidos obtenidos en el experimento de Miller? Además de estos datos, en 2008, un grupo de investigadores rescató muestras archivadas de otros experimentos realizados en 1958, simulando otros ambientes, con el aparato que inicialmente usó Miller en 1953 (10). Aplicando modernas técnicas analíticas -de cromatografía (HPLC) y de espectometría (MALDI-TOF)-, entre otras moléculas, se encontraron los veinte aminoácidos proteicos. Naturalmente, se comprobó que éstos no resultasen de contaminación alguna. Las nuevas condiciones de la simulación de Miller se han considerado como modelo de la síntesis orgánica abiótica en ambientes volcánicos, con una alta concentración de H2S. Además, los aminoácidos más abundantes en las condiciones prebióticas de este experimento son muy semejantes a los más abundantes en algunos meteoritos carbonáceos. En ambos ambientes resulta fundamental la intervención del H2S para la síntesis de estos aminoácidos. Además de los aminoácidos más abundantes en los experimentos de 1953: Glu, Asp, Gly, y Ala; en los experimentos de 1958 también aparecieron en abundancia: Ser, Thr, Cys, Leu, Met e Ile.
La nueva lista de aminoácidos, colocando los residuos de promotores de desorden a promotores de orden, quedaría así: Pro, Glu, Ser, Lys, Gln, His, Asp, Arg, Gly, Ala, Thr, Cys, Asn, Val, Leu, Met, Ile, Tyr, Phe y Trp. Donde los aminoácidos subrayados son los “rescatados” de los experimentos de Miller de 1958.   
Con esta nueva perspectiva, no sólo podríamos contar, potencialmente, con todos los aminoácidos para construir otro posible relato del origen de la vida; sino que, entre los candidatos a pertenecer al grupo de los más abundantes, tenemos una cantidad importante tanto de promotores de desorden como de promotores de orden.  

¿Cómo fue el primer código genético? Continuando con las premisas que nos llevaban de la síntesis prebiótica a la evolución ondulada de las IDPs, pasando por un mundo de ARN, vamos a abordar el origen del código genético secuencial, bien sea con tripletes o con dobletes. Todo lo que se va a contar a continuación aparece con más detalle en el post de 2017, y en el post del 4 de marzo de 2020. En este y en los otros post, hemos visto que dentro del dominio de información conformacional pregenética tenemos las características esenciales o constitutivas de las proteínas -anteriores a la información genética que empieza con el código genético- tanto en lo relativo a la plasticidad proteica específica de estructuras desordenadas frente a ligandos diversos, como en la propagación de conformaciones por medio de proteínas tipo prión, a las que denominamos conformones.
Esta información pregenética se establecería en la etapa de evolución prebiótica y daría lugar, entre otras cosas, a la selección de ribonucleoproteínas (RNPs), estableciendo un código conformacional -entre las estructuras tridimensionales de proteínas y ARNs- previo al código genético secuencial. Este código no sería degenerado y está representado por la especificidad enzimática de las 20 aminoacil ARNt sintetasas: una por cada aminoácido y por su correspondiente ARNt, caracterizado por el lazo D de su estructura, no por su anticodón. La invariancia en la información secuencial condiciona, pero no determina, la plasticidad conformacional de las proteínas, sobre todo en aquellas que mantienen porciones funcionales, más o menos grandes, de estructura desordenada.   
Conviene subrayar, aquí, la importancia funcional de las IUPs, ya que intervienen como reguladoras en procesos celulares clave, tales como transcripción, traducción, transducción de señales y ciclo celular; así como en muchos procesos de adaptación molecular. Así pues, es posible que la funcionalidad esencial de la célula -y no determinados procesos exóticos- precise del concurso de éstas y, también, de otras proteínas -como las HSPs-chaperones y los conformones- ya que, estas últimas, poseen tanto alguna región desestructurada como un potente núcleo hidrofóbico (core), que les proporciona estabilidad y capacidad de modificar a otras proteínas. Esta acción conjunta de los tres tipos de proteínas puede estar implicada en los principales procesos celulares y etapas biológicas, desde el origen de la vida, es decir: en la ontogenia, en la filogenia y en la fisiología celular. A este respecto conviene resaltar que tanto los priones-conformones como las IUPs son muy resistentes a factores fisicoquímicos (calor, ácidos, radiaciones UV) característicos de ambientes extremos, como los que pudieron darse en la etapa prebiótica del origen de la vida.
Por otra parte, como ya hemos visto, las IUPs intervienen en muchas funciones de evidente implicación epigenética: metilaciones, acetilaciones, glicosilaciones, fosforilaciones, factores de transcripción, regulación de la transcripción y traducción, histonas, aminoacil-ARNt sintetasas, ensamblaje de grandes complejos proteicos, ribosoma, citoesqueleto, etc. Los polipéptidos desestructurados actúan como chaperones y proteínas HSPs (por ejemplo, en el estrés hidríco), y también forman parte de esta familia de proteínas, lo cual confirmaría la relación funcional ancestral de las HSPs-chaperones con las IUPS y priones-conformones; por lo que es probable que las HSPs-chaperones surgieran como una familia proteica con características funcionales y estructurales intermedias entre las otras dos.
Así pues, en un paradigma proteocéntrico, la etapa prebiótica y pregenética podría caracterizarse por la coevolución de información conformacional -de estos tres tipos de proteínas, en interacción con las ribozimas, formando RNPs- de la que surgiría el código genético: primero conformacional y luego secuencial. Este triunvirato proteico puede constituir el mecanismo general de adaptación al medio en el nivel supramolecular: las IUPs se moldearían funcionalmente por unión a nuevos ligandos; las HSPs participarían estabilizando y guardando la coherencia funcional de las estructuras proteicas resultantes, tanto las pregenéticas como las genéticas; y los conformones seleccionarían y propagarían las nuevas conformaciones.  
Es probable que la evolución de las IDPs haya ido de polipéptidos cortos (pregenéticos) -que formarían asociaciones de miniestructuras cuaternarias- a polipéptidos más largos (con síntesis genética), con dominios de estructura variable en el espacio y en el tiempo; y siempre acompañados de conformones y chaperones. Con el código genético aparece la invariancia secuencial; y, con el spliceosoma, el baraje y la unión de dominios en polipéptidos más largos, lo que proporciona un aumento de la heterogeneidad funcional y estructural de las proteínas desordenadas. Gracias a la interacción de la plasticidad pregenética con el medio, y los “pespuntes” genéticos, se va haciendo la variabilidad de la evolución. Las mutaciones -como los virus- son daños o beneficios colaterales, fruto de la contingencia.

¿Cómo sería la primera célula? En el análisis genómico comparado, las bacterias aparecen como las portadoras de los genes del metabolismo, las arqueas portan genes del procesamiento y transmisión de la información genética (replicación, transcripción y traducción); mientras que los genes exclusivos de los eucariotas también están implicados en la factoría del núcleo -spliceosoma incluido-, en la transducción de señales y en los mecanismos de exocitosis y endocitosis. Así, en la lógica del paradigma proteocéntrico, la primera célula tendría una naturaleza esencialmente eucariota; sería básicamente una arquea, similar a un núcleo, con un metabolismo elemental limitado a la producción de proteínas en la factoría del núcleo, y una fisiología centrada en el tránsito de información externa, de la membrana celular al núcleo -rutas de transducción de señales-, y de respuesta adaptativa interna, del núcleo a la membrana celular. En el inicio y en el final de ambas rutas informativas debe estar presente la triada formada por IUPs, HSPs-chaperones y conformones. En este sentido, parece que tanto los priones-conformones, como las IUPs están principalmente, o más representadas, en los eucariotas, lo que reforzaría esta hipótesis, sin recovecos. Además, este flujo de información, entre el primordio de célula eucariota (a la que denomino protocariota) y el medio externo, iría reforzado por una continua y contingente producción de vesículas de exocitosis (cargadas, en principio al azar, de proteínas y ácidos nucleicos) que, sin propósito alguno, colonizarían el medio exterior, e interiorizarían y seleccionarían partes de su “metabolismo” mineral abiótico. Muchas de estas vesículas estarían abocadas a volver, por endocitosis, a las células protocariotas. De esta manera, se iría haciendo, lentamente y de forma exógena, el metabolismo energético. Así, en el paradigma proteocéntrico -con este continuo baile de exocitosis y endocitosis- se formarían tanto los eucariotas como todos los acariotas (entidades sin núcleo definido): el resto de las arqueas, las bacterias y los virus (ver post de 2017).  En este sentido, resulta interesante el que las regiones desestructuradas (características de eucariotas) no tengan actividad enzimática. Las enzimas específicas pudieron formarse, en la etapa genética, aumentando paulatinamente la afinidad desde reconocimientos de ajuste inducido a mecanismos del tipo llave-cerradura. Además, en el interior de las vesículas de exocitosis, tanto el material genético como las proteínas resultantes -ambos producidos de forma contingente, y necesaria, por la maquinaria nuclear que ya había iniciado su andadura genética- pueden seleccionarse, sin problemas de coherencia funcional, en su encuentro con el premetabolismo mineral exterior. Algunas de estas vesículas alcanzarían la vida libre como acariotas, y otras volverían por endocitosis a la célula protocariota, proporcionando, así, los nutrientes necesarios. En algunos casos, se podrían establecer relaciones de endosimbiosis, integrando, así, el metabolismo exógeno conquistado. Es muy probable que se estableciese una línea evolutiva de endosimbiosis que, en vez de tratarse de un hecho puntual, puede continuar en determinados ambientes. Así, el inicio del metabolismo energético eucariota sería por integración funcional, en una línea evolutiva de endosimbiosis sucesivas, desde un metabolismo acariota exógeno.
Pienso que este relato enhebra mejor, y de forma directa, una cantidad mayor de datos para explicar el origen y evolución de las proteínas, que la evolución ondulante de las IDPs. En este modelo proteocéntrico, iriamos desde la evolución prebiótica hasta el protocariota (una arquea representativa de LUCA), del que saldrían tres ramas: una rama central, o tronco principal, que constituiría la continuidad eucariota (recuerdo que los eucariotas son monofiléticos); otra rama, que partiría próxima al protocariota, que se escindiría en los dos filos de las arqueas; y múltiples ramas entrecruzadas propias de los múltiples filos bacterianos. Además, prácticamente, cada tipo celular coevolucionaría con sus correspondientes virus específicos.   

Heterogeneidad estructural y funcionalidad de IDPs e IDPRs: la función es prioritaria a la estructura

En el libro de Uversky (9), se destaca la gran heterogeneidad estructural de las IDPs y sus regiones, sobre la base de sus largas secuencias extendidas, y una distribución no homogénea de su capacidad de plegamiento. Esta heterogeneidad abarca elementos estructurales que van desde: potencialmente plegable, parcialmente plegable, diferentemente plegable y no plegable. Así, diferentes partes de una molécula presentan diferentes grados de orden; y esta distribución cambia constantemente en el tiempo: un segmento de la proteína tendrá diferentes estructuras en diferentes intervalos de tiempo. El resultado es que, en cualquier determinado momento, una IDP tiene una estructura diferente de la estructura que tenga en otro momento. Naturalmente, esto parece obedecer a la capacidad de respuesta funcional, y no a una intermitencia programada. Otro nivel de heterogeneidad estructural está determinado por el hecho de que muchas proteínas son híbridas de dominios ordenados y desordenados; y que este carácter es crucial para sus funciones.
Las proteínas funcionales despliegan un espectro de estructuras que puede ir desde completamente ordenadas a proteínas totalmente carentes de estructura, con prácticamente todas las posibilidades intermedias: bien plegadas y carentes de cualquier región desordenada; un número limitado de regiones desordenadas; cantidad notable de regiones desordenadas; semejantes a glóbulo fundido; comportamiento de glóbulos prefundidos y mayoritariamente desestructuradas. En esta clasificación no hay límites precisos entre orden y desorden, donde las más estructuradas presentan algún grado de flexibilidad, y las más desordenadas siempre tienen algún grado de estructura residual.  
Efectivamente, las IDPs están implicadas en una gran cantidad de procesos vitales merced a su gran plasticidad conformacional, que les permite regular las funciones de sus ligandos, y promover el ensamblaje de complejos supramoleculares. Las IDPs están implicadas en rutas de reconocimiento, señalización, regulación y control; en las que interaccionan con muchos ligandos de forma específica, pero con baja afinidad. Así pues, entre otras funciones, actúan como:
·       Auténticos centros de conexión de proteínas en redes proteicas de señalización.
·       Proteínas andamio, interaccionando con varios ligandos a la vez, en la parte central de algunos complejos y rutas. Proporcionan, así, orientación espacial selectiva y coordinación temporal entre las proteínas en juego.
·       Las estructuras desordenadas en el control de la transcripción: factores de transcripción, histonas y proteínas ribosomales; muy importantes en eucariotas.
·       Las estructuras desordenadas en la regulación de algunas rutas celulares: modificaciones postraducción, señalización, muerte celular programada, entre otras.
·       Regulación funcional mediante IDPs y splicing alternativo.
·       Regulación funcional mediante IDPs y modificaciones postraducción.
·       Entre las últimas incorporaciones a la lista de IDPS está la de los chaperones, con lo que la terna funcional de proteínas, desde la etapa prebiótica, propuesta anteriormente: IDPs, conformones y chaperones; se ve apoyada por los hechos.


Las proteínas desordenadas median la interacción entre organismo y ambiente


La gran plasticidad conformacional de las IDPs se pone de manifiesto cuando observamos reconocimientos múltiples entre distintas secuencias y un sitio de unión común; con diferentes plegamientos de las IDPs formando complejos con sus ligandos, que, así, pueden actuar abrazándolos, envolviéndolos, pinzándolos, acorchetándolos, penetrándolos, etc. Igualmente, una IDP puede presentar diferentes conformaciones, más o menos ordenadas, tras su unión con ligandos de diferente naturaleza. Esta característica se conoce como la unión de uno para muchos -donde una única región desordenada puede unirse a varios ligandos estructuralmente diversos. Además. Las IDPs permiten grandes superficies de interacción -mucho mayores que las proteínas estructuradas- en los complejos formados con otras proteínas y ligandos, incluidos el ARN y el ADN. La enorme flexibilidad de las IDPs no sólo permite la interacción entre los ligandos unidos por ellas, sino que, también, les permite participar en la cascada de interacciones: la IDP que se une al primer ligando induce un plegamiento parcial que genera un nuevo sitio de unión para un segundo ligando, etc.
Las proteínas desestructuradas refutan el paradigma dominante: una secuencia, una estructura, una función, ya que estas proteínas presentan una heterogeneidad tanto estructural como funcional; dependiendo la estructura de la funcionalidad. Estas características de las proteínas desordenadas las hacen muy especiales como agentes biológicos del nivel supramolecular, que median la comunicación entre el interior y el exterior de los organismos celulares y pluricelulares, esto es -sensu lato- la comunicación entre el ser vivo y su medio ambiente.
La enorme heterogeneidad funcional y estructural de las proteínas intrínsecamente desordenadas nos permite concebir una nueva dinámica de los organismos frente a sus ambientes, radicalmente distinta del paradigma del programa genético. Incluso partiendo de un paradigma proteocéntrico de información conformacional, las propiedades de estas proteínas permiten que pasemos de las redes de cambios conformacionales predominantemente intercatenarios (entre proteínas distintas de una ruta), a cambios intercatenarios pero conectados por una cuerda con nudos o una superficie envolvente de cambios intracatenarios de las IDPs. Estas proteínas, flexibles y extendidas, constituyen un auténtico “sistema nervioso” de la célula: conectan la entrada de información del medio ambiente al interior del organismo celular, coordinan y regulan las funciones de la fisiología celular -incluidos los cambios epigenéticos- y la respuesta celular frente a la información medioambiental.

BIBLIOGRAFÍA
1.    Darwin, C. El origen de las especies. Ed. Bruguera. Barcelona (1980).
2.   Zweiger, G. El genoma: transducción, información, anarquía y revolución en las ciencias biomédicas. Mc Graw-Hill. Interamericana, (2002).
3.    Lewontin, R. C. Genes, organismo y ambiente. Gedisa editorial. Barcelona (2000).
4.  Ogayar, A. y Sánchez-Pérez, M. Algunos hitos conceptuales en la Historia de la Inmunología. Capítulo 1 de Introducción a la Inmunología Humana. Miguel Sánchez-Pérez (ed). Editorial Síntesis. Madrid (1997).
5.    Martínez del Pozo, A. ¿Estaba Christian Anfinsen en lo cierto? Anales de Química.
6. Ogayar, A., Sánchez-Pérez, M. Prions: an evolutionary perspective. International Microbiology (1998) vol. 1, nº 3, 183-190.
7.    Prusiner, S. B. Novel proteinaceus infectious particles cause scrapie. Science (1982), 216: 136-144.
8.    Tompa, P. Intrinsically unstructured proteins. Trends in Biochemical Sciences (2002), vol. 27, nº 10, 527-533.
9.    Uversky, V. N. Intrinsically disordered proteins. Springer, (2014).

1.   Parker, E. T. et al. Primordial synthesis of amines and amino acids in a 1958 Miller H2S-rich spark discharge experiment. PNAS (2011), vol. 108, nº 14, 5526-5231.