Biohub lanza ESMFold2 y un “modelo mundial” de proteínas para acelerar nuevos fármacos

Biohub presentó ESMFold2, ESMC y ESM Atlas, un ecosistema abierto capaz de predecir estructuras para 1.100 millones de proteínas y diseñar anticuerpos en días, marcando un salto en el uso de inteligencia artificial para descubrir y desarrollar terapias de precisión.
La biología entró de lleno en la era de los modelos fundacionales. Biohub, el organismo de I+D apoyado por el ecosistema de Mark Zuckerberg, anunció el lanzamiento de un “modelo mundial de la biología de proteínas”: una plataforma basada en IA que puede mapear 6.800 millones de secuencias, predecir 1.100 millones de estructuras y diseñar proteínas capaces de unirse con alta afinidad a dianas clave en cáncer e inmunología. El núcleo de este sistema se apoya en tres piezas: ESMC, un modelo de lenguaje de proteínas entrenado en aproximadamente 2,8 mil millones de secuencias; ESMFold2, un motor de predicción estructural y diseño; y ESM Atlas, un mapa navegable del universo proteico.
“Estamos liberando un modelo mundial de la biología de proteínas: un motor científico para la predicción, el diseño y el descubrimiento”, explican desde Biohub, al presentar la nueva generación de Evolutionary Scale Models (ESM). La premisa es que, cuando las representaciones digitales de la biología son lo bastante precisas, “los diseños de proteínas pueden probarse de forma computacional antes de llegar a la mesada del laboratorio”, reduciendo drásticamente tiempos y costos del descubrimiento de fármacos.

Un modelo de lenguaje entrenado con 2,8 mil millones de secuencias
ESMC (“ESM Cambrian”) es el último paso de un programa que arrancó en 2019 con el primer transformer aplicado a secuencias de proteínas. La hipótesis central es que entrenar un modelo de lenguaje sobre las proteínas de “toda la vida” le permite internalizar las reglas que rigen cómo se pliegan, interactúan y funcionan.
Biohub entrenó ESMC con cerca de 2,8 mil millones de secuencias tomadas de todos los reinos de la vida y estudió una “ley de escala” que vincula la cantidad de cómputo de entrenamiento con la calidad biológica de las representaciones internas. El resultado, según el equipo, es “un nuevo estado del arte en representaciones de proteínas”, donde el modelo aprende desde la química de aminoácidos hasta motivos funcionales complejos, sin supervisión estructural explícita.
Para entender qué está codificando ESMC, los investigadores utilizaron sparse autoencoders y descompusieron sus representaciones en más de 16.000 “features” interpretables. El análisis mostró que, entrenado solo para predecir aminoácidos enmascarados, el modelo recuperó principios básicos de la biología, desde hélices alfa y láminas beta hasta motivos catalíticos como el “codo nucleófilo” en enzimas sin ancestro común aparente.
ESMFold2: precisión de vanguardia en estructura y complejos
Sobre esa base se construye ESMFold2, un modelo de predicción estructural con arquitectura looped transformer que recircula sus propias representaciones varias veces para refinar la estructura, escalando el cómputo en inferencia sin necesidad de reentrenar.
ESMFold2 opera directamente sobre las representaciones de ESMC y, a diferencia de muchos modelos clásicos, no necesita obligatoriamente alineamientos múltiples de secuencias (MSA), aunque puede incorporarlos para mejorar precisión. En benchmarks de interacciones proteína‑proteína y, especialmente, en complejos anticuerpo‑antígeno —una de las tareas más difíciles y relevantes para terapias biológicas—, el modelo alcanza “precisión de estado del arte”, superando a AlphaFold 3 en la predicción de la pose de unión a partir de representaciones internas, según el preprint de Biohub.

En Foldbench, una batería de pruebas de estructura, ESMFold2 predice correctamente el 55% de los complejos anticuerpo‑antígeno y el 71% de interacciones proteína‑proteína desde una sola secuencia, cifra que sube al 77% cuando se suman datos de alineamiento. Su versión más liviana, ESMFold2‑Fast, puede predecir la estructura de una proteína de 1024 residuos en 9,4 segundos, manteniendo mejor rendimiento que modelos previos en plegamiento de anticuerpos, lo que habilita “ejecutar cientos de miles de experimentos virtuales al día”.
Anticuerpos y minibinders diseñados en días, no en años
El mayor salto, sin embargo, está en el diseño. Biohub reporta que ESMFold2 puede diseñar proteínas de unión —incluyendo anticuerpos de cadena única (scFv)— con afinidades consistentes con actividad terapéutica, validadas en laboratorio frente a cinco dianas clínicas de oncología e inmunología: EGFR, PDGFRβ, PD‑L1, CTLA‑4 y CD45.
El proceso de diseño se organiza en dos etapas. Primero, la generación de candidatos: una búsqueda en el espacio latente del modelo que produce decenas o cientos de miles de secuencias potenciales en aproximadamente dos días de cómputo. Segundo, el scoring y ranking, en menos de un día, donde ESMFold2 usa sus propias puntuaciones de confianza para priorizar diseños con alta estabilidad estructural y afinidad prevista. Ambos pasos son altamente paralelizables.
En las pruebas, los investigadores seleccionaron los 84 mejores diseños por cada diana y formato (minibinders de novo y scFv) y observaron que, al aumentar el presupuesto de cómputo, las tasas de éxito crecían: en promedio, los minibinders pasaron de 54% a 70% de unión confirmada, y los scFv prácticamente duplicaron su tasa, de 12% a 21%. Biohub resume el impacto de manera directa: “Hemos mostrado que el descubrimiento inicial de binders puede hacerse computacionalmente en días”.
Un ejemplo concreto es PD‑L1, punto central en las inmunoterapias de bloqueo de checkpoint. Un scFv diseñado por ESMFold2 se unió a PD‑L1 con una afinidad de 4,3 nM, restauró la señalización de linfocitos T en un ensayo celular de bloqueo PD‑1/PD‑L1 con potencia en el rango nanomolar y mostró unión específica a células HEK293T que expresan PD‑L1 en ensayos de inmunofluorescencia.
Para EGFR, Biohub fue un paso más allá y utilizó criomicroscopía electrónica para visualizar un minibinder diseñado por el modelo unido a su receptor objetivo. El resultado: una concordancia de 1,204 Å RMSD entre la estructura predicha y la observada experimentalmente, confirmando “no solo que el modelo funcionó, sino que funcionó por la razón correcta”, al reproducir la geometría de unión a nivel atómico.

ESM Atlas: un mapa de 6.800 millones de proteínas, de CRISPR a lo desconocido
Para hacer navegable lo que ESMC aprende, Biohub construyó ESM Atlas, un mapa de 6,8 mil millones de secuencias y 1,1 mil millones de estructuras predichas que permite estudiar el espacio proteico como un todo. Los clusters generados con sparse autoencoders agrupan familias funcionales incluso cuando la similitud de secuencia es baja, como en el caso de los sistemas de edición génica tipo CRISPR‑Cas.
En uno de los ejemplos, un cluster de endonucleasas guiadas por ARN reúne proteínas Fanzor eucariotas y su ancestro procariótico TnpB, reflejando su función compartida a pesar de la divergencia evolutiva. Los autores destacan que “ESMC nunca fue instruido sobre edición génica ni sobre ancestros evolutivos”, pero pudo recuperar esa relación a partir de las secuencias, sugiriendo un uso potencial del Atlas para descubrir nuevas herramientas de edición génica o variantes con propiedades mejoradas.
La misma lógica podría aplicarse al vasto número de proteínas de función desconocida, conectando lo conocido con lo inexplorado y abriendo un terreno fértil para biotechs, farmacéuticas y grupos académicos que busquen targets inéditos o biomarcadores diferenciales.
Un ecosistema abierto, con AWS, NVIDIA y otros socios tecnológicos
Biohub liberó ESMFold2, ESMC y ESM Atlas bajo licencia MIT y los puso a disposición a través de la plataforma Biohub y de socios tecnológicos como AWS Bio Discovery, Benchling, Modal, SandboxAQ, Tamarind Bio, Tool Universe y Phylo, entre otros. “Todos los modelos se han publicado bajo licencia MIT”, subraya la organización, que también asegura haber realizado evaluaciones proactivas de riesgo y establecido guardrails para un uso responsable.
En el plano de infraestructura, el entrenamiento de ESMC y ESMFold2 utilizó kernels NVIDIA TransformerEngine y cuEquivariance, y la compañía trabaja con NVIDIA para incorporar núcleos optimizados de inferencia paralela en las versiones abiertas del modelo. Este alineamiento con grandes proveedores de nube y hardware —incluida la integración en Amazon Bio Discovery, que ya ofrece más de 40 modelos biológicos fundacionales— apunta a masificar el acceso, desde farmacéuticas globales hasta startups y laboratorios académicos.
En un ecosistema donde la competencia por modelos fundacionales de biología se intensifica —con jugadores como AWS, NVIDIA, y una ola de biotechs de IA—, el “modelo mundial de la biología de proteínas” de Biohub se posiciona como una pieza central, capaz de redefinir tiempos y costes del descubrimiento de bioterapias, anticuerpos y herramientas de edición génica en toda la industria de ciencias de la vida.