Google mejoró un 14% la lectura de resonancias y redujo un 82% errores de dictado clínico

Google Research presentó MedGemma 1.5 4B, una nueva versión de su modelo abierto de IA médica con mejoras de hasta 14 puntos en interpretación de imágenes complejas como CT y MRI, y MedASR, un sistema de reconocimiento de voz médica que comete hasta 82% menos errores que modelos generales, ambos disponibles gratis para uso comercial a través de Hugging Face y Vertex AI.

La adopción de inteligencia artificial en salud crece al doble de ritmo que en la economía en general, y Google quiere estar en el centro de esa ola con una suite de modelos abiertos pensados para desarrolladores, hospitales y startups que construyen productos sobre imágenes, texto y voz clínica.

MedGemma 1.5 4B: más músculo para CT, resonancias e informes

MedGemma forma parte de las Health AI Developer Foundations (HAI‑DEF), una colección de modelos generativos médicos abiertos diseñados como punto de partida para que equipos de salud los adapten a sus propios casos de uso y los escalen en Google Cloud mediante Vertex AI.

Tras el lanzamiento inicial de MedGemma, que ya acumuló millones de descargas y “cientos de variantes” creadas por la comunidad en Hugging Face, Google presentó ahora MedGemma 1.5 4B, una actualización enfocada en imágenes médicas de alta dimensión y tareas clínicas clave. La nueva versión soporta:

  • Imágenes 3D de alta dimensión: tomografía computada (CT) y resonancia magnética (MRI).
  • Histopatología de lámina completa: múltiples patches por caso.
  • Imágenes longitudinales: series temporales de radiografías de tórax.
  • Localización anatómica: identificación de estructuras en placas de tórax.
  • Comprensión documental: extracción de datos estructurados de informes de laboratorio.

En pruebas internas, MedGemma 1.5 4B mejoró la exactitud absoluta en hallazgos de CT del 58% al 61% (↑3 puntos) y en hallazgos de MRI del 51% al 65% (↑14 puntos), promediando todas las lesiones. En histopatología con una sola lámina, la fidelidad de sus predicciones —medida por ROUGE‑L— pasó de 0,02 a 0,49, prácticamente igualando el 0,498 del modelo especializado PolyPath.

Sobre otras tareas, el modelo 1.5 4B también supera a MedGemma 1 4B:

  • Localización anatómica en tórax: mejora del 3% al 38% de intersection over union (IoU) en el benchmark Chest ImaGenome (↑35 puntos).
  • Radiografías de tórax en serie (MS‑CXR‑T): aumento de la macro exactitud del 61% al 66% (↑5 puntos).
  • Interpretación de imágenes clínicas simples (CXR, dermato, histo, oftalmo): +3 puntos (62% vs. 59%).
  • Extracción de datos de informes de laboratorio: mejora del macro F1 de 60% a 78% (↑18 puntos).

En texto médico, MedGemma 1.5 4B también da un salto: mejora un 5% en MedQA (69% vs. 64%) y un 22% en EHRQA para preguntas sobre historias clínicas (90% vs. 68%). Google destaca que el modelo de 4.000 millones de parámetros busca ser un “punto de partida eficiente en cómputo” que incluso puede correr offline, mientras que los desarrolladores pueden seguir usando MedGemma 1 27B para aplicaciones puramente textuales más complejas.

La compañía subraya que MedGemma 1.5 es, según su conocimiento, el primer gran modelo multimodal abierto capaz de interpretar datos médicos de alta dimensión y también imágenes 2D y texto, aunque advierte que “no está pensado para usarse sin validación y adaptación adecuadas” en cada caso clínico.

MedASR: menos errores que Whisper en dictado médico

Aunque la interfaz principal de los grandes modelos sigue siendo el texto, la comunicación verbal continúa siendo clave en la práctica clínica diaria: dictado de informes, notas de evolución y diálogo entre equipos y pacientes. Para ese frente, Google entrenó MedASR, un modelo de reconocimiento automático de voz (ASR) ajustado específicamente para el dominio médico.

MedASR puede:

  • Transcribir dictado médico (informes, notas clínicas).
  • Convertir voz en texto para generar prompts de manera natural que luego se procesan con MedGemma 1.5.

En comparaciones frente a Whisper large‑v3, un modelo generalista de ASR, MedASR mostró:

  • 58% menos errores en dictados de radiografías de tórax, con un word error rate (WER) de 5,2% vs. 12,5%.
  • 82% menos errores en un benchmark interno de dictado médico de múltiples especialidades y oradores, con 5,2% vs. 28,2% WER.

Google publicó notebooks tutoriales para que los desarrolladores combinen la comprensión de audio de MedASR con el razonamiento clínico de MedGemma 1.5, y detalla más información técnica en la model card de MedASR.

Tanto MedGemma 1.5, MedASR como otros modelos HAI‑DEF (por ejemplo, el codificador de imágenes MedSigLIP) son gratuitos para uso de investigación y comercial y pueden descargarse desde Hugging Face o entrenarse y escalarse en la nube mediante Vertex AI.

Hackatón con U$S 100.000 en Kaggle para impulsar casos de uso

Para acelerar la adopción y reunir feedback de la comunidad, Google lanzó el MedGemma Impact Challenge, un hackatón alojado en Kaggle con USD 100.000 en premios. El concurso está abierto a cualquier desarrollador y busca “explorar usos creativos y de alto impacto” de los modelos MedGemma y HAI‑DEF en salud y ciencias de la vida.

Queremos animar a los desarrolladores a explorar usos creativos e impactantes de los modelos MedGemma para transformar la atención sanitaria”, plantean los autores, que dicen estar “muy entusiasmados con lo que la comunidad construirá con estos nuevos modelos”.

La compañía ofrece además un repositorio ampliado en GitHub con tutoriales para inferencia, fine‑tuning supervisado con LoRA y un nuevo ejemplo de aprendizaje por refuerzo, pensado para aprender tareas complejas sin degradar capacidades previas.

Casos reales: guías clínicas en Malasia y patología oncológica en Taiwán

Google ya observa aplicaciones concretas sobre MedGemma en el ecosistema global de salud digital. La startup Qmed Asia adaptó el modelo para askCPG, una interfaz conversacional que da acceso a más de 150 guías de práctica clínica de Malasia. Según el Ministerio de Salud de Malasia, esta interfaz hace que navegar las guías sea “más práctico” para el soporte de decisión clínica en el día a día, y la extensión multimodal de imágenes médicas con MedGemma fue “especialmente bien recibida” en pilotos.

En Taiwán, la National Health Insurance Administration usó MedGemma para evaluar estudios preoperatorios en cirugías de cáncer de pulmón, extrayendo datos clave de más de 30.000 informes de patología y datos no estructurados para realizar análisis estadísticos sobre el estado preoperatorio de los pacientes, con el objetivo de informar políticas que mejoren la toma de decisiones para resecciones quirúrgicas.

Desde su lanzamiento, MedGemma “ha sido citado extensamente” en artículos de investigación en IA médica y se posiciona como modelo base competitivo para tareas como comprensión de texto clínico, toma de decisiones en equipos multidisciplinarios, informes de mamografía y otros escenarios clínicos, consolidando un stack de IA abierta que puede influir tanto en el desarrollo de software sanitario como en la estrategia de innovación de la industria tecnológica y biofarmacéutica.

Leave A Comment

WP to LinkedIn Auto Publish Powered By : XYZScripts.com