En un estudio de Harvard, la IA ofreció diagnósticos más precisos que los médicos de urgencias


Un nuevo estudio examina cómo funcionan los modelos de lenguaje de gran tamaño en una variedad de contextos médicos, incluidos casos reales de salas de emergencia, donde al menos un modelo parecía ser más preciso que los médicos humanos.

El estudio fue publicado esta semana en Science y proviene de un equipo de investigación dirigido por médicos e informáticos de la Facultad de Medicina de Harvard y el Centro Médico Beth Israel Deaconess. Los investigadores dijeron que realizaron una variedad de experimentos para medir cómo se comparan los modelos de OpenAI con los médicos humanos.

En un experimento, los investigadores se centraron en 76 pacientes que acudieron a la sala de urgencias de Beth Israel y compararon los diagnósticos ofrecidos por dos médicos tratantes con los generados por los modelos o1 y 4o de OpenAI. Estos diagnósticos fueron evaluados por otros dos médicos tratantes, que no sabían cuáles procedían de humanos y cuáles de IA.

«En cada punto de contacto de diagnóstico, o1 tuvo un desempeño nominalmente mejor o a la par que los dos médicos tratantes y 4o», dijo el estudio, y agregó que las diferencias «fueron especialmente pronunciadas en el primer punto de contacto de diagnóstico (clasificación inicial de emergencia), donde hay menos información disponible sobre el paciente y la mayor urgencia para tomar la decisión correcta».

En el comunicado de prensa de la Facultad de Medicina de Harvard sobre el estudio, los investigadores enfatizaron que no «preprocesaron los datos en absoluto»: a los modelos de IA se les presentó la misma información que estaba disponible en los registros médicos electrónicos en el momento de cada diagnóstico.

Con esa información, el modelo o1 logró ofrecer “el diagnóstico exacto o muy cercano” en el 67% de los casos de triaje, frente a un médico que tuvo el diagnóstico exacto o cercano el 55% de las veces, y el otro que acertó el 50% de las veces.

«Probamos el modelo de IA con prácticamente todos los puntos de referencia, y eclipsó tanto a los modelos anteriores como a nuestras líneas de base médicas», dijo en el comunicado de prensa Arjun Manrai, director de un laboratorio de IA en la Facultad de Medicina de Harvard y uno de los autores principales del estudio.

Evento tecnológico

San Francisco, California, EE.UU.
|
13-15 de octubre de 2026

Para ser claros, el estudio no afirmó que la IA esté lista para tomar decisiones reales de vida o muerte en la sala de emergencias. En cambio, dijo que los hallazgos muestran una «necesidad urgente de ensayos prospectivos para evaluar estas tecnologías en entornos de atención al paciente del mundo real».

Los investigadores también señalaron que solo estudiaron cómo se comportaban los modelos cuando se les proporcionaba información basada en texto, y que «los estudios existentes sugieren que los modelos básicos actuales son más limitados en el razonamiento que las entradas no textuales».

Adam Rodman, un médico de Beth Israel que también es uno de los autores principales del estudio, dijo a The Guardian que «en este momento no existe un marco formal para la responsabilidad» en torno a los diagnósticos de IA, y que los pacientes todavía «quieren que los humanos los guíen a través de decisiones de vida o muerte». [and] para guiarlos a través de decisiones de tratamiento desafiantes”.

Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here