La herramienta de transcripción automática Whisper, desarrollada por OpenAI y lanzada en septiembre pasado, está en el centro de una controversia en el ámbito médico debido a su propensión a generar “alucinaciones” en los textos transcritos. Aunque Whisper se concibió como una solución versátil para transcribir conversaciones en múltiples idiomas, profesionales de la salud y expertos en tecnología han descubierto importantes deficiencias en la fiabilidad del contenido generado. Esto plantea serias preguntas sobre su viabilidad en entornos críticos como hospitales.
Actualmente, más de 30,000 médicos y 40 sistemas de salud emplean Whisper para documentar reuniones y consultas con pacientes. Sin embargo, la presencia de errores en las transcripciones podría tener consecuencias significativas. A pesar de que la herramienta ha sido entrenada con más de 680,000 horas de datos de audio de internet, investigaciones recientes revelan una preocupante tendencia a incluir información errónea. Datos obtenidos de estudios muestran que al menos 8 de cada 10 transcripciones presentan distorsiones y hasta la mitad del texto generado en ciertas pruebas contiene errores críticos. En un análisis más extenso, un desarrollador concluyó que casi todas sus 26,000 transcripciones contenían algún tipo de fallo.
Las denominadas «alucinaciones» en Whisper abarcan desde expresiones violentas o racistas, pasando por enfermedades ficticias, hasta frases que no concuerdan con los silencios del audio original. En algunos casos, la herramienta ha insertado expresiones típicas de plataformas de video como “Gracias por vernos”. Estas anomalías suelen ser más asociadas con chatbots y no con aplicaciones de transcripción que se espera reflejen precisamente el contenido del audio.
La situación ha llevado a varios centros hospitalarios a considerar seriamente la posibilidad de restringir el uso de Whisper en contextos críticos. OpenAI ha reconocido la importancia de estos hallazgos y ha expresado su gratitud a los investigadores por sus aportes. La organización aseguró que sigue trabajando para incrementar la precisión de su modelo, prestando especial atención a la eliminación de las alucinaciones, y enfatizó que la herramienta no está recomendada para situaciones donde una decisión errónea podría tener graves consecuencias.
Este episodio subraya los desafíos inherentes a la integración de inteligencia artificial en el sector de la salud, donde la exactitud y seguridad de los pacientes son primordiales. Con el progreso en IA, la comunidad médica está cada vez más firme en su postura de que estos modelos deben ser evaluados rigurosamente antes de ser implementados en ambientes de alta responsabilidad como los hospitales.
Mientras OpenAI trabaja en mejorar la tecnología detrás de Whisper, profesionales de la salud, ingenieros y centros de investigación continúan estudiando el impacto de esta y otras herramientas de IA en el sector. La principal prioridad es asegurar que estas tecnologías cumplan con los estándares de confianza necesarios en una esfera tan delicada como la atención médica.