En un giro inesperado dentro del desarrollo de inteligencia artificial aplicada a la programación, un estudio reciente ha cuestionado una de sus promesas más repetidas: que las herramientas de codificación con IA incrementan automáticamente la productividad de los desarrolladores. Este trabajo, realizado por el grupo de investigación independiente METR, concluye que, en determinados entornos reales, estas herramientas pueden ralentizar el trabajo en lugar de acelerarlo.
El ensayo analizó a 16 desarrolladores de alto nivel que colaboran en algunos de los proyectos de código abierto más populares del mundo. Cada participante, con al menos 5 años de experiencia y más de 1,500 commits, completó tareas de sus propios repositorios, con y sin el uso de herramientas de inteligencia artificial como Cursor Pro y Claude 3.5/3.7 de Anthropic.
Inicialmente, los desarrolladores creían que la IA reduciría el tiempo de implementación en un 24 %. Sin embargo, los resultados mostraron lo contrario: el tiempo se incrementó un 19 % en promedio al usar herramientas de IA. Este resultado desafía no solo sus expectativas, sino también las de expertos que anticipaban mejoras de productividad de hasta un 39 %.
Los desarrolladores pasaron más tiempo interactuando con las herramientas que programando: escribiendo prompts, evaluando sugerencias y corrigiendo el código generado. En muchos casos, el código proporcionado por la IA requería revisión o ser descartado. Menos del 44 % del código generado fue aceptado sin modificaciones importantes, y cerca del 9 % del tiempo se dedicó a corregir resultados erróneos.
Además, las sugerencias generadas por IA generalmente carecían del conocimiento implícito necesario para trabajar eficazmente en repositorios grandes y complejos. «La IA no entiende los atajos, las convenciones internas ni los compromisos históricos del proyecto», señaló un desarrollador participante.
Los investigadores identificaron varios factores que explican este hallazgo: cuanto más experto era un desarrollador en su propio repositorio, menos útil resultaba la IA; la complejidad de varios repositorios presentó un desafío para los modelos de IA; y, a pesar de los datos, muchos desarrolladores seguían creyendo que la IA había reducido su tiempo de trabajo.
No obstante, estos resultados no invalidan el valor de la IA en otras circunstancias. Reconocen que en proyectos nuevos, tareas menos definidas o en manos de desarrolladores con menos experiencia, las herramientas podrían ser más beneficiosas.
Desarrollado entre febrero y junio de 2025, el estudio sugiere que los avances recientes en modelos fundacionales podrían cambiar el panorama próximamente. Modelos como Claude 3.7 han demostrado solucionar funcionalidades centrales, aunque con fallos en normas de estilo y documentación.
El estudio de METR invita a una evaluación empírica rigurosa y señala que las herramientas de codificación con inteligencia artificial no son una panacea. Funcionan mejor en ciertos contextos y su uso requiere madurez y un profundo entendimiento del entorno. Para lograr verdaderas mejoras en productividad, no solo se necesitarán modelos más avanzados, sino también estrategias de integración más inteligentes. La experiencia sigue siendo irremplazable, por ahora.