Microsoft Research está llevando la robótica a un nuevo nivel con la presentación de Rho-alpha (ρα), el primer modelo de robótica derivado de la familia Phi, que busca fusionar la inteligencia artificial y los sistemas físicos. Esta evolución se centra en mejorar la autonomía de los robots en entornos dinámicos, dejando atrás los espacios altamente estructurados como las fábricas, y acercándose a la adaptabilidad a situaciones cotidianas.
Rho-alpha se caracteriza por su habilidad para convertir órdenes en lenguaje natural en acciones de control para robots de manipulación bimanual, lo que incluye operar botones, mandos y cables con precisión. Se distingue de los modelos VLA anteriores por ampliar la percepción y permitir el aprendizaje durante la operación, aprovechando la retroalimentación humana para mejorar su desempeño en tiempo real.
El anuncio de Microsoft resalta la importancia de los modelos VLA (visión-lenguaje-acción), que integran la percepción visual, la comprensión de lenguaje y la ejecución de acciones en un sistema unificado. Esta aproximación permite que los robots operen con mayor eficacia en entornos poco estructurados, similando más certeramente el mundo real. Según Ashley Llorens, estas capacidades son clave para que los robots sean más útiles y confiables.
Para demostrar el funcionamiento de Rho-alpha, Microsoft empleó el benchmark físico BusyBox, un dispositivo utilizado para evaluar destrezas de manipulación en condiciones realistas mediante tareas guiadas por comandos en lenguaje natural. La importancia de BusyBox radica en su capacidad para replicar la variabilidad del mundo físico, permitiendo medir la precisión y la capacidad de recuperación en situaciones complicadas.
Uno de los desafíos en el avance de la robótica es la escasez de datos de entrenamiento comparables a los disponibles en el ámbito de la IA de lenguaje o visión. Microsoft aborda este problema mediante simulaciones, que permiten generar datos sintéticos plausibles para entrenar modelos cuando los datos reales son insuficientes.
El proyecto subraya el rol crucial de la percepción táctil, elemento que complementa la visión al permitir que los robots sientan y ajusten sus acciones en tiempo real, un factor determinante al manipular objetos complejos como enchufes o interruptores. Además, el enfoque human-in-the-loop promovido por Microsoft permite que los robots aprendan directamente de correcciones humanas, usando dispositivos de teleoperación para guiar y corregir en tiempo real.
Actualmente en evaluación, Rho-alpha está siendo probado en configuraciones tanto de doble brazo como en robots humanoides. Microsoft ha abierto un programa de acceso temprano para organizaciones interesadas, y se anticipa una futura publicación técnica que detallará más sobre este avance.
Con el desarrollo de tecnologías como Rho-alpha, Microsoft señala un cambio hacia sistemas que no solo procesan información, sino que interactúan y actúan en el mundo físico con una combinación única de percepción avanzada, control preciso y aprendizaje continuo. En este nuevo panorama, el sentido del tacto se perfila como un acelerador clave para transformar la robótica de demos impactantes a herramientas realmente útiles.








