Microsoft ha lanzado una innovadora funcionalidad multimodal para su pequeño modelo de lenguaje, Phi Silica, diseñada para mejorar la accesibilidad y productividad en dispositivos con Copilot+ con procesadores Snapdragon, así como en futuros modelos de Intel y AMD. Esta nueva función incluye capacidades de comprensión visual, permitiendo al modelo no solo procesar texto, sino también interpretar imágenes y generar descripciones útiles para tecnologías de asistencia como los lectores de pantalla.
El enfoque detrás de esta actualización se centra en la eficiencia, evitando la necesidad de un modelo de visión separado, lo que es esencial para optimizar el uso de recursos como espacio de almacenamiento y memoria. En su lugar, se integra un sencillo modelo proyector de 80 millones de parámetros, asegurando que el sistema funcione eficazmente sin comprometer el rendimiento de otros modelos existentes.
La funcionalidad multimodal permite ofrecer descripciones de imágenes con diferentes niveles de detalle, lo cual resulta invaluable para personas con discapacidades visuales. Esta mejora no se limita a modelos en la nube; utiliza capacidades locales para ofrecer descripciones más rápidas y accesibles. En pruebas, un modelo optimizado de Phi Silica es capaz de generar descripciones cortas en alrededor de cuatro segundos y más detalladas en aproximadamente siete segundos.
Para calibrar la calidad de las descripciones generadas, Microsoft emplea metodologías comparativas, verificando la eficacia del nuevo enfoque frente a otros modelos de referencia como Florence. Los resultados muestran que Phi Silica produce descripciones más precisas y completas, ampliando su utilidad para usuarios dependientes de estas herramientas.
En el transcurso de su implementación, se prevé la adición de más idiomas, mejorando aún más la accesibilidad. Con este avance, Microsoft reafirma su compromiso de hacer la tecnología más inclusiva y accesible para todos los usuarios, especialmente aquellos que enfrentan dificultades en el uso de tecnologías digitales.