En un avance significativo para la transcripción de audio, Amazon ha introducido una función de transmisión multicanal a través de Amazon Transcribe. Esta novedad facilita la integración de múltiples fuentes de audio mediante un navegador web, utilizando la API de Web Audio de JavaScript para fusionar diferentes entradas, como videos, archivos de audio o micrófonos, en transcripciones efectivas.
El proceso descrito detalla cómo usar dos micrófonos como fuentes de audio, fusionándolos en un solo canal estéreo que posteriormente llega a Amazon Transcribe. Se ha desarrollado una aplicación en Vue.js, lo que demuestra la adaptabilidad de esta tecnología a diversos dispositivos y fuentes.
Una ventaja clave es la capacidad de obtener transcripciones de dos fuentes en una sola sesión de Amazon Transcribe, generando ahorros significativos y simplificando el proceso de datos.
No obstante, usar dos micrófonos presenta desafíos, como la identificación de hablantes, puesto que las etiquetas se asignan aleatoriamente al inicio de la sesión. Después de empezar la transmisión, es necesario mapear los resultados en la aplicación del usuario, lo cual puede ser complicado, sobre todo con voces similares. Además, puede haber superposiciones si ambos hablantes intervienen simultáneamente. Soluciones como micrófonos direccionales y una buena gestión del volumen son esenciales para reducir estos problemas.
La implementación requiere configurar claves de acceso a AWS, con pasos detallados para conectar micrófonos y procesar el audio mediante la API de Web Audio. Se introduce gradualmente el código necesario para fusionar y transmitir el audio a Amazon Transcribe en formato PCM.
Uno de los aspectos más innovadores es el uso de Audio Worklet para un procesamiento de audio de baja latencia, permitiendo la fusión y codificación de datos en tiempo real.
Esta nueva funcionalidad de Amazon Transcribe ofrece una herramienta valiosa para la transcripción en tiempo real, adecuada para aplicaciones que van desde la grabación de reuniones hasta interfaces controladas por voz. Los desarrolladores tienen ahora la oportunidad de explorar nuevos usos para esta tecnología, abriendo el camino a innovaciones en el campo de la transcripción y más allá.