Un laboratorio nacional en Estados Unidos ha dado un paso significativo hacia la modernización de la gestión documental dentro de sus vastos archivos históricos. Estas instituciones, cuyas colecciones albergan un invaluable cúmulo de conocimiento, se han enfrentado por mucho tiempo al desafío de hacer accesible dicha información. La escasez de metadatos y el etiquetado inconsistente de los documentos a menudo han hecho que los métodos tradicionales de búsqueda, basados en palabras clave, sean ineficaces. Esto había obligado a las entidades a realizar exhaustivas revisiones manuales para extraer datos de interés.
En respuesta a estos retos, se ha desarrollado una plataforma de procesamiento de documentos potenciada por inteligencia artificial, integrando tecnología de reconocimiento de entidades nombradas (NER, por sus siglas en inglés) y modelos de lenguaje a gran escala implementados en Amazon SageMaker. Esta solución automatiza y moderniza el procesamiento de documentos, enriqueciendo metadatos, clasificando documentos y generando resúmenes. El sistema emplea el modelo Mixtral-8x7B para la creación de resúmenes y títulos, mientras que un modelo NER basado en BERT se encarga de la extracción de metadatos estructurados, mejorando considerablemente la organización y recuperación de los documentos escaneados.
Diseñada con una arquitectura sin servidor y optimizada para ser rentable, la plataforma provee endpoints de SageMaker de manera eficiente y escalable. La integración de avanzadas tecnologías de procesamiento de lenguaje natural y modelos de lenguaje a gran escala permite una búsqueda más precisa y una gestión documental más eficaz. Esta innovación no solo apoya la transformación digital, sino que también garantiza que se maximice el potencial de los datos archivados para las investigaciones, desarrollo de políticas y la preservación del conocimiento institucional.
Bajo el nombre de NER & LLM Gen AI Application, esta solución combina las virtudes del reconocimiento de entidades nombradas y los modelos de lenguaje, automatizando el análisis de documentos a gran escala. Mediante un enfoque modular, diversos componentes gestionan distintos aspectos del procesamiento documental, desde la extracción de resúmenes hasta identificar autores. El sistema se activa al detectar nuevos documentos en el bucket de extracciones, previniendo operaciones redundantes mediante una eficiente creación y gestión de endpoints de modelos que procesan documentos en lotes.
Destacando además por su capacidad para procesar hasta 100,000 documentos en apenas 12 horas, esta innovadora plataforma reside en su eficiencia tanto en costos como en rendimiento. La implementación de resúmenes extractivos como paso inicial disminuye la carga de trabajo en un 75-90%, acelerando el procesamiento y reduciendo los costos operativos. Este avance representa una robusta respuesta a las crecientes demandas de un procesamiento documental eficiente, crucial en el campo de la investigación y gestión del conocimiento.