Genomics England ha iniciado un ambicioso proyecto en colaboración con equipos de ciencia de datos y servicios profesionales de AWS, enfocado en mejorar la identificación de subtipos de cáncer y la predicción de la supervivencia de pacientes mediante el uso de aprendizaje automático (ML). Esta iniciativa combina datos genómicos e imágenes histopatológicas para incrementar la precisión de los modelos predictivos.
En la primera prueba de concepto, se empleó la plataforma Pathology-Omic Research Platform for Integrative Survival Estimation (PORPOISE) para analizar datos de cáncer de mama y cáncer gastrointestinal. A pesar de las capacidades avanzadas de este modelo, se encontraron limitaciones al no incluir datos de expresión génica en el análisis.
Para superar estas deficiencias, AWS desarrolló un modelo innovador denominado Hierarchical Extremum Encoding (HEEC). Este modelo está diseñado para mejorar tanto la precisión como la interpretabilidad, integrando representaciones jerárquicas a múltiples niveles espaciales y utilizando árboles de decisión para mitigar el riesgo de sobreajuste. Los resultados preliminares indicaron que HEEC mejora significativamente la precisión en comparación con los mejores modelos modales individuales, al combinar múltiples modalidades de datos.
En una fase posterior del proyecto, se implementó el modelo Hierarchical Image Pyramid Transformer (HIPT), entrenado de manera auto-supervisada, para reforzar los resultados obtenidos en las fases anteriores. Los primeros resultados mostraron una mejora considerable en la precisión de los análisis de supervivencia.
Desde una perspectiva arquitectónica, las pruebas de concepto integraron una arquitectura modular sobre AWS usando SageMaker. Esta configuración permite separar el procesamiento de datos del entrenamiento de modelos, lo cual ofrece ventajas en términos de escalabilidad y eficiencia. Además, se utilizan contenedores y pipelines de CI/CD para automatizar y gestionar el despliegue de recursos de forma sostenible y segura.
La implementación de estas tecnologías proporciona a Genomics England herramientas avanzadas para explorar el potencial del aprendizaje automático en la medicina de precisión, con el objetivo de mejorar las perspectivas de los pacientes con cáncer.
“En Genomics England, nuestra misión es realizar el enorme potencial de la información genómica y multimodal para avanzar en la medicina de precisión”, comentó el Dr. Prabhu Arumugam, Director de Datos Clínicos e Imágenes de Genomics England.