Amazon Web Services (AWS) ha dado un paso significativo en el campo de la gestión y el análisis de datos con el lanzamiento de dos nuevas herramientas: Amazon DataZone y Amazon SageMaker Canvas. Estas innovadoras soluciones tienen como objetivo facilitar la gestión, descubrimiento, compartición y gobernanza de datos, además de habilitar a los analistas de negocios y expertos en dominio para desarrollar y desplegar modelos de aprendizaje automático (ML) sin necesidad de codificación.
Amazon DataZone se presenta como una plataforma para la creación y gestión de «zonas de datos». Estos lagos de datos virtuales están diseñados para almacenar y procesar información sin requerir una infraestructura de gestión compleja o extensa codificación. La herramienta promete mejorar el acceso y la colaboración dentro de las organizaciones, permitiendo que ingenieros, científicos de datos, gerentes de producto y usuarios de negocios colaboren y extraigan insights basados en datos de manera eficiente.
Por su parte, Amazon SageMaker Canvas se distingue por su capacidad para simplificar la ingestión de datos desde fuentes populares como Amazon S3, Amazon Redshift, Amazon Athena, Snowflake, Salesforce y Databricks. La herramienta ofrece robustas capacidades de preparación de datos a través de Amazon SageMaker Data Wrangler, construcción automatizada de modelos mediante Amazon SageMaker Autopilot, y el uso de modelos de ML pre-construidos, incluyendo modelos de fundamentos de Amazon Bedrock y Amazon SageMaker Jumpstart.
Las ventajas de estas nuevas herramientas se extienden a diversos sectores. Por ejemplo, las instituciones financieras pueden utilizar SageMaker Canvas para la detección de fraudes, mejorando la eficiencia y precisión mediante iteraciones rápidas de modelos. La gobernanza de ML, facilitada por esta herramienta, asegura que los datos utilizados en estos modelos sean precisos, seguros y confiables. La integración entre Amazon DataZone y Amazon SageMaker ofrece beneficios significativos, como la configuración de infraestructura con controles de seguridad, colaboración en proyectos de ML, y gobernanza del acceso a datos y activos de ML.
Una de las características más destacadas de esta integración es la posibilidad de publicar activos de datos en Amazon DataZone. Esto permite que otros miembros de la organización los descubran y consuman, fomentando así una mayor colaboración y eficiencia en los proyectos de ML. Adicionalmente, la gobernanza de datos y la capacidad de reutilización de modelos promueven la reducción de la duplicación de esfuerzos y el intercambio de conocimientos a lo largo del ciclo de vida del ML.
En resumen, la combinación de SageMaker Canvas y Amazon DataZone ofrece una potente solución para la gobernanza de datos, colaboración y reutilización en proyectos de ML. Las empresas pueden utilizar estas herramientas para casos de uso de inteligencia artificial generativa, lo cual habilita la capacitación y adaptación de grandes modelos de lenguaje u otros modelos fundamentales con políticas de gobernanza robustas. Esto desbloquea el potencial del ML y la inteligencia artificial generativa, manteniendo al mismo tiempo un control y supervisión rigurosos sobre los activos de datos. Se insta a las organizaciones a explorar esta nueva integración para optimizar sus procesos de preparación de datos, ingeniería de características y construcción de modelos ML, promoviendo la reutilización y el intercambio de modelos dentro de sus equipos.