Cómo aprovechar las herramientas de inteligencia artificial de audio y video de AWS

A lo largo de estos años Amazon desarrolló un ecosistema de herramientas de análisis y aprendizaje automático que permiten ahorrar tiempo y generar mejores resultados en la creación de contenido. En esta ocasión desglosaremos algunas de las capacidades de las tecnologías con grandes capacidades para analizar automáticamente material de audio y video sin necesidad de contratar ningún servicio extra. El único requisito es una mínima configuración inicial. En la actualidad, son usadas por grandes plataformas de contenido como Netflix, BBC, Fox, Discovery and Walt Disney y pueden ser muy útiles para conferencias, reuniones virtuales y todo tipo de creaciones audiovisuales.

Las herramientas evalúan de manera conjunta el contenido multimedia que un cliente sube a la nube (en este caso de Amazon Web Services), la procesan, analizan y extraen los metadatos del contenido. Luego, optimizan recomendaciones para ofrecer opciones relevantes según cada usuario. Para esto, se utiliza AWS Step Functions, Amazon Rekognition (reconocimiento de imágenes), Amazon Transcribe (conversión de voz a texto) y Amazon Comprehend (procesamiento de lenguaje natural).

Una vez cargado el material se procede a ejecutar análisis automatizados de la materia prima de un video a partir de un modelo de aplicación sin servidor generando información significativa a través de los metadatos generados con aprendizaje automático (machine learning) y facilita opciones de búsqueda dentro de lo subido desglosando el análisis de audio y video, y el reconocimiento del contexto. Una especie de “Google” interno para encontrar todo lo que se encuentra dentro del contenido.

Cómo funciona el análisis de audio y video

Para empezar, no es necesario desglosar las pistas, simplemente hay que subir un video a la plataforma que, automáticamente, dividirá el archivo en dos pistas diferentes: una de audio y otra de video. El audio se procesa y se transcribe en un archivo con texto etiquetado. Es decir, cada frase corresponde a un tiempo del video. Dicho texto, además, puede ser traducido al idioma que se desee.

¿Y si son varios los integrantes del video que hablan? Aquí está la magia de AWS Rekognition que identifica quien habla y etiqueta determinada frecuencia de sonido al rostro, con sus gesticulaciones y movimientos. Pero también interpreta la semántica. Este ecosistema de tecnologías tiene la particularidad de tener un contexto que diferencia el tipo de video sobre el cual estamos trabajando y varía según lo que necesitemos. Por ejemplo, determinar partes que queremos cortar, evitar o potenciar, con solo buscar una palabra clave.

El sistema trabaja sobre la plantilla de AWS CloudFormation que cuenta con un plano de control y un plano de datos. El control organiza las operaciones involucradas en los flujos de trabajo analíticos, definidos por máquinas de estado del servicio AWS Step Functions. El de datos utiliza un bucket de Amazon Simple Storage Service (Amazon S3) para almacenar archivos de video cargados, resultados de metadatos derivados y objetos multimedia derivados (como las miniaturas), archivos de audio y archivos de video transcodificados.

Los casos de uso y aplicación de esta solución son diversos pero fascinantes. Por ejemplo, el modo en que el canal de TV Sky News lo utilizó para manejar las tendencias de contenido durante la boda real entre el príncipe Harry y Meghan Markle en 2018. “Amazon Rekognition fue fundamental para impulsar nuestra función” Quién es quién en vivo “para la transmisión de la boda real” explicó a Amazon -Hugh Westbrook, Senior Product Owner, Sky News. Lo que hicieron fue usar las tecnologías de aprendizaje automático para crear metadatos detallados de los invitados a medida que iban llegando al evento pero en tiempo real. A cada etiqueta se la asociaba con información biográfica. De este modo se facilitó notablemente la cobertura. Algo similar a lo que ocurre cuando se ve una serie en Amazon Prime Video. En la pantalla, al costado, aparece la información relacionada a los personajes que están en pantalla en cada momento. Esta característica se llama X-Ray, identifica a los actores en la pantalla y proporciona enlaces útiles a sus perfiles de IMDb AWS CloudFormation o desde la consola AWS Management Console.

Esto es solo el comienzo y un pequeño resumen de todo lo que se puede hacer con algunas de las herramientas de AWS. En las próximas ediciones, intentaremos seguir yendo a fondo para estar al día con el futuro.