Los 5 desafíos clave en la era del Big Data [Artículo de colaboración]

Los 5 desafíos clave en la era del Big Data [Artículo de colaboración]

28 julio 2020 0 Por Alvaro

La transformación digital generará miles de millones de dólares. Aunque las estimaciones varían, el Foro Económico Mundial estimó en 2016 un aumento de 100 mil millones de dólares en el valor comercial y social mundial para 2030 debido a la transformación digital. PwC ha estimado que, gracias a la inteligencia artificial (IA), habrá un aumento en el PIB mundial de 15,7 mil millones de dólares para 2030. McKinsey ha estimado ese aumento en 13 mil millones de dólares. Actualmente, estamos siendo presentes del renacimiento de la IA, impulsado por el Big Data y por los avances en el aprendizaje automático y en el aprendizaje profundo. Estos avances ofrecen a las empresas  oportunidades y desafíos dependiendo de la velocidad con la que se adapten a estos cambios.

Las empresas actuales se enfrentan a 5 desafíos clave en la era del Big Data


1. Manejar la multiplicidad de los sistemas de información empresariales

Una empresa promedio del Fortune 500 tiene cientos de sistemas informáticos empresariales, todos con sus diferentes formatos de datos, referencias no coincidentes y duplicidades.

2. Incorporar y contextualizar datos en tiempo real

El reto se hace significativamente más desafiante con el aúge de los sensores y el IOT, lo que implica la entrada en los sistemas informacionales de ingentes cantidades de datos en tiempo real. Un ejemplo son las lecturas de la temperatura del gas de un compresor en alta mar, cuyos valores son limitados por sí mismos. Sin embargo, combinados con la temperatura ambiente, la velocidad del viento, la velocidad de la bomba del compresor, el historial de las acciones de mantenimiento y los registros de mantenimiento, estos datos en tiempo real pueden crear un valioso sistema de alarmas para los operarios de las plataformas marinas.

3. Trabajar con Data Lakes

Hoy en día, almacenar grandes cantidades de datos muy distintos poniéndolos todos en una misma infraestructura no reduce más la complejidad de los datos que dejándolos en sistemas empresariales aislados.

4. Asegurar la consistencia, la integridad referencial y el uso continuo de los datos

Un cuarto gran desafío en materia de datos es el de representar todos los datos existentes en una misma foto unificada, manteniendo esta foto actualizada en tiempo real y actualizando automáticamente todos los análisis posteriores que utilizan estos datos. Los flujos de llegada de los datos varían según el sistema, los formatos también cambian, y los datos pueden llegar desordenados debido a retrasos producidos en las redes de comunicaciones.

5. Obtener nuevas herramientas y habilidades para resolver las nuevas necesidades

Los equipos de análisis e IT de las empresas deben proporcionar herramientas que permitan a los empleados con diferentes niveles de competencia en ciencia de datos trabajar con grandes conjuntos de datos y realizar análisis utilizando una foto de datos unificada.

Veamos lo que implica desarrollar y desplegar aplicaciones de IA a escala


Ensamblaje y preparación de datos

El primer paso consiste en identificar los conjuntos de datos necesarios y reunirlos. A menudo hay problemas de duplicacidad de datos, lagunas en los datos, datos no disponibles y datos desordenados.

Ingeniería de variables

Esto implica revisar los datos y elaborar variables que los científicos de los datos y los expertos de negocio crean que son relevantes para tratar el problema que se quiere resolver. En el caso del mantenimiento predictivo basado en la IA, las variables podrían incluir el recuento de fallos de alarmas durante los 7, 14 y 21 días siguientes, la suma de las alarmas durante los mismos períodos de seguimiento, y el valor máximo de ciertas señales de sensores durante esos períodos de seguimiento.

Etiquetado de los resultados

Este paso implica etiquetar los resultados que el modelo trata de predecir. Por ejemplo, en las aplicaciones de mantenimiento predictivo basadas en la IA, los datos obtenidos en origen rara vez identifican los fallos reales, y los profesionales tienen que inferir los fallos basándose en una combinación de factores como son los códigos de anomalías y los reportings de los operarios.

Configuración de los datos de entrenamiento

Para las tareas de clasificación, los científicos de los datos necesitan asegurarse de que las etiquetas estén debidamente equilibradas con ejemplos positivos y negativos para proporcionar al algoritmo clasificador datos suficientemente equilibrados y no le asigne mucha más importancia a eventos «muy comunes». Los científicos de los datos también necesitan asegurarse de que el clasificador no esté sesgado.

Entrenamiento y selección de modelos

Hoy en día, los científicos de datos disponen de numerosas librerías de algoritmos creadas por empresas, universidades, organizaciones de investigación, organismos gubernamentales y colaboradores particulares que permiten realizar está tarea de manera eficiente.

Despliegue de los modelos en producción

Los algoritmos de aprendizaje automático, una vez desplegados, necesitan recibir nuevos datos, generar resultados y hacer que se tomen algunas acciones o decisiones basadas en esos resultados. Esto puede significar la incorporación del algoritmo en una aplicación empresarial utilizada por los seres humanos para tomar decisiones. Por ejemplo, una aplicación de mantenimiento predictivo que identifique y priorice el equipo que requiera de mantenimiento para proporcionar orientación a los operarios de mantenimiento. Aquí es donde se crea el valor real, reduciendo el tiempo de inactividad del equipo y los costes de servicio mediante una predicción de fallos más precisa que permita un mantenimiento proactivo antes de que el equipo falle. Para que los algoritmos de aprendizaje automático funcionen en producción, es necesario establecer y gestionar la infraestructura informática subyacente.

Mejora continua en bucle cerrado

Los algoritmos suelen requerir frecuentes reentrenamientos por parte de los equipos de ciencia de datos. A medida que cambian las condiciones del mercado, los objetos y procesos comerciales evolucionan y se identifican nuevas fuentes de datos. Las organizaciones necesitan tener la flexibilidad de poder desarrollar, reciclar y desplegar rápidamente nuevos modelos a medida que cambian las circunstancias.
Por lo tanto, los retos que deben abordarse para resolver los problemas de computación de la IA no son triviales. La computación elástica en paralelo y la capacidad de almacenamiento son algunos de los requisitos previos. Además de la computación en la nube, existe una amplia gama de servicios necesarios para desarrollar, suministrar y operar aplicaciones de esta naturaleza.

Sin embargo, el precio de no realizar los cambios estratégicos de transformación digital son elevados. El cementerio de las empresas está lleno de grandes empresas que no se adaptaron al nuevo entorno que les tocó vivir.

 

Artículo realizado en colaboración con la empresa estadounidense especializada en IA y Big Data Makeen Technologies

🙂

Si te ha sido de utilidad este post, te agradecería que me apoyases en Patreon (donando una cantidad aunque sea poca ya sea una vez, o apoyándome mensualmente). Tener una web, dominio, hosting, no es gratis y me apoyas a seguir ayudando con la difusión de educación libre. Apóyame en Patreon! Mil gracias!!

¿Te ha parecido útil este artículo?