¿Qué es el aprendizaje automático o machine learning?

¿Qué es el aprendizaje automático o machine learning?

30 abril 2018 4 Por Alvaro

Palabras como aprendizaje automático, machine learning, big data, data science… están en la boca de todos. De hecho, la profesión de data scientist ha sido calificada como la más sexy del siglo XXI. Mucha gente habla de la revolución de los datos y la inteligencia artificial, pero, ¿qué es realmente el machine learning y por qué se habla tanto de ello?

Intentaré arrojar un poco de luz en esto.

Tom Mitchell define el machine learning en uno de sus libros como como: “El estudio de algoritmos de computación que mejoran automáticamente su rendimiento gracias a la experiencia. Se dice que un programa informático aprende sobre un conjunto de tareas, gracias a la experiencia y usando una medida de rendimiento, si su desempeño en estas tareas mejoran con la experiencia.”

Es decir, algoritmos que aprenden y mejoran “solos” gracias a la experiencia. Este hecho de que lo hagan solos es entre comillas porque lo hacen usando datos, experiencias pasadas. A diferencia de modelos en los que un experto de negocio asigna reglas y modeliza algo según sus conocimientos (su experiencia pasada), los modelos estadísticos y los modelos de machine learning dejan que los datos hablen y obtienen las relaciones automáticamente.

Otra definición la da Drew Conway, que con el siguiente diagrama de Venn definió machine learning como la unión de habilidades con los ordenadores y las matemáticas & estadística.

machine learning venn diagram

Data Science Venn Diagram. Créditos a Drew Conway, Licencia Creative Commons como Atribución-NoComercial.

¿Pero por qué se habla tanto actualmente de machine learning?

Muchos de los métodos usados en machine learning y modelización estadística llevan con nosotros varias décadas. Algoritmos como las redes neuronales o máquinas de soporte vectorial (SVMs) fueron ideadas hace ya bastante tiempo, incluso algunos de ellos cayeron en desuso.

Unos de los principales motivos del actual Boom de estas técnicas son:

  • Por un lado la capacidad computacional de los ordenadores ha ido aumentando siendo posible actualmente tratar problemas que antes no se podían tratar. Este aumento ha sido vertical (mejora de la capacidad individual de computación, CUDAs…) y también horizontal (aumento de la capacidad de cómputo al trabajar con varios ordenadores al mismo tiempo usando el paradigma del Big Data).
  • Por otro lado la revolución de los datos, motivada por la digitalización ha supuesto un aumento ingente de datos que pueden ser procesados y modelizados para obtener conocimiento de ellos. Hace años había muchos menos datos, siendo posible ver modelos estadísticos de pocos cientos de registros.

En la actualidad vivimos en un período apasionante en el que los datos y la aplicación de técnicas que extraigan valor de ellos serán estratégicos para muchos países y sectores. Sólo hay que ver la inversión que China, EEUU y otros países están llevando a cabo para darse cuenta que el Machine Learning y las técnicas actuales de modelización son presente y futuro.

¡Comparte!