La revolución digital está produciendo profundos cambios en los hábitos de consumo de los clientes; entre otros motivos, por un mayor acceso a datos y un creciente desarrollo de nuevas tecnologías. Todo ello nos invita a revisar en profundidad los actuales modelos de negocio.
Una palanca fundamental para la transformación de los modelos de negocio es la ciencia de datos (o Data Science), que se basa en el uso combinado de técnicas de aprendizaje automático, inteligencia artificial, matemáticas, estadística, bases de datos y optimización.
Machine Learning
Existen diversos factores, con origen fundamentalmente en la tecnología, que impulsan el uso de estas técnicas de Data Science en un conjunto amplio de sectores. Estos factores pueden agruparse en cuatro ejes: (i) el incremento sin precedentes del volumen y tipología de datos disponibles, (ii) la conectividad y el acceso al dato, (iii) la mejora de los algoritmos utilizados y (iv) el aumento de la capacidad computacional de los sistemas.
Con relación al volumen de datos, existen diversos estudios que recogen distintas métricas que permiten tomar conciencia de la magnitud de tal crecimiento. Por citar algunos de los más relevantes:
- Según recientes informes, el 90% de los datos creados en toda la historia de la humanidad se produjeron durante el último año y se estima todavía un 40% de crecimiento anual para la próxima década. En la actualidad, debido al avance de las comunicaciones conocidas como Machine to Machine (M2M), y al desarrollo del denominado Internet de las Cosas (IoT), el volumen de datos disponibles es aún mayor.
- Estudios publicados por grandes empresas de telecomunicaciones5, señalan que el número de dispositivos conectados a internet será más de 3 veces la población mundial en 2021 y el número de conexiones IoT alcanzará los 13.700 millones ese mismo año, frente a los 5.800 millones registrados en 2016.
- Como consecuencia de ello, para 2020 el total de datos existentes llegará a los 44 billones de gigabytes.
- De estos, un gran conjunto de datos se generan en el entorno digital directamente, como son las búsquedas en Google (40.000 búsquedas por segundo), los mensajes en Facebook (31 millones de mensajes por minuto) o el incremento de datos en vídeos y fotos (300 horas de vídeos subidos a YouTube cada hora).
- Se estima que en 2020 el 100% de los dispositivos móviles incluirán tecnología biométrica. Asimismo, se estima que para ese año, al menos un tercio de los datos pasará a través de la nube.
En segundo lugar, las mejoras en la conectividad suponen un salto cualitativo que permite el desarrollo de nuevos servicios y modelos de negocio ligados a la generación de datos en tiempo real, así como su análisis, para adaptar el servicio o el precio en función del uso: la generación y recolección de datos se realiza de forma automática a través de la sensorización y la digitalización de los terminales en el punto de venta, lo que crea un flujo de información continuo. Una gran parte de esta conectividad se realiza entre máquinas: una vez que una acción se realiza, los datos generados por los distintos elementos digitales involucrados se conectan con servidores con el objetivo de almacenar y analizar la información. Este tipo de conexiones M2M, se ha incrementado hasta alcanzar 1.100 millones de conexiones en 2017.
En tercer lugar, la mejora de los algoritmos ha permitido tanto optimizar el tratamiento de grandes volúmenes de datos (a través de técnicas de escalado, resampling, etc.) como obtener métodos más eficientes y robustos y tratar missings, variables no numéricas y atípicos. A pesar de que la mayor parte de los algoritmos fueron desarrollados antes del año 2000, es ahora cuando las empresas están invirtiendo mayores esfuerzos en su implementación, obteniendo mejores resultados que los alcanzados por los humanos. Por ejemplo:
- En la actualidad, los algoritmos de DeepMind AlphaZero y AlphaGo tienen un nivel de juego superior a cualquier humano en los juegos de ajedrez y go.
- Un algoritmo basado en inteligencia artificial es capaz de detectar cáncer de mama 30 veces más rápido que un médico y con una fiabilidad del 99%.
- En Estados Unidos los roboadvisors tienen 25,83 millones de usuarios, lo que supone un grado de penetración del 1,8% en 2018. Se espera que este ratio llegue al 8,3% en 2022.
Por último, de la capacidad de computación, que en las últimas décadas se ha incrementado enormemente apoyada en la mejora de los procesadores, cuenta ahora con otros factores como principales impulsores, entre otros: la gran evolución de los lenguajes de programación (tanto generalistas como dedicados a procesamiento de datos, visualización, algoritmia, etc.), el cloud computing y, especialmente, el diseño de nuevas arquitecturas de computación dirigidas específicamente a tareas de aprendizaje automático, análisis de datos y aplicaciones de ingeniería (conocidas como GPUs).
En resumen, en las últimas dos décadas la disponibilidad de datos digitales se ha incrementado casi 1.000 veces, mientras que con relación a la algoritmia, se han registrado mejoras de 10 veces en su eficiencia, al tiempo que la velocidad de computación ha aumentado 100 veces su desempeño. Todo ello ha desembocado en un renovado interés por estas técnicas como fórmula para obtener información de valor añadido en el nuevo entorno de los negocios.
Aprendizaje automático: más de medio siglo de historia
Las técnicas de aprendizaje automático (o Machine Learning) están experimentando un auge sin precedentes en diversos ámbitos, tanto en el mundo académico como en el empresarial, y constituyen una importante palanca de transformación. Si bien estas técnicas eran conocidas en los dos ámbitos, diversos factores están provocando que su uso sea más intensivo cuando antes era minoritario, y que se extienda a otros campos cuando antes prácticamente no eran utilizadas, tanto por los elevados costes de implantación como por los escasos beneficios inicialmente esperados de su aplicación.
Las técnicas de aprendizaje automático pueden definirse como un conjunto de métodos capaces de detectar automáticamente patrones en los datos. Bajo esta definición, el concepto de aprendizaje automático lleva existiendo al menos desde los años 50, periodo en el que se descubrieron y redefinieron diversos métodos estadísticos y se aplicaron al aprendizaje automático a través de algoritmos simples, aunque circunscritos casi exclusivamente al ámbito académico.
Este concepto de aprendizaje automático incluye desde entonces el uso de los patrones detectados para realizar predicciones, o para tomar otros tipos de decisiones en entornos de incertidumbre.
Frente a las técnicas estadísticas clásicas, la introducción de técnicas de Machine Learning permiten mejorar el proceso de estimación de modelos, no solo con relación al aumento del poder predictivo a través de nuevas metodologías y técnicas de selección de variables, sino también en la mejora de la eficiencia de los procesos a través de la automatización.
En este contexto, el presente estudio pretende dar una visión sobre la revolución digital y su impacto en la transformación de los negocios, con un especial foco en las técnicas de aprendizaje automático.
Para ello, el documento se estructura en tres secciones, que responden a tres objetivos:
- Ilustrar el desarrollo de la revolución digital y su impacto en distintos frentes.
- Introducir la disciplina de aprendizaje automático, describir distintos enfoques y exponer las tendencias actuales en este campo.
- Exponer un caso de estudio para ilustrar la aplicación de técnicas de Machine Learning en el caso específico del sector financiero.
Para más información, accede al documento completo en PDF haciendo clic aquí. Documento también disponible en inglés y portugués.