Big data
Conceptos, tecnologías y aplicaciones
David Ríos Insua
David Gómez-Ullate Oteiza
Colección ¿Qué sabemos de?
Catálogo general de publicaciones oficiales
http://publicacionesoficiales.boe.es
Diseño gráfico de cubierta: Carlos Del Giudice
© David Ríos Insua y David Gómez-Ullate Oteiza, 2019
© CSIC, 2019
http://editorial.csic.es
© Los Libros de la Catarata, 2019
Fuencarral, 70
28004 Madrid
Tel. 91 532 20 77
www.catarata.org
isbn (csic): 978-84-00-10534-1
isbn electrónico (csic): 978-84-00-10535-8
isbn (catarata): 978-84-9097-842-9
isbn electrónico (catarata): 978-84-9097-843-6
nipo: 694-19-069-4
nipo electrónico: 694-19-070-7
depósito legal: M-31.093-2019
ibic: PDZ/PDR
Reservados todos los derechos por la legislación en materia de Propiedad Intelectual. Ni la totalidad ni parte de este libro, incluido el diseño de la cubierta, puede reproducirse, almacenarse o transmitirse en manera alguna por medio ya sea electrónico, químico, óptico, informático, de grabación o de fotocopia, sin permiso previo por escrito del Consejo Superior de Investigaciones Científicas y Los Libros de la Catarata. Las noticias, los asertos y las opiniones contenidos en esta obra son de la exclusiva responsabilidad del autor o autores. El Consejo Superior de Investigaciones Científicas y Los Libros de la Catarata, por su parte, solo se hacen responsables del interés científico de sus publicaciones.
A Susa y mis surfeiras favoritas, Isa y Carla
David Ríos
A Neeltje, June y Emma, siempre por alegrías
David Gómez-Ullate
Agradecimientos
Sean nuestras primeras palabras de agradecimiento al CSIC por darnos esta oportunidad de continuar nuestra colaboración en este campo, explicando nuestra visión sobre cómo navegar en el proceloso océano de los datos.
Un agradecimiento especial a nuestro director, Manuel de León, que prácticamente de la nada pilotó el ICMAT, de ser un instituto bebé hasta ser un centro principal en investigación en ciencias matemáticas. En la mar cambian las corrientes, pero siempre se vuelve al equilibrio natural.
En ICMAT damos también gracias especiales a la energía que aportan nuestros compañeros del SPOR DataLab y al apoyo de nuestro equipo de gestión.
El trabajo de David Ríos está financiado por los programas MTM2017-86875-C3-1-R MTM2015-72907-EXP del Ministerio de Economía e Innovación de España y la Cátedra AXA-ICMAT sobre Análisis de Riesgos Adversarios del AXA Research Fund. Este trabajo también ha sido en parte financiado a través del Programa H2020 de Investigación, Desarrollo Tecnológico y Demostración de la Unión Europea, bajo el acuerdo nº 740920 (CYBECO). Se agradece también la ayuda de la FGCSIC para realizar las actividades de la precitada Cátedra.
El trabajo de David Gómez-Ullate está financiado por los proyectos MTM2015-65888-C4-3 y MTM2015-72907-EXP del Ministerio de Economía e Innovación de España. El autor agradece especialmente a la Fundación BBVA que, a través de su beca Leonardo, apoyó su primer proyecto de investigación en inteligencia artificial. Agradece también la ayuda de sus compañeros en el UCA Datalab y al Vicerrectorado de Transferencia de la Universidad de Cádiz por su confianza en la labor realizada y su apoyo a la investigación en ciencia de datos.
Prólogo
En estos últimos años hemos sido testigos del rápido crecimiento en la capacidad de las empresas y las administraciones públicas para explotar los avances recientes en las tecnologías de la información y de las comunicaciones (TIC), de la investigación operativa y de la modelización estadística, para recopilar y procesar datos sociales y de mercado, de sensores y de operaciones, para apoyar sus procesos de toma de decisiones. La captura de datos a través de aplicaciones online y móviles produce cantidades ingentes de información potencial que debemos aprehender para entender cómo actuamos, nos sentimos, nos movemos e interactuamos y cómo respondemos frente a las políticas de los gobiernos y las decisiones de las empresas. Los datos alcanzan así cada vez mayor valor para las organizaciones que intentan vislumbrar cómo aprovecharlos para mejorar las relaciones con los ciudadanos o los clientes, personalizar servicios y productos y automatizar todo tipo de procesos. Hasta hace poco, la toma de decisiones y el diseño de políticas en muchos ámbitos se hacía según criterios basados en información cualitativa, cuando no directamente según impresiones subjetivas. La irrupción del big data está implicando que, cada vez más, la información proporcionada por los datos constituya la base del análisis y las decisiones, posibilitando procesos más objetivos y automáticos, con las ventajas y riesgos que ello supone.
En cierta forma, existe algo de exageración sobre el fenómeno que hoy se conoce como big data, motivado en parte por éxitos indudables en aplicaciones industriales como los coches autónomos, la traducción automática o el reconocimiento del habla. Esta exageración se refleja en titulares como “El diluvio de datos vuelve obsoleto el método científico” (Wired, 2008) o “el big data salvará la política” (Technology Review, 2013) y ha llevado a cierta confusión en empresas y administraciones al querer realizar proyectos big data per se, cuando realmente no los necesitan, y en confundir big data con una mera tecnología, típicamente asociada con Hadoop o Spark.
En este libro introducimos los conceptos, tecnologías y metodologías básicas del big data y describimos algunas aplicaciones actuales y potenciales para contribuir a un mejor desarrollo de la sociedad. Intentamos desmontar algunas ideas equivocadas y promover una concepción más global de este fenómeno orientada a la obtención de valor de los datos a través de un uso responsable de la tecnología y la ciencia dirigido a apoyar la toma de decisiones basada en evidencia.
Tras una introducción al fenómeno del big data, identificando los pilares estadístico-matemático, informático-tecnológico y aplicado que deben sostener este tipo de proyectos, hacemos una breve incursión en sus tecnologías principales, con la obvia advertencia de la rápida evolución de las mismas. Revisamos, después, el otro pilar fundamental referido a los métodos estadísticos y de aprendizaje automático dentro del paradigma de la ciencia de datos. Los siguientes tres capítulos se refieren a aplicaciones en campos de interés principal como son su uso para la promoción de políticas públicas, en lo que denominaríamos “analítica de políticas”, y en la comunicación política, en particular en referencia al fenómeno de las fake news; su empleo en la promoción de la salud, y, en tercer lugar, en su adopción para el desarrollo de sociedades más ciberseguras. Finalmente, hacemos una referencia a los aspectos éticos y de responsabilidad social del tratamiento de los big data, para concluir con una mirada al futuro. Cada capítulo se completa con una breve reseña bibliográfica con la que el lector podrá ampliar los contenidos.
Comienza la singladura.
David Ríos Insua y David Gómez-Ullate Oteiza
Pantín-El Puerto de Santa María
CAPÍTULO 1
Frente al mar de datos
Introducción
Las últimas décadas han visto un rápido crecimiento en la capacidad de las empresas para explotar los numerosos avances recientes en las TIC, en la investigación operativa (IO) y la modelización estadística, de cara a recopilar y procesar datos de mercado y de operaciones para apoyar sus procesos de toma de decisiones. Como resultado, la analítica de negocios (business analytics) se ha convertido en un campo floreciente para la consultoría y la formación empresarial. Sin embargo, aunque muchas decisiones de algunos gobiernos a menudo vienen apoyadas con métodos tradicionales del análisis de políticas públicas, incluyendo aproximaciones como el análisis de coste-beneficio, pocos departamentos y agencias gubernamentales han logrado, por el momento, aprovechar de forma sistemática las grandes masas de datos disponibles, los hoy llamados big data, y los métodos avanzados de estadística y de aprendizaje automático (machine learning) para obtener evidencias que informen sus decisiones.
Este hecho constituye una interesante novedad desde una perspectiva histórica, ya que los métodos cuantitativos de ayuda a la toma de decisiones han surgido frecuentemente en el sector público. Por ejemplo, la estadística social, que se remonta a Quetelet, se inició en el siglo XIX para apoyar a los gobiernos a partir de la idea de que las regularidades estadísticas proporcionan señales sobre realidades sociales. Del mismo modo, el campo de la investigación operativa nació durante la Segunda Guerra Mundial al servicio de las fuerzas armadas de los Estados Unidos de América y del Reino Unido, y creció rápidamente a partir del desarrollo de distintos métodos de apoyo a la toma de decisiones en problemas militares.
Indudablemente, si lo comparamos con cómo se toman decisiones en el sector empresarial, los responsables de las decisiones públicas se enfrentan a ta...