1. Agregación
De tablas y medias a mínimos cuadrados
El primer pilar, la Agregación, no sólo es el más antiguo, también es el más radical. En el siglo XIX se le conocía como la “combinación de observaciones”. Esta frase pretendía verbalizar la idea de que se lograba una ganancia de información, más allá de lo que los valores individuales en un conjunto de datos nos dijeran, al combinarlos en un resumen estadístico. En estadística, un resumen puede ser mucho más que una colección de partes. La media de una muestra es el ejemplo que recibió el enfoque técnico más temprano, pero el concepto incluye otras presentaciones de resúmenes estadísticos, tales como la media ponderada e, incluso, el método de mínimos cuadrados, que en el fondo es un promedio ponderado o ajustado, respecto de algún otro valor de las observaciones individuales.
Calcular una media de cualquier tipo es un paso bastante radical en el análisis. Al hacerlo, el estadístico descarta información de los datos; la individualidad de cada observación se pierde: el orden en que las mediciones se han tomado y las diferentes circunstancias en que se hicieron, incluyendo la identidad del observador. En 1874 ocurrió un muy anticipado tránsito de Venus a través de la cara del Sol, el primero desde 1769, y muchas naciones enviaron expediciones a sitios que se creía resultarían favorables para el avistamiento. Conocer el tiempo exacto desde el inicio hasta el fin del tránsito a través del Sol podría ayudar a determinar con precisión las dimensiones del sistema solar. ¿Los números reportados desde distintas ciudades serían tan parecidos que podrían promediarse de manera significativa? Las realizarían observadores con diferentes habilidades, usando equipos diferentes, en los tiempos ligeramente diferentes en que el tránsito ocurriría en los diferentes lugares. Y para el caso, ¿las observaciones sucesivas de la posición de una estrella hechas por un solo observador, sumamente consciente de cada temblor, hipido y distracción, son suficientemente similares como para ser promediadas? En tiempos pretéritos, así como en los actuales, demasiada familiaridad con las circunstancias de cada observación podría afectar la intención de combinarlas. Una fuerte tentación es, y siempre ha sido, seleccionar una observación considerada como la mejor, en vez de corromperla al promediarla con otras de las que se sospecha que tienen un menor valor.
Incluso después de que calcular las medias se volviera una práctica común, la idea de que descartar información puede aumentar la información no siempre ha sido convincente para todo el mundo. Cuando en la década de 1860 William Stanley Jevons propuso medir los cambios en los niveles de precios por medio de un número índice, que era esencialmente un promedio de los cambios porcentuales en distintas mercancías, sus críticos consideraron que era absurdo promediar los datos del hierro a medio procesar con los de la pimienta. Y una vez que la discusión se desplazó a las mercancías individuales, aquellos investigadores con conocimientos históricos detallados se vieron tentados a creer que podrían “explicar” cada movimiento, cada fluctuación, con alguna descripción narrativa de por qué ese suceso en particular había ocurrido de la manera en que lo había hecho. La condena a Jevons por ese razonamiento fue contundente en 1869: “De ser necesaria por ende una explicación completa de cada fluctuación, ésta no sólo haría imposible cualquier indagación en este tema, sino que la totalidad de las ciencias estadísticas y sociales, en tanto que dependen de hechos numéricos, tendrían que ser abandonadas.”5 No se trataba de que los relatos acerca de los datos fueran falsos; se trataba de que éstos (y las peculiaridades individuales en las observaciones separadas) quedaran en segundo plano. Si las tendencias generales han de revelarse, las observaciones tienen que tomarse como un conjunto: deben combinarse.
Jorge Luis Borges lo entendió. En un cuento fantástico publicado en 1942, “Funes el memorioso”, describió a un hombre, Ireneo Funes, quien tras un accidente descubrió que podía recordar absolutamente todo. Podía reconstruir cada día en sus más mínimos detalles, e incluso luego podía reconstruir la reconstrucción, pero era incapaz de entender. Borges escribió: “Pensar es olvidar diferencias, es generalizar, abstraer. En el abarrotado mundo de Funes no había sino detalles, casi inmediatos.”6 La agregación puede aportar grandes ganancias por encima de los componentes individuales. Funes era big data sin estadística.
¿Cuándo se usó por primera vez la media aritmética para resumir un conjunto de datos, y cuándo se adoptó extensamente esta práctica? Se trata de dos preguntas muy diferentes. La primera podría ser imposible de responder, por razones que analizaré más adelante; la respuesta a la segunda parece ser “en algún momento en el siglo XVII”, pero una mayor precisión sobre la fecha también parece intrínsecamente difícil. Para entender mejor los problemas de medición y de reporte involucrados, veamos un ejemplo interesante, uno que incluye lo que podría ser el primer uso publicado de la frase “media aritmética” en este contexto.
VARIACIONES DE LA BRÚJULA
Hacia 1500, la brújula se había establecido como una herramienta básica para los marinos cada vez más audaces. Su aguja daba una lectura del norte magnético en cualquier lugar y con cualquier clima. Ya era bien sabido un siglo atrás que el norte magnético y el norte verdadero difieren, y hacia 1500 ya era también bien sabido que la diferencia entre los nortes verdadero y magnético varía según el lugar, a menudo en una cantidad considerable: 10º o más hacia el este o hacia el oeste. En esa época se creía que esto se debía a la falta de atracción magnética por el mar y el consiguiente sesgo de la aguja hacia las masas de tierra y lejos de los mares. La corrección necesaria para encontrar el norte verdadero con una brújula era llamada la “variación de la brújula”. Algunos mapas de navegación de la época marcaban el tamaño conocido de esta corrección en lugares clave, tales como estrechos y puntos de referencia cercanos visibles desde el mar, y los marinos tenían confianza en estas desviaciones registradas. En De magnete, su libro clásico sobre el magnetismo terrestre publicado en 1600, William Gilbert afirmó que se podía contar con que la variación fuera constante en cada punto siempre que la Tierra fuera estable: “Tal como la aguja se inclinó alguna vez hacia el este o el oeste, así incluso ahora el arco de variación continúa siendo el mismo en cualquier lugar o región, sea en el mar o en el continente; así también permanecerá por siempre, sin cambio alguno, salvo que hubiere una gran ruptura de un continente y la aniquilación de países, tal como ocurrió con la región de la Atlántida, de la que hablan Platón y los escritores antiguos.”7
Pero, ¡ay!, los marineros y Gilbert pusieron su confianza en el lugar equivocado. En 1635, Henry Gellibrand comparó una serie de mediciones, separadas por más de 50 años, de la variación de la brújula en el mismo punto de Londres, y descubrió que la variación había cambiado en una cantidad considerable. La corrección necesaria para obtener el norte verdadero había sido de 11º al este en 1580, pero hacia 1634 había disminuido hasta aproximadamente 4º al este.8 Estas mediciones tempranas estaban basadas en varias observaciones, y una mirada más detallada muestra cómo los observadores por separado y juntos iban acercándose a tropezones hacia la media aritmética, sin jamás llegar a ella con claridad.
El caso mejor registrado de estas primeras determinaciones de la variación de la brújula fue publicada por William Borough en 1581 en un tratado titulado A Discours of the Variation of the Cumpas, or Magneticall Needle [Discurso sobre la variación de la brújula, o aguja magnética].9 En el capítulo 3, describe un método para determinar un valor para la variación sin tener previamente conocimientos detallados sobre la dirección del verdadero norte en el lugar en que uno se encuentre, e ilustró su uso en Limehouse, en los Docklands, en el East End de Londres, no muy lejos del meridiano de Greenwich. Sugirió hacer observaciones cuidadosas de la elevación del Sol con un astrolabio —que es, esencialmente, un círculo de bronce marcado con una escala en grados, que se suspende en posición vertical mientras se observa el Sol con un punto de mira, y se anota la posición—. Cada vez que el Sol alcanzaba un nuevo grado de elevación, en su ruta ascendente antes del mediodía y en la descendente después del...