[Libro] Big data

Unas cuantas semanas antes de que el virus H1N1 ocupase los titulares dio la casualidad de que unos ingenieros de Google publicaron en Nature que podían predecir la propagación de la gripe invernal, no sólo a nivel nacional sino incluso regiones específicas simplemente viendo lo que la gente buscaba por su buscador. La información que da tener no una muestra, sino todos los datos, es tremenda. Y es el tema central de este libro del que os hago el habitual resumen.

En 2003, Oren Etzioni tenía que volar desde Seattle a Los Ángeles. Meses antes compró por Internet un billete de avión. Como curiosidad preguntó a un pasajero que iba a su lado cuánto le había costado el billete y se enfadó al ver que le había costado mucho menos. Le preguntó a otro y otro… y todos habían pagado menos que él. Así que se dedicó a estudiar cómo variaban los precios de los billetes de avión a lo largo del tiempo y fundó una compañía que se dedicaba precisamente a dar a conocer a un usuario cuándo los precios de los billetes tendían a ser más baratos tomando muestras de 12.000 precios de diferentes vuelos. No importaba la causa, sino el resultado. El sistema se lo compró Microsoft y para 2012 el sistema acertaba el 75% de las veces ahorrando una media de 50 dólares por billete.

Estamos en la era de los datos. Cuando el Sloan Digital Sky Survey arrancó en 2000, solo en las primeras semanas su telescopio de Nuevo Mexico recopiló más datos de los que se habían acumulado en toda la historia de la astronomía. Cuando los científicos secuenciaron en 2003 los 3000 millones de pares de bases les llevó una década de intensivo trabajo. Diez años después ese trabajo se hacía en un solo día. Pero no es algo nuevo. En los 50 años posteriores a partir del nacimiento de la imprenta se imprimieron unos 8 millones de libros, lo que hacía más que lo producido por los escribas de Europa desde la fundación de Costantinopla unos 1200 años antes: se necesitaron 50 años para duplicar toda la producción anterior. Hoy día se hace en unos 3 años.

¿Qué hacemos con esos datos masivos? No consiste en intentar hacer que un ordenador piense como un ser humano, sino utilizarlos para poder inferir probabilidades. Emplear datos nos permite ver correlaciones que nunca pudimos ver sin esos datos. Tenemos menos errores de muestreo. Por ejemplo, si millones de registros médicos electrónicos revelan que enfermos de cáncer que toman determinada combinación de aspirina y zumo de naranja vieran remitir su enfermedad, la causa exacta de la mejoría sería menos importante que el hecho de que sobrevivan. Conoceríamos una correlación que, de otro modo, nunca hubiéramos conocido. O sea, las correlaciones no nos dicen por qué está ocurriendo algo, pero sí que algo está pasando.

Otro ejemplo, la empresa Xoom, firma especializada en transferencias internacionales de dinero, analiza todos los datos asociados con las transacciones que trata. El sistema hizo sonar una alarma en 2011 cuando advirtió que un número ligeramente superior a la media de operaciones con tarjeta Discover y origen en Nueva Jersey. El director general afirmó que había un patrón donde no debía haber ninguno. Tomadas una a una, aquellas transacciones parecían legítimas, pero resultaron ser obra de un grupo de delincuentes. La única forma de detectarlo era tratando todos los datos y no una muestra.

Albert-László Barbási estudió las interacciones a nivel de relaciones sociales de las personas a nivel de población utilizando como datos registros de todas las llamadas telefónicas de un determinado operador. El estudio a lo largo del tiempo concluyó que si uno retira de la red a una persona con muchos vínculos, le red social se degrada, pero no falla. Pero si la persona que se retira tiene vínculos más variados al margen de su red inmediata la red social se desintegraba. ¿Quién habría pensado que las personas que dan estabilidad a una red son las que tienen vínculos con la gente más distante y no las que tienen muchos vínculos?

El éxito de Amazon, según afirma, fue el análisis de estudiar qué otros títulos estaban mirando y cuánto tiempo. Decían de broma que el ideal al que querían llegar era el que el siguiente libro que comprara el cliente fuera el recomendado por ellos.

Los responsables de marketing de supermercados Target analizaron los datos, recogidos por tarjetas cliente y programas de fidelidad, de sus ventas a ver si descubrían el embarazo de sus clientas por patrones de compra. Llegaron a estimar la fecha del parto de las clientas con muy poco margen de error. Un día, un hombre furioso entró en el supermercado porque habían dado a su hija cupones para ropa de bebé y cunas, teniendo en cuenta que aquella chica estaba en el instituto. Al cabo de poco tiempo volvió para pedir disculpas.

La compañía de transportes UPS empezó a monitorizar su flota de 60.000 vehículos en EEUU para saber cuándo hacer cambios de piezas preventivos, pues una avería en carretera cuesta puede causar estragos en entregas y recogidas. Antes de ello cambiaban ciertas piezas por precaución cada dos o tres años pero se daban cuenta de que estaban en perfectas condiciones. Con ello se han ahorrado millones de dólares. Incluso se dieron cuenta de que un grupo de vehículos nuevos tenía una pieza defectuosa.

Hasta los médicos están recogiendo todo tipo de datos en bebés prematuros. No es que el sistema tenga que tomar la decisión, pero sí ayudar al médico a tomarla viendo correlaciones entre casos.

El libro insiste mucho en que una cosa es correlación y otra causalidad. Nuestra mente siempre busca causas. Si vamos a un restaurante y luego nos ponemos malos, acostumbramos a echar la culpa al mismo y no volvemos. Y seguramente, la causa de habernos puesto malos es otra. Otro ejemplo, un vendedor de coches de segunda mano comprobó que los coches de color naranja tenían menos probabilidades de tener defectos. Puede que haya una correlación, pero ¿aconsejaremos a los demás propietarios que pinten sus coches de color naranja?

El hecho de guardar datos no es sólo para utilizarlos en el momento de la recogida, sino que se pueden hacer otro tipo de informes en el futuro, aunque ahora no tengamos idea de para qué usarlos. Por ejemplo, en Dinamarca se obtuvieron los datos de personas que tenían teléfono móvil entre 1987 y 1995, con excepción de los móviles de empresa porque no se tenían datos. Pero el mismo país tenía además un registro nacional de todos los pacientes con cáncer a partir de 1990 y 2007. Además, se recogieron también datos sobre el nivel educativo y la renta disponible de cada ciudadano danés.

Si los usuarios de móvil mostraban una mayor incidencia en cánceres, podríamos concluir que realmente afectaban, y es que no tenían muestra, sino los datos enteros de toda la población. Lo importante es que los datos se habían generado antes sin esa finalidad, pero ahora servían para el presente estudio. No se detectó incremento alguno en el riesgo de cáncer asociado a los teléfonos móviles.

Hoy día, al valorar una empresa, también se tiene que tener en cuenta los datos de los que dispone, pues son lo que ellos llaman, un “activo intangible” (diferencia entre valor contable y valor de mercado).

Otro caso de lo que los datos pudieron reportar beneficios. Una compañía de automóviles detectó que un medidor de gasolina funcionaba mal. Podía darle los datos al proveedor, pero entonces los datos podían llegar a manos de la competencia. Así que la compañía automovilística mejoró ella misma la pieza con un software modificado, patentó la técnica y luego se la vendió al proveedor.

Otra idea de recogida de datos es saber cuándo en un coche salta el ABS. De esta manera, si tomamos todas las medidas de todos los coches podríamos saber cuáles son los tramos de carretera más peligrosos sin esperar a que hubiera accidentes para contabilizarlos.

Con datos masivos descubrieron que en los vuelos de Boston a La Guardia, los viajeros debían estar preparados para retrasos dos veces más largos cuando había niebla que cuando nevaba. Esto iba en contra de la intuición de muchos, pues parece que deberia haber más retrasos cuando nieva que no cuando hay niebla.

Hoy día, por ejemplo, Rolls Royce vende motores y también se ofrece a monitorizarlos para detectar los problemas antes de que se produzca una avería, cobrando a los clientes en función del uso (y reparándolos en caso de problemas). Hoy día representa el 70% de sus ingresos en aviación civil.

Pero también, el tener muchos datos por parte de quien ostenta el poder, pues está claro que cuanta más información tienen más la utilizan en contra nuestra.

Por ejemplo, durante cerca de cuarenta años, hasta que cayó el muro de Berlín en 1989, el organismo de seguridad del estado de la República Democrática Alemana, conocido por Stasi, espió a millones de personas. Con un personal a tiempo completo de cerca de cien mil agentes, la Stasi vigilaba desde vehículos y a pie de calle. Abría el correo y controlaba las cuentas corrientes, ponía micrófonos en los pisos y pinchaba las redes telefónicas. Inducía a amantes y parejas, padres e hijos, a espiarse unos a otros, traicionando la confianza más básica que se pueden tener los seres humanos. Los archivos resultantes -por lo menos 39 millones de fichas y más de 100 km de documentos- registraron en detalle los aspectos más íntimos de la vida de la gente corriente. Alemania Oriental fue uno de los estados policiales más exhaustivos jamás vistos.

Veinte años después de la desaparición de Alemania Oriental, se están recogiendo y almacenando más datos sobre cada uno de nosotros que nunca antes. Estamos bajo vigilancia continua: cada vez que usamos nuestras tarjetas de crédito para pagar, nuestros teléfonos móviles para comunicarnos o nuestro número de la seguridad social para identificarnos. En el año 2007, la prensa británica se deleitaba con la ironía de que hubiese más de treinta cámaras de vigilancia en un radio de doscientos metros alrededor del apartamento londinense en el que George Orwell escribió 1984.

Mucho antes del advenimiento de Internet, ya había empresas especializadas como Equifax, Experian y Acxicom que recopilaban, tabulaban y ofrecían acceso a la información personal de cientos de millones de personas de todo el mundo. Internet ha hecho más fácil, más barato y más útil seguir un rastro. Y no son solo los organismos gubernamentales clandestinos con siglas de tres letras los que nos espían. Amazon monitoriza nuestras preferencias de compra, Google nuestros hábitos de navegación mientras que Twitter sabe qué pensamos. Facebook parece capturar asimismo toda esa información, junto con nuestras relaciones sociales. Los operadores de telefonía no sólo saben con quién hablamos, sino también a quién tenemos cerca.

Si la era de Internet es una amenaza para la privacidad, ¿no corre aún más peligro la mala utilización de los datos masivos? ¿Es ese el lado oscuro de los datos masivos? Pues sí, y no es el único. También en este caso, lo esencial es saber que un cambio de escala lleva a un cambio de estado. (…) esta transformación no solo hace mucho más arduo proteger la privacidad, sino que también anuncia una amenaza enteramente nueva: la de los castigos basados en las propensiones. Es decir, la posibilidad de usar predicciones acerca de las personas basadas en datos masivos para juzgarlas y castigarlas antes incluso de que hayan actuado. Algo que niega toda idea de igualdad, justicia y libre albedrío.

En Richmond, Virginia, la policía correlaciona los datos sobre crímenes con otros conjuntos de datos, como la información sobre cuándo pagan las nóminas a sus empleados las grandes compañías de la ciudad, o las fechas de los conciertos o acontecimientos deportivos. Con ello se ha podido confirmar y, en ocasiones, refinar las sospechas de la policía acerca de las tendencias delictivas. Por ejemplo, se sospechaba que se producía un incremento de delitos con violencia después de las ferias de armamento; el análisis de datos demostró que tenían razón, pero con una peculiaridad: el repunte se producía a las dos semanas del certamen y no inmediatamente después.

Finalmente, hace un llamamiento a que todo esto de tener datos para hacer previsiones está muy bien, pero no hemos de caer en la tentación de ser esclavo de los mismos. Analizando datos para prever resultados pero podemos tener en cuenta también nuestra intuición o la capacidad de utilizar nuestro ingenio. Si Henry Ford hubiese interrogado a los algoritmos de datos masivos para saber qué querían sus clientes, habrían contestado “un caballo más rápido”.

Por cierto, cuenta la bonita historia de Matthew Fontaine Maury, que explico en xatakaciencia.

Un libro interesante. Se hace por momentos repetitivo y “machacón” diciendo las cosas una y otra vez; pero la idea general y los ejemplos que da están bastante bien. Creo un poco exagerado lo de los peligros de tanta datificación, pero puede que el autor tenga razón y un servidor se equivoque. Para todos los públicos.

Portada del libro

Autores: Viktor Mayer-Schönberger y Kenneth Cukier
Traductor: Antonio Irirarte

12 DE OCTUBRE DÍA DEL RESPETO A LA DIVERSIDAD CULTURAL

  
  
"Alguien ha cortado tu cabeza Chamilin, tus brazos y piernas y tu lengua Chamilin, pero no podran descuartizar tu magia. Vives en el centro mismo de las almas, justo en el espacio de nuestra esperanza. Somos hoy tu sombra nada mas, tu aliento que se va, tu  rostro seco al sol, Tu mutilado amor, tu dulce corazón.
Leer mas 





"Antigales son sitios arqueológicos en nuestro NOA (noroeste argentino), lugares donde aun se encuentran vestigios de los asentamientos de los pueblos originarios.
Toda América es un gran antigal, pues en  todo lo que esta a nuestro alrededor hay restos de las múltiples civilizaciones que estuvieron  aquí antes de la llegada de los conquistadores.
La idea de América como antigal habla de una patria grande, no precisamente como América Latina, sino como la América Indígena.
Leer mas