Hacia principios de este siglo Billy Beane, el gerente general de los Atléticos de Oakland -ante la mirada desconfiada de los scouts- comenzó a replantearse la estrategia para armar un equipo de beisbol. Su tesis era que un análisis más exhaustivo de las estadísticas (la llamada “sabermetrics“) permitía anticipar mejor el rendimiento individual de los jugadores.

La historia fue llevada a la pantalla en el film Moneyball.

De esa forma el estratega (el gerente general de los A´s, encarnado por Brad Pitt) armaba un equipo donde los jugadores (ninguno de ellos de los más caros, algunos pasados de años) compensaban mutuamente sus fallas y con menos dinero se lograba un alto rendimiento antes solo reservado a los equipos con más caja. Las sabermetrics permitieron a Beane un récord de victorias seguidas en las Grandes Ligas (20) y aunque no ganaron el campeonato ese año, llegaron a disputar una División. En 2004 los Medias Rojas de Boston replicaron el modelo de los A´s y ganaron la Serie Mundial. Ahora el método es común en muchos equipos de la MLB.

Con datos de calidad y buenos métodos de análisis e interpretación, la ciencia ofrece amplias posibilidades para predecir. Einstein vislumbró que con suficiente información se vaticinaría cualquier fenómeno del universo. Físicamente es imposible -y él lo sabía más que nadie- pero en parcelas más pequeñas y controlables el acierto basado en probabilidad ocurre a diario: el pronóstico del tiempo, las acciones de la bolsa, las carreras de caballos. Obviamente con un margen de error mayor o menor según el caso.

Con más información digital produciéndose cada minuto y sistemas de Big Data capaces de procesar monstruosos volúmenes por segundo a precios cada vez menores… podríamos decir que hay muchas soluciones en busca de problemas. Los emprendedores y los “Billy Beane” buscarán los problemas que se necesitan resolverse y muy probablemente acertarán.

Los datos de la gente para predecir

Tomemos los social media: redes masivas en las que se generan de forma abierta, libre, no solicitada y mayormente escrita, miles de millones de comentarios y otras interacciones al día. Sólo Facebook genera 3,2 mil millones de likes y comentarios al día. Por su parte Twitter, una de las fuentes más preciadas de datos crudos, anunció al cumplir siete años en 2013 que sus usuarios despachaban 400 millones de tuits diarios.

dateado-pedecir2

Visualización de las interacciones de 1.000 usuarios de Twitter que usaron una misma palabra en su tuit (“hadoop”). Vea cómo se deagregan y amplifican estas relaciones en el original animado en Flickr.

En 2012 The Week Magazine publicó “Cinco cosas sorprendentes que los social media pueden predecir” que para mí fue muy revelador en su momento. Cito:

El FBI, el Pentágono y las agencias de inteligencia estadounidenses están buscando programadores para diseñar software que les permita [leer e interpretar] millones de entradas de Facebook, tuits y el resto del universo de los social media para tener un estado en tiempo real de lo que ocurre en el mundo… y lo que podría suceder después.

Las imputaciones a la NSA y al establishment de seguridad de EEUU no solo implican espionaje, sino solicitudes permanentes de data a empresas de social media para analizarla y extraer patrones, según se dice, en nombre de la seguridad nacional. Por ejemplo, solo Verizon recibió 321,545 solicitudes de data de usuarios para organismos de seguridad en 2013.

Las agencias de inteligencia usan sistemas que puedan escudriñar, cito a The Week, “montañas de información pública disponible en línea (entradas de Facebook, artículos de Wikipedia, búsquedas web, tuits, web cámaras de tráfico) y fundirlas con datos de inteligencia y mapas para predecir eventos a punto de ocurrir”.

¿Recuerdan la película de 2002 Minority Report? En el film de Steven Spielberg, que se desarrolla en 2051, la sociedad es capaz de predecir delitos y detenerlos antes de que se concreten. Sí, hasta que el sistema es intervenido y se logra encubrir un crimen y falsear otro. En fin, una distopia más.

2014-02-04-11predecirsmall.pngCualquier predicción en social media se basará en algunos pre-requisitos no solo sobre qué es un acto sospechoso sino sobre los perfiles individuales asociados. Normalmente tales definiciones parten del criterio humano, no de leyes científicas. Los impasibles algoritmos estadísticos son brutalmente efectivos pero no tanto. Entonces ¿a quién consideran los federales “gente mala”?: “¿Hackers tipo Anonymous? ¿Fanáticos de Wikileaks? ¿Los acólitos de movimientos tipo Occupy Wall Street? ¿Cualquiera?”, pregunta el artículo de The Week. Esa “perfilación” (profiling) de la gente, que se hace sin su conocimiento y obviamente permiso… preocupa.

Pero los del gobierno tienen compañía: la empresa privada. Compañías como BlueFin Labs (comprada por Twitter en 2013), han desarrollado poderosos sistemas que analizan el sentimiento expresado en millones de tuits y se usan como analítica, por ejemplo, en cadenas televisivas, grandes agencias de publicidad y mercadeo.

Llaman a esto “sentiment analysis”, una recogida, procesamiento y agregación masiva de post generados por millones de usuarios. ¿Para qué? Para analizar, interpretar o tomar decisiones sobre innumerables objetivos: lanzamiento de productos, campañas públicas, programas de TV, etc.

¿Cómo lo hace? El sistema lee millones de tuits, posts y comentarios del “social stream” y los contrasta con reglas semánticas, que le dicen cuáles palabras o frases catalogar como positivas, negativas o neutras. Esto da una idea de qué reacción tiene la gente ante un evento y, sobre todo, qué términos usan. Si se comparan los últimos iPhones y Samsung Galaxys, por ejemplo, se puede observar si las cualidades más apreciadas son precio o facilidad de uso o duración de la batería. ¿El plan de teléfono y datos, es valorado o no importa tanto? ¿Qué dice la gente de la calidad de imagen de la cámara? ¿Cuál producto y bajo qué condiciones estarán los usuarios más dados a adquirir?

El impacto que esta analítica tendrá sobre el mercadeo y la estrategia será cada día mayor, a medida que suba la capacidad de procesamiento a menor costo y proliferen los servicios en línea que lo hacen por uno.

Hay muchos otros sistemas de Big Data a los que me referiré, como el “data mining”, los predictores del tiempo, la anticipación de compras, las bolsas de valores y otros.

-Fernando Nunez-Noda


Publicado en Huffington Post, el 05/02/2014.
Foto de Keith Allison en Flickr.

Comentarios

------------------