Llegamos a ustedes gracias a:



Reportajes y análisis

Los datos sociales no tienen por qué ser Big Data para ser útiles

[08/10/2012] Para los minoristas y los vendedores en especial, los datos de sentimientos -los que a menudo se capturan en redes sociales como Facebook y Twitter- pueden ser especialmente valiosos. A menudo, son necesarios costosos análisis de datos y paquetes de visualización de datos para extraer información útil. Pero si no necesita correlacionar muchas corrientes dispares de datos, hay herramientas más sencillas que pueden darle exactamente lo que necesita.
Este año, un grupo de investigadores de la universidad de Rochester publicó el artículo Modelando la propagación de la enfermedad a partir de las interacciones sociales, que demostraba la forma en que utilizaban la API nativa de búsqueda de Twitter y algoritmos de soporte a máquinas de vectores (SVM) para estudiar la propagación de enfermedades infecciosas.
Investigadores utilizan Twitter para estudiar el contagio
"Imagine que Joe está a punto de despegar en un avión y tuitea rápidamente desde su teléfono", los autores -Adam Sadilek y Henry Krautz del departamento de ciencias de la computación, y Vincent Silenzio de la facultad de medicina y odontología- escribieron en su artículo. "Él escribe que tiene fiebre y se siente muy mal. Ya que Joe tiene un perfil público de Twitter, sabemos quienes son algunos de sus amigos, y vemos algunos de los lugares que ha visitado recientemente gracias a sus etiquetas GPS. Además, se puede inferir una gran fracción de las partes ocultas de la red social de Joe y sus ubicaciones latentes mediante la aplicación de los resultados de sus trabajos anteriores, como veremos más adelante", escribe Sadilek, Kautz y Silenzio.
"De la misma manera, podemos identificar a otras personas que pueden estar en el aeropuerto de Joe, o incluso en el mismo vuelo. Al utilizar la información observada y deducida, ahora podemos monitorear a los individuos que probablemente entraron en contacto con Joe, como los pasajeros sentados a su lado. Joe pudo haberles transmitido su enfermedad y viceversa, aunque todavía no presenten ningún síntoma. Cuando las personas viajan a sus respectivos destinos, pueden infectar a otros en el camino. Eventualmente algunas personas tuitearán acerca de cómo se sienten, y podemos observar al menos una fracción de la población que haya contraído la enfermedad".
Sadilek, Kautz y Silenzio llevaron a cabo su trabajo con la API de búsqueda de Twitter, lo que les permitió obtener una muestra de tuits públicos del área metropolitana de Nueva York. Recopilaron los tuits de un mes, comenzando el 18 de mayo del 2010. Ellos usaron un script Python para consultar Twitter periódicamente en busca de los últimos tuits a menos de 100 kilómetros del centro de la ciudad, y distribuyeron las consultas sobre un número de máquinas con diferentes direcciones IP que consultaban al servidor de forma asíncrona, para evitar exceder los límites de consulta de Twitter. Fusionaron los resultados y luego se concentraron en los 6.237 usuarios que habían publicado más de 100 tuits etiquetados con GPS durante el mes.
Una vez que redujeron la población a los usuarios que podían seguir con fiabilidad geográfica, todavía tuvieron que lidiar con el desequilibrio de clases: los tuits relacionados con la salud son relativamente escasos en comparación con otros tipos de mensajes y clasificarlos de forma tan fiable es difícil. Para ello, se capacitó a dos clasificadores SVM binarios -SVM es un modelo establecido de aprendizaje de los datos en la máquina que distingue con precisión entre los tuits que mencionaban que estaba enfermo y los demás tuits. Un clasificador SVM fue altamente penalizado por inducir a un falso positivo (etiquetar un tuit normal como si fuera sobre la enfermedad), mientras que el otro fue penalizado fuertemente por crear un falso negativo (etiquetar un tuit acerca de la enfermedad como uno normal).
Parte de ese proceso implicó ponderar "características" -esencialmente palabras clave- para ayudar a que los SVM distingan entre "enfermo" y tuits normales. Por ejemplo, la función de "enfermo" en un mensaje recibió un peso positivo de 0,9579. Sin embargo, la característica de "enfermo de" recibieron un peso negativo de -0,4005, lo que indica una menor probabilidad de que el tuitero haya estado enfermo.
En el otro extremo, fueron capaces de extraer más de 700 mil mensajes de "enfermos". Luego, los investigadores estudiaron los movimientos de los usuarios que han publicado estos mensajes, utilizando sus amistades de Twitter para conocer más de cómo se propagó el contagio.
"Para cuantificar el efecto de las relaciones sociales en la transmisión de la enfermedad, aprovechamos las amistades de Twitter de los usuarios", escribió el equipo. "Claramente, hay eventos complejos e interacciones que tienen lugar entre bastidores, y que no están directamente registrados en los medios sociales en línea. Sin embargo, esto plantea el hecho de que estos hechos latentes a menudo se presentan en la actividad de la muestra de personas que podemos observar. Por ejemplo, como veremos más adelante, tener lazos sociales con las personas infectadas aumenta significativamente sus probabilidades de enfermarse en el futuro cercano".
Sin embargo, no creemos que las relaciones sociales originan o incluso facilitan la propagación de la infección. En cambio, las amistades de Twitter son proxies e indicadores de un conjunto complejo de fenómenos que no pueden ser directamente accesibles. Por ejemplo, los amigos suelen comer juntos, se reúnen en clases, comparten cosas y viajan juntos. Si bien la mayoría de estos eventos nunca se mencionan explícitamente en línea, son cruciales desde el punto de vista de la transmisión de enfermedades. Sin embargo, su probabilidad es modulada por la estructura de las relaciones sociales, lo que nos permite razonar acerca del contagio".
Los vendedores utilizan Twitter para encontrar clientes potenciales
Estas técnicas no solo son útiles para los investigadores. El fabricante de remedios Cold-EEZE y la firma de marketing social Refine+Focus construyeron la estrategia de marketing social de Cold-EEZE en torno a la investigación. EL CEO y fundador de Refine+Focus, Zach Braiker, explica que un community manager en Cold-Eeze monitorea Twitter en busca de indicadores de los síntomas del resfrío y luego llega a formar una conexión con los usuarios de Twitter acerca de los síntomas.
"Buscamos gente que expresan los síntomas del resfriado y la tos", señala Braiker. "Respondemos a casi todo el mundo que cumple con los criterios determinados, y a menudo se crea una interacción significativa. En algunos casos, el resultado es una verdadera amistad".
Él señala que esto no requiere agrupaciones Hadoop o costosas soluciones de visualización de datos, solo la API de búsqueda de Twitter y un community manager competente.
"Para nuestras necesidades, podemos utilizar la interfase de Twitter directamente porque tenemos búsquedas muy específicas que hemos pre generado", señala. "En su mayor parte, lo que ayuda en el proceso a este nivel es tener un community manager competente que esté constantemente mirando los feeds, y que tome la decisión humana de interactuar con alguien".
Un ejemplo es el de un atleta que expresaba preocupación por la tos antes de participar en una competición de Ironman. Usando esa información, Cold-Eeze envió un paquete de atención para ayudar al atleta a superar la tos antes de la carrera.
Las interacciones genuinas son esenciales
La clave, señala Braiker, es crear interacciones reales y genuinas.
Ya sea que esté buscando en Twitter, Facebook o alguna otra red social, él recomienda que identifique a las personas que serán más receptivas a su mensaje, y luego engancharlos con conversaciones de calidad. Recuerde detalles acerca de ellos y de lo que hayan dicho en el pasado. Utilice nombres y hable de las cosas sustanciales.
"A veces las empresas cometen errores muy grandes, ya que acaban de empezar a promocionarse sin parar", agrega. "Es casi como estar en una cita y no pasar por el proceso de tratar de conocer a alguien en primer lugar. Realmente socava la forma en que estas herramientas son mejor utilizadas. Tiene que preocuparse genuinamente por sus intereses y crear una verdadera conexión con la conversación real".
Thor Olavsrud, CIO.com