Llegamos a ustedes gracias a:



Reportajes y análisis

Los 12 oscuros secretos de la ciencia de datos

[20/05/2019] La ciencia de datos está revolucionando los campos computacionales y proporciona una base para permitir que las computadoras resuelvan problemas. Desde el diseño de medicamentos hasta la visión de máquina, los algoritmos inteligentes están enriqueciendo nuestras vidas y, a veces, incluso salvándolas. Pero más allá de las historias de éxito, existe una gran cantidad de resultados cuestionables y poco confiables. Todo aquel que se acerque a una nueva recopilación de datos con la tarea de extraer información significativa, debe tener en cuenta este lado oscuro.

A continuación 12 inconvenientes de la ciencia de datos que, por encontrarse ocultos bajo su excesiva publicidad, se discuten muy poco y deben considerarse al extraer datos para obtener información.

Muchos descubrimientos de la ciencia de datos son obvios

Cuando el banco buscó una manera de pronosticar los incumplimientos de los préstamos, descubrieron que las personas sin ahorros tenían más probabilidades de dejar de pagar sus deudas. Cuando los hospitales buscaron las causas del error médico, encontraron que la falta de sueño era un gran indicador. Las personas altas se golpean la cabeza más a menudo. Los ciclistas mueren de lesiones en la cabeza más a menudo que las personas sedentarias.

Muchos de los problemas que estudiamos tienen respuestas obvias que dominan el análisis. Si el objetivo es buscar las causas, bueno, los resultados producirán una confirmación matemática de lo que ya sabemos, pero con dígitos más significativos. ¿Eso vale la pena el esfuerzo?

Los científicos estadísticos tienen técnicas para controlar estos efectos dominantes con el fin de poder examinar los efectos más pequeños, pero encontrar causas sutiles puede requerir significativamente de más datos y estudio. ¿Será la respuesta lo suficientemente valiosa para justificar esto?

A veces no se encuentra nada

La mente humana es buena para encontrar patrones, incluso cuando no hay ninguno. Los casinos suelen publicar los últimos diez o veinte números que aparecieron en la ruleta porque saben que a los cerebros de los jugadores les encanta buscar secuencias incluso cuando los resultados son aleatorios. Muchas de las preguntas que llegan a los datos científicos están destinadas a validar las conexiones observadas por un cerebro humano. A veces algo se encuentra allí y otras no.

Saber que no existe un vínculo estadístico obvio es a menudo un resultado valioso, pero puede ser insatisfactorio. Las personas que pensaron que habría una respuesta, piensan que a los estadísticos se les pasó algo y los escépticos solo pueden celebrar una victoria vacía. La ciencia de los datos no puede probar que no existen conexiones en absoluto, solo que el análisis particular no pudo encontrar un patrón que fuera lo suficientemente estadístico. ¿Desea gastar más perforando más pozos en busca de una fuente de energía?

Las respuestas estadísticas pueden ser más difíciles de encontrar de lo que pensamos

En su artículo, que explica cuán sensibles son los métodos estadísticos al ruido, John Ioannidis usó el dramático título "Por qué la mayoría de los hallazgos de las investigaciones publicadas son falsos. Él argumenta que, cuando el tamaño de las muestras es pequeño y la predisposición aumenta, las respuestas que obtenemos tienen más probabilidades de estar totalmente equivocadas.

La solución es más datos, a veces una cantidad significativamente mayor. Para analizar un efecto que puede no ser obvio, los costos de recopilar suficientes datos pueden dispararse. Pero si el efecto que está buscando es solo sutil, entonces el valor de entenderlo puede ser tan sutil o incluso inexistente. En mercados grandes y altamente eficientes, como el comercio de acciones, los efectos pequeños pueden ser valiosos, pero en muchos casos no valen la pena, dado lo difícil que puede ser descubrirlos.

Los algoritmos imitan el pasado, no el futuro

Algunos campos cambian tan rápidamente que la ciencia de datos no puede ayudarnos a predecir el futuro -solo puede resumir el pasado. ¿Qué pueden hacer las empresas de moda con el conocimiento de que las corbatas delgadas eran comunes durante la década de los años sesenta, pero en la década siguiente los clientes estaban comprando corbatas que medían hasta seis pulgadas de ancho? Los científicos de datos inteligentes pueden ajustar una función rítmica a la oscilación, pero eso no ayuda con los fragmentos del mercado para el 2010.

La ciencia de los datos no cambiará la dinámica subyacente de lo que estamos estudiando. Solo puede revelar lo que sucedió antes, y debemos adivinar si nos ayudará en el futuro.

Frecuentemente, los datos están desordenados, son inconsistentes o están totalmente corrompidos

Debido a que involucran transacciones numéricas de manera explícita, puede que los datos financieros parezcan encajar muy bien con el análisis -pero, aun así, puede ser complicado. En un proyecto, descubrí que un banco informaba retiros como valores negativos, mientras que otro usaba valores positivos y confiaba en un código de transacción para identificar la dirección. En la base de datos, las distinciones entre las distintas tarifas y los cargos mensuales fueron aún más difíciles de convertir en una columna coherente.

La mayoría de los temas no ofrecen la misma simplicidad que el dinero. Los sensores tienen fallas. Los errores se arrastran en las mediciones. Cuando ni siquiera los Juegos Olímpicos, a pesar de invertir millones de dólares, pueden construir una piscina con ocho carriles iguales para una carrera justa, ¿Existe alguna esperanza para el resto de nosotros?

La buena noticia es que los efectos drásticos son más fáciles de encontrar, y dichos efectos pueden superar todas las inconsistencias y el ruido. El sesgo en la piscina olímpica en Río de Janeiro fue lo suficientemente grande y lo suficientemente consistente como para que los científicos de datos pudieran cuantificar qué tanto salió mal con la construcción de la piscina. Aunque esto es un comienzo, lamentablemente no es lo mismo que saber cómo arreglar la piscina para que sea realmente justa.

Cuando los datos son baratos, el filtrado es caro

Algunos datos fluyen en nuestras computadoras en oleadas interminables. Los archivos de registros de los servidores web se desbordan con terabytes de información sobre quién quería qué imagen GIF o qué archivo CSS. Las cámaras de seguridad llenan los discos duros con flujos incesantes de imágenes de alta resolución. Cuando aparece un problema, el desafío no es obtener los datos; es encontrar el dato correcto.

Si comienzan con un modelo sólido, la búsqueda en grandes colecciones es algo que las computadoras hacen bien. Construir ese modelo es a menudo el trabajo de los científicos de datos. ¿Pero qué viene primero? ¿Encontrar un modelo para distinguir una aguja del pajar? ¿O encontrar la propia aguja?

Los filtros humanos son caros

Con el fin de crear conjuntos de entrenamiento para algoritmos de aprendizaje automático, han surgido varias empresas nuevas para analizar los datos y utilizar su inteligencia humana. Estos algoritmos clasifican imágenes, leen documentos o escuchan cintas de audio antes de completar formularios y, con suerte, marcan las casillas correctas de manera consistente. Un gerente de una empresa me comentó que, debido a que trabajan a cambio de centavos, las personas en Venezuela eran populares por hacer trabajos cortos construyendo conjuntos de entrenamiento de IA.

La ciencia de datos no puede comenzar hasta que este trabajo preliminar haya terminado. Si tiene suerte, la codificación no será demasiado complicada y los humanos producirán una buena muestra de datos en un tiempo manejable.

Algunos datos son imposibles de obtener

Una cantidad sorprendentemente grande de datos es muy escurridiza. Hace unos meses, al descargar los datos del Censo de Estados Unidos, comencé a ver cómo cambió la población de mi vecindario en los últimos cincuenta años. La oficina comparte una asombrosa cantidad de datos en línea, pero después de una semana de búsqueda, y la ayuda de un buen amigo que trabaja allí, todavía no pude encontrar cómo ha cambiado este conteo a lo largo de las décadas. Los números están disponibles en algún lugar. Lo sé. Existen ciento cuatro páginas de tablas de datos catalogadas aquí, pero eso no es lo mismo que tenerlas en mi hoja de cálculo.

Muchas otras formas de datos simplemente no existen. Los seres humanos están demasiado ocupados para completar encuestas y, por lo tanto, los equipos de marketing hacen suposiciones informadas. Las cámaras parecen ser ubicuas, pero las resoluciones nunca pueden ser lo suficientemente buenas, o pueden estar apuntadas de manera incorrecta.

La ciencia de datos no puede comenzar hasta que los datos estén disponibles y, antes que nada, a menudo parece que el 99,9% del trabajo consta de reunir los datos.

Muchos algoritmos no nos enseñan nada

Algunos de los últimos algoritmos de aprendizaje automático pueden producir resultados significativos, capaces de generar resultados con una precisión asombrosa. Sin embargo, si se pregunta cómo lo hacen, nadie lo sabe. Los algoritmos apilan miles o millones de filtros, y ajustan las respuestas en todos ellos, hasta que los resultados se ven bien. Comprender lo que está pasando requiere analizar millones de números.

Cuando el conjunto de entrenamiento es una buena representación del trabajo en cuestión, estos clasificadores inteligentes pueden ser útiles, pero a menudo son frágiles e inestables. A menos que entendamos cómo los algoritmos toman sus decisiones, no podemos pronosticar cuándo podrían fallar a medida que cambian las preguntas.

Los sesgos ocultos están en todas partes

A pesar de los mejores esfuerzos, el mundo de la ciencia de datos está lleno de anécdotas sobre cómo un sesgo logró introducirse en el conjunto de datos. En una de estas, el científico tomó fotos de una colección por la mañana y la otra después del almuerzo. El clasificador de aprendizaje automático terminó trabándose en la diferencia entre el sol de la mañana y de la tarde, así como las sombras que proyectaba.

Encontrar sesgos como estos es difícil, y gran parte del trabajo de laboratorio en ciencia está dedicado a aislar los experimentos. Pero si los sesgos fueran fáciles de encontrar y eliminar, lo haríamos. Averiguar qué hacer con los que quedan es a menudo un arte. Algunas técnicas estadísticas pueden corregir los sesgos y eliminarlos del análisis, pero no se puede contar con que funcionen. Tampoco son tan automáticos como nos gustaría.

Cuando hayamos terminado con el trabajo y hayamos identificado una señal, todavía no podemos estar seguros de que esta sea real o se trate del eco de un sesgo. Si los aspectos económicos son correctos, podemos aplicar la verdad estadística donde pueda ser verificada por el éxito empresarial, y entonces no importará si es un sesgo oculto o una verdad real.

A veces siempre hay una respuesta -incluso si está mal

El físico Richard Feynman, ganador del Premio Nobel, supuestamente afirmó: "Vi un auto con la placa 'ARW 357'. ¿Se imaginan? De todos los millones de matrículas en el estado, ¿Cuál era la posibilidad de que viera esa, en particular, una noche?

Los conjuntos de datos siempre tendrán respuestas para algunas preguntas como encontrar el máximo, el mínimo o el promedio. La mayoría de los algoritmos generarán alguna solución.

Uno de los principales desafíos que enfrentan los científicos es luchar contra el "p-hacking, el proceso de combinar un conjunto de datos en busca de resultados que parezcan estadísticamente significativos. La naturaleza de la aleatoriedad significa que, con frecuencia, existe uno en algún lugar de los datos. La pregunta difícil es asegurarse de que sea una respuesta que se mantenga firme con el tiempo.

A veces solo somos curiosos

Muchos proyectos de ciencia de datos producen informes llenos de cientos de páginas de tablas y gráficos que examinan combinaciones y subcombinaciones no expresadas. Esto a menudo no es una gran ayuda para los gerentes de negocios que hicieron la pregunta inicial. Ellos quieren una respuesta que ahorre dinero.

Pero a veces esta exploración produce algo interesante y hasta útil. ¿Hay algo de malo en ser curioso?