
[19/06/2023] En el 2017, The Economist declaró que los datos, más que el petróleo, se habían convertido en el recurso más valioso del mundo. El estribillo se ha repetido desde entonces. Organizaciones de todos los sectores han invertido y siguen invirtiendo mucho en datos y analítica. Pero, al igual que el petróleo, los datos y la analítica tienen su lado oscuro.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Según el informe State of the CIO 2023 de CIO, el 34% de los responsables de TI afirman que los datos y la analítica empresarial impulsarán la mayor parte de la inversión en TI en su organización este año. Y el 26% de los responsables de TI afirman que el aprendizaje automático y la inteligencia artificial serán los factores que impulsarán la mayor parte de la inversión en TI. La información obtenida de los análisis y las acciones impulsadas por algoritmos de aprendizaje automático pueden dar a las organizaciones una ventaja competitiva, pero los errores pueden ser costosos en términos de reputación, ingresos o incluso vidas.
Comprender los datos y lo que nos dicen es importante, pero también lo es comprender las herramientas, conocer los datos y tener muy presentes los valores de la organización.
He aquí un puñado de meteduras de pata sonadas de la analítica y la IA en la última década para ilustrar lo que puede salir mal.
ChatGPT alucina con los casos judiciales
Los avances logrados en el 2023 por los grandes modelos lingüísticos (LLM) han avivado el interés generalizado por el potencial transformador de la IA generativa en casi todos los sectores. ChatGPT de OpenAI ha estado en el centro de este aumento de interés, presagiando cómo la IA generativa tiene el poder de alterar la naturaleza del trabajo en casi todos los rincones de la empresa.
Pero a esta tecnología aún le queda camino por recorrer antes de que pueda hacerse cargo de forma fiable de la mayoría de los procesos empresariales, como aprendió el abogado Steven A. Schwartz cuando se vio en apuros con el juez de distrito estadounidense P. Kevin Castel en el 2023 tras utilizar ChatGPT para investigar precedentes en una demanda contra la aerolínea colombiana Avianca.
Schwartz, abogado de Levidow, Levidow & Oberman, utilizó el chatbot de IA generativa de OpenAI para encontrar casos anteriores que respaldaran un caso presentado por el empleado de Avianca, Roberto Mata, por las lesiones que sufrió en el 2019. ¿El único problema? Al menos seis de los casos presentados en el escrito no existían. En un documento presentado en mayo, el juez Castel señaló que los casos presentados por Schwartz incluían nombres y números de expediente falsos, junto con citas y citas internas falsas.
En una declaración jurada, Schwartz dijo al tribunal que era la primera vez que utilizaba ChatGPT como fuente de investigación jurídica y que "desconocía la posibilidad de que su contenido pudiera ser falso". Admitió que no había confirmado las fuentes proporcionadas por el chatbot de IA. También dijo que "lamenta enormemente haber utilizado inteligencia artificial generativa para complementar la investigación jurídica realizada en este documento, y nunca lo hará en el futuro sin una verificación absoluta de su autenticidad".
En junio del 2023, Schwartz se enfrentaba a posibles sanciones por parte del tribunal.
Los algoritmos de IA identifican todo menos el COVID-19
Desde que comenzó la pandemia de COVID-19, numerosas organizaciones han intentado aplicar algoritmos de aprendizaje automático (ML, por sus siglas en inglés) para ayudar a los hospitales a diagnosticar o clasificar a los pacientes con mayor rapidez. Pero, según el Instituto Turing del Reino Unido, un centro nacional de ciencia de datos e IA, las herramientas predictivas apenas marcaron la diferencia.
MIT Technology Review ha descrito una serie de fallas, la mayoría de ellas derivadas de errores en la forma en que se entrenaron o probaron las herramientas. El uso de datos mal etiquetados o de fuentes desconocidas fue un culpable común.
Derek Driggs, investigador de aprendizaje automático de la Universidad de Cambridge, publicó junto con sus colegas un artículo en Nature Machine Intelligence que exploraba el uso de modelos de aprendizaje profundo para diagnosticar el virus. El trabajo determinó que la técnica no era apta para uso clínico. Por ejemplo, el grupo de Driggs descubrió que su propio modelo era defectuoso porque fue entrenado en un conjunto de datos que incluía escaneos de pacientes que estaban acostados mientras eran escaneados y pacientes que estaban de pie. Los pacientes que estaban tumbados tenían muchas más probabilidades de estar gravemente enfermos, por lo que el algoritmo aprendió a identificar el riesgo de COVID en función de la posición de la persona en el escáner.
Un ejemplo similar es el de un algoritmo entrenado con un conjunto de datos que incluía exploraciones de tórax de niños sanos. El algoritmo aprendió a identificar a los niños, no a los pacientes de alto riesgo.
Zillow pierde millones de dólares y reduce su plantilla por el desastre del algoritmo de compra de viviendas
En noviembre del 2021, el mercado inmobiliario online Zillow comunicó a sus accionistas que reduciría sus operaciones de Zillow Offers y recortaría el 25% de la plantilla de la empresa -unos dos mil empleados- en los próximos trimestres. Los problemas de la unidad de compraventa de viviendas se debían a la tasa de error del algoritmo de aprendizaje automático que utilizaba para predecir los precios de las viviendas.
Zillow Offers era un programa a través del cual la empresa hacía ofertas en efectivo por propiedades basándose en una "estimación Z" del valor de las viviendas derivada de un algoritmo de aprendizaje automático. La idea era renovar las propiedades y venderlas rápidamente. Pero un portavoz de Zillow dijo a CNN que el algoritmo tenía una tasa de error media del 1,9%, y la tasa de error podría ser mucho mayor, tanto como el 6,9%, para los hogares fuera del mercado.
CNN informó que Zillow compró 27 mil casas a través de Zillow Offers desde su lanzamiento en abril del 2018, pero solo vendió 17 mil hasta fines de septiembre del 2021. Eventos de cisne negro como la pandemia de COVID-19 y una escasez de mano de obra de renovación de viviendas contribuyeron a los problemas de precisión del algoritmo.
Zillow dijo que el algoritmo lo había llevado a comprar involuntariamente casas a precios más altos que sus estimaciones actuales de precios de venta futuros, lo que resultó en una depreciación de inventario de 304 millones de dólares en el tercer trimestre del 2021.
En una conferencia telefónica con inversores tras el anuncio, el cofundador y CEO de Zillow, Rich Barton, dijo que podría ser posible ajustar el algoritmo, pero que en última instancia era demasiado arriesgado.
El Reino Unido perdió miles de casos de COVID por superar el límite de datos de la hoja de cálculo
En octubre del 2020, Public Health England (PHE), el organismo gubernamental británico responsable de contabilizar las nuevas infecciones por COVID-19, reveló que casi 16 mil casos de coronavirus se quedaron sin notificar entre el 25 de septiembre y el 2 de octubre ¿El culpable? Limitaciones de los datos en Microsoft Excel.
PHE utiliza un proceso automatizado para transferir los resultados positivos de laboratorio de COVID-19 como un archivo CSV a plantillas de Excel utilizadas por los paneles de informes y para el rastreo de contactos. Lamentablemente, las hojas de cálculo de Excel pueden tener un máximo de 1.048.576 filas y 16.384 columnas por hoja de trabajo. Además, PHE enumeraba los casos en columnas en lugar de en filas. Cuando los casos superaban el límite de 16.384 columnas, Excel cortaba los 15.841 registros de la parte inferior.
La "falla" no impidió que las personas que se sometieron a las pruebas recibieran sus resultados, pero sí obstaculizó los esfuerzos de rastreo de contactos, dificultando que el Servicio Nacional de Salud (NHS) del Reino Unido identificara y notificara a las personas que estuvieron en estrecho contacto con pacientes infectados. En una declaración del 4 de octubre, Michael Brodie, director ejecutivo interino de PHE, dijo que NHS Test and Trace y PHE resolvieron el problema rápidamente, y transfirieron todos los casos pendientes inmediatamente al sistema de rastreo de contactos de NHS Test and Trace.
PHE puso en marcha una "mitigación rápida" que divide los archivos de gran tamaño y ha llevado a cabo una revisión completa de extremo a extremo de todos los sistemas para evitar incidentes similares en el futuro.
El algoritmo de Sanidad no marcó a los pacientes afroamericanos
En el 2019, un estudio publicado en Science reveló que un algoritmo de predicción de atención médica, utilizado por hospitales y compañías de seguros en todo Estados Unidos para identificar a los pacientes que necesitan programas de "gestión de atención de alto riesgo", tenía muchas menos probabilidades de señalar a los pacientes de color.
Los programas de gestión de cuidados de alto riesgo proporcionan personal de enfermería formado y seguimiento de atención primaria a pacientes con enfermedades crónicas, en un esfuerzo por prevenir complicaciones graves. Sin embargo, el algoritmo era mucho más proclive a recomendar estos programas a pacientes blancos que a negros.
El estudio descubrió que el algoritmo utilizaba el gasto sanitario como indicador para determinar las necesidades sanitarias de una persona. Pero, según Scientific American, los costos sanitarios de los pacientes afroamericanos más enfermos estaban a la par con los de los blancos más sanos, lo que significaba que recibían puntuaciones de riesgo más bajas incluso cuando su necesidad era mayor.
Los investigadores del estudio sugirieron que algunos factores podrían haber contribuido a ello. En primer lugar, las personas de color tienen más probabilidades de tener ingresos más bajos; lo que, incluso cuando están aseguradas, puede hacer que tengan menos probabilidades de acceder a la atención médica. Los prejuicios implícitos también pueden hacer que las personas de color reciban una atención de menor calidad.
Aunque en el estudio no se menciona el algoritmo ni su creador, los investigadores declararon a Scientific American que estaban trabajando con él para resolver la situación.
Un conjunto de datos entrenó a un chatbot de Microsoft para lanzar tuits racistas
En marzo del 2016, Microsoft aprendió que el uso de interacciones de Twitter como datos de entrenamiento para algoritmos de aprendizaje automático puede tener resultados consternadores.
Microsoft lanzó Tay, un chatbot de IA, en la plataforma de redes sociales. La compañía lo describió como un experimento de "comprensión conversacional". La idea era que el chatbot asumiera la personalidad de una adolescente, e interactuara con los usuarios de Twitter mediante una combinación de aprendizaje automático y procesamiento del lenguaje natural. Microsoft lo sembró con datos públicos anónimos y material preescrito por humoristas, y luego lo soltó para que aprendiera y evolucionara a partir de sus interacciones en la red social.
En 16 horas, el chatbot publicó más de 95 mil tuits, que rápidamente se volvieron abiertamente racistas, misóginos y antisemitas. Microsoft suspendió rápidamente el servicio para realizar ajustes y, finalmente, lo desconectó.
Peter Lee, vicepresidente corporativo de Microsoft Research & Incubations (entonces vicepresidente corporativo de Microsoft Healthcare), escribió en el blog oficial de Microsoft tras el incidente: "Lamentamos profundamente los tuits ofensivos e hirientes no intencionados de Tay, que no representan quiénes somos ni lo que defendemos, ni cómo diseñamos Tay".
Lee señaló que el predecesor de Tay, Xiaoice, lanzado por Microsoft en China en 2014, había logrado mantener conversaciones con más de 40 millones de personas en los dos años anteriores al lanzamiento de Tay. Lo que Microsoft no tuvo en cuenta fue que un grupo de usuarios de Twitter comenzaría inmediatamente a tuitear comentarios racistas y misóginos a Tay. El bot aprendió rápidamente de ese material y lo incorporó a sus propios tuits.
"Aunque nos habíamos preparado para muchos tipos de abusos del sistema, habíamos cometido un descuido crítico para este ataque específico. Como resultado, Tay tuiteó palabras e imágenes salvajemente inapropiadas y reprobables", escribió Lee.
La herramienta de reclutamiento de Amazon, basada en IA, sólo recomendaba hombres
Al igual que muchas grandes empresas, Amazon está ávida de herramientas que puedan ayudar a su función de recursos humanos a filtrar las solicitudes de los mejores candidatos. En el2014, Amazon comenzó a trabajar en un software de reclutamiento impulsado por IA para hacer precisamente eso. Solo había un problema: el sistema prefería ampliamente a los candidatos masculinos. En el 2018, Reuters dio la noticia de que Amazon había desechado el proyecto.
El sistema de Amazon otorgaba a los candidatos calificaciones con estrellas del 1 al 5. Pero los modelos de aprendizaje automático en el corazón del sistema fueron entrenados en 10 años de currículos enviados a Amazon, la mayoría de ellos de hombres. Como resultado de esos datos de entrenamiento, el sistema empezó a penalizar las frases del currículum que incluían la palabra "femenino", e incluso rebajó la calificación de los candidatos de universidades exclusivamente femeninas.
En ese momento, Amazon dijo que la herramienta nunca fue utilizada por los reclutadores de Amazon para evaluar a los candidatos.
La empresa intentó editar la herramienta para que fuera neutral, pero finalmente decidió que no podía garantizar que no aprendiera alguna otra forma discriminatoria de clasificar a los candidatos y puso fin al proyecto.
Los análisis de Target violan la privacidad
En el 2012, un proyecto de análisis del gigante minorista Target puso de manifiesto lo mucho que las empresas pueden aprender sobre sus clientes a partir de sus datos. Según el New York Times, en el 2002 el departamento de marketing de Target empezó a preguntarse cómo podía determinar si las clientas estaban embarazadas. Esa línea de investigación condujo a un proyecto de análisis predictivo que llevó al minorista a revelar inadvertidamente a la familia de una adolescente que estaba embarazada. Esto, a su vez, dio lugar a todo tipo de artículos y blogs de marketing que citaban el incidente como parte de los consejos para evitar el "factor espeluznante".
El departamento de marketing de Target quería identificar a las embarazadas porque hay ciertos periodos de la vida -el embarazo entre ellos- en los que es más probable que la gente cambie radicalmente sus hábitos de compra. Si Target pudiera llegar a los clientes en ese periodo, podría, por ejemplo, cultivar nuevos comportamientos en esos clientes, consiguiendo que acudieran a Target para comprar alimentos o ropa u otros productos.
Como todos los grandes minoristas, Target había estado recopilando datos sobre sus clientes a través de códigos de comprador, tarjetas de crédito, encuestas y otros medios. Combinó esos datos con datos demográficos y datos de terceros que adquirió. El análisis de todos esos datos permitió al equipo de análisis de Target determinar que había unos 25 productos vendidos por Target que podían analizarse juntos para generar una puntuación de "predicción de embarazo". De este modo, el departamento de marketing podía dirigirse a las clientas con mayor puntuación con cupones y mensajes publicitarios.
Una investigación adicional revelaría que estudiar el estado reproductivo de las clientas podría resultar espeluznante para algunas de ellas. Según el Times, la empresa no abandonó el marketing selectivo, pero empezó a mezclar anuncios de cosas que sabían que las embarazadas no comprarían -incluidos anuncios de cortadoras de césped junto a anuncios de pañales- para que la mezcla de anuncios resultara aleatoria para el cliente.
Basado en el artículo de Thor Olavsrud (CIO) y editado por CIO Perú