
[16/10/2021] Aunque los modelos de aprendizaje automático y aprendizaje profundo suelen producir buenas clasificaciones y predicciones, casi nunca son perfectos. Los modelos casi siempre tienen algún porcentaje de predicciones falsas positivas y falsas negativas. Eso a veces es aceptable, pero importa mucho cuando hay mucho en juego. Por ejemplo, un sistema de armas no tripuladas que identifique falsamente una escuela como base terrorista podría matar inadvertidamente a niños y profesores inocentes, a menos que un operador humano anule la decisión de atacar.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
El operador debe saber por qué la IA ha clasificado la escuela como objetivo y las incertidumbres de la decisión antes de permitir o anular el ataque. Ciertamente ha habido casos en los que los terroristas han utilizado escuelas, hospitales y centros religiosos como base para ataques con misiles. ¿Fue esta escuela una de ellas? ¿Existe información de inteligencia o una observación reciente que identifique la escuela como ocupada actualmente por dichos terroristas? ¿Existen informes u observaciones que establezcan que no hay alumnos ni profesores en la escuela?
Si no hay tales explicaciones, el modelo es esencialmente una caja negra, y eso es un gran problema. Para cualquier decisión de IA que tenga un impacto -no solo un impacto de vida o muerte, sino también un impacto financiero o un impacto regulatorio- es importante poder aclarar qué factores entraron en la decisión del modelo.
¿Qué es la IA explicable?
La IA explicable (XAI), también llamada IA interpretable, se refiere a los métodos de aprendizaje automático y aprendizaje profundo que pueden explicar sus decisiones de una manera que los humanos puedan entender. La esperanza es que la XAI llegue a ser tan precisa como los modelos de caja negra.
La explicabilidad puede ser ante-hoc (modelos de caja blanca directamente interpretables) o post-hoc (técnicas para explicar un modelo previamente entrenado o su predicción). Los modelos ante-hoc incluyen las redes neuronales explicables (xNNs), las máquinas de refuerzo explicables (EBMs), los modelos lineales enteros superespacios (SLIMs), el modelo de atención en tiempo invertido (RETAIN) y el aprendizaje profundo bayesiano (BDL).
Los métodos de explicabilidad post-hoc incluyen explicaciones locales interpretables agnósticas del modelo (LIME), así como visualizaciones locales y globales de las predicciones del modelo, como los gráficos de efecto local acumulado (ALE), los gráficos de dependencia parcial (PDP) unidimensionales y bidimensionales, los gráficos de expectativas condicionales individuales (ICE) y los modelos sustitutos de árboles de decisión.
Cómo funcionan los algoritmos XAI
Si ha seguido todos los enlaces anteriores y ha leído los artículos, mejor para usted, y no dude en saltarse esta sección. Los escritos que siguen son breves resúmenes. Los cinco primeros son modelos ante-hoc, y el resto son métodos post-hoc.
Redes neuronales explicables: Las redes neuronales explicables (xNN) se basan en modelos de índice aditivo, que pueden aproximar funciones complejas. Los elementos de estos modelos se denominan índices de proyección y funciones de cresta. Las xNN son redes neuronales diseñadas para aprender modelos de índices aditivos, con subredes que aprenden las funciones de cresta. La primera capa oculta utiliza funciones de activación lineales, mientras que las subredes suelen estar formadas por múltiples capas totalmente conectadas y utilizan funciones de activación no lineales.
Las xNN pueden utilizarse por sí mismas como modelos predictivos explicables construidos directamente a partir de los datos. También pueden utilizarse como modelos sustitutos para explicar otros modelos no paramétricos, como los métodos basados en árboles y las redes neuronales de avance. El documento del 2018 sobre las xNN proviene de Wells Fargo.
Máquina de refuerzo explicable: Microsoft ha liberado el paquete InterpretML como código abierto y lo ha incorporado a un tablero de explicación en Azure Machine Learning. Entre sus muchas características, InterpretML tiene un modelo "glassbox" de Microsoft Research llamado explainable boosting machine (EBM).
La EBM se diseñó para ser tan precisa como los bosques aleatorios y los árboles potenciados y, al mismo tiempo, ser fácil de interpretar. Es un modelo aditivo generalizado, con algunos refinamientos. El EBM aprende cada función de característica utilizando técnicas modernas de aprendizaje automático como el bagging y el gradient boosting. El procedimiento de refuerzo se limita a entrenar una función a la vez en modo round-robin utilizando una tasa de aprendizaje muy baja para que el orden de las funciones no importe. También puede detectar e incluir términos de interacción entre pares. La implementación, en C++ y Python, es paralelizable.
Modelo lineal entero superespeso: El modelo lineal entero superespeso (SLIM) es un problema de programación entera que optimiza las medidas directas de exactitud (la pérdida 0-1) y la dispersión (la l0-seminorma) mientras restringe los coeficientes a un pequeño conjunto de enteros coprimos. SLIM puede crear sistemas de puntuación basados en datos, que son útiles en el cribado médico.
Modelo de atención temporal inversa: El modelo de atención temporal inversa (RETAIN) es un modelo predictivo interpretable para los datos de las historias clínicas electrónicas (HCE). RETAIN consigue una gran precisión sin dejar de ser clínicamente interpretable. Se basa en un modelo de atención neural de dos niveles que detecta las visitas pasadas influyentes y las variables clínicas significativas dentro de esas visitas (por ejemplo, los diagnósticos clave). RETAIN imita la práctica del médico atendiendo los datos de la HCE en un orden temporal inverso, de modo que las visitas clínicas recientes probablemente reciban mayor atención. Los datos de la prueba analizados en el artículo de RETAIN predijeron la insuficiencia cardíaca basándose en los diagnósticos y los medicamentos a lo largo del tiempo.
Aprendizaje profundo bayesiano: El aprendizaje profundo bayesiano (BDL) ofrece estimaciones de incertidumbre basadas en principios a partir de arquitecturas de aprendizaje profundo. Básicamente, el BDL ayuda a remediar el problema de que la mayoría de los modelos de aprendizaje profundo no pueden modelar su incertidumbre, al modelar un conjunto de redes con pesos extraídos de una distribución de probabilidad aprendida. La BDL normalmente solo duplica el número de parámetros.
Explicaciones locales interpretables y agnósticas del modelo: Las explicaciones agnósticas del modelo local interpretable (LIME) son una técnica post-hoc para explicar las predicciones de cualquier clasificador de aprendizaje automático, perturbando las características de una entrada y examinando las predicciones. La intuición clave detrás de LIME es que es mucho más fácil aproximar un modelo de caja negra por un modelo simple localmente (en la vecindad de la predicción que queremos explicar), en lugar de tratar de aproximar un modelo globalmente. Esto se aplica tanto a los dominios de texto como de imagen. El paquete LIME Python está en PyPI con el código fuente en GitHub. También está incluido en InterpretML.
Efectos locales acumulados: Los efectos locales acumulados (ALE) describen cómo las características influyen en la predicción de un modelo de aprendizaje automático en promedio, utilizando las diferencias causadas por las perturbaciones locales dentro de los intervalos. Los gráficos ALE son una alternativa más rápida e insesgada a los gráficos de dependencia parcial (PDP). Los PDP tienen un grave problema cuando las características están correlacionadas. Los gráficos ALE están disponibles en R y en Python.
Gráficos de dependencia parcial: Un gráfico de dependencia parcial (PDP o PD plot) muestra el efecto marginal que tienen una o dos características sobre el resultado predicho de un modelo de aprendizaje automático, utilizando un promedio sobre el conjunto de datos. Es más fácil entender los PDP que los ALE, aunque los ALE suelen ser preferibles en la práctica. El PDP y el ALE para una característica determinada suelen tener un aspecto similar. Los gráficos PDP en R están disponibles en los paquetes iml, pdp y DALEX; en Python, están incluidos en Scikit-learn y PDPbox.
Gráficos de expectativas condicionales individuales: Los gráficos de expectativas condicionales individuales (ICE) muestran una línea por instancia que muestra cómo cambia la predicción de la instancia cuando cambia una característica. Básicamente, una PDP es la media de las líneas de un gráfico ICE. Las curvas de expectativas condicionales individuales son aún más intuitivas de entender que los gráficos de dependencia parcial. Los gráficos ICE en R están disponibles en los paquetes iml, ICEbox y pdp; en Python, están disponibles en Scikit-learn.
Modelos sustitutos: Un modelo sustituto global es un modelo interpretable que se entrena para aproximar las predicciones de un modelo de caja negra. Los modelos lineales y los modelos de árboles de decisión son opciones comunes para los sustitutos globales.
Para crear un modelo sustituto, básicamente se entrena con las características del conjunto de datos y las predicciones del modelo de caja negra. Se puede evaluar el sustituto frente al modelo de caja negra observando el R-cuadrado entre ambos. Si el sustituto es aceptable, se puede utilizar para la interpretación.
La IA explicable en DARPA
DARPA, la Agencia de Proyectos de Investigación Avanzada de Defensa, tiene un programa activo sobre inteligencia artificial explicable dirigido por el Dr. Matt Turek. Del sitio web del programa (el énfasis es mío):
"El programa de IA explicable (XAI) tiene como objetivo crear un conjunto de técnicas de aprendizaje automático que:
- Produzcan modelos más explicables, manteniendo un alto nivel de rendimiento de aprendizaje (precisión de predicción); y
- Permitan a los usuarios humanos comprender, confiar adecuadamente y gestionar eficazmente la nueva generación de socios artificialmente inteligentes.
Los nuevos sistemas de aprendizaje automático tendrán la capacidad de explicar su razón de ser, caracterizar sus puntos fuertes y débiles, y transmitir una comprensión de cómo se comportarán en el futuro. La estrategia para lograr ese objetivo consiste en desarrollar técnicas de aprendizaje automático nuevas o modificadas que produzcan modelos más explicables. Estos modelos se combinarán con técnicas de interfaz persona-computadora de última generación capaces de traducir los modelos en diálogos explicativos comprensibles y útiles para el usuario final. Nuestra estrategia consiste en aplicar diversas técnicas para generar una cartera de métodos que ofrezca a los futuros desarrolladores una serie de opciones de diseño que cubran el espacio de intercambio entre rendimiento y capacidad de explicación”.
La IA explicable de Google Cloud
La plataforma de Google Cloud ofrece herramientas y marcos de trabajo de IA explicable que funcionan con sus servicios AutoML Tables y AI Platform. Estas herramientas le ayudan a comprender las atribuciones de características y a investigar visualmente el comportamiento del modelo mediante la herramienta What-If.
Las IA Explanations le ofrecen una puntuación que explica cómo ha contribuido cada factor al resultado final de las predicciones del modelo. La herramienta "Y si..." le permite investigar el rendimiento del modelo para una serie de características de su conjunto de datos, estrategias de optimización e incluso manipulaciones de los valores individuales de los puntos de datos.
La evaluación continua le permite muestrear la predicción de los modelos de aprendizaje automático entrenados desplegados en AI Platform, y proporcionar etiquetas de verdad para las entradas de predicción utilizando la capacidad de evaluación continua. El servicio de etiquetado de datos compara las predicciones del modelo con las etiquetas de la verdad sobre el terreno para ayudarle a mejorar el rendimiento del modelo.
Cada vez que solicite una predicción en AI Platform, AI Explanations le dirá en qué medida ha contribuido cada característica de los datos al resultado predicho.
Interpretabilidad del aprendizaje automático de H2O.ai
H2O Driverless AI hace una IA explicable con su módulo de interpretabilidad de aprendizaje automático (MLI). Esta capacidad en H2O Driverless AI emplea una combinación de técnicas y metodologías como LIME, Shapley, árboles de decisión sustitutos y dependencia parcial en un tablero interactivo para explicar los resultados tanto de los modelos de Driverless AI como de los modelos externos.
Además, la capacidad de autodocumentación (AutoDoc) de Driverless AI proporciona transparencia y una pista de auditoría para los modelos de Driverless AI al generar un único documento con todos los análisis de datos relevantes, el modelado y los resultados explicativos. Este documento ayuda a los científicos de datos a ahorrar tiempo en la documentación del modelo, y puede entregarse a una persona de negocios o incluso a los validadores del modelo para aumentar la comprensión y la confianza en los modelos de Driverless AI.
Modelos de DataRobot interpretables por humanos
DataRobot, que revisé en diciembre del 2020, incluye varios componentes que dan como resultado modelos altamente interpretables por los humanos:
- Model Blueprint da una idea de los pasos de preprocesamiento que cada modelo utiliza para llegar a sus resultados, ayudándole a justificar los modelos que construye con DataRobot y a explicar esos modelos a las agencias reguladoras si es necesario.
- Las explicaciones de la predicción muestran las principales variables que influyen en el resultado del modelo para cada registro, lo que le permite explicar exactamente por qué su modelo llegó a sus conclusiones.
- El gráfico de ajuste de características compara los valores predichos y los reales y los ordena en función de su importancia, lo que le permite evaluar el ajuste de un modelo para cada característica individual.
- El gráfico Efectos de las características expone qué características tienen más impacto en el modelo, y cómo los cambios en los valores de cada característica afectan a los resultados del modelo.
DataRobot trabaja para garantizar que los modelos sean altamente interpretables, minimizando el riesgo del modelo y facilitando a cualquier empresa el cumplimiento de las normativas y las mejores prácticas.
Técnicas de interpretabilidad de Dataiku
Dataiku proporciona una colección de diversas técnicas de interpretabilidad para comprender y explicar mejor el comportamiento de los modelos de aprendizaje automático, entre ellas:
- Importancia global de las características: ¿Qué características son más importantes y cuáles son sus contribuciones al modelo?
- Gráficos de dependencia parcial: A través de los valores de una sola característica, ¿cuál es la dependencia del modelo de esa característica?
- Análisis de subpoblaciones: ¿Existen interacciones o sesgos en el modelo?
- Explicaciones de predicción individuales (SHAP, ICE): ¿Cuál es la contribución de cada característica a la predicción de una observación individual?
- Árboles de decisión interactivos para modelos basados en árboles: ¿Cuáles son las divisiones y probabilidades que conducen a una predicción?
- Afirmaciones del modelo: ¿Cumplen las predicciones del modelo las intuiciones de los expertos en la materia sobre los casos conocidos y los casos límite?
- Diagnóstico del aprendizaje automático: ¿Es mi metodología sólida o hay problemas subyacentes como la fuga de datos, el sobreajuste o el desequilibrio de objetivos?
- Análisis hipotético: Teniendo en cuenta un conjunto de datos de entrada, ¿qué predecirá el modelo, por qué y hasta qué punto es sensible a los cambios en los valores de entrada?
- Análisis de la equidad del modelo: ¿Está el modelo sesgado a favor o en contra de grupos o atributos sensibles?
La IA explicable está empezando a recibir la atención que merece. Todavía no hemos llegado al punto en el que los modelos "glassbox" se prefieren siempre a los modelos "black box", pero nos estamos acercando. Para llenar el vacío, tenemos una variedad de técnicas post-hoc para explicar los modelos de caja negra.
Basado en el artículo de Martin Heller (InfoWorld) y editado por CIO Perú