Detección de sesgos en modelos de aprendizaje automático para el análisis de imágenes dermatoscópicas

La detección precoz del cáncer de piel es esencial para mejorar el pronóstico en los pacientes que lo padecen. Durante la inspección visual o evaluación mediante dermatoscopía (técnica no invasiva para visualizar con detalle la epidermis utilizando una lente de aumento y un sistema de luz polarizada), los especialistas pueden tomar imágenes de las lesiones conocidas como imagen clínica y dermatoscópica, respectivamente. Este registro fotográfico ha permitido la construcción de bases de datos para entrenar algoritmos de aprendizaje automático. Sin embargo, estudios han detectado que estos modelos pueden perpetuar sesgos debidos a la subrrepresentación de algunos subgrupos (definidos a partir de atributos como sexo, edad o etnia) en estas bases. En consecuencia, los modelos entrenados con las mismas han demostrado tener una menor precisión diagnóstica en hombres, personas mayores y de fototipos oscuros (Li et al., 2021). Esto ha vuelto necesaria la auditoría de sesgos algorítmicos en los modelos.

Así mismo, existen otros retos vinculados al análisis automático de estas imágenes. Entre ellos se pueden mencionar: la composición dispar de las bases en lo que respecta a los diagnósticos (con predominancia de nevos por sobre lesiones cancerígenas), la heterogeneidad entre lesiones de una misma clase y la similitud entre aquellas con diagnósticos diferentes, así como la presencia de artefactos (pelos, reglas, adhesivos) en las imágenes. A esto se suma la dificultad del tratamiento de imágenes a color y cómo la percepción de los mismos pueden variar en función de las condiciones de iluminación de la escena. Otro problema frecuente es la falta de reporte de información sensible en las bases, en cuyo caso es necesario obtener ciertos datos de la imagen. Un ejemplo es la estimación del fototipo mediante el ángulo tipológico individual —ITA— (Kinyanjui et al., 2020).

Características específicas del proyecto

La detección de sesgo requiere caracterizar las bases de datos, entrenar algoritmos y luego evaluarlos en los subgrupos que se busca comparar. En la evaluación se computan métricas como exactitud y definiciones de justicia algorítmica, que luego son sometidas a test estadísticos para determinar si las diferencias resultantes de la comparación son o no significativas. Ante desempeños dispares entre subgrupos, existen técnicas de corrección para garantizar un nivel mayor de justicia en el modelo. Esta metodología fue la adoptada en el marco de este proyecto. 

Específicamente, se desarrollaron modelos de segmentación para obtener porciones sanas de piel en las imágenes, de las cuales luego se estimó el fototipo utilizando ITA. Este último se comparó con el dato tabulado en una base de datos, encontrando diferencias considerables que se condicen con resultados reportados en la literatura reciente Groh et al. (2021). También se generaron modelos de clasificación utilizando conjuntos de entrenamiento, validación y testeo conformados con imágenes de distintos sujetos, y se mantuvo la proporción de diagnósticos entre dichos conjuntos. Los modelos fueron evaluados independientemente en sujetos con fototipo claro y oscuro, encontrando diferencias significativas en métricas de test diagnóstico y de calibración no reportadas en la bibliografía.

Paralelamente, se realizó una revisión sistemática de la bibliografía acerca del análisis de justicia en modelos de aprendizaje automático para el análisis de imágenes médicas. La misma fue utilizada como base para la redacción de un artículo científico que actualmente se encuentra en segunda etapa de revisión en una prestigiosa revista, y esperamos sea publicado en los próximos meses. El artículo aborda, con tono de comentario, los sesgos y la justicia algorítmica a través de ejemplos construidos en base a los 21 artículos evaluados, así como también presenta los principales desafíos a afrontar en este campo de estudio.

Implicancias para la sociedad

El desarrollo de proyectos para detección de sesgos en imágenes en el contexto de América Latina es fundamental para poder implementar modelos de inteligencia artificial en el ámbito clínico que hayan superado rigurosas etapas de validación. Los modelos actuales han sido desarrollados con imágenes de poblaciones cuyas características demográficas y epidemiológicas difieren de las de nuestra región, por lo que suelen presentar desempeños inferiores a los reportados cuando son evaluados en muestras locales. La construcción de bases de datos regionales no sólo permitiría auditar el sesgo en aquellos modelos entrenados en otras regiones, sino también construir modelos con imágenes más próximas a las que serán analizadas por éstos una vez puestos en marcha. La implementación de modelos que funcionen apropiadamente en la población objetivo, no sólo ayudaría a especialistas a mejorar su precisión diagnóstica sino que también habilitaría la instauración de programas de telemedicina para que poblaciones en lugares remotos puedan acceder a servicios médicos especializados de los que habitualmente no disponen. 

Recientemente, una base de datos regional con imágenes clínicas y metadata de lesiones y pacientes fue publicada por un equipo de Brasil. Sin embargo, es necesario impulsar iniciativas de colaboración entre distintos centros para generar bases más cuantiosas, que incorporen imágenes dermatoscópicas y procedentes de otros lugares, con el fin último de trasladar estas herramientas al ámbito clínico en países de América Latina. Ello, a su vez, requerirá conformar equipos multidisciplinarios y diversos que garanticen que las bases creadas sean representativas de todos los subgrupos poblacionales. Por otro lado, diferentes equipos nos encontramos trabajando en el desarrollo y validación de algoritmos para clasificación de lesiones cutáneas y en técnicas para garantizar que éstos sean justos y funcionales en nuestra población. En esta línea, se espera avanzar en nuevos métodos de detección de sesgos, y especialmente, en técnicas de mitigación de los mismos.

Referencias

  • Groh, M., Harris, C., Soenksen, L., Lau, F., Han, R., Kim, A., … & Badri, O. (2021). Evaluating deep neural networks trained on clinical images in dermatology with the fitzpatrick 17k dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1820-1828).

  • Kinyanjui, N. M., Odonga, T., Cintas, C., Codella, N. C., Panda, R., Sattigeri, P., & Varshney, K. R. (2020, October). Fairness of classifiers across skin tones in dermatology. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 320-329). Springer, Cham.

  • Li, X., Cui, Z., Wu, Y., Gu, L., & Harada, T. (2021). Estimating and improving fairness with adversarial learning. arXiv preprint arXiv:2103.04243.

Publicaciones relacionadas