Accesibilidad: desafíos en la era de la Inteligencia Artificial

#webdev #accesibility #ai

De algo no podemos dudar, la Inteligencia Artificial (IA) avanza a pasos agigantados y no parece que vaya a experimentar un retroceso en un futuro cercano -ni lejano-, más bien todo lo contrario.

En lo personal, no puedo evitar medir la tecnología en función de lo que puede aportarle a la humanidad. Y al margen de ser un defensor de la IA como una herramienta de trabajo más, que nos aleja de roles utilitarios y redime de tareas repetitivas, permitiéndonos habitar más el plano de la abstracción y de las ideas, esa es para mí solo una de las tantas formas en que puede mejorar la calidad de vida de la gente.

Resulta tentador pensar que el potencial está en la capacidad de integrarse a los productos de apoyo, y no estaríamos del todo errados. Por ejemplo, un software de asistencia podría ser capaz de generar textos alternativos o captions de un video donde no hayan sido incluidos. Bien, esto ya ocurre, pero hoy uno de los principales problemas radica en la baja precisión de los resultados. Además, esto eleva su costo tanto económico como de recursos, ya que se necesita un poder de cómputo mayor.

Y aquí se desprende una pregunta inevitable, ¿no deberíamos nosotros como desarrolladores tomar medidas para quitar esa carga de encima al usuario, sirviéndonos de la IA para proveer experiencias digitales accesibles e inclusivas más satisfactorias?

Dado mi interés particular por la accesibilidad web, una de las primeras inquietudes que vinieron a mi mente fue acerca de cuán provechosa podría resultar la inteligencia artificial para generar descripciones automatizadas de imágenes. Para este artículo, elegí enfocarme en ese escenario en específico con el fin de intentar ilustrar, con un caso cotidiano, de qué manera podría representar un gran beneficio pero también profundizar aún más la brecha de inclusión y convertirse en un mecanismo silencioso de replicar y reforzar sesgos si no se toman las acciones adecuadas. Sobre el final veremos cómo este desafío también se traslada a otros terrenos.

Aclaro de antemano que no soy un experto en Machine Learning ni Inteligencia Artificial, si no un desarrollador web volcado a la accesibilidad tratando de ver hacia dónde va el mundo digital, y qué o a quiénes podríamos estar dejándonos en el camino. Ahora sí, vamos a sumergirnos de lleno en este asunto.

Descripción de imágenes

Sabemos que las redes sociales ya desde hace bastante ofrecen la posibilidad de añadir manualmente texto alternativo a las imágenes, pero lamentablemente aun hoy es minoritaria la porción de gente que se toma ese trabajo, y aun son menos los que cuentan con conocimiento acerca de cuáles son las consideraciones y prácticas recomendadas a la hora de redactar un texto alternativo útil. Con lo cual ya vemos asomar aquí una necesidad. En tal caso, ¿podemos los autores de contenido simplemente delegar esta tarea en una herramienta automatizada y desentendernos por completo?

La respuesta a priori pareciera ser un "no" rotundo si tenemos en cuenta que se requiere ciertos datos periféricos para nutrir al modelo a entrenar y prevenir resultados sesgados. Estos datos deberían contemplar cosas tales como el entorno, expresiones, emociones, y sobre todo, que los mismos provengan de imágenes que reflejen variedad, y eso incluye a personas con diversidad funcional, de género, de etnia, etc.

Existen herramientas online y plugins que permiten crear texto alternativo empleando inteligencia artificial, y de hecho es una funcionalidad implementada desde hace un buen tiempo en redes sociales como Instagram y Facebook, pero en todos los casos tienen bastantes limitaciones a la fecha de la redacción de este artículo. Suelen fallar en la mayoría de los aspectos que se mencionaron en el párrafo anterior, a menudo proporcionando información insuficiente, reducida a apenas una descripción superficial. Y ni hablar de los gráficos de representación de datos, quizás el apartado donde encontramos mayor déficit en lo que a alternativas textuales se refiere, a pesar de que está habiendo progresos.

Más allá de si pueden o no brindar el contexto necesario para entender una imagen, el punto es que, por ahora, estas herramientas no predicen qué detalles son importantes para el usuario; y no se trata de algo menor. Claro que se espera que esto evolucione a futuro, pero aun no parece que se esté hablando lo suficiente del tema, y toda potencial barrera de acceso al contenido debería ser abordada desde la fase más temprana del desarrollo.

Cuáles detalles serán más relevantes por sobre otros, dependerá de varios factores. Algo a valorar podría ser aquello que deseaba comunicar quien creó la imagen. Además, es fundamental conocer el tipo de contenido que consumen los usuarios según la plataforma y de qué manera lo hacen. Una imagen publicada en una red social requiere una descripción distinta a la de un sitio web portfolio para fotógrafos, o un portal sobre ciencia, porque los intereses de cada público no son los mismos.

Por todo lo mencionado, en la actualidad todavía es indispensable la intervención humana en la revisión del output antes de la publicación. Pero mientras tratamos de concientizar a los creadores de contenido sobre la importancia de involucrarse en ello, tenemos que estar preparados para encontrarnos con que, en un principio, una gran parte creerá que la generación automatizada será suficiente. Esto desemboca inevitablemente en la discusión acerca de la Inteligencia Artificial Explicable[¹] como parte de un derecho universal, el derecho a la explicación, tal como se lo contempla en el Reglamento General de Protección de Datos (GDPR) de la Unión Europea. Al menos el usuario final debería poder conocer, de forma clara y transparente, el proceso de toma de decisiones que llevó a la IA al resultado que se le presenta, y así de paso ayudarlo a identificar posibles sesgos.

Ahora bien, que sea posible automatizar por completo esta tarea a futuro es algo esperable, pero creo que nos encontramos en un momento crucial de la historia para garantizar que, cuando llegue ese futuro, su implementación realmente resulte un aporte valioso para la inclusión digital.

Entonces, ¿además de evitar los sesgos durante la fase de entrenamiento, de qué otra forma podríamos garantizar descripciones relevantes? Una buena idea sería permitirle al usuario acceder a una descripción más amplia si así lo desea, mediante un enlace por ejemplo. O bien proporcionar filtros que le permitan refinar el nivel de detalle de los textos alternativos generados. También, una característica que poseen varias aplicaciones y sitios web es mostrar una advertencia cuando una descripción fue generada automáticamente; aunque esto sirva como medida adicional, por sí sola sigue siendo insuficiente. Por supuesto que, en los tiempos que corren, lo ideal sería que el software fuese capaz de reconocer y adaptarse a las preferencias del usuario a nivel de sistema o navegador, aun queda mucho camino por recorrer en ese sentido.

Conclusiones

Si bien elegí enfocarme en un caso típico, el problema de los sesgos introducidos en los modelos de Machine Learning genera una brecha de inclusión transversal a gran parte de las implementaciones de inteligencia artificial actuales. Por poner un ejemplo, tanto los asistentes de voz como los programas de speech-to-text (voz a texto), tienen problemas para reconocer correctamente el habla si esta no se ajusta a cierta "norma". Personas con Parkinson, tartamudos, sordos, personas con Síndrome de Down, ELA, o parálisis cerebral, encuentran una barrera a la hora utilizar estas tecnologías.

Del lado de los desarrolladores de software nos encontramos con que asistentes de código basados en inteligencia artificial como GitHub Copilot, al usar como fuente de datos el código open source disponible en GitHub, arrastra consigo todas las malas prácticas de accesibilidad del pasado. Y este punto es importante: si la data que alimenta a las IA proviene del pasado, pertenece, por ende, a un pasado que -y aquí coincidiremos la mayoría- era menos inclusivo.

Para muestra un botón. La organización WebAIM realiza anualmente un análisis de cerca de un millón de sitios web en busca de errores de accesibilidad[²]. En el último análisis de febrero de 2023, en el 96.3% de los casos se detectaron fallos de conformidad con las WCAG 2, siendo dos de los principales la falta de textos alternativos y de etiquetas de formulario. Esto representa un decremento del 1.5% en los últimos cuatro años[³].

Por lo pronto, veo al menos dos caminos, generar modelos universales y diversos, o especializados para incluir a los grupos minoritarios. Lo que está claro es que si no tomamos una medida ya mismo al respecto, estaremos perpetuando y reforzando estos sesgos, provocando más y más exclusión.

Por suerte, ya hay varios proyectos en marcha. En el área del reconocimiento de voz, cabe destacar Project Euphonia de Google[⁴] y el Speech Accessibility Project de la Universidad de Illionis[⁵].

Es insoslayable que la inteligencia artificial está abriendo posibilidades que nos invitan a soñar con un mundo digital más inclusivo. Todavía estamos a tiempo, es solo una cuestión de aprender de los errores del pasado y poner las prioridades en su lugar, moviendo la accesibilidad al comienzo de nuestro flujo de trabajo.