24 de noviembre de 2024

Microsoft impulsa la innovación en dispositivos de asistencia personal y lenguaje de señas a través de la IA

Escucha este Artículo

El avance de la innovación tecnológica y la lucha contra el desierto de datos que existe relacionado con el lenguaje de señas han sido áreas de enfoque para el programa AI for Accessibility. Hacia esos objetivos, en 2019, el equipo organizó un taller de lenguaje de señas, donde pidió solicitudes de los mejores investigadores en el campo. Abraham Glasser, un PhD estudiante de informática y ciencias de la información y lenguaje de señas nativo americano (ASL, por sus siglas en inglés), supervisado por el profesor Matt Huenerfauth, recibió una beca de tres años. Su trabajo se centraría en una necesidad y oportunidad muy pragmática: impulsar la inclusión al concentrarse y mejorar las interacciones comunes con asistentes inteligentes en el hogar para personas que usan el lenguaje de señas como forma principal de comunicación.

Desde entonces, profesores y estudiantes de la Facultad de Computación y Ciencias de la Información de Golisano en el Instituto de Tecnología de Rochester (RIT, por sus siglas en inglés) realizaron el trabajo en el Centro de Investigación de Accesibilidad e Inclusión (CAIR, por sus siglas en inglés). CAIR publica investigaciones sobre accesibilidad informática e incluye a muchos estudiantes sordos y con dificultades auditivas (DHH, por sus siglas en inglés) que trabajan de forma bilingüe en inglés y lenguaje de señas americano.

Para comenzar esta investigación, el equipo investigó cómo los usuarios de DHH preferirían interactuar de manera óptima con sus dispositivos de asistente personal, ya sea un altavoz inteligente u otro tipo de dispositivos en el hogar que respondan a comandos hablados. De manera tradicional, estos dispositivos han utilizado la interacción basada en la voz y, a medida que la tecnología evolucionó, los modelos más nuevos ahora incorporan cámaras y pantallas de visualización. En la actualidad, ninguno de los dispositivos disponibles en el mercado entiende los comandos en ASL u otros lenguajes de señas, por lo que la introducción de esa capacidad es un importante desarrollo tecnológico futuro para abordar una base de clientes sin explotar e impulsar la inclusión. Abraham exploró escenarios simulados en los que, a través de la cámara del dispositivo, el técnico podría ver la firma de un usuario, procesar su solicitud y mostrar el resultado de salida en la pantalla del dispositivo.

Algunas investigaciones anteriores se habían centrado en las fases de interacción con un dispositivo de asistente personal, pero pocas incluían a los usuarios de DHH. Algunos ejemplos de investigaciones disponibles incluyeron el estudio de la activación de dispositivos, incluidas las preocupaciones de despertar un dispositivo, así como las modalidades de salida del dispositivo en forma de videos, avatares de ASL y subtítulos en inglés. El llamado a la acción desde una perspectiva de investigación incluyó la recopilación de más datos, el cuello de botella clave, para las tecnologías del lenguaje de señas.

Para allanar el camino hacia los avances tecnológicos, era fundamental comprender cómo les gustaría a los usuarios de DHH que se viera la interacción con los dispositivos y qué tipo de comandos les gustaría emitir. Abraham y el equipo establecieron una configuración de videoconferencia del tipo Mago de Oz. Un intérprete de ASL “mago” tenía un dispositivo de asistente personal doméstico en la habitación con ellos, y se unió a la llamada sin ser visto por la cámara. La pantalla y la salida del dispositivo se verían en la ventana de video de la llamada y cada participante fue guiado por un moderador de investigación. Cuando los participantes sordos ingresaron en el dispositivo doméstico personal, no sabían que el intérprete de ASL expresaba los comandos en inglés hablado. Un equipo de anotadores observó la grabación, identificó segmentos clave de los videos y transcribió cada comando al inglés y al ASL brillante.

Abraham pudo identificar nuevas formas en que los usuarios interactuarían con el dispositivo, como los comandos de “despertar” que no se capturaron en investigaciones anteriores.

Además, un resumen de las categorías y frecuencias de los comandos mostró que la categoría más popular era “comando y control”, en la que los usuarios ajustan la configuración del dispositivo, navegan por los resultados y responden preguntas de estilo sí/no. La siguiente categoría popular estaba relacionada con preguntas de entretenimiento, seguida por estilo de vida y compras. Además, a pesar de iniciar sesión en un dispositivo, los participantes hicieron un uso sofisticado de los espacios alrededor de sus cuerpos, por ejemplo, para representar y referirse a personas o cosas que eran el tema de sus preguntas. Otra observación fue el uso de un signo de interrogación al comienzo de las preguntas de sí o no, para llamar la atención del dispositivo, mientras que por lo general este signo se usa con más frecuencia al final de tales preguntas. Cuando se trataba de errores, como que el dispositivo no daba el resultado que los usuarios buscaban, lo más común era que los usuarios ignoraran el error y continuaran con un comando diferente. Un segundo método cercano fue repetir el comando justo con la misma redacción y estilo de firma, seguido de reformular el comando. Por ejemplo, algunos reformularon sus preguntas para que se parecieran más al idioma inglés o deletrear palabras con los dedos para enfatizar los reintentos.

 

Se presentó y publicó un artículo con todos los detalles de la investigación en las Actas de la Conferencia CHI 2022 sobre factores humanos en sistemas informáticos, titulado “Análisis del comportamiento, el uso y la interacción de los usuarios sordos y con problemas de audición con un dispositivo de asistente personal que entiende la entrada del lenguaje de señas” por Abraham Glasser, Matthew Watkins, Kira Hart, Sooyeon Lee, Matt Huenerfauth.

 

El conocimiento obtenido a través de esta investigación fue la base para construir un conjunto de datos de video de grabación de personas DHH que producen comandos en ASL e interactúan con sus dispositivos de asistente personal, como preguntar sobre el clima, controlar dispositivos electrónicos en su hogar y más. Al utilizar encuestas y entrevistas para recopilar preferencias y requisitos de los usuarios de DHH, se recopilaron videos de comandos de ASL, lo que llevó a la producción de un conjunto de datos disponible a nivel público que la comunidad de investigación puede aprovechar aún más para entrenar tecnologías de reconocimiento de ASL. Sin embargo, el conjunto de datos también sería útil para los desarrolladores de tecnologías de asistente personal y para los desarrolladores e investigadores que investigan las tecnologías del lenguaje de señas.

 

Si bien todavía hay muchas oportunidades por delante para incorporar lenguajes de señas en tecnología e innovar, el trabajo que Abraham y su equipo han realizado en los últimos tres años representa un hito importante para promover la innovación en accesibilidad y garantizar la inclusión para todos.