25 marzo 2020

Ante el creciente aumento de las interfaces de voz surge la pregunta: ¿Qué ventajas tienen los VUI en el ecosistema tecnológico actual? ¿En qué modo afectan estos nuevos sistemas de interacción a la experiencia de usuario de los productos digitales? Intento dar alguna respuesta a estas y otras cuestiones a través de este post.

Ventajas e inconvenientes de las interfaces de voz

Ahondando en la temática, encontramos un artículo interesante que narra de manera concisa las ventajas y las restricciones de los VUI (Voice User Interface) dentro de la experiencia de usuario.

De acuerdo a este artículo, Advantages & drawbacks of the voice user interface  de Mohit Sharma dar instrucciones por voz a las interfaces engloba cuatro grandes ventajas principales:

  1. Velocidad. Un estudio reciente de Stanford demostró que hablar (dictar) mensajes de texto era más rápido que escribir, incluso para las personas que poseen un gran dominio tecleando mensajes en sus dispositivos.
  2. Manos libres. Dentro de algunos contextos de uso, como conducir, o cocinar, hablar en lugar de escribir resulta mucho más práctico y más seguro.
  3. Intuitividad. Todo el mundo sabe hablar. Esta es la principal razón por la que, incluso los usuarios que están menos familiarizados con la tecnología podrán interactuar con el producto de una forma más natural.
  4. Empatía. El ser humano tiene dificultades para entender el tono y el contexto sólo a través de la escritura. Sin embargo la voz, que incluye tono, volumen, y velocidad, transmite una gran cantidad de información extra con respecto a la comunicación escrita.

Los dispositivos con pantallas pequeñas, o incluso aquellos que no disponen de ninguna, se están popularizando de manera exponencial. Es recomendable tener en cuenta que en estos casos la interacción por voz es el principal (y en algunos casos el único) medio de comunicación con el usuario.

El ser humano aprende las reglas de comunicación social a una edad muy temprana. Como profesionales del diseño podemos aprovechar esta intuición cognitiva de las personas para mejorar la experiencia de usuario fomentando la fluidez de comunicación mediante este nuevo concepto de interfaces de voz.

Dicho esto, la voz no siempre es un medio apropiado para los usuarios si se tienen en cuenta los diferentes contextos de uso que se pueden presentar. Mostramos algunas situaciones en las que las interfaces de voz podrían no ser una buena idea:

  1. Espacios públicos. A día de hoy muchas personas que trabajan en oficinas lo hacen dentro de plantas abiertas. Imaginar a todos los trabajadores dando instrucciones simultáneamente a sus ordenadores en voz alta puede resultar un caos. Además, ante todas esas instrucciones ocurriendo a la vez, ¿qué ordenador está escuchando a quién?
  2. Grado de confort del usuario al hablar en voz alta.  Aunque las VUI se están integrando cada vez más en la vida de las personas, no todos los usuarios se sienten cómodos hablando en voz alta con un ordenador, ni siquiera en privado.
  3. Algunos usuarios prefieren escribir texto.  Muchas personas destinan una gran cantidad de horas a sus teléfonos móviles, gran parte de las cuales intercambian mensajes escritos. Por esto mismo, existe la posibilidad de que estos usuarios no quieran cambiar a las nuevas modalidades de interfaces de voz.
  4. Privacidad. Si ciertos usuarios necesitan hablar, pongamos como ejemplo, sobre un problema de salud, la mayoría de estos usuarios no querrán hacerlo si se encuentran en un sitio público. Esta privacidad no abarca solo la comunicación del usuario con la interfaz. También puede ocurrir a la inversa: la interfaz se comunica con el usuario pudiendo desvelar en voz alta datos privados del propio usuario.

Guías de diseño para las interfaces de voz

Relacionando de manera acertada los 10 heurísticos de Nielsen, el artículo Design guidelines for voice user interfaces de Marc Ericson expone las 10 pautas de usabilidad principales a la hora de diseñar interfaces de voz:

Mostrar el estado del sistema

Según Schnelle y Lyardet diseñar interfaces de voz es algo particularmente difícil porque estas interacciones son transitorias e invisibles. Una vez que el usuario da las instrucciones al dispositivo, éstas ya no estarán visibles a menos que haya una interfaz visual vinculada al sistema.

Para hacer visible el estado del sistema, es fundamental que el inicio y el final de la interacción de voz sean obvios para el usuario. En el caso de errores o información no detectada, es conveniente que la interfaz informe al usuario apropiadamente sobre qué punto de la información se ha perdido o qué parte de esta información ha generado errores.

Asociar conceptos con el mundo real

Una recomendación muy útil a la hora de diseñar interacciones de voz que resulten naturales e intuitivas es aprender acerca de la comunicación interpersonal. Para crear una experiencia de usuario natural y convincente, es preciso no solo incluir comandos cortos, sino también añadir términos comúnmente utilizados en el lenguaje humano. Las respuestas de la interfaz deberían ser variadas y es aconsejable evitar términos técnicos, a menos que el área de aplicación así lo requiera.

Control y libertad del usuario

Este principio heurístico que tan bien define Jakob Nielsen parece no aplicarse en su totalidad cuando hablamos de interfaces de voz. Según los experimentos de Limerick, se ha demostrado que los usuarios exhiben un sentido de control menor cuando usan interacciones por voz.

Hay que tener en cuenta que los teclados logran un vínculo eficaz con el usuario porque cada pulsación de tecla da como resultado una letra en pantalla. Cada acción del usuario corresponde a una respuesta instantánea. Por el contrario, las interfaces de usuario basadas en voz tienden a responder más lentamente y pueden perder la intencionalidad del usuario. Esto hace que los usuarios perciban menos control sobre el sistema.

Como contrapartida las interfaces de voz responderán más rápido y con mayor precisión a través de los desarrollos en la comprensión del lenguaje natural como los proporcionados por DialogFlow y Amazon Lex. Para poder aprovechar todo el potencial de estos nuevos sistemas, los profesionales del diseño nos encontramos en el proceso iterativo de identificar frases clave dentro de este lenguaje natural. 

Consistencia y estándares

Y la pregunta es evidente. ¿Cómo encontrar consistencia y estándares en una interfaz que carece de elementos visuales? El equipo de Strohmann argumenta que la personalidad de un asistente virtual impacta significativamente en la experiencia de usuario. Por lo tanto es esta personalidad la que se convierte en parte del diseño representativo y la que debe ser por ende, consistente. Esta personalidad (persona) deberá usarse como guía de estilo durante todo el proceso de diseño.

Prevenir errores

Según un estudio realizado por Myers et al., más de la mitad de los errores encontrados en los sistemas de voz se deben a una combinación de problemas técnicos en la calidad del micrófono, la conversión de voz a texto, y problemas de interpretación del mensaje por parte de ambos interlocutores: usuarios e interfaces. Todavía queda camino por recorrer, y los profesionales del diseño de experiencia de usuario debemos seguir implementando todas las metodologías iterativas de diseño UX y  UX research para mejorar estos flujos de comunicación.

Reconocer mejor que recordar

Para poder aplicar este heurístico de usabilidad en el mundo de las interfaces de voz, es interesante añadir menus directos de ayuda a través de la interlocución mediante alguna frase sencilla. (Ejemplo: “Qué puedo decir”).

Otro foco importante es crear interfaces de voz que sean consistentes con las experiencias y los modelos mentales actuales de los usuarios. Por otro lado es aconsejable y beneficioso aplicar patrones de diseño de interfaces de voz ya establecidos para tareas comunes. Estos nos permiten optimizar tiempo y además se basan en patrones conversacionales ya contrastados.

Flexibilidad y eficiencia

Dentro de las interacciones de voz, la flexibilidad se logra cuando el usuario puede dar la misma instrucción de maneras diferentes. Tomando esta referencia, DialogFlow está aprovechando la experiencia de aprendizaje automático de Google para comprender la intención del usuario basándose en frases clave. Más que entender este flujo de lenguaje de una forma libre, el diseño de conversación recomienda centrarse en procesos similares a los procesos conversacionales humanos. Los sistemas que usan voz o chat deben poder manejar con eficacia las diferentes casuísticas de los usuarios al utilizar estos sistemas. Los sistemas de voz inteligentes pueden encontrarse con usuarios:

  • Brindando información múltiple de una sola vez. 
  • Desviando la información a otro foco conversacional. 
  • Utilizando un lenguaje ambiguo.

Diseño minimalista

El proceso del habla aumenta la carga cognitiva. Dado que el acto de hablar disminuye o elimina la capacidad de recordar otras tareas, lo más recomendable es minimizar las conversaciones. Así pues, no deberemos ofrecer al usuario toda la información de una vez. Será más eficiente proporcionar únicamente la información más relevante para el usuario en cada momento. Hay que recordar que el minimalismo consiste en proporcionar exactamente la cantidad necesaria y correcta de información que el usuario necesita.

Ayudar a los usuarios a reconocer, diagnosticar, y recuperarse de los errores

Es evidente que minimizar los errores en su totalidad es algo imposible. Teniendo esto en cuenta, los profesionales del diseño deberemos desarrollar una buena estrategia para gestionarlos y minimizarlos tanto como nos sea posible. Las pautas del diseño de conversación de Google proporcionan valiosa información para manejar estos tres tipos de errores:

  • El usuario no respondió a la interfaz. (Sin entrada)
  • El usuario confunde la interfaz. (Sin coincidencia)
  • El usuario le pregunta a la interfaz algo que ésta no puede hacer. (Error del sistema)

Proporcionar ayuda y documentación

Existen dos desafíos fundamentales con respecto a la capacidad de descubrimiento de las interfaces de voz:

  • Los usuarios tienden a asumir que el sistema puede comprender más allá de sus capacidades reales.
  • Los usuarios desconocen las funcionalidades disponibles. La opacidad de las interfaces de usuario de voz impide que los usuarios generen modelos mentales precisos sobre cómo funciona la interfaz.

Además de mantener la ayuda disponible en todos los contextos de la conversación, Strohmann et al. también recomienda que los asistentes virtuales informen de manera proactiva al usuario. Siempre que sea relevante para la situación actual, los asistentes virtuales pueden ofrecer información de manera anticipada, especialmente sobre aquellas funciones que los usuarios no hayan utilizado antes.

Como se puede ver, el ámbito de las interfaces de voz es un mundo en plena evolución que nos puede reportar importantes ventajas y avances en las mejoras constantes de nuestros productos digitales.

En Torresburriel Estudio podemos ayudarte en el proceso de investigación con usuarios, aplicando técnicas como las entrevistas personalizadas o la investigación etnográfica.