Diseñar para Alexa y Google Home

Durante el 2017 trabajé diseñando una VUI con la inteligencia artificial de IBM en el proyecto de WatsomApp, desde entonces he estado cada vez más interesada en trabajar en el diseño de interfaces conversacionales, así que cuando vi que Ironhack organizaba una conferencia con expertos del sector el pasado sábado, no dudé en asistir.

El mercado anglosajón lleva más de un año utilizando asistentes de voz, en el 2017 cuando estuve en USA muchas personas ya utilizaban en casa estos asistentes, según Amazon. En España llegaron a mediados del 2018, Google Home en junio del 2018 y Alexa unos meses después, por lo que vamos con más de un año de retraso con respecto al uso y también la experiencia en el diseño.

Aquí tenéis un resumen de las charlas, empecemos por el asistente de Google.

Google Assistant

Javier Martínez, Sales Engineering Manager, Google Cloud comenzó hablando de Google Duplex, el asistente que reserva por tí en restaurantes, aquí tenéis un video de ejemplo, que como dice Xataca en este artículo da un poquito de miedo.

 

 

Cuando diseñas debes tener siempre en cuenta el contexto del usuario, si puede ver una pantalla o no, en caso de no tenerla, toda la interacción será por interfaz conversacional (VUI).

Javier explicó cómo funciona el asistente con DialogFlow para ir aprendiendo el funcionamiento del asistente de google. DialogFlow permite construir chatbots. Utiliza mucho machine learning con reconocimiento de lenguaje natural. Lo que hacemos sobre todo es poner frases de entrenamiento para saber qué dice el usuario. 🙂

Cuando diseñas necesitas detectar en el flujo de la conversación las palabras clave para entender el contexto, aquí un lingüista lo tiene más fácil.

Cuando comienzas a diseñar una conversación lo primero que debes tener en cuenta son:

1. Intenciones: define una intención (input) del usuario. Esto lo hacemos con las frases de entrenamiento de lo que usuario podría decirnos. No hace falta muchas entre 20 y 40 son suficientes. Depende de si son más largas o más cortas. Lo que hacemos es detectar por detrás parecidos. No es necesario ser muy literal con cientos de frases de ejemplos.

2.Entidades: es la información que necesitamos extraer del usuario de lo que están diciendo mis usuarios, la entidad es la que detecta que una frase es de entrenamiento. En este caso es qué quiero reservar (ciudad y momento) Hay que construir una lógica. Es fundamental su uso para reducir el uso de intents.

3. Contextos: así se construye el flujo de la conversación tenemos: contexto de entrada y de salida. Ej: salida sería “Hacer una reserva” Si por ejemplo el usuario dice en Barcelona sin un contexto, esto no me sirve de nada, necesitamos saber que quiere hacer una reserva y donde. El intent no se lanza si no consigue saber que el usuario desea hacer una reserva.

 

Antes de final de este año 1.000 millones de dispositivos tendrán google assistant instalado.

 

Todos los coches nuevos tienen ya google drive instalado por lo que podrán usar el asistente de voz. Teniendo en cuanta esto podemos hacernos una idea del rápido posicionamiento de las VUI en nuestras vidas, de hecho es posible que tú lo estés usando ya.

Después de leer esto, ¿tienes ganas de comenzar a diseñar una VUI? si la respuesta es afirmativa no dejes de ver este video donde Google te explica buenas prácticas a seguir en el diseño de una interfaz conversacional.

 

Alexa

Germán Viscuso, Technical Evangelist en Amazon comenzó la charla diciendo que los desafíos vienen más por el lado del diseño que por el de desarrollo.

A veces la ciencia ficción nos provee de inspiración, en la serie Enterprise los tripulantes hablan al ordenador y este siempre le responde de forma correcta. Otro caso parecido es su comunicador, se dice que esto inspiró a Motorola para diseñar el Motorola Razr V3.

Amazon decidió crear Alexa debido a tres tendencias:

1. Auge de machine learning (ML) y su combinación con el Big Data. Tecnologías de ML enseñan a otras de ML.

2. El poder de la computación. Cloud Computing. Estos dispositivos están conectados a internet y nos traen de forma inmediata los datos de forma que apenas exista latencia.

3. Evolución de las interfaces de usuario. La voz es la interfaz más natural que comprendemos ya que es hablar con la tecnología como hablamos con las personas.

Las interfaces nos tienen atrapados por vista y tacto, todo el tiempo que tenemos que trabajar tenemos que estar tocando y viendo una pantalla. Las interfaces de voz, nos ofrecen el poder hablar con la tecnología de forma que no tengamos que adaptarnos nosotros a la interfaz de usuario sino ella a nosotros.

 

The Magic Moment

Germán llama momento mágico a cuando hacemos un salto gigante a una nueva tecnología.

El último momento mágico fueron los móviles, en el momento actual son las interfaces conversacionales.

Amazon Evangelist Germán Viscoso

Germán explicó qué es el ASR, este es un proceso de machine learning que escucha lo que dice el usuario y lo transforma a texto (reconocimiento automático del habla.).

En los años 50 los científicos intentaron crear un sistema pero no consiguieron avances ya que sólo el 50% de lo que decían las personas era reconocido por una máquina. Aunque se siguió mejorando la tecnología, no fue hasta el 2010 el ARS mejoró mucho más que los 30 años anteriores, esto fue gracias a la aplicación de la tecnología del machine learning aplicado al reconocimiento de voz, consiguieron alcanzar un 70% de aciertos.

Hablemos ahora de los Skills para Alexa (así llaman a las apps).

Arquitectura de un skill de Alexa.

1. Esta se compone de: Voice User Interface + Programing Logic (Back End).

2. La VUI es donde un diseñador comienza a crear las frases de entrenamiento, sin necesidad de poner todas las frases que un usuario puede decir. Si quieres saber más entra en developer.amazon.com.

3. El PL, aws.amazon.com subimos el código del Back End (la lógica de programación). En esta parte es donde comienza el trabajo de las programadoras.

 

Cuando creamos una skill debemos tener en cuenta:

Las skills deben tener un propósito claro. Una sola cosa pero bien hecha.

Deben evolucionar a lo largo del tiempo.

Los usuarios deben poder hablarle de forma natural a tu skill. No es válido hacer al usuario que hable como cuando habla con una centralita de teléfono.

Alexa debe comprender la mayoría de decisiones (esto depende de la cantidad de Utterance “Frases de entrenamiento”)

Las Skills deben responder como una persona (amigable, variable es decir no responder siempre de la misma manera)

 

Recomendaciones diseño

Elige muy bien la palabra de invocación (Invocation name).

Maneja la falta/exceso de información. Tener en cuenta que el usuario nos puede dar más o menos información de la necesaria. Si nos da poca información (ver video donde aparecen las dos personas)

Lo que tardo yo en respirar y exhalar es lo que debe tardar en responder Alexa. No uses frases largas tipo chatbot “Information Overlow”.

Recordemos que hay que tener en cuenta el contexto y la brevedad. El usuario puede hacer un cambio de contexto preguntando otra cosa distinta a la respuesta que le da Alexa.

Persistencia de memoria. Ten en cuenta que el usuario no puede recordar mucha información por lo que el asistente no debería dar más de dos o tres opciones a elegir.

 

Aquí os dejo un video donde podéis ver el uso de Alexa.

 

 

WEBEDIA

Helen Creeger, experta en VUX y VUI. Helen habló sobre cómo diseñó ella y su equipo de Webedia la Skill de “Directo al Paladar”. Fue una charla de lo más interesante y la verdad es que daría para un artículo entero.

 

Y aquí os dejo el video de su conferencia al completo, merece la pena verla. Yo termino aquí el artículo, me voy a hablar con Alexa para pedirle que abra la Skill «Directo al Paladar» y que busque una receta para cenar.

 

Recursos

Blog de Javier Martínez

Guidelines para diseñar con Google Assistant

Mejores prácticas para Alexa Voice Design

Webminars de Women in voice

 

Curso online de Diseño UX de Productos Digitales

Aprende los conceptos básicos del diseño de un producto digital

 

Comentario