Um Guia Definitivo para o Design de uma Voice User Interface (VUI)

A Voice User Interface ou VUI (Interface por Voz de Usuário, em português), quebrou a interação silenciosa entre máquinas e humanos.

Quando paramos por um momento e pensamos em como os dispositivos controlados por voz e assistentes virtuais se tornaram populares, basta olhar mais a fundo no projeto da VUI e entendê-la mais um pouco.

Siri, o que veio primeiro, a galinha ou o ovo?

Siri: Ninguém sabe direito, foi empate.

Um artigo recente do Google chamado “How voice assistance is reshaping consumer behavior” torna ainda mais óbvia a enorme ascensão dos smart speakers e da VUI. De acordo com o artigo do Google, 41% das pessoas que possuem um alto-falante controlado por voz sentem como se estivessem falando com outra pessoa.

Isso nos faz pensar: estaria a VUI reformulando a relação homem-máquina?

A resposta fica totalmente a seu critério, mas antes de se apressar para conseguir uma resposta, vamos analisar o que é uma interface de voz do usuário e pensar sobre como criar um projeto de VUI.

O que é a Voice User Interface (VUI)?

A Interface por Voz de Usuário, ou Voice User Interface (VUI) em inglês, possibilita aos usuários interagir com um dispositivo ou um aplicativo através de comandos de voz. Com o aumento do uso de dispositivos digitais, o cansaço de estar em frente a uma tela tornou-se um problema mais frequente. E isto tem dado ainda mais vantagens ao desenvolvimento e ao uso de Voice User Interfaces. As VUIs proporcionam um controle completo e sem a necessidade de olhar para a tela, sem a necessidade de usar um microfone hands-free nem nada do tipo. As empresas líderes mundiais, especificamente todas as “Cinco Grandes” empresas tecnológicas como Google, Amazon, Microsoft, Facebook e Apple, desenvolveram ou vêm desenvolvendo seus assistentes de IA habilitados para voz e dispositivos controlados por voz. 

Os exemplos mais conhecidos de interface de voz do usuário incluem a Siri da Apple, o Google Assistant, e a Alexa da Amazon. Não apenas os assistentes de IA, mas também dispositivos inteligentes com VUIs estão assumindo o mercado, tais como Amazon Echo, Apple HomePod, e Google Home. 

Seja um assistente de IA, um aplicativo móvel habilitado para voz, ou um dispositivo controlado por voz como alto-falantes inteligentes, as interface de voz e as interações se tornaram incrivelmente comuns. 

Eu estou ouvindo daqui a sua pergunta: “Quão comuns exatamente elas são hoje?”

Vamos falar mais sobre a popularidade da VUI, mas você pode dar um palpite a partir das estatísticas abaixo.

De acordo com um relatório, 1 em cada 4 adultos nos EUA possui um smart speaker hoje em dia, enquanto um terço da população dos EUA usa recursos de busca por voz.

Você precisa entender o que é uma interface de voz e como ela funciona para poder criar um projeto de interface de voz que não frustre os usuários e proporcione uma experiência suave para eles. Agora que você tem a definição da interface de voz do usuário, vamos mergulhar na próxima pergunta: “como funciona uma interface de voz?”.

Aperte os cintos; você está prestes a dar um mergulho neste universo.

Como funciona uma Interface de Voz?

Uma Interface de Voz é na verdade um resultado da combinação de várias tecnologias de Inteligência Artificial, incluindo Síntese de Fala, Reconhecimento Automático de Fala e a chamada Name Entity Recognition. Lembrando que estas interfaces de voz podem ser adicionadas a aparelhos e dispositivos, ou a aplicativos internos. 

A infra-estrutura de backend e os componentes de fala da VUI apoiados pelas tecnologias de IA muitas vezes são armazenados em uma nuvem privada ou pública onde a VUI processa a voz e a fala do usuário. A tecnologia de IA compreende a intenção do usuário e retorna uma resposta ao dispositivo. 

Essa é a base do projeto de uma interface de voz. A maioria das empresas inclui uma Interface Gráfica de Usuário (GUI) e efeitos sonoros adicionais às VUIs para proporcionar a melhor experiência ao usuário. Os efeitos visuais e sonoros tornam mais fácil para o usuário saber quando o dispositivo está ouvindo, processando a fala ou respondendo de volta a ele.

Tipos de Dispositivos VUI

Hoje em dia, uma ampla gama de dispositivos pode conter uma VUI, como por exemplo:

  • Smartphones
  • Dispositivos “vestíveis” ou wearables, como smart watches e pulseiras inteligentes
  • Computadores e laptops
  • Sistemas de Som e Smart TVs
  • Smart Speakers
  • Internet das Coisas (Internet of Things – IoT); fechaduras, termostatos, luzes

Voice User Interface – Vantagens e Desvantagens

Vantagens das VUIs

Mais rápido que digitar: Falar é mais rápido do que digitar mensagens de texto, tornando algo mais conveniente para os usuários.

Mais fácil de usar: Nem todas as pessoas podem se dar bem com dispositivos tecnológicos. Mas qualquer usuário pode usar a voz para solicitar uma tarefa dos dispositivos VUI ou assistentes de IA.

Mãos livres: Em alguns casos, como dirigir, cozinhar, ou quando você está longe de seu dispositivo, falar é muito mais prático do que digitar ou tocar.

Sem necessidade de telas: As VUIs proporcionam uma experiência de usuário sem telas. Em casos como ao dirigir, você pode se concentrar na estrada e não no dispositivo. É prático também para quem tem fadiga visual com as telas.

Desvantagens das VUIs

Preocupações de privacidade: Potenciais violações de privacidade de uma VUI com respeito a alguns usuários. 

Interpretação errada e falta de exatidão: O software de reconhecimento de voz ainda tem suas falhas. O software não consegue entender e interpretar o contexto da linguagem, o que causa erros e interpretações errôneas. O ditado de voz para digitação automática pode levar a erros de digitação, pois as VUIs podem nem sempre diferenciar sentenças próximas, tais como “Uma mão” e “Um mamão”

Espaços públicos: Pode ser difícil dar comandos de voz a dispositivos e assistentes de IA em espaços públicos por questões de privacidade e ruído.

Por que o design de VUI é a próxima grande sacada?

As interfaces de usuário ou IU são a ponte que torna possível a interação entre máquinas e humanos.

Um tipo particular de interface de usuário, a interface visual de usuário, explodiu em popularidade nos últimos anos e superou a digitação.

71% dos usuários preferem fazer uma busca por voz em consultas ao invés de digitar. Não apenas isso, mas o uso de alto-falantes inteligentes controlados por voz também está aumentando constantemente. Mais da metade dos proprietários de alto-falantes inteligentes nos EUA estão usando seus dispositivos diariamente. 

Esta popularidade crescente das interfaces de voz interessa particularmente aos projetistas de UX e UI. Afinal, o objetivo final de ambos é responder às necessidades dos usuários e tornar a experiência fácil e fluida para eles. 

A fim de criar uma interface de voz bem sucedida, os projetistas e desenvolvedores precisam entender os meandros da comunicação humana. Os consumidores esperam um certo nível de capacidade, um tom de conversação e menos interpretações errôneas dos assistentes de IA e dispositivos inteligentes à medida que interagem diariamente com eles. 

Então, surge a grande questão: como projetar uma VUI que trará valor à vida dos usuários?

Como projetar uma interface de voz do usuário

Em sua essência, projetar uma interface de voz não é tão diferente de projetar uma GUI ou qualquer outro projeto de UX. Podemos decompor o processo de projeto da interface de voz em etapas mais simples.

Etapa 1: Fazer uma pesquisa sobre o usuário

Comece compreendendo a interação entre a persona do usuário e uma persona do assistente em várias etapas de engajamento através do mapeamento da jornada do cliente.

Foco na observação e compreensão das necessidades, motivações e comportamentos do usuário. Incluir a voz como um canal no mapa de viagem do cliente para identificar como e onde a voz pode ser usada como um método de interação.

O designer deve destacar onde as interações de voz podem ser implementadas no fluxo do usuário como uma oportunidade. Isto é válido para um cenário no qual o mapa da jornada do cliente ainda não tenha sido criado. Se já existir uma jornada do cliente, o designer deve ver se as interações de voz podem melhorar o fluxo do usuário. 

Os designers devem se concentrar em resolver os problemas dos usuários.

Por exemplo, se seu suporte ao cliente sempre for questionado, então pode ser uma oportunidade de integrar a conversa no aplicativo de voz.

Entenda a Persona do Dispositivo

Além de entender a pessoa do usuário, identificar a capacidade e o caráter do dispositivo (por exemplo, da Alexa)

Etapa 2: Faça uma análise das VUI da Concorrência

Os designers devem conduzir uma análise da concorrência e suas VUI para ver como os demais estão implementando as interações por voz.

Descubra o caso de uso para seu aplicativo, os comandos de voz usados no aplicativo e verifique o que seus usuários pensam a partir das análises.

Etapa 3: Defina requisitos

Definir os pontos de dor, necessidades e exigências do usuário.

Além de conduzir pesquisas de usuários e análises da concorrência, você pode tentar entrevistar e testar os usuários. Capture diferentes cenários antes de transformá-los em fluxos de conversa. Use fluxogramas para anotar as exigências do usuário com as histórias dos usuários. Em seguida, desenhe fluxos de diálogo para cada um deles.

A seguir, vá para o protótipo de conversas VUI com fluxos de diálogo mostrando a interação entre o dispositivo e o usuário.

Como Fazer Protótipos de Conversas de VUI com Fluxos de Diálogo

Pontos importantes para a criação de fluxos de diálogo VUI de sucesso:

  1. Mantenha a interação conversacional e simples,
  2. Crie uma estratégia forte para erros,
  3. Confirme quando uma tarefa for concluída,
  4. Tenha uma camada extra de segurança.

Os designers de VUI precisam criar fluxos de diálogo e toda a conversa entre o sistema e os usuários. Os fluxos de diálogo devem guiar com sucesso os usuários. Um roteiro de fluxo de diálogo é uma entrega que consiste em:

  • Palavras-chave que iniciam a interação, também conhecidas como “Olá, Alexa”.
  • Ramais que mostram aonde a conversa pode chegar
  • Exemplos de diálogos para os usuários e o assistente de IA

Um fluxo de diálogo é como um protótipo, e é um roteiro que cobre a conversa de trás para a frente. Felizmente, existem aplicações de protótipos que simplificam a criação de fluxos de diálogo. 

Alguns dos aplicativos para prototipagem de VUIs estão a seguir.

  • Voiceflow: Ferramenta de colaboração para projetar, fazer protótipos e criar para Google Assistant e Amazon Alexa
  • Dialogflow: Plataforma de propriedade do Google para projetar uma interface de usuário conversacional em aplicativos web, aplicativos móveis, bots e dispositivos.
  • Speechly: Solução de compreensão de linguagem falada para construir interfaces de usuário de voz.

A Amazon tem seu próprio Alexa Skill Builder para ajudar os projetistas a criar novas Alexa Skills.

Etapa 4: Testagem

Testar os fluxos de diálogo entre o sistema e o usuário é como um role play.

Uma pessoa interpreta o dispositivo e a outra interpreta o usuário para ver se a conversa flui com sucesso.

Etapa 5: Entendendo a Anatomia de um Comando de Voz

Ao projetar uma VUI, os designers precisam constantemente pensar sobre os possíveis cenários de interação e cada objetivo (ou seja, o que o usuário está tentando alcançar neste cenário?)

Então, quando um usuário dá um comando de voz, ele consiste de três fatores em seu núcleo: intenção, enunciação e um slot.

Intenção

A intenção é o objetivo do comando de voz do usuário. A intenção das interações de voz pode ser uma interação de baixa utilidade ou de alta utilidade.

Uma interação de alta utilidade refere-se a tarefas muito específicas, como solicitar uma música de rock no Spotify ou desligar as luzes da sala de estar. 

Uma interação de baixa utilidade, por outro lado, é sobre executar tarefas mais vagas e difíceis de decifrar. Por exemplo, se um usuário pede mais informações sobre um assunto, a IU de voz precisa verificar se ele está incluído em seu escopo de serviço e depois faz mais perguntas para entender e responder melhor ao pedido.

Enunciação

O enunciado é a forma como um usuário enuncia ou pronuncia o comando de voz para acionar a tarefa.

Algumas frases para pedidos podem ser simples e fáceis de entender, como “Toca uma música no Spotify”, mas os designers de UX de voz precisam considerar outras variações também. Por exemplo, em vez de dizer “toca…” um usuário pode dizer “Eu quero ouvir música…” ou “Você poderia tocar…”.

Quanto mais variações os designers considerarem, melhor e mais fácil a IA entenderá o pedido e responderá com a ação correta.

Slot

Os slots são as variáveis obrigatórias ou opcionais que são solicitadas ao usuário para cumprir a tarefa.

Por exemplo, se um usuário solicita “toca uma música calma”, a variável aqui é “calma”. Como a IA também pode executar a solicitação sem a variável, este slot é opcional. Entretanto, por exemplo, se um usuário quiser reservar uma mesa num restaurante, o slot será a hora, e aí sim é necessário.  

Exemplos de Voice User Interfaces

Já vimos o que é uma Voice User Interface e como você pode criar um projeto de uma dessas interfaces de voz. Vamos ver alguns dos principais exemplos de VUIs. Naturalmente, os mais usados e populares são a Siri, a Alexa, o Cortana, e o Google Assistant. Qual você acha que é o assistente de voz mais competente do mercado?

Siri

A Siri é a assistente de voz da Apple que vem com os sistemas operacionais da Apple como iOS, iPadOS, watchOS, macOS, e tvOS.

Ela foi lançado pela primeira vez em 4 de outubro de 2011; e tem estado ativo desde então.

siri voice user interface

Alexa

Lançada em novembro de 2014, a Alexa da Amazon foi usada pela primeira vez nos alto-falantes inteligentes Echo da Amazon.

Ela agora entrou na maioria dos sistemas operacionais de dispositivos inteligentes, tais como Android, IOS e Fire OS.

alexa voice user interface

Cortana

O assistente de voz da Microsoft, Cortana, ajuda você a ser mais produtivo usando o mecanismo de busca Bing para fazer tarefas como definir lembretes e responder perguntas para você.

cortana voice user interface

Google Assistant

Disponível em dispositivos inteligentes e sistemas domésticos, o Google Assistant é uma VUI de assistente virtual projetada e desenvolvida pela Google.

De acordo com pesquisas realizadas pela Loup Ventures, o Google Assistant é o mais competente entre estes assistentes de voz.

google assistant voice user interface

Conclusão

As principais conclusões que podemos tirar deste post são:

Uma interface de voz é uma VUI (Voice User Interface) que se refere a uma interface que requer interação de voz com o usuário.

Ela é diferente de uma interface de usuário tangível, que requer interações com gestos físicos, tais como encostar na tela ou arrastar.

Os projetistas precisam realizar pesquisas e observações minuciosas sobre a persona do usuário, a persona do dispositivo e criar fluxos de diálogo fáceis e fluidos para poder alcançar um projeto bem sucedido de interface de voz de usuário.


Perguntas frequentes


Qual é o objetivo de uma interface de voz do usuário (VUI)?

Uma Interface de Voz do Usuário é projetada para reencenar a sensação de conversas entre o usuário e um dispositivo, e ajudar as pessoas a completar facilmente tarefas ou buscar informações sem usar suas mãos ou mesmo seus olhos.


O que as pessoas perguntam para uma Interface de Voz do Usuário?

As VUI como Alexa, Siri e Google Assistant podem realizar inúmeras tarefas, de modo que o que as pessoas perguntam a seus assistentes virtuais pode variar de tarefas diárias a consultas de pesquisa relacionadas a negócios ou curiosidades.


Quando foi criada a Voice User Interface?

A primeira Interface de Usuário de Voz foi desenvolvida em uma colaboração entre a Nuance e a SpeechWorks através de sistemas de Interactive Voice Response (IVR), em 1984.

Junte-se a 9.000+ equipes que já estão criando experiências melhores

Teste gratuito de 14 dias, com mais 30 dias de garantia de dinheiro de volta

Share this article:

Mert Aktas

Mert is the Marketing Manager of UserGuiding, a code-free product walkthrough software that 7000+ companies trust in their user onboarding.

Copy link