Tecnologia

Reconhecimento de voz ainda contém vieses de raça e gênero significativos

Joan Palmiter Bajorek
5 de junho de 2019

A inteligência artificial (IA) de voz está cada vez mais onipresente e poderosa. Previsões sugerem que o comércio de voz será um setor de US$ 80 bilhões até 2023. A Google registrou que 20% das  pesquisas em seu mecanismo de busca são feitas por consulta de voz — um número que deve subir para 50% até 2020. Em 2017, a empresa anunciou que seu reconhecimento de fala tinha uma taxa de precisão de 95%. Embora seja um número impressionante, ele levanta a questão: 95% de precisão para quem?

Leia também:

Diversidade e autenticidade

Os erros na utilização de dados para incentivar a diversidade

O reconhecimento de voz ainda contém  vieses de raça e gênero significativos. Tal como acontece com o reconhecimento facial, pesquisas na web e até embalagem de sabão líquido, o reconhecimento de voz é outra forma de IA que tem um mau resultado com mulheres e pessoas não brancas. Sinceramente, não acredito que os criadores desses sistemas se propuseram a construir produtos racistas ou machistas. Também duvido que esses preconceitos sejam intencionais, mas ainda assim são problemáticos. O fato é que o reconhecimento de fala entende bem a voz de homens brancos… mas e o resto de nós?

Taxas de precisão são mais importantes do que a reprodução de músicas. O reconhecimento de voz já exerce influência sobre aspectos importantes da vida das pessoas, incluindo decisões sobre imigração, contratações e transporte, entre diversas outras coisas. Isso significa que a precisão do reconhecimento de voz — ou a falta dela — pode impedir  você de imigrar para outro país, conseguir um emprego ou viajar com segurança. Você viu aquele episódio da série Silicon Valley em que um carro leva um dos personagens para uma ilha abandonada? É engraçado na TV, mas nem tanto na vida real.

As montadoras há tempos já admitiram que o reconhecimento de voz não funciona tão bem com mulheres. A solução recomendada foi que as mulheres fizessem um treinamento extensivo (“As mulheres poderiam aprender a falar mais alto e direcionar a voz para o microfone…”), que os homens não precisavam fazer. O mesmoserviria  para minorias e pessoas com sotaques fora do “padrão”.

Precisão de reconhecimento por gênero e raça

Uma pesquisa da Dra. Rachael Tatman publicada pela Divisão Norte-Americana da Associação de Linguística Computacional (NAACL) indica que o reconhecimento de voz do Google é 13% mais preciso para homens do que para mulheres. E a Google tem, regularmente, o melhor desempenho — em comparação com os sistemas Bing, AT&T, WIT e IBM Watson.

Façamos um exercício de raciocínio: consideremos três norte-americanos cuja primeira língua seja o inglês. Digamos que meu amigo Josh e eu usamos o reconhecimento de voz do Google. Ele poderia obter 92% de precisão e eu, 79%. Ambos somos brancos. Se lermos um mesmo parágrafo, ele precisaria corrigir cerca de 8% da transcrição, mas eu, 21%. Minha amiga Jada, de descendência mista, tenderá a obter uma precisão 10% menor que a minha. Nossa avaliação final ficaria algo como:

Josh (homem branco) = A-, 92%

Joan (mulher branca) = C+, 79%

Jada (descendência mista) = D+, 69%

Os dialetos também afetam a precisão. Por exemplo, o inglês indiano possui uma taxa de precisão de 78% e o inglês escocês, uma taxa de acerto de 53%. As equipes da Amazon e da Google estão trabalhando para melhorar essa precisão, mas o problema ainda não foi solucionado.

Consequências no mundo real

Esses vieses têm sérias consequências na vida das pessoas. Por exemplo, uma irlandesa foi reprovada em um teste de proficiência oral em inglês quando tentava imigrar para a Austrália, apesar de ser uma falante nativa de inglês com alto nível educacional. De uma nota máxima de 90 pontos, ela obteve 74 para fluência oral. Isso soa estranhamente familiar, não? Essa pontuação é provavelmente uma falha do sistema.

Por que existe esse viés? As disparidades existem por causa da forma como estruturamos nossa análise de dados, bancos de dados e aprendizado de máquina. Da mesma forma que as câmeras são customizadas para fotografar rostos brancos, a análise de áudio tem dificuldade  com vozes mais sussurradas e agudas. Uma razão que pode estar na base dessa questão é o fato de os bancos de dados terem muitas informações de homens brancos e poucos dados de vozes de mulheres e de minorias. Por exemplo, os TED Talks são frequentemente analisados por cientistas da fala, e 70% dos palestrantes do TED são homens.

A inteligência artificial, dessa forma, está fadada ao fracasso. O aprendizado de máquina é uma técnica para encontrar padrões em dados. Quando você utiliza o reconhecimento de voz, o sistema está respondendo à pergunta “a partir desses dados de áudio, quais palavras são melhor mapeadas com esses dados, considerando-se os padrões e informações do banco de dados?” Se o banco de dados for majoritariamente composto por vozes de homens brancos, ele não terá um desempenho tão bom com os dados que encontra com menor frequência, como vozes femininas e outras mais diversas.

Isso é certamente uma questão de injustiça social. Mas se isso não for motivo suficiente para convencer as empresas a resolver o problema, elas devem considerar que a precisão do reconhecimento de voz também afeta as decisões de compra dos consumidores. Tenho amigos ricos bilíngues, que falam inglês e espanhol, que optaram por não comprar geladeiras inteligentes porque sabem que elas não vão entendê-los. Quais outros dispositivos conectados eles comprariam se essas máquinas realmente os entendessem?

Melinda Gates, que discute com frequência pontos cegos financeiros relacionados à diversidade, disse certa vez: “Nós [como sociedade] nos preocupamos com a diversidade, mas nos importamos mesmo com quanto dinheiro ganhamos… as mulheres são [responsáveis por] 85% do gasto de consumo. As mulheres controlam 70% das decisões financeiras domésticas. Então, você está perdendo uma oportunidade… está deixando dinheiro na mesa.”

Soluções potenciais

À medida que a inteligência artificial de voz se torna mais presente e poderosa, mais essa tecnologia afetará nosso cotidiano. Vamos nos esforçar para construir um mundo onde as vozes de todos sejam ouvidas com clareza.

O que as empresas podem fazer? Ser mais transparentes em relação às estatísticas de voz e incentivar a concorrência na área. Por exemplo, as empresas podem divulgar suas taxas de precisão para mulheres e outros grupos em suas campanhas de marketing e de vendas. Seu usuário-alvo é a mulher da classe trabalhadora? Então mencione como seu sistema entende bem esse grupo demográfico. Lembre-se de que as mulheres e diversas minorias têm enorme poder de compra — por que você não gostaria de resolver esse problema?

Por fim, isso é algo sobre o qual todos nós precisamos continuar falando, porque todos merecem ter sua voz ouvida.


Joan Palmiter Bajorek é a fundadora da Women in Voice. Ela é tecnóloga da fala, linguista e candidata ao Ph.D. na Universidade do Arizona.

 

Compartilhe nas redes sociais!

replica rolex