Inovação

A construção de uma cultura de experimentação

Stefan Thomke
6 de março de 2020

É preciso mais do que boas ferramentas. É preciso uma completa mudança de atitude.

Em dezembro de 2017, logo antes de começar a temporada de viagens de fim de ano, o diretor de design da Booking.com propôs um experimento radical: testar um layout totalmente novo para a home page da empresa. Em vez de oferecer muitas opções de hotéis, locação de alojamentos em períodos de férias e promoções de viagens, como a home page existente, na nova haveria apenas uma pequena janela com três perguntas — destino, datas e número de acompanhantes — e três opções simples — acomodações, voos e aluguel de carro. Todo o conteúdo e os elementos de design, como fotos, texto, botões e mensagens, que a Booking.com passara anos otimizando seriam eliminados.

Gillian Tans, CEO da Booking.com na época, mostrou-se cético. Ela temia que a mudança causasse confusão entre os clientes fiéis da empresa. Lukas Vermeer, então chefe da equipe principal de experimentação, apostou uma garrafa de champanhe que o teste seria um fracasso, pois reduziria a métrica crítica de desempenho da empresa: conversão de clientes ou número de visitantes do site que fazem reserva. Dado o pessimismo, por que a gestão sênior não vetou a experiência? Porque isso violaria um dos grandes princípios da Booking.com: toda e qualquer pessoa na empresa pode testar o que quiser — sem a permissão da gestão.

A Booking.com realiza mais de mil testes rigorosos simultaneamente: pelas minhas estimativas, mais de 25 mil por ano. A qualquer momento, quatrilhões de permutações de landing pages estão ativas, o que significa que é improvável que dois clientes no mesmo local visualizem a mesma versão. Toda essa experimentação ajudou a transformar a empresa de uma pequena startup holandesa na maior plataforma online de acomodações do mundo em menos de duas décadas.

A Booking.com não é a única empresa que descobriu o poder dos experimentos online. Gigantes digitais como Amazon, Facebook, Google e Microsoft descobriram que eles são um divisor de águas quando se trata de marketing e inovação. Eles ajudaram a unidade Bing da Microsoft, por exemplo, a fazer dezenas de melhorias mensais, que coletivamente aumentaram a receita por pesquisa de 10% a 25% ao ano (veja “O surpreendente poder dos experimentos online”, HBRBR, janeiro de 2018). Empresas sem raízes digitais — como FedEx, State Farm e H&M — também adotaram o teste online para identificar os melhores pontos de contato digital, opções de design, descontos e recomendações de produtos.

“Em um mundo cada vez mais digital, se você não fizer experimentos em larga escala, a longo prazo — e em muitos setores a curto prazo — estará aniquilado”, disse Mark Okerstrom, CEO do Grupo Expedia. “Em qualquer momento realizamos centenas, se não milhares, de experimentos simultâneos, com milhões de visitantes. Por isso, não precisamos adivinhar o que os clientes querem; temos a capacidade de realizar, repetidas vezes, as “pesquisas” mais massivas que existem para que nos digam o que desejam.”

Mas, estudando mais de uma dúzia de empresas e analisando dados anonimizados de mais de mil experimentos, percebi que a Booking.com, a Expedia e outras do tipo são a exceção. Em vez de realizarem centenas ou milhares de testes online por ano, muitas empresas executam poucas dezenas e com pouco impacto.

Se o teste é tão valioso, por que as empresas já não o fazem? Depois de examinar a questão por vários anos, posso dizer que a razão central é a cultura. À medida que as empresas tentam aumentar sua capacidade de experimentação online, descobrem que os obstáculos não são ferramentas e tecnologia, mas condutas, crenças e valores compartilhados. Para cada experimento bem-sucedido, quase 10 não o são — e, aos olhos de muitas empresas que priorizam a eficiência, a previsibilidade e a “vitória”, tais falhas são desperdício.

Para que inovem com sucesso, as empresas precisam tornar a experimentação uma parte integrante da vida cotidiana — mesmo quando o orçamento é limitado. Isso significa criar um ambiente em que a curiosidade dos funcionários é cultivada, os dados falam mais alto que a opinião, qualquer pessoa (não apenas as de P&D) pode realizar ou encomendar um teste, todos os experimentos são feitos de forma ética e os gestores abraçam um novo modelo de liderança. Neste artigo, examinarei várias empresas que conseguiram fazer bem essas coisas, concentrando-me na Booking.com, cuja cultura de experimentação é das mais avançadas que encontrei.

CULTIVE A CURIOSIDADE
Toda empresa, começando pela liderança, precisa valorizar as surpresas, apesar da dificuldade de atribuir-lhes valor e da impossibilidade óbvia de prever quando e com que frequência ocorrerão. Quando as empresas adotarem esta mentalidade, a curiosidade prevalecerá, e as pessoas verão as falhas não como erros que custam caro, mas como oportunidades de aprendizado.

Um exemplo clássico ocorreu na Amazon quando se fez a revisão do Air Patriots, jogo para dispositivos móveis no qual os jogadores defendem torres do ataque inimigo com uma esquadrilha aérea. Quando a Amazon lançou a nova versão, a equipe de desenvolvimento ficou surpresa com o resultado: a taxa de retenção de sete dias caiu 70% e a receita caiu 30%. A equipe descobriu que, inadvertidamente, havia aumentado a dificuldade do jogo em cerca de 10%. A Amazon logo lançou uma correção, mas os desenvolvedores se perguntaram se tornar o jogo mais fácil aumentaria muito a retenção e a receita. Para descobrirem a resposta, fizeram um teste com quatro novos níveis de dificuldade, além de um controle, e viram que a variante mais fácil tinha melhor desempenho. Após alguns aperfeiçoamentos adicionais, a Amazon lançou uma nova versão — e desta vez os usuários jogaram 20% mais e a receita aumentou 20%. Um erro levou a um insight surpreendente, que se tornou o ponto de partida para novas experiências.

Infelizmente, reações desse tipo são anomalias. Em muitas empresas, o risco associado aos experimentos deixa os gestores relutantes em alocar recursos. Mas os ganhos obtidos pelas que botaram fé na estratégia deveriam dar às demais a coragem de segui-las.

Muitas empresas são conservadoras quanto à natureza e quantidade de experimentos. Enfatizar demais a importância de experimentos bem-sucedidos pode incentivar os funcionários a focar soluções familiares ou cuja eficácia já é conhecida e evitar o teste de ideias de resultado duvidoso. E, na verdade, realizar um grande número de experimentos é menos arriscado do que fazer apenas alguns. Na Booking.com, apenas 10% das experiências geram resultados positivos — ou seja, “B”, uma modificação destinada a promover algum tipo de melhoria (vendas, uso contínuo, taxas de cliques ou tempo que os usuários passam no site, por exemplo), tem melhor desempenho entre usuários selecionados aleatoriamente do que “A”, o controle, que é o statu quo (Além dos testes A/B, a Booking.com executa testes complexos que avaliam mais de uma modificação ao mesmo tempo).

Mas quando você realiza um grande volume de experimentos, mesmo uma baixa taxa de êxito se traduz em um número significativo de resultados positivos, o que, por sua vez, diminui os custos financeiros e emocionais das falhas. Se uma empresa faz apenas algumas experiências por ano, pode ter um só êxito — ou, se não tiver sorte, nenhum. Ou seja, fracassar é um ótimo negócio.

Nas empresas que estudei, a taxa de sucesso das ideias testadas no início do desenvolvimento de produto ou serviço totalmente novo é ainda menor. As falhas iniciais, no entanto, permitem que os desenvolvedores eliminem rapidamente opções desfavoráveis ​​e voltem a concentrar seus esforços em alternativas mais promissoras.

Em culturas experimentais, os funcionários não se deixam intimidar pela possibilidade de falha. “As pessoas que se destacam aqui são curiosas, de mente aberta, ansiosas para aprender e fazer descobertas e não se importam de errar”, disse Vermeer, que agora supervisiona todos os testes da Booking.com. Os recrutadores da empresa procuram pessoas assim e, para garantir que possam seguir seus instintos, a empresa coloca novos contratados em um rigoroso processo de integração, garantindo treinamento de experimentação e acesso a todas as ferramentas de teste.

INSISTA QUE DADOS PREVALEÇAM SOBRE OPINIÕES
Os resultados empíricos dos experimentos online devem prevalecer sobre opiniões fortes, independentemente de quem as emita. Esta é a conduta da Booking.com, embora rara na maioria das empresas por um motivo compreensível: a natureza humana. Tendemos a aceitar com alegria resultados “bons” que confirmam nossos vieses, mas desafiamos e investigamos minuciosamente os resultados “ruins” que contrariam nossas suposições.

A solução é implementar, com poucas exceções, as alterações que os experimentos validam. Como me disse um diretor da Booking.com: “Se o teste indicar que o cabeçalho do site deve ser rosa, então que seja rosa. Sempre siga o teste.” Não é fácil fazer com que executivos de alto escalão sigam tal regra (Como disse certa vez o escritor americano Upton Sinclair: “É difícil fazer com que um homem entenda algo quando é pago para não entender!”). Mas é vital que o façam, pois nada empaca mais a inovação do que o chamado HiPPO (highest paid person’s opinion, ou a opinião da pessoa mais bem paga, em tradução livre).

Não estou dizendo que todas as decisões de gestão podem ou devem ser baseadas em experimentos online. Algumas coisas são muito difíceis, se não impossíveis, de aferir por meio de testes — por exemplo, decisões estratégicas sobre aquisição de empresa.

Mas se todos os testes online forem feitos, os experimentos poderão tornar-se instrumentais para as decisões de gestão e estimular debates saudáveis. Às vezes, essas discussões podem resultar em uma escolha consciente de rejeitar os dados. Foi o que aconteceu com uma decisão sobre uma série cômica na Netflix, que construiu uma infraestrutura sofisticada para experimentação em larga escala. De acordo com um artigo do Wall Street Journal publicado em 2018, os executivos da empresa ficaram divididos ​​quando os testes mostraram que uma propaganda só com a imagem de Lily Tomlin, uma das estrelas de Grace e Frankie, resultou em mais cliques de espectadores em potencial do que quando ela parecia junto com a coestrela Jane Fonda. A equipe de conteúdo temia que excluir Fonda criasse uma indisposição com a atriz e possivelmente violasse seu contrato. Após debates acalorados que colocaram evidências empíricas contra “considerações estratégicas”, a Netflix optou por usar imagens que incluíam as duas atrizes, mesmo que os dados do cliente não apoiassem a decisão. No entanto, as evidências experimentais tornaram as vantagens e desvantagens mais transparentes.

DEMOCRATIZE A EXPERIMENTAÇÃO
Como observei, qualquer funcionário da Booking.com pode iniciar um experimento com milhões de clientes sem a permissão do gestor. Dos 1.800 funcionários de tecnologia e produtos, 75% usam ativamente a plataforma de experimentação da empresa. Modelos padronizados permitem que configurem testes com o mínimo de esforço, e processos como recrutamento de usuários, randomização, gravação do comportamento dos visitantes e produção de relatórios são automatizados. Uma equipe principal de experimentação e cinco equipes satélites costumavam fornecer treinamento e apoio a todos, mas como as necessidades mudaram, essa estrutura foi alterada recentemente para quatro equipes centrais subordinadas a Vermeer e a especialistas (“embaixadores”) divididos em equipes de produtos.

Para começar, indivíduos ou equipes preenchem um formulário eletrônico visível para todos e incluem o nome do experimento, finalidade, principais beneficiários (clientes ou fornecedores), experimentos anteriores relacionados e o número de modificações a ser avaliadas nos testes A/B, A/B/C ou A/ B/n. Quando um experimento é iniciado, a equipe o observa de perto nas primeiras horas; se as métricas principais ou secundárias caírem rapidamente, a equipe poderá interromper o teste. Após esse período inicial, a plataforma continua executando verificações automáticas da qualidade dos dados e envia mensagens avisando se algo estranho acontecer. Para incentivar a abertura, a Booking.com mantém um repositório central para pesquisas sobre experiências anteriores, com descrições completas de sucessos, falhas, iterações e decisões finais. E todos podem ver as informações em tempo real geradas por experimentos em andamento.

“Ironicamente, a centralização da infraestrutura de experimentação é o que possibilita a descentralização da empresa”, explicou-me Vermeer. “Todos usam as mesmas ferramentas. Isso promove a confiança nos dados de cada um e permite discussão e prestação de contas. Embora algumas empresas, como Microsoft, Facebook e Google possam ser mais avançadas tecnicamente em áreas como aprendizado de máquina, o uso dos testes A/B simples nos permite envolver a todos com maior êxito; democratizamos os testes em toda a empresa.”

A democratização, é claro, implica desafios. Um deles é o risco de que equipes ou indivíduos causem algum problema no site de alto tráfego da Booking.com, levando-o ao colapso. Outro é que cada equipe tem de definir sua própria direção e descobrir quais problemas do usuário deseja resolver. Isso requer treinamento extensivo e discussão contínua entre os membros da equipe sobre quais são os problemas certos. Os debates são incentivados e as pessoas procuram os colegas se veem algo aparentemente questionável. Assim como qualquer um pode começar um experimento, qualquer um pode pará-lo. No entanto, isso acontece apenas nas raras ocasiões em que um experimento passa a ter consequências catastróficas — por exemplo, se alguém fica sozinho no escritório à noite e percebe que um experimento está derrubando uma métrica chave, como a taxa de conversão de clientes e, se continuar, custará milhões de dólares para a empresa.

Esse sistema fornece às equipes a autonomia necessária para experimentar novas abordagens que considerem valiosas e permite que toda a empresa monitore os experimentos e forneça feedback em tempo real. Faz com que todos fiquem verdadeiramente livres para testar qualquer ideia com o objetivo de melhorar os negócios da Booking.com.

SEJA SENSÍVEL DO PONTO DE VISTA ÉTICO
Ao contemplarem novos experimentos, as empresas devem analisar com cuidado se os usuários considerariam os testes antiéticos. Embora a resposta nem sempre seja clara, as empresas que não fazem
isso correm o risco enfrentar reações.

Veja o experimento de uma semana que a Facebook realizou em 2012 para descobrir se, em sua plataforma, o estado emocional das pessoas era contagioso. A empresa reestruturou seu feed de notícias — uma lista de postagens, histórias e atividades por algoritmos — para verificar se a visualização de menos notícias positivas levava as pessoas a reduzir o número de postagens positivas. A rede testou também se o inverso se verificava quando as notícias eram menos negativas. Quase 690 mil usuários selecionados aleatoriamente participaram do experimento, dos quais 310 mil foram expostos, de modo involuntário, a expressões emocionais manipuladas que apareciam no feed de notícias, enquanto o restante foi submetido à condição controle, na qual foi omitido um número correspondente de posts escolhidos aleatoriamente.

Quando pesquisadores da Facebook e da Cornell University publicaram os resultados em um periódico acadêmico, a indignação pública eclodiu. Há anos a equipe de ciência de dados da Facebook realiza experimentos insuspeitos e sem controvérsia com os usuários, mas a manipulação emocional atingiu um ponto fraco. Os críticos questionaram se o consentimento dos participantes com a política geral de uso de dados da Facebook era suficiente; eles achavam que a empresa deveria ter deixado mais claro que os usuários poderiam optar por sair dos testes e que seus dados seriam coletados para pesquisas. Em termos de aprendizado, o experimento foi um sucesso: descobriu que o contágio emocional online existia, embora o efeito fosse muito pequeno. Mas alguns usuários acharam que, em nome da ciência, foram explorados pela Facebook.

Pesquisas indicam que as empresas que testam as ideias novas enfrentam maior escrutínio dos clientes do que concorrentes que introduzem novas práticas sem realizar nenhum experimento.

Em uma análise de 16 estudos em domínios como cuidados de saúde, design
de veículos e pobreza global, a bioética Michelle Meyer e colaboradores concluíram que, para os participantes, os testes A/B eram moralmente mais questionáveis ​​do que a adoção universal de uma prática não testada (A ou B) para toda a população — mesmo quando os dois tratamentos eram totalmente aceitáveis.

É claro que treinamento em ética e algum tipo de supervisão são necessários. O desafio é conduzir o último de modo a não tornar as pessoas excessivamente cautelosas ou amarradas à burocracia. Exatamente por esses motivos, a Booking.com evitou impor regras sobre o tipo de testes que podem ser realizados. Em vez disso, incentiva os funcionários a perguntar se um experimento ou prática ajudaria os clientes ou não. “Prefiro ficar longe de policiamento e comitês de ética”, disse-me David Vismans, diretor de produtos da Booking.com. Em vez disso, a empresa incentiva debates em fóruns internos online abertos a todos os funcionários.

Os debates, não raro acalorados, abordam questões como o uso de técnicas para convencer os clientes a concluir transações (mensagens como “por favor, faça a reserva agora ou você poderá perdê-la” ou “apenas três quartos disponíveis”). “Prefiro comunidades que corrigem a si mesmas”, explicou Vismans.

Para isso, o processo de integração da Booking.com inclui treinamento em ética. A LinkedIn, outra empresa com um grande programa de experimentação, adota abordagem um pouco diferente. Criou diretrizes internas que afirmam que a empresa não realizará experimentos “que visam proporcionar uma experiência negativa para os membros, têm o objetivo de alterar o humor ou as emoções dos membros ou anular as configurações ou escolhas dos membros existentes”.

ABRACE UM MODELO DIFERENTE DE LIDERANÇA
Ao democratizar a experimentação e seguir a direção indicada pelos resultados dos testes, as empresas podem capacitar os funcionários a tomar boas decisões por conta própria e acelerar a inovação e as melhorias. Mas se a maioria das decisões é tomada dessa maneira, que resta aos líderes seniores além de desenvolver a direção estratégica da empresa e tomar grandes decisões — por exemplo, que aquisições devemos fazer? Eles devem:

Definir um grande desafio que pode ser dividido em hipóteses testáveis ​​e métricas principais de desempenho. Os funcionários precisam garantir que seus experimentos estão assentados sobre uma meta estratégica geral. Digamos que os líderes seniores da Booking.com tenham desafiado os funcionários a projetar a melhor experiência online do setor. Eles podem esperar que uma experiência superior gere mais tráfego de clientes, o que atrairia mais fornecedores para a plataforma da Booking.com, ajudando a expandir ainda mais a base de clientes e suas atividades. Para descobrirem maneiras de atingir esse objetivo, os funcionários poderiam elaborar hipóteses e métricas relacionadas — por exemplo: sublinhar um texto importante aumentará as taxas de conversão, facilitando a localização de informações críticas, e oferecer uma opção de cancelamento de “um clique, sem custo” aumentará as taxas de retorno do usuário sem fazer caírem as reservas líquidas de hotel.

Estabelecer sistemas, recursos e design empresarial que viabilizem a experimentação em larga escala. O teste científico de quase todas as ideias requer infraestrutura: instrumentação, pipelines de dados e cientistas de dados. Diversas ferramentas e serviços de terceiros facilitam a realização de experimentos, mas, para aumentarem a escala, os líderes seniores devem integrar intimamente a capacidade de teste e os processos da empresa. Para fazer isso, é necessário encontrar o equilíbrio certo entre centralização e descentralização.

Em grupos centralizados, especialistas dedicados, como desenvolvedores, designers de interface do usuário e analistas de dados podem realizar experimentos para toda a empresa e se concentrar na introdução de métodos e ferramentas de ponta. Mas se os testes forem limitados a um pequeno grupo de especialistas, será difícil aumentar a escala da experimentação e mudar a cultura da empresa. Nos testes descentralizados, as empresas espalham equipes especializadas em diferentes unidades de negócios. Embora essa abordagem amplie a experimentação dentro da empresa, ela pode dificultar o compartilhamento de conhecimento e levar a objetivos conflitantes e a uma coordenação ineficiente entre especialistas. A descentralização pode ser necessária para envolver a empresa de forma mais ampla no início, mas depois disso as empresas devem voltar a melhorar sua capacidade de experimentação. Foi o que fez a Booking.com. Inicialmente, ela usou equipes satélites para disseminar as experiências pela empresa, mas descobriu que elas estavam ocupadas demais dando suporte aos usuários para se concentrarem no desenvolvimento de recursos em toda a empresa. Para resolver esse problema e melhor alinhar as equipes, a Booking.com mudou recentemente para um modelo de centro de excelência que apoia unidades de negócios, padroniza a abordagem da experimentação e garante que as melhores práticas sejam adotadas e seguidas.

Ser um modelo. Os líderes devem seguir as mesmas regras que os demais e submeter suas próprias ideias a testes. “Você não pode ter o ego inflado e pensar que sabe de tudo”, disse-me Tans. “Se eu, como CEO, dissesse a alguém, é isto o que eu quero que você faça porque acho que é bom para os nossos negócios”, o funcionário diria: “OK, tudo bem, vamos testar e ver se você está certo.”

Os chefes devem demonstrar humildade intelectual e não ter medo de admitir “eu não sei”. E seguir o conselho de Francis Bacon, o pai do método científico: “Se um o homem começa com certezas, terminará com dúvidas; mas se contentar-se em começar com dúvidas, terminará com certezas”.
Reconhecer que meras palavras não mudam o comportamento. Por fim, ser líder em empresa orientada para a experimentação significa abrir mão do controle e capacitar os funcionários a realizar seus próprios testes — o que não acontece apenas afirmando que as pessoas podem fazê-los. Isso requer um esforço conjunto como o da IBM.

Em 2015, a experimentação não era uma das atividades principais da IBM; a função de TI se ofereceu para realizar testes, mas, como eram caros, foram devolvidos às unidades de negócio e tiveram de seguir um processo rígido. A capacidade de teste foi atribuída a apenas um especialista que era também o gatekeeper. Ele rejeitou muitos experimentos porque achou que a proposta não era boa o suficiente. Como resultado, a empresa realizou apenas 97 testes naquele ano.

Então, Ari Sheinkin, na época chefe de analytics de marketing da IBM, assumiu a experimentação e, com o apoio do diretor de marketing, capacitou mais de 5.500 profissionais de marketing em todo o mundo para realizar seus próprios testes. Para induzi-los a fazer isso, Sheinkin tomou várias medidas. Instalou ferramentas fáceis de usar, criou um centro de excelência para fornecer apoio, introduziu uma estrutura para a realização de experimentos disciplinados, ofereceu treinamento para todos e tornou os testes online gratuitos para todos os grupos empresariais. Realizou também uma “blitz inicial de testes”, durante a qual as unidades de marketing tiveram de executar um total de 30 experimentos online em 30 dias. Depois disso, realizou concursos trimestrais para os experimentos mais inovadores ou com maior potencial de escala. Ele também empregou táticas mais contundentes: a IBM vinculou parte do orçamento das unidades de marketing aos planos de experimentação. Esses esforços funcionaram. Em 2018, o número de testes anuais subiu para 2.822.

Tornar realidade o poder transformador da experimentação requer firme compromisso. Com o tempo, as experiências resultarão em milhares de mudanças, pequenas e não tão pequenas, que, coletivamente, geram enormes benefícios. É essencial fornecer as ferramentas certas, e esta é a parte mais fácil, mas não suficiente para integrar a experimentação ao cotidiano. Vismans resume isso com perfeição: “Se eu tivesse de dar um conselho aos CEOs, seria este: testes em larga escala nada têm a ver com a técnica; é algo cultural que você precisa abraçar completamente. Faça a você mesmo duas perguntas: você está disposto a ser confrontado todos os dias por estar errado? E quanta autonomia você está disposto a dar às pessoas que trabalham para você? Se você responder que não gosta de estar errado e que não quer que os funcionários decidam o futuro de seus produtos, isso não vai funcionar. Você nunca colherá todos os benefícios da experimentação”.

A lição é que não importa se um experimento é bem-sucedido ou não; o que importa é como se dá a tomada de decisão em situações envolvidas pela incerteza. Elas não devem ser baseadas apenas na fé ou na opinião pessoal. Se for possível colocá-las à prova, isso deve ser feito.


Stefan Thomke é professor da cátedra William Barclay Harding da Harvard Business School e autor de Experimentation Works: the surprising power of business experiments (HBR Press, 2020).

Compartilhe nas redes sociais!

replica rolex