Dados

Você entende a variância de dados?

Thomas C. Redman
24 de setembro de 2019

É muito fácil para os gestores perceberem as mudanças no mundo dos negócios. Algumas campanhas de marketing produzem ótimos resultados, enquanto outras nem tanto. Há momentos em que a cadeia de fornecimento funciona sem exigir nenhum esforço, e outros em que as etapas se confundem. Em alguns dias os números são bons e em outros simplesmente não fazem sentido. A variação é o principal inimigo do gestor, tornando mais difícil entender o que está realmente acontecendo, fazer previsões importantes e ficar sob controle.

Leia também:

Como definir melhores metas de vendas com ferramentas analíticas

Quando os algoritmos pioram a vida dos gestores

Não precisa ser assim. Compreender a variação fornece o contexto necessário, bem como indicação de oportunidade, e ajuda os gestores a manter o controle quando algo sai errado. Os gestores precisam aprender como medir a variação, entender o que esses números dizem sobre seu negócio, decompor e, quando necessário, reduzir.

Aconselho os gestores a compreender a variação e suas causas. Ao fazer isso, têm o contexto necessário, indicação de oportunidade, o que os ajuda a manter o controle quando algo sai errado. Considere o seguinte exemplo: A figura abaixo mostra as taxas de erros das três primeiras semanas do processo de faturamento:

 

 

Taxa de Erros de Empresa Hipotética: Semanas 1 a 3

% de faturas com erro

Semana

Fonte: Thomas C. Redman

 

Após a segunda semana, a gestora responsável sentiu-se constrangida – o desempenho de sua equipe era mesmo tão ruim? Após a terceira semana, suspirou aliviada. A taxa de erros podia estar alta, mas pelo menos, a tendência estava na direção correta! Ela incentivava sua equipe a “trabalhar com mais afinco para diminuir a taxa de erros”. Finalmente, a equipe estava prestando atenção!

Infelizmente, sua interpretação da situação não foi confirmada. Veja as mensurações para as próximas sete semanas:

Taxas de Erros de Empresa Hipotética: Semanas 1 a 10

% de faturas com erro

Semana

Fonte: Thomas C. Redman

 

 

A ilusão dessa gestora veio por água abaixo na semana seguinte, quando a taxa de erros cresceu ainda mais! O erro ocorreu porque ela não havia entendido que, em geral, todos os processos variam, de maneira considerável!

Esta figura enfatiza o primeiro ponto, que tem a ver com simplesmente reconhecer que a variação é importante e deve ser levada em conta. Especificamente, deve-se sempre perguntar: “quais os pontos negativos e positivos em relação aos números?” e entender as implicações. Após a terceira semana desse exemplo, o resultado é de 50% +- 8% (de 42% a 58%). Os “8%” correspondem a dois desvios padrão; uma medida de variabilidade explicada mais abaixo. Se ela tivesse levado isso em conta, essa gestora não teria precipitadamente creditado suas exortações às tropas com uma melhoria que não estava lá. Generalizando um pouco mais, deve-se assumir que as diferenças dos valores de mais ou menos devem se à aleatoriedade e resistem às tentações de aceitar crédito ou atribuir culpa.

À medida que você estuda melhor os números, é importante entender as fontes da variação. Por exemplo, todo mundo sabe que alguns adultos são mais altos do que outros, e é muito fácil observar que os homens, em média, são mais altos do que as mulheres. Assim, nesse exemplo, o gênero é um componente de variação. De maneira semelhante, os holandeses são em geral mais altos, e os filipinos, em geral, mais baixos. A nacionalidade, portanto, constitui outra fonte de variação.  É importante entender essas fontes de variabilidade se você trabalha no setor de vestuário, porque senão, você poderia acabar enviando um número grande demais de calças curtas para lojas de roupas na Holanda.

Essas fontes se tornam cada vez mais importantes quando você passa a levar em conta as medidas da variação. Ao final das contas, você não pode administrar o que você não mensura! As duas medidas mais importantes de variabilidade chamam-se, como mencionado acima, “desvio padrão” (σ) e “R-ao quadrado (R2). Não fique desanimado com os nomes que não são intuitivos. Em vez disso, concentre-se na interpretação.

Pense na variação de um desvio padrão (1σ) abaixo da média para um desvio padrão acima da média que inclua cerca de dois terços de uma população como um todo. Portanto, como mostra a figura abaixo, cerca de dois terços de mulheres adultas norte-americanas medem entre 1,54m e 1,70m. Pense nas médias mais ou menos de dois desvios padrão (2σ) como incluindo 95% da população, como mostra o gráfico. Para as mulheres norte-americanas, isso significa que somente 5% das mulheres medem menos que 1,47m ou mais que 1,77m. Do mesmo modo, a gestora responsável pelo processo de faturamento deve esperar que 95% de todas as medidas fiquem entre 42% e 58% e enfatizem sua interpretação incorreta de 46% na terceira semana.

Por último, pense na média de três desvios padrão (3σ) para mais ou menos que incluem todas, exceto uma fração de uma porcentagem de uma população.

Estatura de mulheres adultas nos EUA

A estatura média é de 1,60m e o desvio padrão é de 12 cm.

Frequência

Média

Estatura

Fonte: Thomas C. Redman, utilizando dados de tall.life

 

 

Considere R2 como a “fração de uma variação devido a uma determinada fonte.” O gráfico seguinte mostra a estatura de homens e mulheres. Observe que os homens são cerca de 12 cm mais altos, em média, e sua estatura mostra uma pequena variação maior. Quando falamos em estatura, é claro que homens e mulheres são diferentes. Além disso, a população combinada de homens e mulheres varia ainda mais. Mas, quanto da variação da população combinada explica-se pelo gênero?

A resposta é cerca de um terço. Portanto, gênero é um fator importante, mas há muito mais acontecendo. (Nota: Planilhas de Excel, Google, e bons pacotes estatísticos e analíticos fornecem os cálculos necessários).

Os gestores devem almejar identificar o maior número possível de importantes fontes de variabilidade. Já observei que gênero e nacionalidade são duas fontes. A idade pode muito bem ser uma terceira fonte, e pode-se identificar muitas outras. Cada uma tem sua própria R2 e, quanto maior a R2, mais importante a fonte. Uma vez que você tenha encontrado uma fonte de variação importante, ponha sua atenção na criação de uma vantagem comercial.

Muito importante, R2 também se aplica a modelos inteiros. Portanto, há uma R2 até para o modelo de medição de estatura mais complicado. Novamente, quanto maior o R2, melhor o modelo.

Estatura de homens e mulheres nos EUA

32% da variação total (R2) é explicada por gênero

Homens                              Mulheres

Frequência

Fonte: Thomas C. Redman, utilizando dados de tall.life.

Vamos ver novamente o exemplo da taxa de erros da equipe. Os cálculos para mais ou menos são em geral baseados em dois desvios padrão. Os “8%” dos “50% +- 8%” acima correspondem a 2σ. A gestora responsável, retratada no exemplo, pode esperar que 95% dos números fiquem entre 42% e 58%, enfatizando sua interpretação incorreta de 46% na terceira semana.

Entender σ e R2 permite aos gestores fazer previsões melhores, estabelecer controle, e melhorar o desempenho. As previsões mais simples utilizam limites de 3σ para mais ou menos. No gráfico seguinte, acrescentei esses limites (chamados limites de controle superiores e inferiores, e rotulados “ucl” e “lcl” no gráfico) cinco semanas no futuro. A gestora pode agora prever com segurança que, a não ser que tomem medidas ativas para mudar o processo, o desempenho do processo ficará dentro desses limites no futuro previsível.

 

Taxa de erros prevista para processo de faturamento de empresa hipotética

Taxa de erros                                    Média                                  Limite de controle

% de faturas com erros

Semana

Fonte: Thomas C. Redman

 

Para deixar claro, nenhum gestor deveria ficar satisfeito com qualquer um desses níveis de desempenho ou com a variação a eles associada e essa gestora não era diferente. Ela e sua equipe foram fundo, buscando – depois eliminando – duas fontes de variação. Este trabalho levou várias semanas, levando ao gráfico abaixo.

Taxa de erros do processo de faturamento de uma empresa hipotética

Taxa de erros                                                    Média                                                  Limite de controle

% de faturas com erro

Semana

Fonte: Thomas C. Redman

 

É importante observar que a tarefa dessa gestora ficou muito mais fácil a partir da 24ª  semana.
O desempenho do processo foi melhor, sendo que três quartos da variação foram eliminados, o que facilitou prever um futuro melhor.

Entender a variação é uma ferramenta poderosa para seu banco de dados. Assim, primeiro busque compreender, quantificar e identificar as importantes fontes de variação. Depois, reduza aquelas que você puder e leve as outras em conta para obter vantagem comercial. Embora não sejam explícitas sobre isso, todas as melhores e mais populares técnicas relativas à ciência de dados têm como objetivo ajudá-lo a fazer justamente isso.

A variação não precisa ser sua inimiga. As oportunidades são muitas.


Thomas C. Redman, “the Data Doc,” é Presidente da Data Quality Solutions. Redman ajuda empresas e pessoas, incluindo startups, multinacionais, executivos, bem como líderes de todos os níveis a traçar o curso para o futuro orientado a dados. Ele coloca ênfase na qualidade, processo analítico e recursos organizacionais.

Compartilhe nas redes sociais!

replica rolex