Quando Jonathan Goldman foi trabalhar no LinkedIn, em junho de 2006, o clima na rede de contatos profissionais ainda era o de uma startup. O site tinha pouco menos de 8 milhões de contas, número que crescia depressa à medida que quem já se cadastrara convidava amigos e colegas para entrar na rede. Só que usuários não estavam buscando contato com gente que já estava na rede ao ritmo esperado pelos executivos da empresa. Obviamente, faltava algo na experiência social. É como disse um gerente do LinkedIn: “Era o mesmo que chegar à recepção de um congresso e ver que não há ninguém conhecido. Você fica ali no canto bebericando algo — e provavelmente vai embora logo”.

A atividade de conexão que vinha ocorrendo no site e a riqueza do perfil de usuários atiçaram a curiosidade de Goldman, doutor em física por Stanford. Era uma barafunda de dados que exigia pesada análise, mas foi só começar a explorar as idas e vindas de usuários para o executivo entrever possibilidades. Goldman começou a formular teorias, a testar palpites e a detectar padrões que lhe permitiam prever em qual rede um determinado perfil iria parar. Era sensato supor que recursos novos, fundados nas heurísticas que estava formulando, teriam valor
para usuários. Mas a equipe de engenharia do
LinkedIn, absorta no desafio de ampliar o site, não parecia interessada. O descaso de certos colegas pelas ideias de Goldman era flagrante. Por que o usuário precisaria do LinkedIn para descobrir qual sua rede? O site já tinha um recurso de importação de caderninho de endereços capaz de puxar todos os contatos da pessoa.

Por sorte, Reid Hoffman — cofundador do Linked-
In e à época seu presidente (hoje é o cabeça executivo do conselho) — tinha fé no poder da analítica devido à experiência na PayPal e dera a Goldman um alto grau de autonomia. Tinha, por exemplo, bolado um jeito de Goldman contornar o processo tradicional de lançamento de produtos. Como? Postando pequenos módulos em forma de anúncios nas páginas mais populares do site.

Com um módulo desses, Goldman começou a testar o que aconteceria se o site apresentasse ao usuário nomes de pessoas a quem ainda não estava ligado, mas que talvez conhecesse — gente que estudara na mesma instituição ou trabalhara na mesma empresa na mesma época em que o usuário. Para tanto, bolou uma peça personalizada que dava as três melhores dicas de novos contatos para cada usuário com base nos dados contidos em seu perfil no LinkedIn. Em questão de dias, ficou patente que algo extraordinário estava ocorrendo. A taxa de cliques nesses anúncios era a maior já vista. Goldman continuou a burilar o método de geração de sugestões, incorporando conceitos de rede como o de “fechar o triângulo”: a tese de que se você conhece Pedro e Maria, é bem provável que Pedro e Maria também se conheçam. Goldman e a equipe também resumiram a ação exigida para responder a uma sugestão a um único clique.

Não tardou para que a diretoria do LinkedIn visse que a ideia era boa e instalasse o recurso no site. Foi aí que a coisa realmente decolou. O boxezinho “Pessoas que talvez você conheça” atingiu uma taxa de cliques 30% maior do que a registrada por outros recursos que direcionavam o usuário para outras páginas do site. Gerou milhões de pageviews. Graças ao recurso, a trajetória de crescimento do LinkedIn embicou definitivamente para o alto.

Uma nova raça

Goldman é um bom exemplo de um novo ator de destaque em organizações: o “cientista de dados”, um profissional de alto escalão com qualificação e curiosidade para fazer descobertas no mundo do big data. A designação tem poucos anos de vida
(foi cunhada em 2008 por um de nós, D.J. Patil, e por Jeff Hammerbacher, que na época lideravam iniciativas de dados e analítica no LinkedIn e no Facebook, respectivamente). Hoje, contudo, já há milhares de cientistas de dados atuando tanto em startups como em empresonas estabelecidas. Sua súbita aparição na cena empresarial reflete o fato de que, hoje, a empresa precisa processar um volume e uma variedade de informações jamais vistos. Se sua organização coleta petabytes de dados, se a informação mais importante para sua atividade não está no formato de linhas e colunas de números ou se a resposta a sua maior interrogação envolve um “mashup” de várias iniciativas de análise, há uma oportunidade para a empresa no big data.

Muito do entusiasmo atual pelo fenômeno tem como alvo tecnologias que permitem o manejo do big data, incluindo o Hadoop (a estrutura mais empregada para o processamento de dados distribuídos) e ferramentas de código aberto correlatas, a computação em nuvem e a visualização de dados. Embora esses avanços sejam importantes, tão importante quanto, no mínimo, é gente com qualificação (e inclinação) para tirar proveito deles. Aqui, a demanda disparou à frente da oferta. Aliás, em certos setores a escassez de cientistas de dados começa a ser um sério entrave. A firma de capital de risco Greylock Partners, que investe na fase embrionária de projetos e já bancou nomes como Facebook, LinkedIn, Palo Alto Networks e Workday, está tão preocupada com essa escassez que montou uma equipe especial de recrutamento só para suprir empresas em sua carteira com cientistas de dados. “Quando [uma empresa] tem dados”, diz Dan Portillo, chefe da equipe, “é indispensável ter gente para processar isso tudo e tirar insights dali”.

 

clique na imagem para ampliar

 

Quem é esse profissional?

Se para tirar partido do big data é preciso um recurso escasso como o cientista de dados, o desafio, para gestores, é aprender a identificar esse profissional, atraí-lo para a empresa e torná-lo produtivo. Nenhuma tarefa dessas é simples como no caso de outras funções na organização, já estabelecidas. Partamos com o fato de que não há cursos de nível superior que ofereçam um título em ciência de dados. Além disso, há pouco consenso sobre o lugar que o cargo deveria ocupar na organização, como o cientista de dados agregaria o maior valor e de que maneira deveria ser aferido seu desempenho.

O primeiro passo para localizar cientistas de dados, portanto, é entender qual sua função na empresa. E, em seguida, indagar que qualificação esse profissional precisa ter e em que áreas seria mais fácil encontrar gente com esse currículo.

Acima de tudo, o cientista de dados faz descobertas enquanto está nadando por um mar de dados. É seu método favorito para navegar no mundo a seu redor. À vontade no universo digital, é capaz de estruturar grandes volumes de dados amorfos e tornar possível a análise. Esse profissional identifica fontes abundantes de dados, combina isso tudo com a informação potencialmente incompleta de outras fontes e depura o conjunto resultante. Em um cenário competitivo no qual desafios estão sempre mudando e o fluxo de dados é ininterrupto, o
ci
entista de dados ajuda os responsáveis por decidir a migrar da análise pontual para o diálogo permanente com os dados.

Embora saiba que enfrenta limitações técnicas, o cientista de dados não deixa que isso prejudique a busca de novas soluções. À medida que vai fazendo descobertas, informa o que aprendeu e sugere implicações dessas descobertas para novos rumos na empresa. Em geral, se vale da criatividade na hora de exibir informações visualmente e aponta padrões detectados de forma clara e convincente. Esse profissional orienta executivos e gerentes de produtos sobre implicações dos dados para produtos, processos e decisões.

Dado o estágio embrionário da ocupação, em geral compete ao próprio cientista de dados criar suas ferramentas e até conduzir estudos à moda acadêmica. A Yahoo, uma das empresas que logo cedo contratou uma turma de cientistas de dados, teve papel instrumental no desenvolvimento do Hadoop. A equipe de dados do Facebook criou a linguagem Hive para projetos de programação no Hadoop. Muitos outros cientistas de dados, sobretudo em empresas movidas a dados como Google, Amazon, Microsoft, Walmart, eBay, LinkedIn e Twitter, já reforçaram e aprimoraram esse instrumental.

Que tipo de pessoa faz isso tudo? Que habilidades garantem o sucesso de um cientista de dados? Imagine um profissional que seja um híbrido de hacker de dados, analista, comunicador e assessor de confiança. É uma combinação formidável — e rara.

Hoje, a competência mais básica e universal do cientista de dados é a capacidade de escrever código. Talvez não seja assim daqui a cinco anos, quando muito mais gente será identificada no cartão de visita como “cientista de dados”. Mais persistente será a necessidade de esse profissional se comunicar em linguagem que toda parte interessada possa entender — e de exibir particular habilidade para contar histórias com dados de forma verbal ou visual (ou, de preferência, ambas).

Diríamos, no entanto, que o traço dominante entre cientistas de dados é uma intensa curiosidade — o desejo de ir além da superfície de um problema, de chegar às interrogações em seu cerne e de sintetizar isso tudo em uma série de hipóteses bem claras que possam ser testadas. Em geral, isso requer o raciocínio associativo que caracteriza os cientistas mais criativos em qualquer campo. Um cientista de dados que vinha estudando um problema de fraude percebeu, por exemplo, que era análogo a um problema específico de sequenciamento de DNA. Ao juntar esses mundos tão distintos, ele e a equipe conseguiram criar uma solução que reduziu drasticamente perdas decorrentes de fraudes.

Talvez esteja ficando claro por que o termo “cientista” se aplica a essa nova função. O pessoal da física experimental, por exemplo, também tem de conceber equipamentos, coletar dados, conduzir experimentos e informar resultados obtidos. Daí empresas atrás de gente capaz de trabalhar com dados complexos terem tido sucesso ao buscar entre indivíduos com formação acadêmica ou experiência profissional em ciências físicas ou sociais. Alguns dos melhores cientistas de dados são doutores em disciplinas esotéricas como ecologia e biologia de sistemas. George Roumeliotis, chefe de uma equipe de cientistas de dados da Intuit, no Vale do Silício, é doutor em astrofísica. Menos surpreendente é o fato de muitos dos cientistas de dados atualmente em empresas terem recebido educação formal em ciência da computação, matemática ou economia. Um profissional desses pode vir de qualquer campo que tenha um foco forte em dados e computação.

É importante manter a imagem do cientista em mente — pois o complemento “dados” pode facilmente desencaminhar a busca de talentos. É como diz Portillo, da Greylock Partners: “A formação tradicional do profissional de dez ou 15 anos atrás simplesmente não serve nos dias de hoje”. Um analista quantitativo pode ser ótimo na análise de dados, mas não para digerir uma massa de dados desestruturados e deixá-la num formato que permita a análise. Um especialista em gestão de dados pode saber como ninguém gerar e organizar dados em formato estruturado, mas não ser bom para transformar dados desestruturados em dados estruturados — e tampouco para analisá-los. E, embora gente sem fortes habilidades sociais possa se dar bem em ocupações tradicionais envolvendo dados, o cientista de dados precisa desse traquejo para ser eficaz.

Roumeliotis frisou que não contrata com base na capacidade estatística ou analítica da pessoa. Ao buscar um cientista de dados, começa perguntando se o candidato é capaz de criar protótipos em uma linguagem de programação popular como a Java. Roumeliotis busca tanto dotes específicos — uma base sólida em matemática, estatística, probabilidade e ciência da computação — como certos hábitos mentais. Quer gente com faro para questões de mercado e empatia com o cliente. Segundo ele, essa base é reforçada então com treinamento na prática e um ou outro curso sobre uma tecnologia específica.

Várias universidades já planejam criar cursos de ciência de dados. Além disso, programas atuais de analítica, como o Master of Science in Analytics na universidade americana North Carolina State, estão incluindo exercícios e disciplinas de big data no currículo. Também há empresas tentando formar elas mesmas cientistas de dados. Depois de adquirir a firma de big data Greenplum, a EMC decidiu que a disponibilidade desse novo profissional seria um fator decisivo para a empresa — e seus clientes — explorar a imensidão de dados. Logo, sua divisão de ensino criou um programa de capacitação e certificação em ciência de dados e análise de big data. A EMC abriu o programa a funcionários e a clientes; parte do pessoal formado ali já está trabalhando em grandes iniciativas internas de big data.

Com o aumento da oferta de ensino, o estoque de talentos deve crescer. Fornecedores de tecnologias de big data também estão trabalhando para facilitar seu uso. Enquanto isso não ocorre, um cientista de dados achou um jeito original de preencher a lacuna. O Insight Data Science Fellows Program, um programa de pós-doutorado concebido por Jake Klamka (formado em física de alta energia), pega cientistas do meio acadêmico e, em seis semanas, prepara o indivíduo para atuar com sucesso como cientista de dados. O programa combina orientação de especialistas em dados de empresas locais (como Facebook, Twitter, Google e LinkedIn) com o contato com desafios reais de big data. Klamka, que idealizou o programa para dez estudantes, acabou aceitando 30 (de um total de mais de 200 candidatos). Outras organizações já fazem fila para participar. “A demanda por parte de empresas foi fenomenal”, diz Klamka. “É que simplesmente não há como acharem talentos assim, de alta qualidade.”

Por que um cientista de dados escolheria sua empresa?

Mesmo com o estoque de cientistas de dados crescendo, a disputa por bons profissionais continuará acirrada. Já se espera que o candidato avalie oportunidades de emprego com base em quão interessantes são os desafios de big data ali. É como disse um profissional desses: “Se quiséssemos trabalhar com dados estruturados, estaríamos no mercado financeiro”. Já que os profissionais mai

s qualificadas hoje vêm de áreas que não a administração, gerentes de contratação talvez tenham de achar um jeito de pintar um retrato instigante do potencial de grandes descobertas embutido em seus problemas.

A remuneração será, naturalmente, um fator. Haverá muitas portas abertas para um bom cientista de dados, o que elevará salários. Vários cientistas de dados hoje em startups contaram que exigiram e receberam grandes pacotes de opção de ações. Mesmo se a pessoa aceita o cargo por outras razões, a remuneração sinaliza um nível de respeito e o valor que, espera-se, o profissional vai agregar ao negócio. Mas uma sondagem informal que fizemos sobre prioridades de cientistas de dados revelou algo ainda mais importante: esse profissional quer estar na “central de comando”. A alusão é a Jornada nas Estrelas, a série de TV dos anos 1960 na qual o capitão da nave, James Kirk, depende muito dos dados fornecidos por Spock. Cientistas de dados querem estar por dentro de uma situação em curso, informados em tempo real sobre o conjunto cambiante de alternativas que a situação apresenta.

Considerando o difícil que é encontrar e segurar cientistas de dados, seria de supor que uma boa estratégia fosse contratá-los como consultores. A maioria das firmas de consultoria, no entanto, ainda não tem muitos profissionais do gênero. Até as grandes — Accenture, Deloitte, IBM Global Services — estão engatinhando quando o assunto é tocar projetos de big data para seus clientes. Recursos de cientistas de dados que já integram sua equipe estão sendo aplicados basicamente a problemas de análise quantitativa mais convencionais. É possível que as primeiras a apostar pesado em cientistas de dados sejam provedoras especializadas em serviços de analítica, como a Mu Sigma.

Mas os cientistas de dados com quem falamos dizem que querem criar coisas, e não só dar conselhos a um tomador de decisão. Um deles descreveu a vida do consultor como “uma zona morta: tudo o que você faz é dizer aos outros o que a análise indica que deveriam fazer”. Ao criar soluções eficazes, o cientista de dados pode ter mais impacto e deixar a própria marca como pioneiro na profissão.

Cuidados básicos

Cientistas de dados não convivem bem com rédea curta. Devem ter liberdade para experimentar e explorar possibilidades. Isso posto, precisam de um relacionamento estreito com o resto da empresa. Em seu caso, os laços mais importantes a forjar são com executivos a cargo de produtos e serviços, não com indivíduos no comando de departamentos da empresa. Como mostra o caso de Jonathan Goldman, sua grande oportunidade de agregar valor não está em criar relatórios ou apresentações para altos executivos, mas sim em inovar com processos e produtos voltados ao cliente.

O LinkedIn não é a única empresa a recorrer a cientistas de dados para gerar ideias para produtos, recursos e serviços que agreguem valor. Na Intuit, cientistas de dados precisam gerar insights para clientes de pequenas empresas e consumidores e
estão subordinados a um novo vice-presidente sênior de big data, design social e marketing. A GE já está usando a ciência de dados para otimizar contratos de serviços e intervalos de manutenção de produtos industriais. O Google, naturalmente, usa cientistas de dados para aprimorar algoritmos de busca e distribuição de anúncios, dois carros-chefes da empresa. A Zynga usa cientistas de dados para otimizar a experiência dos jogos tanto para gerar envolvimento a longo prazo como receita. A Netflix entrega um prêmio, o Netflix Prize, à equipe de cientistas de dados que criar a melhor maneira de melhorar o sistema de recomendação de filmes da empresa. A empresa de preparação de testes Kaplan usa cientistas de dados para descobrir estratégias eficazes de aprendizagem.

Há, no entanto, um potencial perigo em colocar gente com forte conhecimento de um campo em rápida evolução para trabalhar com colegas da gestão geral da empresa. Isso porque o cientista de dados vai interagir menos com especialistas como ele, algo necessário para manter seu know-how afiado e seu jogo de ferramentas na vanguarda. Cientistas de dados têm de se conectar com comunidades de prática, tanto no âmbito de uma grande empresa como externamente. Hoje, já há congressos e associações informais para dar apoio à colaboração e à partilha de tecnologia. Cabe à empresa incentivar sua equipe de cientistas a tomar parte dessas iniciativas, com o entendimento de que “quando a maré sobe, todos os barcos sobem junto”.

Além disso, quanto mais se espera do cientista de dados, maior tende a ser sua motivação. Os desafios de acesso e estruturação do big data às vezes deixam pouco tempo ou energia para análises sofisticadas envolvendo projeções ou otimização. Já quando executivos deixam claro que simples relatórios não bastam, o cientista de dados vai aplicar mais energia a análises avançadas. Big data não deve ser sinônimo de “matematiquinha”.

A profissão da década

“A profissão da hora na próxima década será a de estatístico.” A frase é atribuída a Hal Varian, economista-chefe do Google. “Todo mundo acha que estou brincando, mas quem teria imaginado que a engenharia da computação teria sido a profissão da hora na década de 1990?”

Se ser “da hora” significa ter qualidades raras, muito procuradas, cientistas de dados já estão lá. São profissionais difíceis de achar, caros de contratar e, dado o mercado altamente disputado para seus serviços, difíceis de segurar. Simplesmente não há muita gente com essa combinação de formação científica e habilidades computacionais e analíticas.

Cientistas de dados hoje são como os “quants” de Wall Street nas décadas de 1980 e 1990. Lá atrás, profissionais com formação em física e matemática foram trabalhar em bancos de investimento e fundos de hedge, onde podiam criar algoritmos e estratégias de dados totalmente novos. Na esteira, uma série de universidades criou cursos formais de engenharia financeira. Deles saiu uma segunda geração de talentos mais acessível a empresas de modo geral. O padrão voltou a se repetir na década de 1990 com engenheiros da pesquisa cujo know-how, difícil de achar, logo entraria para o currículo de cursos de ciência da computação.

Uma dúvida que isso suscita é se seria mais sensato, para certas empresas, esperar até que chegue essa segunda geração de cientistas de dados e que o profissional seja mais abundante, menos caro e mais fácil de avaliar e assimilar no ambiente empresarial. Por que não deixar o trabalho de caçar e domesticar talentos exóticos a startups de big data e empresas como GE e Walmart, cujas estratégias, agressivas, obrigam que estejam na vanguarda?

O problema com esse raciocínio é que o avanço do big data não dá sinais de estar arrefecendo. Se cruzar os braços nessa fase inicial da tendência, a empresa corre o risco de ficar para trás à medida que concorrentes e parceiros de canal forem adquirindo uma vantagem quase imbatível. Imagine o fenômeno do big data como uma onda de proporções épicas ganhando força no momento. Para pegá-la, a empresa precisa de gente capaz de surfar. 

 

T

homas H. Davenport é professor visitante da Harvard Business School, assessor sênior da Deloitte Analytics e coautor de As Melhores Decisões São Sempre Difíceis (Campus, 2012).

D.J. Patil é cientista de dados da Greylock Partners, foi diretor de produtos de dados do LinkedIn e é autor de Data Jujitsu: The Art of Turning Data into Product (O’Reilly Media, 2012).

Share with your friends









Submit