Você já deve ter lido em algum portal de notícias que a utilização de Big Data vai revolucionar o mundo dos negócios, a atuação do governo e outros aspectos importantes da economia. A evolução de ferramentas computacionais nas últimas décadas permitiu o armazenamento, organização, manipulação e análise de uma quantidade enorme de informações. Diariamente, são produzidos 2,5 quintilhões de bytes de dados, e 90% dos dados existentes atualmente foram gerados apenas nos últimos dois anos. Considerando esses números, podemos nos perguntar como essa quantidade imensa de dados poderia impactar as pesquisas na economia.

Mas o que é exatamente Big Data? Em 2001, Doug Laney identificou três dimensões sob as quais a gestão de dados seria desafiada nos próximos anos: Volume, Velocidade e Variedade. Essa é a origem do modelo “3Vs”, que serviu de base para conceituações subsequentes, como a da Gartner, que definiu Big Data como “ativos de informação de alto Volume de dados, alta Velocidade de geração (ou atualização) e grande Variedade de fontes (e formatos), que exigem formas de processamento inovadoras e eficientes e que permitem melhor compreensão, capacidade de tomada de decisão e automatização de processos”. Outros V’s foram adicionados ao modelo à medida que Big Data foi se tornando uma realidade em diversos contextos: Veracidade, referente à presença de ruído e viés em grandes conjuntos de dados, Volatilidade, referente às frequentes mudanças tecnológicas e de ambiente em que grandes conjuntos de dados são produzidos, e Valor, relacionado à dificuldade em se extrair informações relevantes de grandes fontes de dados.

Uma interessante aplicação de Big Data na área econômica ocorreu em um período que a Argentina enfrentava um problema de credibilidade institucional. Em um cenário de alta inflacionária, após o índice de preços ao consumidor (IPC) argentino atingir 12% em 2006, parte da diretoria e do corpo técnico do INDEC – Instituto Nacional de Estadística y Censos – responsável pela divulgação do índice oficial de preços, foi substituída ou demitida por ordem do poder executivo. Dadas as alterações metodológicas no computo do índice em 2008, somadas a denúncias de ex-funcionários do INDEC de que o governo estaria manipulando o IPC, setores da mídia, da academia e economistas em geral passaram a desconfiar das estatísticas oficiais. Além disso, índices de inflação regionais, compilados pelos governos das províncias argentinas, divergiam consideravelmente dos números nacionais do INDEC. O governo central, nesse caso, justificava que a divergência ocorria devido a problemas no tamanho das amostras de preços coletadas pelos governos locais.

Dada tamanha desconfiança em relação ao índice de inflação divulgado pelo INDEC, economistas e institutos independentes buscaram criar índices inflacionários alternativos. Por exemplo, em 2007, o índice oficial de inflação foi de 9,7%, ou seja, redução em relação ao ano anterior. Mas estimativas independentes da Torcuato di Tella University indicavam uma inflação real próxima dos 30% naquele ano. E, com o surgimento dessas estimativas independentes, o governo argentino começou a ameaçar, com multas e até prisão, quem publicasse índices alternativos de inflação.

Nesse contexto surgiu o trabalho em Big Data de Alberto Cavallo. Com o crescimento do comércio eletrônico nas últimas duas décadas, cada vez mais produtos e serviços passaram a ser ofertados “on-line”. Assim, surgia uma enorme “base de dados” distribuída na Internet com informações sobre preços. Cavallo então passou a coletar preços on-line de vários produtos em sites de varejistas da Argentina, Brasil, Chile, Colômbia e Venezuela, por meio de uma técnica denominada web scrapping. Basicamente um algoritmo específico, que pode ser desenvolvido em diversas plataformas, como Python, navega na página de um determinado varejista, busca por produtos pré-determinados, coleta seu preço e armazena em uma base de dados. Ou seja, esse método é caracterizado pelo alto grau de automatismo com que preços podem ser coletados, em grande volume e em alta frequência, vantagens consideráveis em relação aos métodos convencionais, que envolvem pesquisa presencial ou via telefone. Uma outra vantagem para Cavallo, especificamente no caso da Argentina, é que pôde realizar a pesquisa a partir dos EUA, ou seja, estava livre das ameaças do governo argentino (claro, excluindo a hipótese de querer retornar para sua terra natal naquele período).

Entre outubro de 2007 e março de 2011, Cavallo coletou em média 11 mil preços diários de sites de grandes supermercados daqueles cinco países. Com base nesses preços, o pesquisador pôde construir índices de inflação “on-line” para cada país. As conclusões de Cavallo foram interessantes: para Brasil , Chile, Colômbia e Venezuela, o índice de preços on-line se aproximava, em termos de nível e dinâmica, dos índices de inflação oficiais desses países, mesmo com algumas diferenças metodológicas entre a composição dos índices. Contudo, para o caso argentino, não houve convergência em termos de nível entre o índice on-line e o oficial. No período de análise (três anos e meio), enquanto o índice oficial indicava uma inflação na ordem de 35%, o índice on-line registrava mais de 100%. Ao realizar uma regressão entre os dois índices, Cavallo identificou que o índice oficial estaria subdimensionado, por mês, em média 0,84%. Porém, o que intrigou o pesquisador foi que, apesar da grande diferença em termos de nível, ambos os índices apresentavam grande correlação em relação a dinâmica dos preços.

Buscando explicar tais resultados, Cavallo formulou algumas hipóteses. Haveria alguma diferença em termos de nível entre os preços on-line e os preços nas lojas físicas do varejista pesquisado? Tal hipótese foi rejeitada com base em pesquisa presencial. O varejista, objeto da pesquisa on-line, seria não representativo? Também foi refutada quando o pesquisador expandiu sua coleta para outra rede de supermercados. O índice oficial poderia utilizar pesos maiores para produtos com preços controlados pelo governo? Tal suspeita também não se sustentou: como o controle de preços era intermitente, em momentos de relaxamento das restrições, as firmas aumentavam os preços acima da inflação, já que possuíam expectativa de sofrerem novas restrições. Por exemplo, os itens que sofriam controle de preços, em 2010, tiveram inflação de 40% pelo índice on-line. Após esgotadas essas e outras hipóteses, Cavallo sugere que a melhor resposta seria a mais simples: o INDEC manipularia consistentemente o índice inflacionário argentino, nas etapas finais de agregação, simplesmente divulgando algo que seria próximo de um terço do índice real.

Durante a realização desse trabalho, Cavallo e Roberto Rigobon fundaram o The Billion Prices Project, iniciativa acadêmica que coleta diariamente mais de 15 milhões de preços on-line, de mais de 1000 varejistas em 60 países. Também fundaram a PriceStats, empresa privada com o objetivo de produzir índices de preços em alta frequência para clientes dos setores financeiro e público. A conclusão de que preços on-line apresentariam comportamento similar aos preços off-line, em termos de dinâmica e nível, abriu portas para o uso dessa nova fonte de dados para pesquisas sobre preços, macroeconomia em geral e até economia internacional.

Por exemplo, Cavallo avaliou a rigidez dos preços on-line, importante mecanismo de transmissão da política monetária em diversos modelos macroeconômicos. Concluiu que os preços na Internet tendem a antecipar choques, reagindo de forma mais rápida que preços em lojas físicas. Tal observação não se deve a habilidade de se coletar os preços on-line em maior frequência, e sim devido a um menor custo de menu e competição de maior intensidade e transparência, características de ambientes de comércio eletrônico.

Outra pesquisa envolveu a utilização da base de dados de preços on-line como meio alternativo para calcular Paridade do Poder de Compra (PPC). Os pesquisadores apontam que, com uso de preços on-line, é possibilidade aumentar a frequência e a transparência da compilação do PPC em relação ao método tradicional, apesar de limitações da fonte de Big Data e diferenças metodológicas.

Os pesquisadores também puderam realizar ensaios sobre a Lei do Preço Único. A pesquisa tradicional sobre esse tema enfrenta barreiras devido à dificuldade em se obter preços para muitos bens idênticos, simultaneamente, em muitos países, situação em que o uso de preços on-line pode ser vantajoso. Ao utilizar sua base de dados, os pesquisadores verificaram que a Lei do Preço Único tende a ser verdadeira em países que possuem moeda em comum, por exemplo, na área do Euro ou em países em que o dólar é a moeda oficial. Ou seja, concluem, nesses casos, que fatores como distância e impostos não seriam tão importantes na formação de preços quanto se acreditava ser.

Essa é uma pequena amostra de como fontes alternativas de Big Data, indisponíveis até pouco tempo, podem ser utilizadas de formas inovadoras na área de pesquisa econômica.

Autores:

Bernardo Resch D’Oliveira possui graduação em Ciências Econômicas pela Universidade de Brasília (UnB) e é mestrando em Economia pela Universidade de Brasília (UnB).

Carlos Alexandre Piccioni é Engenheiro de Controle e Automação Industrial e Mestre em Engenharia Elétrica pela Universidade Federal de Santa Catarina (USFC). Atualmente, cursa doutorado em Economia na Universidade de Brasília (UnB).