Em um recente e excelente artigo publicado neste Blog (Aprendizado e Tempo na Escola), Rafael Terra e Luis Felipe Oliveira avaliam, para o caso do Brasil, em que medida ampliar o tempo de permanência na escola melhoraria os indicadores de resultado do processo educacional. As conclusões do artigo são pessimistas: essa alternativa de política não teria os resultados que a intuição supõe uma vez que a relação custo/benefício seria francamente desfavorável a esse tipo de iniciativa.
Contudo, nosso objetivo neste post não consiste em comentar ou debater esse artigo específico ou esse resultado particular senão utilizar o mesmo para induzir uma reflexão sobre os nexos entre matrizes teóricas, o conceito de ciência e as propostas de avaliação de políticas públicas. Como bem sustentam Rafael e Luis Felipe no post, elevar a eficiência e eficácia dos recursos públicos alocados em programas e projetos passa pela sua avaliação de impacto. Essa avaliação deveria acompanhar, em termos metodológicos, um savoir-faire já amplamente consolidado em áreas como a medicina, veterinária, agronomia, etc.. A efetividade de um tratamento ou política teria que ser mensurado comparando a evolução e o desfecho de dois grupos escolhidos de forma aleatória: aquele sobre o qual foi aplicado o “tratamento” (a política ou a intervenção) e um outro não submetido ao tratamento (ou sobre o qual foi utilizado um placebo), denominado de grupo de controle. Na sua forma mais pura, este experimento teria que se singularizar por ser “duplo cego”, premissa segundo a qual nem os técnicos que realizam o experimento nem os integrantes dos grupos sabem que unidades fazem parte do grupo de tratamento ou do grupo de controle. Além desses aspectos pouco aplicáveis ao campo das ciências sociais (como a economia), podemos agregar outros. Por exemplo, questões éticas (um grupo social não é escolhido para participar de um programa simplesmente para servir de grupo de controle). Um outro exemplo da limitação de estender esta metodologia a áreas alheias à medicina, veterinária, etc. está vinculado à possibilidade mesma de realizar um experimento. Dada essa dificuldade, nas últimas décadas, na medida em que esta alternativa de pesquisa empírica foi se sedimentando como uma boa possibilidade de aproximar a economia às ciências denominadas de “duras”, os economistas tentam identificar fenômenos que se aproximem do mundo ideal “experimental”. Por exemplo, um caso pioneiro e talvez o mais conhecido, foi a utilização, por Card e Krueger (1994), do aumento, em 1992, do salário mínimo em New Jersey. Na medida em que no vizinho Estado de Pennsylvania o valor não foi alterado, a comparação da evolução do emprego em ambos Estados podia ser utilizado como uma proxy de uma avaliação experimental do impacto na variação do patamar mínimo de salários sobre o emprego no segmento de mão-de-obra não qualificada (mais especificamente, na ocupação nos fast-foods). Na medida em que, no modelo canônico, uma elevação do mínimo impacta negativamente na demanda de mão-de-obra, a identificação desse conjunto não afetado pela política é utilizado como contra-factual[2]. Ou seja, basicamente se estaria tentando responder a esta pergunta: que teria acontecido senão houvesse passado o que passou? Dessa forma, estaríamos ambicionando amoldar uma metodologia (RTC- Randomized Controlled Trial) utilizada em certas ciências para as ciências sociais (economia entre elas) e, mais especificamente, para a avaliação do desenho de políticas (Evidence-Based Policy).
Ao levar esse tipo de abordagem para a economia, a aspiração seria concretizar uma antiga pretensão dos economistas: distinguir seu nicho das ciências sociais em geral, uma vez que suas hipóteses ou modelos teriam que passar pelo crivo de uma metodologia de avaliação (Evidence-Based) que prove sua pertinência, metodologia similar à utilizada por outras ciências denominadas de “duras”. Nesse sentido, a afirmação de Rafael e Luis Felipe é ilustrativa:
“Infelizmente, a criação e as reformulações dos programas no Brasil não levam em conta a necessidade de avaliação. É um problema recorrente. O novo governo faria muito bem às finanças públicas se buscasse incorporar desenhos experimentais ou quase-experimentais para avaliar os programas implementados”
Esse tipo de perspectiva tem no J-PAL (Abdul Latif Jameel Poverty Action Lab), do MIT, um referencial acadêmico que ancora sua pertinência. A tarefa realizada no âmbito do J-PAL consiste, basicamente, em utilizar a metodologia que sintetizamos nos parágrafos anteriores para avaliar políticas, programas e projetos na área social ao redor do mundo. Assim, podem ser encontrados resultados de avaliação de impacto da construção de escolas sobre salários e escolarização em Indonésia (Duflo (2001)), o resultado da informação do vírus HIV sobre as práticas sexuais dos adolescentes em Quênia (Dupas (2011)) ou o desdobramento da distribuição de uniformes nos alunos, também em Quênia, avaliação na qual se chega à conclusão que essa disponibilidade reduz o absentismo em 38% (Evans, Kremer and Ngatia (2008)). Poderíamos estender os exemplos. Nos seus primeiros dez anos (foi criado em 2005), o J-Pal realizou mais de 400 avaliações experimentais em mais de 50 países.
Neste artigo pretendemos discutir três aspectos: qual é o referencial teórico que pauta cada uma dessas avaliações ? Qual a contribuição que cada uma delas (cada avaliação) realiza para consolidar ou alterar o modelo canônico ou algum outro paradigma? Qual é o status da teoria nessa nova cultura de avaliação?
Comecemos pelo primeiro aspecto. Qual é o referencial teórico que norteia as pesquisas? A resposta é mais ou menos óbvia: nenhum. Um modelo de referência foi substituído pelo bom senso, pela intuição, pelo feeling, etc.. Distribuir uniformes nas escolas, tem impacto positivo sobre os resultados do processo educativo? Pode ter, pode não ter, talvez tenha. A intuição nos diz que pode ser relevante, mas nada garante. A participação e engajamento da comunidade na escola, pode melhorar a qualidade dos resultados? Pode, o bom senso nos diz que sim, mas depende de que tipo de engajamento, não todos (Pradhan et al. (2012)). Por outra parte, essa ambivalência no resultado encontrado por Pradhan et al. pode ser válido para Indonésia, lugar onde a avaliação experimental foi realizada, mas não podemos generalizar.
Ou seja, não precisamos de teoria ou marco conceitual para pautar uma avaliação. O bom senso pode induzir um experimento ou, alternativamente, o objetivo pode consistir na avaliação de um programa do governo ou a proposta de um candidato.
Mas não estaremos diante um processo de produção de conhecimentos eminentemente indutivo? Em outros termos, conclusões de caráter universal podem ser acumuladas para nutrir ou testar um marco conceitual existente ou outro a ser construído? A resposta volta a ser negativa por dois motivos. Primeiro que não existe um modelo teórico prévio que está sendo testado e, nesse sentido, não existe um marco conceitual já existente a ser validado empiricamente ou sofisticado ou consolidado. Simplesmente não existe teoria pré-existente. Por outra parte, a avaliação experimental, ao não ter um arcabouço analítico que a fundamente, fica limitada ao entorno temporal e geográfico no qual foi implementada. A distribuição de uniformes escolares reduz o absentismo em Quênia. Podemos concluir que a distribuição de uniformes reduz o absentismo em todo lugar? Óbvio que não. Reduz em Quênia e o resultado está circunscrito ao espaço no qual foi realizada essa avaliação dentro desse país. Vejamos o caso do Brasil. Se no Rio Grande do Sul realizamos uma avaliação experimental e o resultado nos diz que a merenda escolar eleva o rendimento dos alunos, podemos sustentar que em Roraima esse resultado é válido? Evidente que não. Na ausência de um modelo referencial, quantas validações experimentais são necessárias para que a relação de causalidade encontrada (ou não encontrada) possa adquirir uma singularidade universal ? É impossível saber e sempre pairará a dúvida se os resultados achados em dado espaço geográfico e temporal manifestam um correlação universal ou não.
Assim, não estamos diante um processo de pesquisa indutivo. A vocação da literatura na área, é preciso reconhecer, não tem essa pretensão. Nesse sentido, essa opção metodológica (avaliação experimental ou quase experimental) foi adotada pelo mainstream na tentativa de tornar mais próxima a economia das ciências duras. Contudo, paradoxalmente, o processo leva a tornar mas longínqua a possibilidade de um paralelo. Tomemos o caso da evidence-based medicine. Se um dado experimento determina que um coquetel de drogas inibe o avanço do vírus HIV, esse resultado será válido para Suíça, Burkina-Faso e Japão. Os resultados de Dupas (2011) sugerem que as condutas sexuais dos adolescentes quenianos parecem sensíveis às informações sobre AIDS, com impactos nas taxas de gravidez. Mas será que os adolescentes de Honduras terão a mesma resposta ? Não sabemos. Em outros temos: fica em aberto a questão da validação externa.
Essa impossibilidade de generalização fica mais evidente em certos papers. Tomemos o caso do artigo de Evans, Kremer and Ngatia (2008) que pretende quantificar o impacto da distribuição de uniformes escolares sobre indicadores educacionais. O resultado parece positivo. Mas isso na média. Concretamente, a sensibilidade vai depender se o aluno é do sexo masculino ou feminino, da faixa etária, depende se já tinha uniforme ou não, entre outros aspectos. Não se tem um modelo que dê sentido ao experimento e não se pretende universalizar: “cada caso é um caso”. Bem longe da física, da medicina, etc..
Assim, paradoxalmente, temos que a tentativa de aproximar a economia das ciências ditas duras evidencia de forma nítida as particularidades das ciências sociais em geral e da economia em particular.
Mas a questão agora é: qual é o status da teoria nesse contexto?
A condição atual dessa tendência a privilegiar a avaliação de impacto (seja ela experimental ou quase-experimental) parece nos aproximar a uma espécie de esquizofrenia. Temos os modelos teóricos, cada vez mais sofisticados e, sem diálogo com eles, se tornam corriqueiros crescentes esforços de avaliação, também cada vez mais refinados estatisticamente e com uma cada vez maior disponibilidade de amplos bancos de dados.
Nesse contexto, a teoria parece um exercício de lógica quase teológico ou, nas palavras de Romer (2015, p. 93), é um “entretenimento”. Vamos reproduzir suas palavras:
“…empirical work is science; theory is entertainment”
Essa falta de diálogo entre teoria e experimento fica evidente entre a prática cotidiana de um economista hoje e os cursos teóricos oferecidos na sua formação. O salário real é igual à produtividade marginal do trabalho, se ensina em Micro e Macro. Segundo o paradigma hegemônico, e descartando certos descompassos que podem ser provocados por algum grau de monopólio por parte dos empregadores, uma elevação do salário mínimo deveria gerar desemprego. Mas se uma avaliação como a realizada por Card e Krueger (1994) não identifica esse impacto, o modelo canônico é desqualificado? Não, uma vez que podemos realizar outras avaliações e esse paradigma poderia ser confirmado. Ou, alternativamente, surge uma polêmica sobre as ferramentas estatísticas utilizadas, a consistência dos dados utilizados, etc.[3] Os resultados encontrados alimentam a construção de algum outro paradigma? Também não.
Nos encontramos, assim, diante de uma segmentação entre teoria e práticas empíricas. Por uma parte se apela à necessidade de avaliações para atestar a eficácia e eficiência dos recursos aplicados, um objetivo louvável. Contudo, dado o empiricismo que permeia essa abordagem, os resultados ficam restritos a um determinado projeto/programa/política, a uma determinada área geográfica e a um dado momento do tempo. A agregação de conhecimentos e sua universalização ficam comprometidas dada a ausência de marcos analíticos de referência. A aspiração de nos assemelhar às ciências duras ainda constitui uma utopia.
Professor do Departamento de Economia, UnB. Graduação na Universidad de Buenos Aires, Mestrado na Universidade de Brasília, doutorado na Université Paris-Nord. |
Bibliografia Citada
Card, D.; Krueger, A.L., Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania” American Economic Review. 84(4). p. 772-793. 1994.
Duflo, E., “Schooling and Labor Market Consequences of School Construction in Indonesia: Evidence from an Unusual Policy Experiment” American Economic Review. 91(4). p. 795-813. 2001.
Dupas, P., “Do Teenagers Respond to HIV Risk Information? Evidence from a Field Experiment in Kenya” American Economic Journal. Applied Economics. 1(3) p. 1-34. 2011
Evans, D., Kremer, M. and Ngatia, M. “The Impact of Distributing School Uniforms on Children’s Education in Kenya” Working Paper. World Bank. 2008. (Disponível em: https://bit.ly/2SfGI9d; consultado em novembro de 2018).
Pradhan, M. et al., Improving Educational Quality through Enhancing Community Participation: Results from a Randomized Field Experiment in Indonesia. Working Paper. World Bank. 2012.
Romer, P.M., “Mathiness in the Theory of Economic Growth” American Economic Review: Papers & Proceedings. V. 105. p. 89–93. 2015
- / Professor do Departamento de Economia, UnB. ↑
- / No caso específico do exercício de Card e Krueger (1994), o impacto negativo da elevação do salário mínimo sobre o emprego não foi identificado. Esse artigo deu margem a uma ampla polêmica cuja resenha está fora de nossos objetivos neste post. ↑
- / Justamente, isso foi o que sucedeu com o artigo em questão que abriu uma ampla polêmica técnica/estatística, mas o paradigma teórico ficou incólume. ↑
Comentários