Les expériences en économie : des expériences de terrain aux expériences en laboratoire
Le LABEX-EM à la Faculté des Sciences Economiques de Rennes
Lab University of Melbourne
Lab Cirano, University of Montreal
USA Caltech Social Science Laboratory
Les méthodes expérimentales ont eu un impact massif sur la recherche en économie, principalement en économie du travail, de l’éducation et du développement et sont à l’origine de ce que l’on appelle la « révolution de la crédibilité » en économie (Angrist et Pischke, 2010 ; Imbens, 2010).
Randomized field experiments
Artefactual "Lab in the field" experiments
Source : experiment run in Tanzania from Di Falco S., B. Magdalou, D. Masclet, M.C. Villeval and M. Willinger (2020), "Can Shorter Transfer Chains and Transparency Reduce Embezzlement?", Review of Behavioral Economics: Vol. 7: No. 2, pp 103-143.
Laboratory experiments
L’expérimentation en économie comme outils d’aide à la décision
Longtemps l’économie a été considérée comme une science non expérimentale contrairement à la médecine par exemple qui mobilise intensivement les méthodes expérimentales. Ainsi, en économie, l’on devait se contenter d’observer les effets d’une politique, d’un programme particulier pour en évaluer son impact sur la société (évaluation d’impact) en recourant à des études observationnelles. Une étude observationnelle est une étude où le chercheur observe simplement le sujet sans contrôler aucune variable. Or la difficulté que doivent surmonter les chercheurs lorsqu’ils cherchent à mesurer l’impact d’une politique publique est la (re)construction statistique de ce que l’on appelle la situation "contrefactuelle", c’est-à-dire « ce qui se serait passé en l’absence de la politique étudiée». En effet, pour mesurer l’impact causal réel d’une politique, il faudrait idéalement pouvoir comparer un monde identique avec et sans cette politique (c'est l'hypothèse toute chose égale par ailleurs ("ceteris paribus"). Malheureusement, il est bien souvent difficile, voire impossible d’observer au même moment, dans le même lieu, les mêmes conditions et pour les mêmes individus, ce qui se passerait avec ou sans une politique publique particulière. C’est ce que les économètres appellent le problème fondamental d’inférence causale.
A partir de données observationnelles, l’évaluateur peut tenter d’approcher la situation contrefactuelle en examinant la situation qui préexistait avant la mise en place de la politique (design avant/après) ou celle des individus ne bénéficiant pas de la politique (design avec/sans). Malheureusement, ces deux comparaisons sont généralement biaisées.
La comparaison avant / après souffre d’un biais de conjoncture car d’autres facteurs notamment conjoncturels peuvent influencer le résultat observé. La comparaison avec/sans, quant à elle, qui consiste à comparer un groupe de personnes affectées par un programme à un groupe de personnes non affectées peut engendrer un biais de sélection. Un biais de sélection résulte du fait qu'il est peu probable que les deux populations soient parfaitement comparables. Par exemple, l’on peut raisonnablement penser que les individus qui ont accepté de participer au programme ont des caractéristiques observables et/ou inobservables différentes de ceux qui ont refusé le programme. Cette différence entre les deux groupes doit être prise en compte au risque sinon d'avoir des estimateurs biaisés.
En pratique il existe deux solutions pour résoudre ces deux biais : soit créer artificiellement ex post une situation contre factuelle à partir de la quasi-expérimentation, soit créer ex ante un réel contrefactuel à l’aide de l’expérimentation randomisée.
La première technique (dite ex post) consiste à recourir à la quasi expérimentation. Les méthodes quasi-expérimentales utilisent des données d’observation préexistantes pour estimer l’effet d’une politique publique en tentant de se placer au plus près de conditions expérimentales. Il s’agit donc de reproduire artificiellement une situation contrefactuelle à partir de données observationnelles. On peut par exemple recourir aux techniques de matching qui consistent à reconstruire un groupe de contrôle et un groupe de traitement à partir des caractéristiques observables dans la base de donnée si l’on dispose de données de type avec/sans. L'idée est que pour chaque individu dans le groupe test, l’on va sélectionner un individu dans le groupe de contrôle ayant le plus de caractéristiques observables identiques possible (sexe, âge, éducation…). Une autre technique appelée régression en discontinuité consiste à identifier une situation où l’allocation dépend d’une règle de sélection relative à un seuil d’éligibilité au programme, par exemple un programme social disponible à partir d’un certain seuil de revenu. L’idée est que les individus juste en-dessous du seuil et ceux juste au-dessus ont a priori des caractéristiques observables et inobservables assez similaires alors que seuls les derniers ont accès au traitement. Cette discontinuité permet de comparer l’effet net d’un programme sur les traités proche du seuil d’éligibilité en utilisant comme groupe de contrôle les individus non traités mais aussi proches de ce seuil. Une autre méthode appelée méthode des variables instrumentale consiste à limiter les effets du biais de sélection en identifiant des facteurs (les variables instrumentales) qui impactent la probabilité de participer ou pas au programme mais pas la variable d’intérêt. On peut également recourir aux expériences naturelles qui consistent à chercher dans la vraie vie, dans « la nature » une population n'ayant pas été impactée par la politique mais qui a des caractéristiques proches. Il peut s'agir d'un groupe de personne, d'une région, d'un état voisin, etc. L’on recourt ensuite généralement à la méthode de la double différence (en anglais « difference in difference » ou DiD) qui vise à comparer les deux groupes d’individus, l’un dit de traitement (touché par le dispositif qu’on cherche à évaluer) et l’autre dit de contrôle qui n’est pas touché. La méthode consiste alors à faire la différence entre la situation après et avant la réforme dans chacun des groupes et à en faire la différence (d’où le nom de double différence ou de différence en différence). La réalisation d’une double différence nécessite des données sur le paramètre d’intérêt sur deux périodes, une période pré-programme et une période post-programme, et ce, pour un groupe traité et un groupe non traité.
La seconde technique (dite ex ante) consiste à réaliser une « vraie » expérimentation aléatoire à l’instar des expériences réalisées en biologie ou en médecine pour évaluer l’effet d’un traitement. Une expérience randomisée consiste à comparer deux groupes formés aléatoirement à partir d’un échantillon d’individus : un groupe de traitement, au sein duquel les individus sont sujets à une intervention expérimentale et un groupe de contrôle utilisé comme groupe de référence (Duflo 2006).
Le principe clé de l’expérimentation randomisée réside dans la randomisation de l’allocation du traitement qui permet de garantir qu’en moyenne, pour un échantillon suffisamment important, les individus auront a priori des caractéristiques observables et inobservables identiques. Ce processus de randomisation permet ainsi de résoudre ex ante le problème de biais de sélection. Cette méthode permet donc d’obtenir des groupes de traitement et de contrôle a priori statistiquement similaires et donc comparables. Par ailleurs, Le fait de comparer la situation des individus avant et après la mise en place du programme dans les deux groupes par la méthode de double différence permet de résoudre le problème de biais de conjoncture.
Il faudra attendre les années 60 pour voir apparaitre les premières expérimentations sociales de grande échelle réalisées notamment aux Etats-Unis (l’expérimentation du New Jersey menée en 1968 pour tester un dispositif d’impôt négatif; le programme Moving to Opportunity, mis en oeuvre aux Etats-Unis entre 1994 et 1998 pour favoriser la mobilité résidentielle des ménages pauvres; le Self Sufficiency Project au Canada en 1994, programme octroyant des primes à des bénéficiaires d’aide sociale pour les inciter au retour à l’emploi ; le Progresa-Oportunidades depuis1997 pour faciliter la scolarisation d'enfants pauvres au Mexique. En France, la première expérimentation aléatoire de grande ampleur a été réalisée en 2007 afin d'évaluer les effets des opérateurs privés d’accompagnement des demandeurs d’emploi inscrits à l’ANPE (Behaghel, Crépon et Gurgand, 2009).
La troisième technique (également ex post) consiste à mettre en place des expériences en laboratoire qui permettent d’étudier l’impact de certains mécanismes en reproduisant artificiellement un contexte économique, une situation économique dans un laboratoire avec de vrais participants et des transactions monétaires réelles. Les données issues de ces expérimentations en laboratoire ont l’avantage d’être contrôlées, adaptées à un contexte précis qui intéresse l’expérimentateur et le décideur. De plus, les décisions en laboratoire sont des décisions "effectives" (l’incitation monétaire est en effet un pilier de la méthode expérimentale en économie). Ainsi l'on peut tester en laboratoire les prédictions d’un modèle théorique en étant le plus proche des hypothèses du modèle. C’est ainsi que la problématique des dilemme sociaux (le dilemme du prisonnier) a été testée dans les années 50 en laboratoire à la rand corporation par John Nash , prix Nobel d’économie en 1994. Les expériences en laboratoire qui sont apparues aux Etats unis et en Allemagne dans les années 50 ont été couronnées au début des années 2000 par l'attribution du prix Alfred Nobel en 2002 à Vernon Smith et Daniel Kahneman pour leurs travaux en économie expérimentale. A l’instar des expériences randomisées de terrain, les expériences en laboratoire recourent également au principe de randomisation. Ainsi au sein d’une même population un groupe de contrôle et un groupe test sont choisis aléatoirement de sorte que les deux groupes devraient être a priori homogènes. Toutefois, à la différence des expériences randomisées de terrain, les décisions ne sont pas prises sur le terrain mais dans un environnement totalement contrôlé en laboratoire ou les décisions sont prises à l’aide des ordinateurs, de façon anonyme et sont gratifiées monétairement afin d’inciter les individus à révéler véritablement leurs préférences plutôt qu'elles ne restent hypothétiques. Ainsi au lieu demander dans une enquête si un individu aime le risque, on lui demande de le prouver par ses décisions de choix de loteries qui sont rémunérées. C’est en ce sens, que les expériences en laboratoire permettent d’aider le décideur public selon Alvin Roth (1987) (« Whispering in the Ears of Princes »). C'est la conception également développée par Vernon Smith (1982) dans laquelle le laboratoire économique devient l'occasion "d'études en souffleries" (Economic laboratory as a wind-tunnel). L'économie expérimentale offre, par exemple, la possibilité d'évaluer les effets d'un changement de politique publique dans le cadre d'un environnement contrôlé. Par exemple, elle permet d'isoler l'incidence fiscale ceteris paribus. Dans ce domaine, nous pouvons citer entre autres les travaux de Vernon Smith sur les modes d'organisation des marchés de l'électricité aux Etats-Unis. En 1981, Grether, Isaac et Plott réalisent une étude expérimentale sur l'allocation des créneaux aériens aux compagnies, qui est devenu une référence dans ce domaine. Plus récemment, en 2001, l’Etat de Virginie a mandaté l’équipe d’un expérimentaliste renommé, Charles Holt, pour établir des procédures d’enchères et évaluer leurs différents impacts dans la cadre de la gestion des ressources en eau, utilisées lors de l’irrigation des terres. Cette expérience, initialement en laboratoire, puis en grandeur réelle, a eu un succès certain et a contribué à prouver que l’économie expérimentale pouvait constituer un outil d’aide à la décision efficace (Voir Ronald Cummings et al. (2004)).
Experimentation in Economics as a Decision-Making Tool
For a long time, economics has been considered a non-experimental science, unlike fields such as medicine, which extensively employ experimental methods. Consequently, economists have had to rely on observational studies to evaluate the effects of policies or programs on society (impact evaluation). An observational study involves the researcher observing subjects without controlling any variables. However, a significant challenge in measuring the impact of public policies is the statistical reconstruction of the "counterfactual situation"—what would have happened in the absence of the policy under study. Ideally, to measure the true causal impact of a policy, one would compare identical worlds with and without the policy (the "ceteris paribus" assumption). Unfortunately, it is often difficult, if not impossible, to simultaneously observe what happens with and without a particular policy under the same conditions, in the same place, and for the same individuals. This dilemma is known among econometricians as the fundamental problem of causal inference.
From observational data, evaluators can approximate the counterfactual situation by examining conditions before the policy's implementation (before/after design) or comparing individuals who did not benefit from the policy (with/without design). However, both comparisons tend to be biased. The before/after comparison suffers from time-series bias because other temporal factors can influence the observed results. The with/without comparison, which contrasts a group affected by a program with an unaffected group, can lead to selection bias. Selection bias occurs because the two groups are unlikely to be perfectly comparable. For instance, individuals who choose to participate in a program may have different observable and/or unobservable characteristics from those who opt out. This difference must be accounted for to avoid biased estimators.
There are two practical solutions to address these biases: artificially create a counterfactual situation ex post through quasi-experimentation or establish a real counterfactual ex ante using randomized experimentation.
The first technique, ex post quasi-experimentation, uses pre-existing observational data to estimate a policy's effect by approximating experimental conditions. This involves artificially reproducing a counterfactual situation from observational data. For example, matching techniques reconstruct a control group and a treatment group based on observable characteristics. Each individual in the test group is paired with an individual in the control group with the most similar observable traits (e.g., gender, age, education). Another technique, regression discontinuity, identifies situations where allocation depends on an eligibility threshold, such as a social program available only above a certain income level. Individuals just below and just above the threshold have similar characteristics, but only the latter receive the treatment, allowing for a comparison of the program's net effect. The instrumental variable method identifies factors that influence program participation probability but not the outcome variable. Natural experiments involve finding a comparable population unaffected by the policy. The difference-in-differences (DiD) method compares treated and untreated groups before and after the policy implementation. This requires data on the variable of interest for both pre- and post-program periods for both groups.
The second technique, ex ante randomized experimentation, involves conducting true randomized experiments similar to those in biology or medicine. A randomized experiment randomly assigns individuals to a treatment group, which receives the intervention, and a control group, which serves as a reference. Random allocation ensures that, on average, both groups have similar observable and unobservable characteristics, thus addressing selection bias. Comparing pre- and post-program situations in both groups using the difference-in-differences method also mitigates time-series bias. Large-scale social experiments began in the 1960s, particularly in the United States, with notable examples including the New Jersey negative income tax experiment (1968), the Moving to Opportunity program (1994-1998), Canada's Self Sufficiency Project (1994), and Mexico's Progresa-Oportunidades program (since 1997). In France, a significant randomized experiment was conducted in 2007 to evaluate private operators assisting job seekers registered with the National Employment Agency (Behaghel, Crépon, and Gurgand, 2009).
The third technique, also ex post, involves conducting laboratory experiments to study the impact of specific mechanisms by simulating an economic context with real participants and monetary transactions. Laboratory experiments offer controlled conditions tailored to the experimenter's and decision-maker's specific interests. Decisions made in the laboratory are incentivized with monetary rewards, a cornerstone of experimental economics. Laboratory experiments test theoretical models under controlled assumptions, such as John Nash's prisoner's dilemma experiments at RAND Corporation in the 1950s. Laboratory experiments, which emerged in the United States and Germany in the 1950s, gained prominence with the 2002 Nobel Prize awarded to Vernon Smith and Daniel Kahneman for their contributions to experimental economics. Like randomized field experiments, laboratory experiments rely on randomization, ensuring homogeneity between control and test groups. However, decisions in the laboratory differ from those in randomized field experiments.
Méthodes quasi-expérimentales vs. expériences randomisées vs expériences en laboratoire ?
Quelles méthodes privilégier ? Les méthodes quasi-expérimentales ont l’avantage de mobiliser peu de moyens et permettent d’éviter des problèmes éthiques, politiques et comportementaux que peuvent induire une allocation randomisée. Par ailleurs, elles sont utiles dès lors qu’il n’est pas possible de réaliser des expériences randomisées pour des raisons pratiques ou éthiques. Toutefois, ces approches reposent souvent sur des outils économétriques complexes, supposent une très grande qualité des données et l’on peut également être parfois dubitatifs quant aux choix des variables instrumentales utilisées. Enfin, si elles permettent de résoudre une partie des biais de conjoncture ou de sélection, elles ne peuvent pas les supprimer totalement.
Les expériences en laboratoire quant à elles offrent une très grande validité interne dans la mesure ou le contrôle permis par le laboratoire permet de s’assurer qu’aucune autre variable que celle de la variable indépendante d’intérêt n’a d’effet sur la variable dépendante (l’outcome). Ainsi le design expérimental permet de tester les prédictions théoriques d’un modèle en étant au plus proche des hypothèses du modèle. En cela les expériences en laboratoire ont une meilleure validité interne que les expériences randomisées de terrain. Toutefois les expériences en laboratoire ont une moins bonne validité externe que les expériences de terrain. Avoir une bonne validité externe, c’est savoir dans quelle mesure les résultats de l'expérience peuvent également être transférés à d'autres situations/contextes et à d'autres personnes (généralisation). Ainsi en terme de validité externe des expériences en laboratoire, l’on peut s'interroger sur le choix des sujets qui participent aux expériences dans la mesure où les expérimentalistes ont recours généralement à des jeux standards impliquant des étudiants. Les questions de la décontextualisation des instructions ou du niveau relativement faible des gratifications ont également été largement débattues parmi les expérimentalistes.
Au final, chacune des méthodologies présentées ci-dessus est complémentaire aux autres que substituable. Le choix de la méthode va davantage dépendre des données disponibles, des contraintes en terme de ressources mobilisables et des hypothèses nécessaires pour rendre crédible la construction du contrefactuel. Dans l’idéal, il conviendrait de mobiliser conjointement plusieurs méthodologies, cela afin de pouvoir identifier au mieux l’impact d’une politique publique, le plus en amont possible pour éviter de mettre en place une politique qui s’avèrerait finalement trop couteuse et surtout inefficace.
Quasi-experimental methods, randomized experiments, and laboratory experiments each have distinct advantages and disadvantages, and the choice between them depends on various factors.
Quasi-experimental methods are often preferred because they require fewer resources and avoid the ethical, political, and behavioral issues associated with random allocation. They are also useful when randomized experiments are impractical for logistical or ethical reasons. However, these approaches often rely on complex econometric tools and require high-quality data. There may also be concerns about the choice of instrumental variables used. While quasi-experimental methods can address some biases, they do not completely eliminate them.
Laboratory experiments offer high internal validity because the controlled environment ensures that only the independent variables of interest affect the dependent variable. This allows for precise testing of theoretical predictions and closely aligns with the model's assumptions. However, laboratory experiments typically have less robust external validity than field experiments, as it may be challenging to generalize the results to other contexts or populations. Additionally, participants in laboratory experiments are often students, raising questions about sample representativeness.
Ultimately, each methodology is complementary, and none is entirely substitutable for the others. The choice of method depends on available data, resources, and the hypotheses necessary to construct the counterfactual. Ideally, multiple methodologies should be used in conjunction to obtain the most accurate assessment of a public policy's impact. This approach helps to avoid costly and ineffective policies by providing a comprehensive evaluation before implementation.