À mesure que les tests empiriques d’allégations causales dérivées de théories deviennent plus importants dans les sciences sociales, les chercheurs qui s’appuient sur des données d’observation sont confrontés à l’insuffisance de leurs ensembles de données pour estimer les effets causaux. Contrairement aux conceptions expérimentales, les chercheurs ne peuvent pas influencer l’attribution du traitement, ce qui conduit à des résultats biaisés. Par exemple, la (auto)sélection de personnes plus talentueuses dans les programmes de formation influence l’estimation de l’efficacité des programmes, lorsque nous comparons simplement les participants aux non-participants.
L’appariement statistique offre une solution à ce problème en trouvant des « jumeaux statistiques », l’un avec et l’autre sans traitement. La technique d’appariement la plus courante, l’appariement du score de propension, cependant, est lente et difficile à appliquer. La correspondance exacte grossière (CEM) offre une solution alternative, plus rapide et plus facile à comprendre. Il grossit temporairement les données en fonction des idées des chercheurs (c’est-à-dire dans des groupes d’âge grossiers plutôt que des anniversaires exacts), puis trouve des correspondances exactes. Pourtant, ce gain de rapidité et de simplicité s’échange-t-il contre un manque de validité ?