Da empirische Tests von Kausalaussagen, die aus Theorien abgeleitet werden, in den Sozialwissenschaften an Bedeutung gewinnen, sehen sich Forschende, die auf Beobachtungsdaten zurückgreifen, mit der Unzulänglichkeit ihrer Datensätze zur Abschätzung kausaler Effekte konfrontiert. Im Gegensatz zu experimentellen Designs können Forscher die Zuordnung der Behandlung nicht beeinflussen, was zu verzerrten Ergebnissen führt. Zum Beispiel beeinflusst die (Selbst-) Auswahl von talentierteren Menschen in Trainingsprogramme die Einschätzung der Effizienz der Programme, wenn wir einfach Teilnehmer mit Nichtteilnehmern vergleichen.
Statistisches Matching bietet eine Lösung für dieses Problem, indem „statistische Zwillinge“ gefunden werden, einer mit und einer ohne Behandlung. Die gebräuchlichste Matching-Technik, das Propensity Score Matching, ist jedoch langsam und schwierig anzuwenden. Coarsened Exact Matching (CEM) bietet eine alternative Lösung, die schneller und einfacher zu verstehen ist. Es vergröbert die Daten vorübergehend nach den Vorstellungen der Forscher (dh eher in groben Altersgruppen als in genauen Geburtstagen) und findet dann genaue Übereinstimmungen. Doch wird dieser Gewinn an Geschwindigkeit und Einfachheit gegen einen Mangel an Gültigkeit eingetauscht?