L'ouvrage d'Arel-Bundock débute avec la question suivante : « Qu'est-ce que la causalité? ». L'auteur retrace les débuts de ce concept en citant le philosophe, David Hume, qui soutient que notre conception de l'existence est une succession temporelle d’événements contigus dans l'espace. Il existe un lien nécessaire entre deux événements si nous considérons l'un comme la cause et l'autre comme son effet. Cela a fortement influencé John Stuart Mill qui présente la « méthode de différence ». Il suffit de trouver deux cas semblables (A et B). Si nous introduisons la circonstance x dans le cas A (Ax), mais pas dans le cas B et que les cas divergent à la suite de l'introduction de x, il est possible de tirer la conclusion comme quoi x serait la cause de cette différence (Ax et B). Cela s'avère une tâche plutôt complexe en pratique de trouver deux cas identiques excepté ce qui concerne le phénomène à l’étude. C'est ce qui pousse le philosophe, David Lewis, à réviser la théorie causale en l'ancrant davantage dans un exercice de pensée. Pour Lewis, il faudrait se demander : « Que se serait-il passé dans un monde contre-factuel exactement identique au nôtre, mais où la cause aurait assumé une valeur différente? » (9). Cette approche théorique guide l'ouvrage d'Arel-Bundock, en mettant l'emphase sur la théorie causale qui serait souvent négligée dans les différents manuels d'analyse quantitative. Ces volumes suggéreraient la causalité de phénomènes alors qu'ils seraient davantage corrélationnels. Il donne l'exemple du lien qui unit la croissance de l'utilisation des cellulaires et des divorces au Canada. Ces deux phénomènes sont fortement corrélés alors que l'un ne cause pas nécessairement l'autre. Pour introduire à l'analyse causale, l'auteur divise le bouquin en quatre parties : l'analyse descriptive, l'analyse causale, les problèmes pratiques, et finalement les solutions empiriques afin de remédier à ces obstacles précis.
À titre introductif, Arel-Bundock montre comment présenter des données quantitatives et calculer des statistiques descriptives de base (moyenne, écart-type, variance, etc.). Le lecteur plus aguerri peut passer directement aux chapitres traitant de l'inférence et des régressions linéaires simples ou multiples.
Le cœur de l'ouvrage se déroule aux chapitres 6 et 7 alors que l'auteur explique comment un chercheur peut arriver à démontrer un lien de causalité entre deux ou plusieurs phénomènes. Pour le faire, il a recours aux graphes orientés acycliques (GOA) et au modèle causal Neyman-Rubin (MCNR). Le GOA est orienté, ce qui veut dire que les flèches qui le composent indiquent la direction de la relation causale. Il est également acyclique, il n'y a donc pas de chemin qui ramène au point de départ. Par exemple, la chaîne A→B→C serait un GOA. Pour pouvoir établir une relation causale entre cette suite, Arel-Bundock établit deux conditions : le modèle ne doit pas contrôler une variable en aval de la cause ciblée et le modèle doit être fermé. Pour fermer la suite A→B→C, le chercheur doit pouvoir contrôler l’élément B. Cet élément pourrait être une infection, l’élément A serait un comportement à risque et C deviendrait des brûlures. Si le médecin peut contrôler cet élément de la chaîne (en administrant des tests), il pourra savoir si la brûlure est causée par une infection (121). Le MCNR propose de définir « l'effet causal comme la différence entre ce qui arriverait à l'individu i s'il recevait le traitement, et ce qui arriverait au même individu s'il était assigné au groupe de contrôle » (139). En d'autres termes, la différence entre l'effet de ne pas subir le traitement et de suivre celui-ci représente l'effet causal.
En pratique, certains problèmes et biais peuvent survenir. L'auteur en présente quatre différents :
• Biais par variable omise; une relation observée entre deux variables peut être polluée si elle est causée par une autre variable ignorée par le modèle statistique.
• Biais de sélection; certains individus ne sont pas pris en compte par l'analyste ce qui rend l’échantillon non représentatif ou encore si les individus décident par eux-mêmes s'ils participent à l’étude ou non.
• Biais de mesure; lorsque l'instrument de mesure ne représente pas entièrement le phénomène étudié.
• Biais de simultanéité; cela survient lorsque la variable expliquée cause également la variable explicative (ex. : démocratie et croissance économique).
Pour pallier à ces différents obstacles ou encore pour les minimiser, certaines expériences peuvent être menées par le chercheur. Arel-Bundock en identifie quatre :
• L'expérience à assignations aléatoires; les groupes sont assignés de façon purement aléatoire. Ces groupes sont homogènes si le nombre d'individus qui les composent est suffisamment grand. Cela minimise les biais de variables omises.
• Variables instrumentales; il s'agit de prendre une cause antécédente de la variable explicative afin d’éviter les biais de sélection.
• Observations répétées; elles peuvent servir à atténuer certaines formes de biais comme ceux de variables omises ou de sélections.
• Modèle linéaire généralisé; il permet d'introduire des relations non linéaires et ainsi mieux mesurer les effets des variables explicatives sur la variable expliquée.
Bref, ce manuel de méthodes quantitatives est particulièrement accessible. Il est disponible en libre accès incluant les bases de données que l'auteur utilise dans ses exemples. Une série d'exercices sont également mis à la disposition du lecteur afin de bien intégrer le matériel. Il est également accessible par le niveau de langage utilisé par Arel-Bundock, il n'est pas nécessaire d'avoir de grandes connaissances en mathématiques afin de comprendre le contenu. Les exemples donnés sont concrets et pertinents pour les chercheurs en sciences sociales, ceux-ci sont tirés de différentes revues scientifiques dans les domaines de l’économie, la science politique, etc. La partie informatique est également claire et bien expliquée; aucune expérience en programmation n'est requise pour recréer les exemples.
Bien que ce volume soit une introduction aux méthodes quantitatives, certains sujets auraient mérité plus d'attention comme les problèmes entrainés par l'autocorrélation des termes d'erreurs ou encore lorsque les termes d'erreurs ont une variance différente (hétéroscédasticité). Présenter les différents tests pour détecter ces anomalies aurait été un bon complément.
Dans l'ensemble, c'est une lecture éclairante et qui peut servir d'aide-mémoire pour tout chercheur en science sociale.