Hostname: page-component-cd9895bd7-hc48f Total loading time: 0 Render date: 2024-12-26T18:28:48.046Z Has data issue: false hasContentIssue false

Pour une classification sémantique des noms en français appuyée sur des tests linguistiques

Published online by Cambridge University Press:  28 July 2022

Pauline Haas*
Affiliation:
Université Sorbonne Paris Nord & Lattice (UMR 8094, CNRS, ENS & Paris Sorbonne Nouvelle; PSL & USPC)
Lucie Barque
Affiliation:
Université Sorbonne Paris Nord & LLF (UMR 7110 CNRS et Université Paris Cité)
Richard Huyghe
Affiliation:
Université de Fribourg
Delphine Tribout
Affiliation:
Université de Lille & STL (UMR 8163 - CNRS)
*
Corresponding author: pauline.haas@univ-paris13.fr
Rights & Permissions [Opens in a new window]

Résumé

Cet article propose une méthode de classification sémantique des noms qui repose sur l’application de tests distributionnels. Sont présentées 14 classes sémantiquement simples regroupées en trois pôles : (i) les noms dénotant des entités (comme cerf, pont, table), (ii) les noms dénotant des situations (comme promenade, intelligence, délabrement) et (iii) les noms relevant de classes en marge des deux précédentes (comme minute, hypothèse, euro). S’y ajoutent 7 classes complexes permettant de rendre compte du sens hybride que présentent nombre de noms, tel que, par exemple, le nom déposition qui renvoie de manière combinée à une action et à un objet cognitif (Elle a lu la déposition effectuée par le jeune homme). Cette classification permet non seulement d’attribuer aux noms, de manière contrôlée, des types sémantiques linguistiquement pertinents, mais également de traiter les différents cas de noms à sens multiples (homonymie, polysémie, hybridité).

Type
Article
Creative Commons
Creative Common License - CCCreative Common License - BY
This is an Open Access article, distributed under the terms of the Creative Commons Attribution licence (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted re-use, distribution and reproduction, provided the original article is properly cited.
Copyright
© The Author(s), 2022. Published by Cambridge University Press

Introduction

Dans cet articleFootnote 1 , nous présentons une classification sémantique à gros grain des noms du français, fondée sur des tests linguistiques. Les entreprises de classification comportent, comme on le sait, des limites, qui tiennent notamment à la nécessaire discrétisation de phénomènes distribués sur un continuum. La classification des faits en extension peut poser problème, car elle requiert souvent une représentation rigidifiée de certaines propriétés. Les classifications présentent néanmoins l’intérêt de proposer une grille d’analyse qui permet d’appréhender les éléments à classer et d’identifier leurs propriétés distinctives. In fine, le recours aux catégories, si celles-ci sont envisagées en tant que pôles de classification, apparaît plus éclairant que problématique théoriquement. De fait, les travaux en linguistique font régulièrement appel aux classifications sémantiques, que ce soit à finalité directe ou indirecte (s’agissant de rendre compte de faits connexes, tels que les restrictions de sélection pesant sur les arguments d’un prédicat ou les opérations sémantiques associées à la construction morphologique).

Il existe dans la littérature des propositions de classification sémantique des noms en français (Gross Reference Gross1996, Flaux et Van de Velde Reference Flaux and Van de Velde2000, Huyghe Reference Huyghe2015), et certaines classes ont fait l’objet de travaux spécifiques (Balibar-Mrabti Reference Balibar-Mrabti1995, Van de Velde Reference Van de Velde1995, Godard et Jayez Reference Godard and Jayez1996, Grossmann et Tutin Reference Grossmann and Tutin2005, Haas et al. Reference Haas, Huyghe, Marín, Durand, Habert and Laks2008, Goossens Reference Goossens2009, Flaux et Stosic Reference Flaux, Stosic, de Saussure and Rihs2012, entre autres). L’identification des catégories distinguées n’est cependant pas toujours étayée par le recours à des tests linguistiques systématisés. Par ailleurs, la classification des lexèmes dans les travaux théoriques est rarement envisagée en extension, avec pour objectif une couverture lexicale complète ni basée sur une méthodologie de classification. Inversement, les ressources lexicales ou lexicographiques existantes proposent des descriptions couvrantes, mais les critères de classification sont rarement explicités. La description sémantique des noms repose souvent sur la seule évaluation référentielle, et donne l’impression de s’apparenter à un classement des objets du monde plutôt qu’à l’identification de propriétés linguistiques distinctives (cf. par exemple WordNet pour l’anglais, Petrolito et Bond Reference Petrolito, Bond, Orav, Fellbaum and Vossen2014).

Nous adoptons ici une approche distributionnaliste, en présupposant que les propriétés sémantiques d’une unité lexicale déterminent son environnement linguistique et que celui-ci peut en retour nous renseigner sur le sens des unités lexicales (Harris Reference Harris1954). Il faut noter toutefois que, considérés individuellement, tous les contextes d’emploi d’un mot ne sont pas également distinctifs et caractéristiques de ses particularités sémantiques. Les tests proposés dans ce travail reposent précisément sur la compatibilité avec des constructions propres à certaines catégories sémantiques. Ils suggèrent une hiérarchisation des contextes d’emploi selon le degré de spécificité sémantique que ceux-ci peuvent révéler. Le recours aux tests distributionnels vise un certain contrôle de la catégorisation, même s’il comporte lui aussi des limites avérées. Les tests impliquent, sinon une certaine normativité, tout au moins une évaluation intuitive des tendances d’emploi des unités testées, dont la fiabilité peut être questionnée. La consultation des corpus ainsi que la co-annotation permettent de limiter ce problème, mais aucun système de tests n’évitera l’existence de cas douteux ou exceptionnels, difficiles à analyser selon les critères proposés. Il reste qu’en dépit de ces imperfections, les tests distributionnels garantissent une assise linguistique à la classification sémantique, et constituent un apport indéniable à l’évaluation purement référentialiste. Il ne s’agit pas ici de disqualifier les conceptions référentielles du sens nominal, mais de les mettre en regard d’une certaine matérialité linguistique, permettant de guider l’analyse sémantique, et d’éviter que celle-ci ne soit cantonnée à une réflexion sur la nature des référents plutôt que sur celle des motsFootnote 2 .

L’objectif spécifique de cet article est d’exposer une typologie sémantique des noms et de proposer une méthode permettant leur annotation sémantique aussi bien en langue qu’en discours. Les tests proposés se fondent sur les propriétés sémantiques identifiées dans la littérature et s’inspirent des tests existants, avec certains amendements, ajouts et propositions nouvelles. Le travail présenté est un état de notre réflexion après plusieurs campagnes d’annotation lexicale réalisées dans le cadre de différents projets et études, en particulier du projet Nomage (Balvet et al. Reference Balvet, Barque, Condette, Haas, Huyghe, Marín and Merlo2011), de l’étude des noms morphologiquement simples (Tribout et al. Reference Tribout, Barque, Haas, Huyghe, Neveu, Blumenthal, Hriba, Gerstenberg, Meinschaefer and Prévost2014), et du projet FR-SemCor (Barque et al. Reference Barque, Haas, Huyghe, Tribout, Candito, Crabbé, Segonne and Calzolari2020).

L’article est organisé comme suit : dans la première section, nous présentons les principes généraux de classification ; dans la deuxième section, nous présentons les 14 classes simples retenues dans notre étude, avec les tests associés ; la troisième section recense les 7 classes complexes qui regroupent des noms sémantiquement hybrides (i.e. relevant conjointement de plusieurs types sémantiques) et les tests de co-prédication associés ; enfin, la quatrième section expose la méthode de classification.

1. Principes de classification

Nous commençons par présenter quelques éléments nécessaires à la bonne compréhension de la méthode proposée. Ceux-ci concernent l’emploi des termes désignant les classes de noms (section 1.1), le fonctionnement général des tests (section 1.2) et le traitement des noms à sens multiples (section 1.3).

1.1. Métalangue et langue ordinaire

Les étiquettes employées pour nommer les classes sont des objets métalinguistiques qui ne présupposent pas de cohérence avec l’emploi standard des termes. Ainsi, on désigne par « noms d’événement », « noms d’animé », « noms d’objet naturel », etc. des noms qui possèdent une série de traits linguistiques qui les fait appartenir aux classes commodément appelées événement, animé, objet naturel. Par exemple, les noms d’événement appartiennent à cette classe en vertu de leurs propriétés sémantiques (ce sont des noms abstraits qui dénotent des situations d’aspect dynamique), repérables par leur comportement distributionnel qui leur permet de valider les tests afférents à cette classe, et non en vertu de l’adéquation référentielle avec ce que nous appelons un “événement” dans la vie quotidienne. Ainsi, selon les tests appliqués, un nom comme réparation sera classé parmi les noms d’événement, alors qu’on ne se représente pas nécessairement une réparation comme un “événement” dans le sens courant du terme. Corollairement, les propriétés des substantifs employés métalinguistiquement pour nommer les catégories sémantiques ne nous renseignent pas sur les propriétés des noms qui instancient ces catégories. Afin d’éviter toute ambiguïté entre langue ordinaire et métalangue, les noms choisis pour nommer les classes sémantiques apparaissent dans le texte en petites capitales.

1.2. Fonctionnement des tests

La classification sémantique que nous proposons s’appuie sur les propriétés distributionnelles des noms mises en évidence par les tests, avec l’idée (i) que les différentes constructions sont sémantiquement révélatrices, et (ii) que certaines constructions sont fortement discriminantesFootnote 3 . La personne qui applique un test prend position sur son applicabilité pour une acception donnée d’un nom. Afin de limiter le recours à l’intuition des annotateurs, il est nécessaire de consulter de vastes corpus du français pour déterminer l’acceptabilité des phrases résultant de l’application des tests. Pour réaliser le travail que nous présentons ici, nous avons eu recours aux corpus frCow (Schäfer et Bildhauer Reference Schäfer, Bildhauer and Calzolari2012, Schäfer Reference Schäfer, Banski, Biber, Breiteneder, Kupietz, Längen and Witt2015), frTenTen12 et frTenTen17 (Jakubicek et alii Reference Jakubicek, Kilgarriff, Kovar, Rychly and Suchomel2013) qui ont été interrogés avec les outils d’exploration « SketchEngine » et « NoSketchEngine ». Il s’agit de corpus constitués d’extractions du Web (2016 pour FrCow ; 2012 et 2017 pour les corpus frTenTen) qui offrent l’avantage d’être très vastes (entre 6 et 10 milliards de mots selon le corpus). Notons que le recours aux corpus pour déterminer les acceptabilités est à la fois qualitatif (à travers une évaluation des exemples attestés) et quantitatif (le nombre d’exemples recueillis attestant de la représentativité de la distribution observée).

Les réponses possibles aux tests sont “oui” (o) ou “non” (n). Les tests proposés sont tous complexes, en ce sens qu’ils ne se résument pas à une tournure unique à appliquer au nom. Différentes constructions sont proposées et selon les cas, celles-ci doivent être vérifiées de manière conjointe ou disjointe. Un test conjonctif (marqué “ET”) est positif si le N testé peut entrer dans l’ensemble des constructions distributionnelles proposées. La conjonction permet que le test ne soit pas trop permissif et n’accepte que les noms de la classe visée. Un test disjonctif (marqué “OU”) est positif si le N testé peut entrer dans au moins l’une des tournures proposées. La disjonction permet d’augmenter la couverture de la classe.

1.3. Traitement des noms à sens multiples

On sait que les noms, notamment les plus fréquents (cf. Zipf Reference Zipf1949), sont susceptibles d’avoir plusieurs sens Footnote 4 . À titre indicatif, 74% des 10 000 noms les plus employés dans frWaC, un large corpus du Web français (1,3 milliard de mots collectés dans le domaine .fr en 2010), reçoivent plusieurs définitions dans le Wiktionnaire Footnote 5 . Toute entreprise de classification sémantique doit donc prendre en compte ce phénomène massif.

Parmi les noms à sens multiples, il convient de distinguer ceux dont les sens sont exclusifs les uns des autres (en cas d’homonymie ou de polysémie) de ceux qui ont des sens multiples compatibles entre eux, et que nous appellerons ici les noms sémantiquement hybrides Footnote 6 . Pour savoir si des sens associés à une même forme sont ou non compatibles, on recourt traditionnellement au test de la co-prédication (Cruse Reference Cruse1986, Godard et Jayez Reference Godard and Jayez1996, Asher et Pustejovsky Reference Asher and Pustejovsky2006, Asher Reference Asher2011, Murphy Reference Murphy2021, entre autres). Ce test consiste à appliquer à une même occurrence du nom testé deux prédicats ciblant chacun un sens différent. Si la co-prédication construite produit un effet zeugmatique, comme avec le nom bureau en (1c), alors les deux sens testés, celui de meuble en (1a) et celui de pièce de travail en (1b), sont incompatibles. Si au contraire la co-prédication est jugée naturelle, comme avec livre en (2c), c’est que les deux sens testés, celui de contenu informationnel en (2a) et de support physique en (2b), sont compatibles entre eux.

En termes de classification, les noms comme bureau relèveront d’autant de classes qu’ils ont de sens distincts et incompatibles entre eux, tandis que les noms hybrides comme livre relèveront de classes complexes, dont les plus fréquentes seront présentées en détail dans la section 3.

Soulignons enfin que le traitement des sens multiples dépend de la granularité de la classification. Plus les classes sont générales, plus le nombre de sens distincts par nom considéré diminue. Le nom domino, par exemple, peut dénoter une pièce d’un jeu (le joueur qui a le domino double le plus fort commence) ou une pièce utilisée en électricité (changer un domino sur une applique). Dans une classification purement ontologique et qui n’identifie qu’une seule classe générale pour les noms d’artefact, cette polysémie du nom domino n’apparaîtra pas. La classification que nous présentons ici s’appuie en effet sur des classes générales et laisse donc dans l’ombre des distinctions de sens qui peuvent être plus ou moins importantes, selon la visée de chaque étude. Ce choix est essentiellement guidé par des contraintes d’ordre pratique : l’objectif étant ici de pouvoir appliquer la classification à l’ensemble du lexique nominal du français, nous ne pouvons envisager un grain sémantique plus fin sans considérablement alourdir la description sémantique. Il est néanmoins possible d’appliquer dans un second temps la même méthodologie aux noms des classes générales, une fois identifiés les tests permettant d’en distinguer des sous-classes.

2. Définition des classes simples

Cette section est consacrée à la présentation des 14 classes simples de notre typologie. Les classes considérées sont logiquement complémentaires, c’est-à-dire qu’elles sont appréhendées selon un même principe de catégorisation. En l’occurrence, la classification que nous présentons est de type ontologique, et non relationnel, c’est-à-dire qu’elle repose sur une partition du réel de référence, et non sur la description des relations sémantiques impliquées par les noms. Les catégories envisagées sont par exemple celles de nom d’animé, nom d’artefact ou nom d’événement, et non celles de nom collectif, nom partitif ou nom relationnel, qui sont logiquement compatibles avec les premières, et qui doivent faire l’objet d’une identification et d’une typologie indépendantes (Huyghe Reference Huyghe2015).

Nous présenterons tout d’abord les classes de noms ayant en commun de dénoter des entités concrètes pourvues d’une étendue dans l’espace, à savoir les noms d’animé, d’artefact et d’objet naturel (section 2.1). Viendront ensuite les noms dénotant des situations, parmi lesquelles on distingue les situations dynamiques, regroupant les noms d’événement et ceux de domaine, des situations statives, regroupant les noms de propriété et ceux d’état (section 2.2). Nous listerons enfin les classes que l’on peut considérer comme secondaires en ce qu’elles constituent des cas intermédiaires vis-à-vis des classes fondamentales et/ou dont l’extension est plus restreinte : noms d’institution, de phénomène, d’objet cognitif, d’objet financier, de temps, de quantité et de maladie (section 2.3).

2.1. Les noms dénotant des entités

Linguistiquement, une première ligne de partage se fait entre les N d’entité et les autres types de N selon les critères conjoints de localisation et d’étendue spatiales, ce qui correspond à l’opposition concret vs abstrait, dans une conception possible de cette distinction (cf. Kleiber et Vuillaume Reference Kleiber and Vuillaume2011). En effet, les noms se répartissent entre ceux qui peuvent dénoter des entités localisables dans l’espace, ce qui se manifeste par la compatibilité avec les compléments de dimension et de mesure (cf. tests T1a et T1b), et ceux qui ne le peuvent pas. Les noms d’entité dénotent toutes sortes d’objets et d’êtres vivants et l’on trouve des tests linguistiques pour les discriminer dans Dowty (Reference Dowty1991), Godard et Jayez (Reference Godard and Jayez1996), Flaux et Van de Velde (Reference Flaux and Van de Velde2000), Huyghe (Reference Huyghe2009), Kleiber et al. (Reference Kleiber, Benninger, Biermann-Fischer, Gerhard-Krait, Lammert, Theissen and Vassiliadou2012), entre autres.

Afin de discriminer les noms d’entité des autres types de noms, il convient d’appliquer en premier lieu le test conjonctif T1 présenté ci-dessous. Il faut d’une part que le N entre dans la tournure T1a et, d’autre part, qu’il entre dans celle de T1b. On note que pour T1b, trois formulations sont proposées (b1, b2 ou b3). Elles ne correspondent pas à un choix ni à une disjonction, mais répondent à des besoins de formulation différents selon que le N à classer est comptable [T1-b1], massif [T1-b2] ou collectif [T1-b3] — concernant les N collectifs (Ncoll), nous retenons la définition qu’en donne Lammert : est dit collectif « un nom qui, au singulier, dénote une entité composée d’un regroupement d’éléments » (Lammert Reference Lammert2010 : 66–70).

Dans T1 comme dans l’ensemble des autres tests proposés, sauf mention contraire, l’étiquette Dét renvoie à un déterminant singulier d’interprétation spécifique tiré de la liste suivante : ce / cet / cette, le / la, un / une, du / de la. Dét.card est à un déterminant cardinal nécessairement pluriel (deux, trois, quinze, deux cents, etc.). En T1a, on n’acceptera pas n’importe quel complément de localisation, mais uniquement ceux qui dénotent des lieux physiques, et que l’on piochera de préférence dans la liste (3). En T1b, l’élément “mesure” correspond à une forme composée d’un déterminant cardinal et d’un nom dénotant une unité de mesure. On s’inspirera des exemples proposés en (4a) pour les N comptables, en (4b) pour les N massifs et en (4c) pour les N collectifs.

Des noms comme table (5), farine (6) ou archipel (7) valident bien le test conjonctif T1a et T1b. Tel n’est pas le cas en revanche du nom idée car d’une part, le complément de localisation dans (8a) ne dénote pas un lieu physique, et d’autre part la seconde partie du test n’est pas validée (8b).

Les noms qui valident T1 dénotent des entités concrètes et se partagent entre trois classes : (i) animé (ex. cerf), (ii) artefact (ex. table) et (iii) objet-naturel (ex. lac), que nous présentons dans les trois sous-sections ci-après.

2.1.1. Les noms d’animé

Les noms d’animé dénotent des vivants doués d’intentionnalité. Les vivants non doués d’intentionnalité (ex. bactérie, virus, fleur) sont dénotés par des noms d’objet-naturel (cf. 2.1.3). Les noms d’animé se distinguent des autres N concrets par la validation de T2. Ils décrivent des entités dotées d’une étendue spatiale et localisables dans l’espace physique [T1a et b], volitionnelles [T2a et b] et capables de s’alimenter [T2c].

Le nom cerf valide bien chaque élément du test, comme le montre (9).

2.1.2. Les noms d’artefact

Parmi les noms qui sont positifs à T1 et négatifs à T2, c’est-à-dire parmi les noms qui dénotent des choses non animées, il est linguistiquement pertinent de distinguer ceux qui décrivent des artefacts de ceux qui décrivent des objets naturels. Parmi les premiers, on peut lister les noms d’objet, comme table ou robe (10), les noms de document, comme page de garde (10), les noms de construction, comme pont (11) ou encore les noms de mets, comme gâteau et glace (12). Tous ces noms valident le test disjonctif T3 présenté ci-dessous.

En T3b, le complément de matière correspond à un syntagme prépositionnel introduit par la préposition en suivie d’un nom dénotant une matière ou un matériau (ex. en bois, en plastique). En T3c, le complément d’arôme correspond à un syntagme prépositionnel introduit par la préposition à suivie d’un article défini et d’un nom dénotant un arôme ou un parfum (ex. à la vanille, au rhum).

2.1.3. Les noms d’objet-naturel

Parmi les N concrets, certains dénotent des objets naturels qui ne sont ni des artefacts (puisque non fabriqués par l’homme) ni des animés (puisque non doués d’intentionnalité). Ces noms d’objet-naturel (obj-nat) décrivent des substances naturelles (ex. neige, sang, graphite), des organismes vivants sans intentionnalité (ex. plante, fleur, bactérie), ou des lieux naturels (ex. mont, plaine, lac, glacier). Ces noms valident T1 (13a-b), mais rejettent T2 (13c-d) et T3 (13e-f).

2.2. Les noms dénotant des situations

Il existe plusieurs classes de noms renvoyant à des situationsFootnote 11 , qui peuvent être d’aspect dynamique ou statif, et que nous présentons dans cette sectionFootnote 12 . Pour distinguer les classes en question, nous utilisons et aménageons certains tests classiques proposés dans les travaux existants (cf. Gross Reference Gross1981, Gross et Vivès Reference Gross and Vivès1986, Balibar-Mrabti Reference Balibar-Mrabti1990, Gross et Kiefer Reference Gross and Kiefer1995, Van de Velde Reference Van de Velde1995, Godard et Jayez Reference Godard and Jayez1996, Kiefer Reference Kiefer1998, Daladier Reference Daladier1999, Gaatone Reference Gaatone2004, Tutin et alii Reference Tutin, Novakova, Grossman and Cavalla2006, Beauseroy Reference Beauseroy2009, Haas Reference Haas2009, Huyghe Reference Huyghe2014, entre autres).

2.2.1. Les noms d’événement

Une classe importante est celle qui regroupe les noms dénotant des situations dynamiques, c’est-à-dire des situations dans lesquelles il se passe quelque chose, soit qu’un événement survient, soit qu’une action est réalisée. Ces noms relèvent tous de la classe événement, étiquette métalinguistique qui ne s’oppose pas ici à “action”, mais qui l’englobe. Les noms entrant dans cette classe valident le test T4 présenté ci-dessous.

2.2.2. Les noms de domaine

Les noms de domaine regroupent des noms qui dénotent des activités (jardinage) et des champs de connaissance (histoire), en vertu du fait que ces deux types de dénotation sont souvent inextricablement liés. On associe un domaine d’expertise aux activités, et des activités (physiques ou intellectuelles) à de nombreux domaines d’expertise. A minima, les noms de domaine vérifient T5a ou T5b, mais de nombreux noms peuvent valider ces deux tests conjointement.

Précisons que le verbe faire utilisé en T5a ne doit avoir ni le sens de ‘fabriquer/confectionner’, ni celui de ‘avoir’. Ainsi, les noms purée (18) ou eczéma (19) ne sont pas des noms de domaine, mais respectivement un nom d’artefact (cf. supra section 2.1.2) et un nom de maladie (cf. infra section 2.3.7)

Si nous présentons les noms de domaine dans la partie consacrée aux situations, c’est d’une part parce que ces noms rejettent les tests propres aux N concrets (T1 à T3), tout comme ceux spécifiques des classes secondaires (cf. infra section 2.3), et d’autre part parce qu’une partie des noms de cette classe sont aspectuellement analysables comme dynamiques. Les noms tels que jardinage, natation, musculation, patinage peuvent être analysés comme relevant de la classe aspectuelle des « activités Footnote 13 » (cf. Van de Velde Reference Van de Velde1995, Haas et Huyghe Reference Haas and Huyghe2010). Ils sont dynamiques en vertu même de leur compatibilité avec T5a, faire du étant connue comme structure permettant de mettre en évidence le trait de dynamicité dans le domaine nominal (cf. Giry-Schneider Reference Giry-Schneider1978 et Reference Giry-Schneider1987, Van de Velde Reference Van de Velde1997, Vigier Reference Vigier2003, Heyd et Knittel Reference Heyd and Knittel2009). Ces noms étant fondamentalement massifs, ils valident T5a (20), mais ne vérifient pas les tests proposés pour la classe événement (21–22), qui conviennent strictement aux noms comptables (Huyghe Reference Huyghe2011).

Cela justifie l’existence de la classe des noms de domaine, distincte de celle des événement mais incluse dans les noms dénotant des situations.

2.2.3. Les noms de propriété

Parmi les situations statives, qui rejettent à la fois les tests de dynamicité T4 et T5a, on distingue la classe des N de propriété et celle des N d’état (cf. infra, section 2.2.4). Cette distinction s’apparente à l’opposition entre “individual-level predicate” (ILP) et “stage-level predicate” (SLP) (Carlson Reference Carlson1977) qui sépare les propriétés structurelles, considérées comme inhérentes et non soumises au temps, des propriétés transitoires, considérées comme contingentes et extrinsèquesFootnote 14 . Les noms de propriété, qui correspondent aux ILP et expriment des propriétés essentielles, sont identifiés par le test disjonctif T6 présenté ci-dessous.

Notons que T6a, si le sujet est un animé, doit être paraphrasable par « avoir du N », comme c’est le cas dans (27), ce qui permet d’exclure des noms comme famille ou aide. Ces derniers peuvent en effet être insérés dans la tournure T6a, mais les phrases résultantes ne sont pas synonymes de la construction en avoir (28).

2.2.4. Les noms d’état

Les noms d’état correspondent aux SLP, et vérifient le test disjonctif T7. Ces noms décrivent des situations transitoires (psychologiques ou matérielles) dans lesquelles peuvent se trouver des entités animées (29) ou non animées (30).

2.3. Les classes secondaires

Dans cette section, sont regroupées 7 classes de noms dont le comportement linguistique est original et suffisamment distinct de celui des classes principales (noms d’entité et noms de situation) pour constituer des classes sémantiques autonomes. Certaines de ces classes ont également une extension plus restreinte que celles dénotant des entités ou des situations. Ces classes, bien que relevant d’un grain sémantique plus fin que les classes précédentes, n’entretiennent pas avec elles de rapport hiérarchique inclusif et n’en constituent donc pas des sous-classes.

2.3.1. Les noms d’institution

Les noms d’institution, qui ont fait l’objet d’une attention particulière dans le cadre des études portant sur les entités nommées (Ehrmann Reference Ehrmann2008, Grouin et al. Reference Grouin, Rosset, Zweigenbaum, Fort, Galibert, Quintard, Ide, Meyers, Pradhan and Tomanek2011, entre autres), sont des noms dénotant des organismes, des commerces, des organisations politiques, administratives, scolaires, financières ou associatives. La validation du test disjonctif T8 permet de les identifier.

Les noms d’institution ont en commun avec les noms d’animé de valider les tests d’intentionnalité T2a et T2b (33). En revanche, ils ne valident pas T2c qui renvoie à la capacité de manducation propre aux animés (34).

2.3.2. Les noms de phénomène

Les noms de phénomène décrivent des référents accessibles aux sens, mais qui ne semblent se réduire ni à des objets ni à des événements. Ils dénotent plus précisément des odeurs (ex. fragrance), des sons (ex. cliquetis) ou des phénomènes lumineux (ex. lueur), et valident l’une des paires de tests présentées en T9a, T9b ou T9c.

Les noms de phénomène ne dénotent ni des entités matérielles, comme le montre le rejet de T1 en (35a), ni des situations dynamiques, comme le montre le rejet de T4 en (35b). Les phénomènes sonores valident T9a (36), les phénomènes lumineux valident T9b (37) et les phénomènes olfactifs valident T9c (38) Footnote 15 .

2.3.3. Les noms d’objet-cognitif

Les N d’objet-cognitif (obj-cog) dénotent des contenus informationnels (ex. idée, hypothèse). Ils sont aussi appelés “objets informationnels” (Godard et Jayez Reference Godard and Jayez1996), et correspondent à une partie de ce que Flaux et Stosic (Reference Flaux, Stosic, Goes, Lachet and Masset2014) appellent des “noms d’idéalités concrètes”. Les trois tournures proposées en T10 permettent, puisque leur emploi est disjonctif, de rassembler au sein de la classe des N d’objet-cognitif des noms couvrant un spectre sémantique varié, incluant notamment des noms en lien avec des V d’action (affirmer – affirmation, délirer – délire), des objets textuels (poème), culturels et artistiques (pièce de théâtre, chanson), des noms exprimant un jugement (évidence), etc.

Les N d’objet-cognitif ont un comportement particulier du point de vue de la localisation spatiale, ce qui est visible dans les exemples proposés par Godard et Jayez (Reference Godard and Jayez1996). Une phrase comme Cette idée se trouve déjà dans le Gorgias (Godard et Jayez Reference Godard and Jayez1996 : 44) indique certes la localisation d’un objet informationnel (idée), mais à l’aide d’un repère qui est lui-même un objet cognitif (le Gorgias), ce qui pose un problème de circularité. Le test de localisation T1 (cf. supra, section 2.1) évite cet écueil puisqu’il est très contraint et oblige à ce que le complément de localisation soit clairement physique.

2.3.4. Les noms d’objet-financier

Les noms d’objet-financier (obj-fin) regroupent des noms comme les noms de monnaie (ex. euro, dollar), mais aussi les noms dénotant des valeurs financières ou des sommes d’argent (ex. tarif, salaire). Les noms de cette classe valident le test disjonctif T11 (42)–(44).

Les noms d’objet-financier ont en commun de référer à une valeur (soit ils sont porteurs d’une valeur, comme versement ou euro, soit ils fixent une valeur, comme tarif ou taux). Les noms de monnaie, inclus dans la classe des objets financiers en raison de leur sème ‘valeur’ sont à la fois des artefacts par métonymie (j’ai un euro dans ma poche) et des objets virtuels dotés d’une valeur (l’euro a encore perdu de sa valeur)Footnote 16 . Ils forment une classe restreinte, mais spécifique, qui valide la paire de tests T11c1-c2.

2.3.5. Les noms de temps

Les noms entrant dans cette classe ne sont pas tous ceux qui ont pu être repérés comme « noms de temps » dans la littérature (Berthonneau Reference Berthonneau1989), mais uniquement ceux dénotant des segments temporels (ponctuels ou duratifs), identifiables grâce au test T12. La description de l’étendue temporelle constitue dans le sémantisme de ces noms un trait central, voire unique, ce qui les distingue notamment des noms qui dénotent des événements duratifs (ex. promenade, réunion, concert).

2.3.6. Les noms de quantité

Les N de quantité dénotent des unités de mesure (ex. kilo), qui valident la paire de tests T13-a1 et T13-a2 (47). La classe contient également d’autres noms tels que les noms dénotant des quantités contenues dans des récipients (ex. bol (de riz), assiette (de soupe)), certains événements météorologiques employés métaphoriquement (ex. avalanche (de mails)), ou encore des noms collectifs (ex. forêt (de symboles), cf. Benninger Reference Benninger1999), qui ont tous en commun de permettre une quantification et qui valident T13-b (48).

2.3.7. Les noms de maladie

Les noms de maladie dénotent les maux que peuvent subir les animés (Labelle Reference Labelle1986). Ces noms ont un comportement linguistique singulier qui se manifeste dans leurs propriétés distributionnelles, et qui peuvent servir de test T14.

La conjonction des trois structures en T14 permet d’éviter l’extension de la classe des N de maladie que pourrait causer l’interprétation métaphorique de la tournure T14a, telle qu’en (50a). Le nom honte, qui valide apparemment T14a, mais en aucun cas T14b et T14c, ne sera pas classé parmi les noms de maladie, mais parmi les noms d’état (ressentir de la honte).

2.5. Récapitulatif pour l’identification des 14 classes simples

Dans le tableau 1 est récapitulé l’ensemble des 14 classes sémantiques simples présentées ci-dessus et des 14 tests permettant de les identifier. Pour des raisons de présentation, les tests ne sont évoqués que par leur numéro — à toutes fins pratiques, l’ensemble des tests est regroupé en annexe sous forme d’une liste. Nous rappelons que “valider un test” signifie bien entrer dans l’une des tournures proposées pour ledit test (test disjonctif) ou entrer dans l’ensemble des tournures requises (test conjonctif). Pour déterminer la classe simple d’un N, il convient que celui-ci valide le (ou les) tests propres à cette classe (marqués “o”), mais aussi qu’il rejette les tests marqués “n”. Si un N se comporte autrement, alors soit il est polysémique (et il convient de faire passer les tests aux différents sens discriminés en amont), soit il relève d’une classe complexe (cf. section suivante).

Tableau 1 : Classes sémantiques simples et tests identificatoires

3. Définition des classes complexes

Nous présentons dans cette section les sept classes complexes observées pour les noms hybrides du français Footnote 17 . Pour rappel, ces classes regroupent des noms qui ont la propriété d’avoir des sens distincts, mais compatibles (voir supra, section 1.3). Le nom télégramme, par exemple, relève de la classe complexe artefact*objet-cognitif, puisque ses deux sens de support physique (artefact) et de contenu (objet-cognitif) sont compatibles entre eux, comme l’indique une co-prédication telle que (51).

Notons que les tests proposés pour identifier les noms relevant d’une classe complexe sont plus souples que ceux permettant d’évaluer l’appartenance du nom testé à l’une et à l’autre des classes simples formant la classe complexe. On sait en effet que les propriétés de la co-prédication, notamment l’ordre et la nature des prédicats convoqués d’une part, et la nature et la relation entre les deux sens en jeu d’autre part, ont des effets sur le degré d’acceptabilité des phrases construites (Kleiber Reference Kleiber, Kleiber and Riegel1996, Cruse Reference Cruse2004, Gotham Reference Gotham2017, Asher Reference Asher2011, Ortega-Andrés et Vicente Reference Ortega-Andrés and Vicente2019, Murphy Reference Murphy2021, entre autres). Ces variations d’acceptabilité peuvent conduire, pour un même nom, à des analyses contradictoires selon la forme de co-prédication utilisée. Il suffira donc ici que le nom testé puisse entrer dans une occurrence au moins de co-prédication mettant en jeu un prédicat typique de la première classe et un prédicat typique de la seconde classe pour être analysé comme relevant de la classe complexe.

3.1. Les noms hybrides de la classe artefact*objet-cognitif

Les noms de cette classe, qui dénotent conjointement un contenu informationnel et son support physique, ont été largement décrits dans la littérature sur les types complexes (Cruse Reference Cruse, Dizier and Viegas1995 et Reference Cruse, Beckmann, König and Wolf2000, Ortega-Andrés et Vicente Reference Ortega-Andrés and Vicente2019, entre autres). Comme le nom livre, emblématique de cette classe, des noms comme tract, manuscrit et rapport peuvent entrer dans une co-prédication impliquant un prédicat typique de la facette artefact et un prédicat typique de la facette objet-cognitif (52).

3.2. Les noms hybrides de la classe artefact*institution

Les noms dénotant des institutions renvoient à des concepts plus ou moins complexes, qui incluent le plus souvent le bâtiment qui abrite l’institution (53a) et les différents groupes d’individus qui œuvrent en son sein (53b), parmi d’autres sens possibles selon le type d’institution en jeu (Arapinis et Vieu Reference Arapinis and Vieu2015, Ortega-Andrés et Vicente Reference Ortega-Andrés and Vicente2019). Le sens d’institution est compatible avec celui d’artefact, comme l’indique la co-prédication en (54). La compatibilité avec le sens d’animé collectif nous semblant plus sujette à caution (55), nous ne postulons pas ici de classe complexe animé*institution.

3.3. Les noms hybrides de la classe événement*état

Les noms de cette classe complexe dénotent un type d’action incluant une phase dynamique suivie d’un état résultant, ce qui correspond, d’un point de vue aspectuel, à des achèvements ou des accomplissements “gauches” (Piñón Reference Piñón, Lawson and Cho1997, Apothéloz Reference Apothéloz2008, Fradin Reference Fradin2011, Haas et Jugnet Reference Haas and Jugnet2013). Dans le test de co-prédication en (56a), la première prédication pointe la facette événement tandis que la facette état est identifiée par un prédicat de durée qui doit porter sur l’état résultant, et non sur l’événement (Piñón Reference Piñón, Bird, Carnie, Haugen and Norquest1999). Dans le cas de disparition en (56b), c’est bien l’absence de la personne qui dure deux semaines et non le passage de l’état présent à l’état absent. Il en va de même pour emprisonnement : les deux semaines ne s’appliquent pas à la durée de l’action d’emprisonner, mais bien à la durée de la détention.

3.4. Les noms hybrides de la classe événement*objet-cognitif

Les noms de cette classe dénotent conjointement un acte, souvent communicationnel, et le contenu informationnel associé à cet acte (Godard et Jayez Reference Godard and Jayez1996, Milicevic et Polguère Reference Milicevic, Polguère, Neveu, Muni Toke, Klingler, Durand, Mondada and Prévost2010). Le caractère hybride des noms comme déposition, témoignage ou traduction s’observe dans des structures co-prédicatives telles que celle présentée en (57), où le premier prédicat pointe la facette objet-cognitif et le second la facette événement.

3.5. Les noms hybrides de la classe événement*objet-financier

Les noms hybrides de cette classe complexe dénotent conjointement une action impliquant un transfert d’argent et la somme transférée. La co-prédication en (58a) indique que ces deux sens sont compatibles pour les noms testés en (58b).

3.6. Les noms hybrides de la classe événement*phénomène

On classe parmi les noms de phénomène les noms dénotant des odeurs (ex. parfum), des sons (ex. note) ou encore des éléments visuels (ex. lumière). À côté de cette classe de noms de phénomènes purs, il existe une classe de noms hybrides présentant une facette phénomène et une facette événement (Cance et Dubois Reference Cance and Dubois2005 : 22 ; David Reference David2000 : 65). La compatibilité des deux facettes est illustrée dans les co-prédications en (59).

3.7. Les noms hybrides de la classe événement*objet-naturel

On peut mentionner enfin la classe des noms hybrides dénotant conjointement un événement naturel et les conséquences physiques de cet événement, qui prennent la forme d’un objet naturel. Les co-prédications en (60) illustrent la facette dynamique et la facette d’entité concrète naturelle de noms comme lésion et éboulement.

4. Méthode de classification

Nous présentons ici la méthode adoptée pour classer les noms du français dans une ou plusieurs des classes sémantiques simples ou complexes qui viennent d’être décrites. Cette méthode peut, rappelons-le, s’appliquer aussi bien en langue qu’en discours. Elle peut ainsi être utilisée pour classer les différents sens lexicalisés d’un nom ou pour classer des occurrences de ce nom en corpus. Dans les deux cas, il s’agit bien de classer des formes lexicales spécifiées sémantiquement, ce qui implique que l’identification du sens en jeu ait été opérée en amont.

4.1. Arbre de décision

La méthode de classification consiste à appliquer successivement à un nom, pris dans l’un de ses sens s’il en a plusieurs, les tests permettant d’identifier la classe sémantique à laquelle il appartientFootnote 18 . L’ordre dans lequel ces tests doivent être appliqués est représenté dans l’arbre de décision dans la figure 1 ci-après.

Figure 1: Arbre de décision pour la classification.

Les feuilles de l’arbre de décision correspondent aux différentes classes sémantiques retenues. Les nœuds, quant à eux, correspondent soit à l’application d’un test (nœuds bleus) soit à l’identification d’une classe pouvant entrer dans la composition d’une classe complexe (nœuds jaunes) et devant faire l’objet d’une étape d’analyse supplémentaire (cf. infra).

L’arbre est construit de manière à respecter l’ordre d’importance des classes (on teste en premier l’appartenance aux classes les plus fréquentes) et de manière à ce qu’à chaque nœud, la réponse “oui” au test conduise le plus directement possible à la classification du nom testé. C’est pourquoi le premier nœud de l’arbre ne correspond pas au test T1, commun aux trois classes animé, artefact et obj-naturel, mais au test T2, qui distingue uniquement la classe animé des autres classes.

La classification proposée a pour ambition de couvrir entièrement le lexique nominal français, cependant, il est inévitable que certains N, qui ne répondent positivement à aucun test, demeurent sans étiquette (cf. feuille “autre” en bas de l’arbre).

4.2. Classification des N relevant de classes complexes

En cas de réponse positive à un test, la classification du nom n’est directe que pour les classes qui ne sont pas suivies d’un astérisque. Celles qui le sont, artefact*, objet-naturel* et événement*, sont celles susceptibles d’entrer dans la composition d’une classe complexe (cf. supra, section 3). La figure 2 détaille les trois sous-arbres concernés.

Figure 2: Sous-arbres pour l’identification des classes complexes.

La démarche, qui consiste à évaluer si le nom testé appartient à la classe simple ou à l’une des classes complexes associées, est la même dans les trois sous-arbres. On évalue tout d’abord si le nom valide le test révélant l’appartenance à l’autre classe constitutive de la classe complexe. Par exemple, dans le sous-arbre objet-naturel*, auquel on accède quand un nom a passé le test révélateur de la classe objet-naturel, on évalue au moyen de T4 si le nom en cours d’analyse est aussi de type événement, puisqu’il existe une classe complexe événement*objet-naturel (ex. éboulement). Le cas échéant, on construit une co-prédication pour déterminer si les deux sens sont compatibles ou non. Si le nom entre dans une co-prédication, il est rangé dans la classe complexe. Si au contraire, on ne trouve pas de co-prédication naturelle, on doit considérer que la forme testée est en fait polysémique, et prendre position sur le sens lexical en cours d’analyse. Enfin, si le nom ne passe aucun test révélateur de l’autre classe formant la classe complexe, il est rangé dans la classe simple.

4.3. Exemples d’application de la méthode de classification

Les principaux éléments de la méthode de classification ayant été exposés, prenons deux exemples d’application : les noms étoile et discussion considérés dans leurs emplois en (61).

Le nom étoile est très polysémique (il peut dénoter, entre autres, un astre, une forme, une distinction, une personne), mais c’est dans son sens premier de corps céleste qu’il est employé en (61a) et c’est donc dans ce sens uniquement qu’il sera considéré ici. La réponse “non” au premier test appliqué (? L’étoile a décidé de se diriger vers le soleil) nous conduit à l’application du test suivant, qui donne lui aussi une réponse négative (? Il a fabriqué une étoile proche du soleil). Le test suivant, en revanche, s’applique bien au sens d’étoile considéré (L’étoile se trouve à plusieurs années-lumière du soleil et une étoile d’un million de kilomètres de diamètre), plaçant le nom dans la classe des noms d’objet-naturel.

Considérons maintenant le nom discussion en (61b). L’application des trois premiers tests (T2, puis T3, puis T1) conduit chaque fois à une réponse négative, indiquant que le nom ne dénote pas une entité concrète. Le nom répond en revanche positivement au test de dynamicité (la discussion a eu lieu dans son bureau), conduisant au nœud Événement * dans l’arbre. Il faut alors déterminer si discussion appartient à la classe simple des événement ou s’il appartient à une classe complexe impliquant le type événement (cf. supra figure 2). On applique successivement le test disjonctif de stativité (T7), que le nom testé ne valide pas (? Pierre ressent de la discussion ou ? Pierre est dans un état de discussion), puis T9, qui n’est pas valide non plus (?  On a entendu une discussion tonitruante / Une discussion a retenti dans la cour), puis T10, qui indique que discussion dénote également un objet-cognitif (Il écoute les discussions décousues des convives). Le nom pouvant enfin entrer dans une co-prédication (il a écouté les discussions intéressantes qui ont eu lieu à l’issue de la rencontre), on considérera qu’il relève de la classe complexe événement*objet-cognitif.

Conclusion

Nous avons présenté dans cet article une typologie sémantique à gros grain, visant à couvrir l’ensemble des noms du français, et une méthode de classification de ces noms fondée sur l’application systématique de tests linguistiques. La typologie proposée est constituée de 14 classes simples et de 7 classes complexes, exclusives les unes des autres. La prise en compte des classes complexes, qui n’avait à notre connaissance pas fait jusqu’ici l’objet d’un recensement pour les noms du français, permet de distinguer clairement les différents cas de sens multiples dans le domaine nominal. Les noms homonymiques et polysémiques relèvent d’autant de classes qu’ils ont de sens en langue tandis que les noms hybrides, qui ont des sens distincts, mais compatibles, relèvent de classes complexes.

La méthode de classification proposée repose de manière cruciale sur l’utilisation de tests linguistiques. Inspirés pour la plupart de travaux existants, ils ont été repensés et amendés pour convenir à notre approche de classification générale des noms du français. Pour être révélateur d’une classe sémantique de noms et seulement d’elle, chaque test a été défini avec soin, illustré systématiquement et ses éventuelles contraintes d’utilisation (types de compléments à utiliser, types de déterminants, etc.) ont été explicitées chaque fois que nécessaire. Nous avons conscience du caractère potentiellement rigide de ces tests, qui peuvent laisser en dehors de l’analyse certains noms, notamment ceux apparaissant de manière plus naturelle avec des prédicats qui ne correspondent pas à ceux retenus pour les tests. Il est néanmoins possible, selon la visée de l’étude menée, de remodeler un test pour l’élargir ou au contraire le restreindre davantage, tout en gardant à l’esprit la nécessité d’évaluer dans de vastes corpus les implications de ces éventuels changements.

Nous espérons que le résultat de ce travail, issu de notre expérience acquise au fil de différentes campagnes d’annotation des noms du français, pourra s’avérer utile aux linguistes devant recourir à la classification sémantique pour toute étude ayant trait au lexique (sémantique, morphologie, micro-syntaxe)Footnote 19 . L’objectif essentiel était pour nous de proposer un mode de classification proprement linguistique, accessible aux non-spécialistes, et empiriquement exploitable à grande échelle.

Competing interests

The authors declare none.

Déclaration de conflit d’intérêts

Les auteur·es déclarent que cette étude a été menée indépendamment de toute relation commerciale ou financière qui pourrait constituer un potentiel conflit d’intérêts.

Conflict of interest statement

The authors declare that the research was conducted in the absence of any commercial or financial relationships that could be construed as a potential conflict of interest.

ANNEXES : liste des tests

T1→ T1a ET T1b (sous la forme b1, b2 ou b3)

a. Dét N se trouve + complément de localisation spatiale

ET

b1. Dét N de + mesure [pour les N comptables]

b2. mesure + de N [pour les N massifs]

b3. Dét N de Dét.card N 2 [pour les N collectifs]

T2 → T2a ET T2b ET T2c

a. Dét N {décide / choisit} de SV

ET

b. Dét N + SV {volontairement / délibérément / consciemment}

ET

c. Dét N a beaucoup mangé

T3→ T3a OU T3b OU T3c

a N [humain] a {fabriqué / déchiré} Dét N {à tel endroit / à tel moment}

OU

b. N [humain] a construit Dét N + Compl de matière + Adj de couleur

OU

c. N [humain] a confectionné Dét N + Compl d’arôme

T4→ T4a OU T4b

a. Dét N {a eu lieu / s’est produit} {à tel moment / à tel endroit}

OU

b. N [humain] {a procédé à / a accompli / a effectué} Dét N (+ expansion facultative)

T5→ T5a OU T5b

a. N [humain] fait {du / de la} N

OU

b. N [humain] a reçu une formation dans le domaine {du / de la} N

T6 →T6a OU T6b OU T6c

a. N 0 est d’un(e) grand(e) N

OU

b. N [humain] a fait preuve {de N / d’un(e) N + expansion}

OU

c. Cela m’a altéré Dét N

T7→ T7a OU T7b

a. N [humain] {ressent / éprouve} Dét N (+expansion)

OU

b. N [inanimé] est dans un état de N (+expansion)

T8 → T8a OU T8b

a. Dét N a été fondé en telle année

OU

b. N [humain] a été nommé à la tête de (Dét) N

T9 → (T9-a1&a2) OU (T9-b1&b2) OU (T9-c1&c2)

a1. On a entendu un N (tonitruant / strident / mélodieux / aigu / grave)

& a2. Un N (a retenti / a résonné / s’est propagé) (au fond du couloir / dans la cour)

OU

b1. On a vu un N (aveuglant / éblouissant / blafard / pâle)

& b2. Det N (a resplendi / s’est propagé / a scintillé / a jailli) au fond du couloir

OU

c1. On a senti un N (nauséabond / âcre / enivrant / tenace / entêtant)

& c2. Det N (s’est répandu / persiste / embaume) (dans) la pièce

T10 → T10a OU T10b OU T10c

a. Dét N selon lequel P est difficile à admettre

OU

b. N [humain] écoute Dét [plur] N décousus de Vincent

OU

c. N [humain] a écrit Dét N {intéressant / pertinent}

T11 → T11a OU T11b OU (T11-b1 & T11-b2)

a. Il a versé Dét N en euros

OU

b. Il a obtenu Dét [indef, sing] N modique

OU

c1. Dét N est la monnaie de tel pays

& c2. Quel est le taux de change de Dét N ?

T12 → T12a OU T12b

a. Ils se sont rencontrés {N / courant N / Dét N / Dét.card N durant / à N}

OU

b. Attendez Dét [indef, sing] bref N

T13 → (T13-a1 & T13-a2) OU T13b

a1. Dét {courant / poids / lumière / intensité / tension / distance / période / vitesse} de Dét.card N, c’est {peu / beaucoup}

& a2. Dét N 0 {mesure / fait / pèse / dure} Dét.card N

OU

b. Dét N de N 2 , c’est (peu / beaucoup).

où N2 appartient à la liste : farine, huile, sable, messages, images, cheminées, projectiles, juristes

T14 → T14a ET T14b ET T14c

a. Dét N {est / n’est pas} une maladie contagieuse

ET

b. N [humain] a guéri de Dét N

ET

c. Le médecin m’a diagnostiqué Dét [indef, sing] N

Footnotes

1 Nous remercions les relecteurs ou relectrices anonymes, les éditeurs de JFLS, ainsi que Justine Salvadori, pour leurs remarques sur une version antérieure de ce travail. Les erreurs restantes nous sont imputables.

2 Le recours à des tests distributionnels n’exclut pas que les mots soient dotés de propriétés référentielles. Notre idée est que les critères de construction linguistique sur lesquels notre classification est fondée sont en adéquation avec certaines propriétés sémantiques, et que ces dernières correspondent à la dénotation de différents types de référents. En ce sens, les classes distributionnelles que nous proposons sont associées à diverses classes référentielles, sur la base de propriétés descriptives distinctes.

3 L’idée que des tests distributionnels peuvent permettre d’identifier certains types de noms est défendue notamment par Gross (Reference Gross1994, Reference Gross2008), dans le modèle des « classes d’objets ». Ces dernières sont des catégories nominales, parfois très précises (ex. facture, combustible, aéronef, animal de boucherie), définies par la construction avec des prédicats spécifiques dans une interprétation donnée. Élaborées pour permettre d’isoler les différentes significations des verbes avec lesquels elles se combinent, les classes d’objets présentent toutefois un risque de circularité. Si les noms constituent l’entrée sémantique à partir de laquelle sont établies les acceptions des prédicats verbaux, on peut se demander quels éléments linguistiques, autres que le critère référentiel, déterminent en premier ressort la classification des noms.

4 Pour un état de l’art sur la polysémie et les phénomènes de sens multiples apparentés, voir Kleiber (Reference Kleiber1999), Falkum et Vicente (Reference Falkum and Vicente2015), entre autres.

5 Le comptage a été opéré à partir de la version 2015 utilisée dans la ressource Glawi (Hathout et Sajous Reference Hathout, Sajous and Calzolari2016).

6 Ces noms ont reçu différentes appellations dans la littérature : “noms à facettes” (Cruse Reference Cruse, Dizier and Viegas1995), “noms à types pointés” (Pustejovsky Reference Pustejovsky1995), “noms sémantiquement ambivalents" (Milicevic et Polguère, 2010). Ils sont tantôt présentés comme un cas particulier de polysémie, alors dite “logique” ou “inhérente” (Copestake et Briscoe Reference Copestake and Briscoe1995, Frisson Reference Frisson2015), tantôt comme un cas particulier de monosémie impliquant un concept complexe (Kleiber Reference Kleiber1999, Cruse Reference Cruse, Beckmann, König and Wolf2000).

7 Lorsqu’un test est conjonctif, comme T1, les exemples illustratifs sont présentés en batterie (1a), (1b), etc. Cette présentation symbolise le fait que l’ensemble des tournures doivent être validées conjointement par le nom pour entrer dans la classe. Les exemples (5) à (8) illustrent cette notation pour T1a et b.

8 Certains N collectifs spécifient le type d’éléments rassemblés et ont en conséquence un ou plusieurs “noms appropriés” avec lesquels ils forment une collocation naturelle. Le N approprié réfère aux éléments constitutifs prototypiques de la collection dénotée, par exemple île, abeille, fleur pour, respectivement, archipel, essaim, bouquet (cf. Lammert et Lecolle Reference Lammert and Lecolle2014 : 4-5).

9 Le symbole « ? » signale que le test n’est pas validé. Le choix de ce symbole, moins contraignant que l’astérisque d'agrammaticalité, rappelle que l’acceptabilité est une notion relative et que la coercition du sens lexical en contexte reste souvent possible. Ce qui est toutefois visé ici, c’est la (non-)canonicité des énoncés testés. L’existence de productions isolées (en nombre) et marginales (i.e. sémantiquement incongrues) ne devrait pas suffire pour considérer qu’un test est véritablement validé.

10 Lorsqu’un test est disjonctif, comme T3, les exemples illustratifs sont présentés en série, chacun portant un numéro distinct : (1), (2), etc. Cette présentation symbolise le fait que la validation d’une seule des tournures suffit pour que le nom entre dans la classe.

11 Les noms de situation sont des noms abstraits pourvus d’aspect lexical. Il s’agit pour l’essentiel de noms “syncatégorématiques”, c’est-à-dire des noms qui « ne peuvent pas, par eux-mêmes, […], repérer les référents particuliers auxquels ils peuvent s’appliquer » (Kleiber, Reference Kleiber1981 : 40). À l’inverse, les noms rassemblés dans la section 2.1. (animé, artefact, Objet-naturel) sont des noms « catégorématiques ».

12 La distinction dynamique / statif est une distinction aspectuelle d’abord étudiée dans le domaine verbal. De nombreuses classifications aspectuelles des prédicats verbaux sont proposées dans la littérature, pour un aperçu, on pourra utilement consulter le tableau récapitulatif proposé par Asnès et Kupferman (Reference Asnès and Kupferman2008 : 28).

13 Le terme activité est emprunté aux classifications d’Aktionsart verbale (activity en anglais, cf. Garey Reference Garey1957, Vendler Reference Vendler1967). Il dénote un type aspectuel caractérisé par la dynamicité, la durée et l’atélicité des situations décrites.

14 Cette opposition est proposée pour le français avec d’autres terminologies, par exemple, « propriétés intrinsèques » vs « propriétés extrinsèques » (Anscombre, Reference Anscombre1995 : 45), « qualités » vs « états » (Van de Velde, Reference Van de Velde1995 : 129-220).

15 Concernant les odeurs, voir par exemple Kleiber et Vuillaume (2011), Kleiber (Reference Kleiber2012) et, pour une approche cognitive, David (Reference David2000 : 76-77) qui classe les odeurs parmi les phénomènes ou les substances sur la base de la représentation qu’en ont les locuteurs ; à propos du caractère intensif des « sensations physiques » que sont le bruit, la lumière et les odeurs, cf. Kleiber (Reference Kleiber2013 : 72 et ss).

16 On trouvera quelques remarques sur le rapport complexe entre la valeur de la monnaie et la monnaie en tant qu’objet matériel au détour d’un article de Rastier (Reference Rastier2002) traitant centralement de la notion de valeur chez Saussure.

17 Cet inventaire des classes complexes est essentiellement issu des cas décrits dans la littérature et des données du projet FrSemCor (Barque et al. Reference Barque, Haas, Huyghe, Tribout, Candito, Crabbé, Segonne and Calzolari2020). N’ayant pas établi de classification sémantique de l’ensemble des noms du français, nous ne prétendons pas à l’exhaustivité des classes complexes présentées ici.

18 Pour rappel, l’intuition du linguiste sur l’acceptabilité du test appliqué doit, lorsque cela est possible, s’appuyer sur une observation en corpus. On cherchera par exemple en corpus s’il existe des occurrences de « le loto a eu lieu » si un doute est possible sur l’acceptabilité de l’application de T4a à loto.

19 La validité de la classification proposée a été testée à l’occasion de l’annotation sémantique d’un échantillon de 501 noms néologiques (Huyghe et al. Reference Huyghe, Lombard, Salvadori, Schwab, Kotowski and Plagà paraître). Cette annotation a été réalisée en double aveugle. Le taux d’accord inter-annotateur observé est de 83%. Une évaluation de cet accord prenant en considération l’accord par chance (kappa de Cohen) donne un résultat de 0,77. Ces mesures indiquent un accord substantiel entre annotateurs.

References

Références

Asnès, M. et Kupferman, L. (2008). Évènements, prédicats, arguments : quelques points de repère. Langages, 169: 733.CrossRefGoogle Scholar
Anscombre, J.-C. (1995). Morphologie et représentation événementielle : le cas des noms de sentiment et d’attitude. Langue française, 105: 4054.CrossRefGoogle Scholar
Apothéloz, D. (2008). Entrer quelques instants vs. arriver quelques instants : le problème de la spécification de la durée de l’état résultant. Verbum, 30: 199219.Google Scholar
Arapinis, A. et Vieu, L. (2015). A plea for complex categories in ontologies. Applied Ontology, 10: 285296.CrossRefGoogle Scholar
Asher, N. (2011). Lexical Meaning in Context. Cambridge: Cambridge University Press.CrossRefGoogle Scholar
Asher, N. et Pustejovsky, J. (2006). A type composition logic for generative lexicon. Journal of Cognitive Science, 6.1: 138.Google Scholar
Balibar-Mrabti, A. (1990). Analyse d’adverbes en "dans" . Langue Française, 86: 6574.Google Scholar
Balibar-Mrabti, A. (dir.) (1995). Grammaire des sentiments. = Langue Française 105. Paris: Larousse.Google Scholar
Balvet, A., Barque, L., Condette, M.-H., Haas, P., Huyghe, R., Marín, R. et Merlo, A. (2011). La ressource Nomage. Confronter les attentes théoriques aux observations du comportement linguistique des nominalisations en corpus. Traitement Automatique des Langues, 52.3: 124.Google Scholar
Barque, L., Haas, P., Huyghe, R., Tribout, D., Candito, M., Crabbé, B. et Segonne, V. (2020). FrSemCor: Annotating a French Corpus with Supersenses. In: Calzolari, N. et al. (dirs.), Proceedings of the 12th Language Resources and Evaluation Conference. European Language Resources Association, pp. 59125918.Google Scholar
Beauseroy, D. (2009). Syntaxe et sémantique des noms abstraits statifs : des propriétés verbales ou adjectivales aux propriétés nominales. Thèse de doctorat. Nancy:Université de Nancy.Google Scholar
Benninger, C. (1999). De la quantité aux substantifs quantificateurs. Metz: Université de Metz.Google Scholar
Berthonneau, A.-M. (1989). Composantes linguistiques de la référence temporelle. Les compléments de temps, du lexique à l’énoncé. Thèse d’État. Université Paris 7 – Denis Diderot.Google Scholar
Cance, C. et Dubois, D. (2005). Dire notre expérience du sonore : nomination et référenciation. Langue Française, 188: 1532.Google Scholar
Carlson, G. (1977). Reference to kinds in English. PhD. University of Massachusetts at Amherst.Google Scholar
Copestake, A. et Briscoe, T. (1995). Semi-productive polysemy and sense extension. Journal of Semantics, 12.1: 1567.CrossRefGoogle Scholar
Cruse, D.A. (1986). Lexical Semantics. Cambridge: Cambridge University Press.Google Scholar
Cruse, D. A. (1995). Polysemy and related phenomena from a cognitive linguistic viewpoint. In: Dizier, P. St. et Viegas, E. (dirs.), Computational Lexical Semantics, Cambridge: Cambridge University Press, pp. 3339.CrossRefGoogle Scholar
Cruse, D. A. (2000). Lexical “facets”: between monosemy and polysemy. In: Beckmann, S., König, P. P. et Wolf, T. (dirs.), Sprachspiel und Bedeutung: Festschrift für Franz Hundsnurscher zum 60 Geburtstag, Tübingen: Max Niemeyer Verlag, pp. 2536.Google Scholar
Cruse, D.A. (2004). Lexical facets and metonymy. Ilha do Desterro: A Journal of English Language, Literatures in English and Cultural Studies, 47: 7396.Google Scholar
Daladier, A. (1999). Auxiliation des noms d’action. Langages, 135: 87107.CrossRefGoogle Scholar
David, S. (2000). Certitudes et incertitudes dans les domaines olfactif, gustatif et auditif. Cahiers du LCPE, 4: 77108.Google Scholar
Dowty, D. (1991). Thematic Proto–Roles and Argument Selection. Language, 67: 547619.CrossRefGoogle Scholar
Ehrmann, M. (2008). Les Entités Nommées, de la Linguistique au TAL. Statut Théorique et Méthodes de Désambiguïsation. Thèse de doctorat. Paris:Université Paris 7 – Denis Diderot.Google Scholar
Falkum, I. et Vicente, A. (2015). Polysemy: Current perspectives and approaches. Lingua, 157: 116.CrossRefGoogle Scholar
Flaux, N. et Stosic, D. (2012). Les noms d’idéalités sont-ils polysémiques ? In : de Saussure, L. et Rihs, A. (dirs.), Études de sémantique et pragmatique françaises. Berne: Peter Lang, pp. 167190.Google Scholar
Flaux, N. et Stosic, D. (2014). Les noms d’idéalités et la nominalisation. In : Goes, J., Lachet, C. et Masset, A. (dirs.), NominalisationS. Artois: Artois Presses Université, pp. 1938.Google Scholar
Flaux, N. et Van de Velde, D. (2000). Les noms en français : esquisse de classement. Paris: Ophrys.Google Scholar
Fradin, B. (2011). Remarks on state-denoting nominalizations, Recherches Linguistiques de Vincennes, 40: 7399.CrossRefGoogle Scholar
Frisson, S. (2015). About bound and scary books: the processing of book polysemies. Lingua, 157: 1735.CrossRefGoogle Scholar
Gaatone, D. (2004). Ces insupportables verbes supports : le cas des verbes événementiels. Lingvisticae Investigationes, 27.2: 239251.CrossRefGoogle Scholar
Garey, H.B. (1957). Verbal aspect in French. Language, 33: 91110.CrossRefGoogle Scholar
Giry-Schneider, J. (1978). Les nominalisations en français. L’opérateur "faire" dans le lexique. Genève: Droz.Google Scholar
Giry-Schneider, J. (1987). Les prédicats nominaux en français. Les phrases simples à verbe support. Genève: Droz.Google Scholar
Godard, D. et Jayez, J. (1996). Types nominaux et anaphores : le cas des objets et des événements. Cahiers Chronos, 1: 4158.Google Scholar
Goossens, V. (2009). La polysémie des noms d’affect. Tranel, 50: 145158.Google Scholar
Gotham, M. (2017). Composing Criteria of Individuation in Copredication. Journal of Semantics, 34.2: 333371.Google Scholar
Grouin, C., Rosset, S., Zweigenbaum, P., Fort, K., Galibert, O. et Quintard, L. (2011). Proposal for an Extension of Traditional Named Entitites: from Guidelines to Evaluation, an Overview. In: Ide, N., Meyers, A., Pradhan, S. et Tomanek, K. (dirs.), Proceedings of the 5th Linguistic Annotation Workshop. Association for Computational Linguistics, pp. 92100.Google Scholar
Gross, G. (1994). Classes d’objets et description des verbes. Langages, 115: 1530.CrossRefGoogle Scholar
Gross, G. (1996). Prédicats nominaux et compatibilité aspectuelle. Langages, 121: 5472.CrossRefGoogle Scholar
Gross, G. (2008). Les classes d’objets. Lalies, 28: 111165.Google Scholar
Gross, G. et Kiefer, F. (1995). La structure événementielle des substantifs. Folia Linguistica, XXXIX.1–2: 4365.Google Scholar
Gross, G. et Vivès, R. (1986). Les constructions nominales et l’élaboration d’un lexique- grammaire. Langue Française, 69: 527.CrossRefGoogle Scholar
Gross, M. (1981). Les bases empiriques de la notion de prédicat sémantique. Langages, 63: 752.CrossRefGoogle Scholar
Grossmann, F. et Tutin, A. (dir.) (2005). Sémantique des noms et adjectifs d’émotion. = LIDIL 32. Grenoble: UGA Éditions.Google Scholar
Haas, P. (2009). Comment l’aspect vient aux noms. Les propriétés aspectuelles des noms à l’épreuve des restrictions de sélection imposées par certaines prépositions. Thèse de doctorat. Université Lille 3.Google Scholar
Haas, P., Huyghe, R. et Marín, R. (2008). Du verbe au nom : calques et décalages aspectuels. In: Durand, J., Habert, B. et Laks, B. (dirs.), Actes du 1er Congrès Mondial de Linguistique Française. SHS Web of Conferences, pp. 20512065.Google Scholar
Haas, P. et Huyghe, R. (2010). Les propriétés aspectuelles des noms d’activités. Cahiers Chronos, 21: 103118.Google Scholar
Haas, P. et Jugnet, A. (2013). De l’existence des prédicats d’achèvements. Lingvisticae Investigationes, 36.1: 5689.CrossRefGoogle Scholar
Harris, Z.S. (1954). Distributional structure. Word, 10.2–3: 146162.CrossRefGoogle Scholar
Hathout, N. et Sajous, F. (2016). Wiktionnaire's wikicode GLAWIfied: A workable French machine–readable dictionary. In: Calzolari, N. et al. (dirs.), Proceedings of the 10th Language Resources and Evaluation Conference. European Language Resources Association, pp. 13691376.Google Scholar
Heyd, S. et Knittel, M.-L. (2009). Les noms d’activité parmi les noms abstraits : Propriétés aspectuelles, distributionnelles et interprétatives. Lingvisticae Investigationes, 32: 124148.CrossRefGoogle Scholar
Huyghe, R. (2009). Les noms généraux d’espace en français. Enquête linguistique sur la notion de lieu. Bruxelles: Duculot.CrossRefGoogle Scholar
Huyghe, R. (2011). (A)telicity and the mass-count distinction: the case of French activity nominalisations. Recherches Linguistiques de Vincennes, 40: 101126.CrossRefGoogle Scholar
Huyghe, R. (2014). La sémantique des noms d’action : quelques repères. Cahiers de Lexicologie, 105: 181201.Google Scholar
Huyghe, R. (2015). Les typologies nominales : présentation. Langue française, 185: 527.CrossRefGoogle Scholar
Huyghe, R., Lombard, A., Salvadori, J. et Schwab, S. (à paraître). Semantic rivalry between French deverbal neologisms in -age, -ion and -ment . In: Kotowski, S. et Plag, I. (dirs.), The Semantics of Derivational Morphology: Theory, Methods, Evidence. Berlin: De Gruyter.Google Scholar
Jakubicek, M., Kilgarriff, A., Kovar, V., Rychly, P. and Suchomel, V. (2013). The TenTen corpus family. In: Proceedings of the 7th International Corpus Linguistics Conference. Lancaster University, pp. 125127.Google Scholar
Kiefer, F. (1998). Les substantifs déverbaux événementiels, Langages, 131: 5663.CrossRefGoogle Scholar
Kleiber, G. (1981). Problèmes de référence : descriptions définies et noms propres. Paris: Klincksieck.Google Scholar
Kleiber, G. (1996). Cognition, sémantique et facettes: une “histoire” de livres et de romans. In: Kleiber, G. et Riegel, M. (dirs.), Les Formes du Sens. Louvain La Neuve: Duculot, pp. 319331.CrossRefGoogle Scholar
Kleiber, G. (1999). Problèmes de sémantique: la polysémie en questions. Villeneuse d’Ascq: Presses Universitaires du Septentrion.CrossRefGoogle Scholar
Kleiber, G. (2012). De la dénomination à la désignation : le paradoxe ontologico-désignatif des odeurs. Langue française, 174: 4558.CrossRefGoogle Scholar
Kleiber, G. (2013). À la recherche de l’intensité. Langue française, 177: 6376.CrossRefGoogle Scholar
Kleiber, G., Benninger, C., Biermann-Fischer, M., Gerhard-Krait, F., Lammert, M., Theissen, A. et Vassiliadou, H. (2012). Typologie des noms : le critère "se trouver + SP locatif". Scolia, 26: 105129.Google Scholar
Kleiber, G. et Vuillaume, M. (2011). Sémantique des odeurs. Langages, 181: 1736.CrossRefGoogle Scholar
Labelle, J. (1986). Grammaire des noms de maladie. Langages, 69: 108125.Google Scholar
Lammert, M. (2010). Sémantique et cognition : les noms collectifs. Genève: Droz.Google Scholar
Lammert, M. et Lecolle, M. (2014). Les noms collectifs en français, une vue d’ensemble. Cahiers de Lexicologie, 105.2: 203222.Google Scholar
Milicevic, J. et Polguère, A. (2010). Ambivalence sémantique des noms de communication langagière du français. In : Neveu, F., Muni Toke, V., Klingler, T., Durand, J., Mondada, L. et Prévost, S. (dirs.), Actes du 2ème Congrès Mondial de Linguistique Française. SHS Web of Conferences, pp. 10291050.Google Scholar
Murphy, E. (2021). Linguistic Representation and Processing of Copredication. Phd. University College London.CrossRefGoogle Scholar
Ortega-Andrés, M. et Vicente, A. (2019). Polysemy and co-predication. Glossa: a journal of general linguistics, 4.1: 123.CrossRefGoogle Scholar
Petrolito, T. et Bond, F. (2014). A survey of wordnet annotated corpora. In: Orav, H., Fellbaum, C. et Vossen, P. (dirs.), Proceedings of the Seventh Global WordNet Conference. Tartu: University of Tartu Press, pp. 236243.Google Scholar
Piñón, C. (1997). Achievements in an Event Semantics. In: Lawson, A. et Cho, E. (dirs.), Proceedings of Semantic and Linguistic Theory 7. Ithaca (N.Y.): Cornell University Press, pp. 273296.Google Scholar
Piñón, C. (1999). Durative adverbials for result states. In: Bird, S., Carnie, A., Haugen, J. D., et Norquest, P. (dirs.), Proceedings of the 18th West Coast Conference on Formal Linguistics. Somerville (Mass.): Casadilla Press, pp. 420433.Google Scholar
Pustejovsky, J. (1995). The Generative Lexicon. Cambridge (Mass.): MIT Press.Google Scholar
Rastier, F. (2002). Valeur saussurienne et valeur monétaire. L’information grammaticale, 95: 4649.Google Scholar
Schäfer, R. (2015). Processing and querying large web corpora with the COW14 architecture. In: Banski, P., Biber, H., Breiteneder, E., Kupietz, M., Längen, H. et Witt, A. (dirs.), Proceedings of the 3rd Workshop on Challenges in the Management of Large Corpora. Mannheim: Institut für Deutsche Sprache, pp. 2834.Google Scholar
Schäfer, R. and Bildhauer, F. (2012). Building large corpora from the web using a new efficient tool chain. In: Calzolari, N. et al. (dirs.), Proceedings of the 8th Language Resources and Evaluation Conference. European Language Resources Association, pp. 486493.Google Scholar
Tribout, D., Barque, L., Haas, P. et Huyghe, R. (2014). De la simplicité en morphologie. In: Neveu, F., Blumenthal, P., Hriba, L., Gerstenberg, A., Meinschaefer, J. et Prévost, S. (dirs.), Actes du 4ème Congrès Mondial de Linguistique Française. SHS Web of Conferences, pp. 18791890.Google Scholar
Tutin, A., Novakova, I., Grossman, F. et Cavalla, C. (2006). Esquisse de typologie des noms d’affect à partir de leurs propriétés combinatoires. Langue française, 150: 3249.CrossRefGoogle Scholar
Van de Velde, D. (1995). Le spectre nominal : des noms de matière aux noms d’abstractions. Louvain-Paris: Peeters.Google Scholar
Van de Velde, D. (1997). Un dispositif linguistique propre à faire entrer certaines activités dans des taxinomies : "Faire + du + Nom d’activité". Revue de Linguistique Romane, 243–244: 369395.Google Scholar
Vendler, Z. (1967). Linguistics in Philosophy. Ithaca (N.Y.): Cornell University Press.CrossRefGoogle Scholar
Vigier, D. (2003). Les syntagmes prépositionnels en “en N” détachés en tête de phrase référant à des domaines d’activité. Lingvisticae investigationes, 26.1: 97122.CrossRefGoogle Scholar
Zipf, G. K. (1949). Human behavior and the principle of least effort. Cambridge (Mass.): Addison-Wesley Press.Google Scholar
Figure 0

Tableau 1 : Classes sémantiques simples et tests identificatoires

Figure 1

Figure 1: Arbre de décision pour la classification.

Figure 2

Figure 2: Sous-arbres pour l’identification des classes complexes.