Représentation de l'ambiguïté morpho-syntaxique

Laurence ZAYSSER

GSI-Erli

1, place des Marseillais

94227 Charenton Le Pont Cedex France

e-mail : laurence.zaysser@erli.fr

Résumé : l'étiquetage de texte est une tâche incontournable, décisive et difficile. Quelles représentations linguistiques choisir pour la réaliser ? Doit-on désambiguïser entièrement la morphologie ? Peut-on représenter l'ambiguïté localement, indépendamment du chaînage syntaxique ?

1. Introduction

L'ambiguïté morphologique est une composante importante des médiocres performances des analyseurs syntaxiques. Ceux-ci ont à parcourir en temps réel un nombre d'hypothèses considérable dû non seulement à la complexité des règles de réécriture, mais aussi au nombre d'analyses morphologiques résultant de la lemmatisation. Les temps de traitement deviennent exponentiels et inadaptés à la tâche, notamment pour des applications industrielles qui utilisent des dictionnaires de taille réelle, où des lexicographes de métier ont répertorié toutes les ambiguïtés attestées en langue.

La réduction de l'ambiguïté morphologique avant l'entrée dans l'analyse syntaxique proprement dite est donc une nécessité incontournable qui a fait le succès d'une nouvelle génération de grammaires, les grammaires de désambiguïsation.

Ces grammaires, bien qu'elles soient dédiées à la désambiguïsation morphologique, n'en introduisent pas moins un changement d'axe dans le cours de l'analyse : avec elles, on passe du paradigmatique au syntagmatique. Cela n'est pas sans conséquences sur la représentations des données. C'est ce que nous essaierons de démontrer dans cet article ¹.

2. Le contexte

Quel type d'information exploitent les grammaires de désambiguïsation ?

A la différence des autres grammaires, les grammaires de désambiguïsation ne manipulent pas de syntagmes (sauf Vergne [VERGNE 94], mais syntagmes non-récursifs), puisque leur rôle est précisément de réduire l'ambiguïté morphologique pour faciliter la construction syntagmatique. Si la segmentation en "mots", phrases ou propositions a déjà été faite par la lemmatisation, le seul niveau de représentation accessible à ce stade est le lemme, caractérisé par sa graphie, sa catégorie, sa sous-catégorie et ses valeurs flexionnelles (et dans le meilleur des cas fonctionnelles).

Ce qu'exploitent les grammaires de désambiguïsation, qu'elles soient statistiques [CHURCH 88] ou par règles, ces sont des contraintes sur les suites d'unités morphologiques, pour exclure en contexte les analyses hautement improbables ou impossibles. On travaille donc sur la forme de surface [KARLSSON 90], [VOUTILAINEN 94].

La longueur des suites examinées varie suivant les systèmes. Les systèmes statistiques qui manipulent des bigrammes ou des trigrammes sont limités à des suites de longueur 2 ou 3. Les systèmes par règles opèrent dans les limites de la phrase ou de la proposition : à l'intérieur de cette limite, l'empan de la fenêtre d'exploration du contexte est aussi large que nécessaire ².

Dans les grammaires de contraintes, on peut interroger des contextes très étendus, ce qui permet de mettre en relation des éléments parfois très distants :

le premier et le dernier élément du noyau verbal peuvent être distants de 6. Ex : il ne lui en a jamais vraiment parlé.
le sujet d'un verbe peut en être séparé par un groupe propositionnel ou prépositionnel. Ex : le sentiment général qui s'est dégagé lors de cette réunion est [...] Ex : la réunion, nous ont-ils rapporté, s'est déroulée [...]
Le pronom relatif possède obligatoirement un antécédent (à l'exception de "quiconque" et de "qui"). Il peut en être séparé par un groupe propositionnel ou prépositionnel. Ex : Les produits de première nécessité que nous vendons [...]

Les grammaires de désambiguïsation par contraintes sont des systèmes intelligents (par opposition aux systèmes statistiques) capables de tirer parti des propriétés linguistiques marquées en surface : relations d'ordre, contraintes distributionnelles et de rection. Sans tous les cas, on se sert du contexte pour désambiguïser. Les éléments qui appellent obligatoirement un régissant ou un dépendant sont exclus en l'absence de celui-ci. Le noyau verbal et la gauche du syntagme nominal sont à cet égard les plus riches en contraintes. C'est probablement pourquoi l'exemple de contrainte le plus percutant restera encore pour longtemps l'interdiction de la suite DET-V.

Le quotidien du grammairien qui travaille dans ce cadre est donc fait de linguistique distributionnelle et dépendancielle. Il émet des contraintes très simples et linguistiquement fondées du type :

une préposition ne peut introduire un verbe conjugué. Ex : fait pour la nage.
un pronom faible ne peut être immédiatement suivi d'un nom commun (sauf NSN = lundi, mardi, ...) ou d'un nom propre si ce pronom n'est pas précédé d'un impératif. Ex : Range-la lundi ! Elle range la chambre.
pas de pronom faible devant un impératif sans négation. Ex : ne la chambre pas ! il la chambre.
pas de subjonctif sans un régissant du type V, ADJ, N, PONCT (pour les tirets d'énumation). Ex : Qu'il travaille ! Je veux qu'il travaille !

Puis, il formalise ces contraintes sous forme d'expressions régulières dont la syntaxe varie d'un système à l'autre. Voici un exemple de règle écrite avec SAM2 d'Erli ³.

~PREP !V{Mode^=PARTICIPE,INFINITIF;}
!^V{Mode=IMPERATIF;} ~PRO{SsCat=PERSONNEL_FAIBLE;} !N{SsCat^=PROPRE;SsCatSyn^=NSN;}
~PRO{SsCat=PERSONNEL_FAIBLE;} !V{Mode=IMPERATIF} ^ADV{SsCat=NEGATION;}
$ *_{Cat^=V,ADJ,N,PONCT;} ~V{Mode=SUBJONCTIF;}

On voit donc clairement ici qu'on ne fait plus de la morphologie, mais bien de la morpho-syntaxe. En effet, dès lors qu'on travaille sur des séquences de catégories et qu'on introduit le contexte, on passe ontologiquement de l'axe paradigmatique à l'axe syntagmatique, même si l'axe syntagmatique est appréhendé dans son acception la plus élémentaire, à savoir l'agencement des segments lexicaux sur la chaîne écrite et parlée. Ceci ne retire rien au fait qu'on ait déjà basculé dans le champ de la syntaxe.

Voilà donc pour le traitement linguistique réalisé par les grammaires de contraintes à des fins de désambiguïsation ⁴. sachant cela, voyons maintenant quelle en est l'incidence sur la représentation des données, donnée internes au moteur de désambiguïsation et données de sortie.

3. Ambiguïté morpho-lexicale

Etant donné que ces grammaires sont dédiées à la désambiguïsation, on calque spontanément le format de l'ambiguïté résiduelle (lorsqu'il y en a) sur le format de l'ambiguïté initiale, à savoir sur les paradigmes d'ambiguïté que ces grammaires ont pour mission de réduire idéalement à un élément.

Or l'ambiguïté initiale est une ambiguïté lexicale, locale au mot, hors-contexte. A chaque segment lexical hérité de la segmentation en mots, on associe (par consultation de dictionnaire et/ou par prédiction) un ensemble d'analyses regroupées dans un paradigme.

La lemmatisation ne fait qu'analyser chacun des segments lexicaux proposés par le segmenteur. Le fait que le segmenteur travaille sur la chaîne de caractères et propose des alternatives de segmentatioin en relation d'inclusion (entre simples / composés) de chevauchement (entre différents composés) est un autre problème. C'est un autre type d'ambiguïté situé en amont de la désambiguïsation. Nous ne l'étudierons pas ici, car il n'a pas d'incidence sur la désambiguïsation qui se situe en aval de la lemmatisation. En effet, le désambiguïseur adresse de la même manière les unités morphologiques simples, composées ou contractées. Toutes sont identifiées par leur caractérisation morpho-syntaxique : cat, sous-cat, traits flexionnels. Les phénomènes de surface (composition, contraction, agglutination) sont déjà rendus transparents à ce stade d'analyse. C'est tout l'intérêt de la lemmatisation. Chaque fois qu'une règle implique un déterminant, tous les déterminants, qu'ils soient contractées ou non à une préposition sont affectés. Même chose pour les noms qu'ils soient simples ou composés.

4. Ambiguïté morpho-syntaxique

Dans tous les cas, les contraintes permettent de restreindre l'ensemble des analyses associées à un segment quel que soit sa nature. Cependant, les contraintes exploitant le contexte font beaucoup plus encore : elles éliminent non seulement des analyses à l'intérieur d'un paradigme d'ambiguïté, mais aussi des séquences d'analyse, des chemins [VOUTILAINEN 93] dans la combinatoire d'analyses.

Ainsi, dans "conseiller en cuisine", l'analyse V impératif disparaît pour tous ses contextes gauches, à savoir "en" PREP ou PRO. Par contre, l'analyse PREP de "en" est conservée, mais avec sélection du contexte droit N.

En fait, lorsqu'on applique des contraintes contextuelles, la désambiguïsation consiste non pas à supprimer brutalement une analyse, mais à la lier par la positive ou par la négative à un contexte déterminé. Et ça n'est que l'absence ou la présence de ce contexte dans tous les chemins d'interprétation qui supprime effectivement et définitivement l'analyse.

Après application d'une règle de désambiguïsation, l'ambiguïté résiduelle est donc une ambiguïté syntaxique, liée en contexte.

5. Représentation de l'ambiguïté

Les automates à états finis expriment de manière parfaitement efficace les liens qui unissent les unités morphologiques sur la chaîne syntaxique [KOSKENNIEMI 90]. Les états et les transitions traduisent les chemins d'interprétation et chaque fois que certaines ambiguïtés sont liées, le graphe diverge en autant de chemins : chemin DET-N / chemin PRO-V pour notre exemple.

Les graphes acycliques orientés sont donc utilisés pour représenter la grammaire (graphe des impossibles) ainsi que les données désambiguïser (graphes des possibles). La désambiguïsation consiste à modifier le graphe des possibles par intersection avec les graphe des impossibles.

On remarquera que les graphes permettent de représenter indifféremment les deux types d'ambiguïtés que nous avons distinguées :

l'ambiguïté hors-contexte : dans ce cas, si le nombre de lemmes vaut N, le nombre d'états contenus dans le graphes est égal à N+1.
l'ambiguïté en contexte : dans ce cas, si le nombre de lemmes vaut N, les nombre d'états contenus dans le graphe est strictement supérieur à N+1.

Si les graphes font quasiment l'unanimité pour la représentation de l'ambiguïté en interne (dans le moteur de désambiguïsation), qu'en est-il en externe des sorties de désambiguïsation ?

Dans le cas d'une désambiguïsation totale, déterministe, aucune ambiguïté résiduelle n'est à gérer. Un seul chemin d'analyse a été préservé par la grammaire. La question du format de l'ambiguïté est caduque.

Dans le cas d'une désambiguïsation partielle, non-déterministe, l'ambiguïté résiduelle doit en revanche pouvoir être représentée sans perdre tout ou partie du travail réalisé par la grammaire de désambiguïsation. Or convertir un graphe d'ambiguïtés morpho-syntaxiques liées en un graphe d'ambiguïtés lexicales locales fait perdre de l'information et peut les cas échéant ramener à l'ambiguïté initiale.

Un désambiguïseur peut-il être non-déterministe ?

D'un point de vue fonctionnel, cela dépend de deux facteurs : du jeu d'étiquettes manipulé et de la place du désambiguïseur dans la chaîne de traitement.

Le jeu d'étiquettes manipulé par le désambiguïseur est de la plus haute importance. En désambiguïsation, il a des incidences directes sur l'ambiguïté résiduelle. Un jeu d'étiquettes qui regroupe sous la même étiquette des ambiguïtés difficilement résolubles (N/ADJ = NA, ADJ/Vppé=AJ) et qui catégorise certains mots par leur graphie (que, comme, etc.) a évidemment à faible coût un taux d'ambiguïté résiduelle très faible. Il s'agit donc de savoir si l'on veut faire un simple étiquetage ou une analyse morphologique complète. Dans le cas d'une analyse morphologique complète, il est difficile de résoudre toute l'ambiguïté en morphologie, difficile d'être déterministe donc.

En ce qui concerne, la chaîne de traitement, un désambiguïseur placé en fin de chaîne, servant de post-traitement morphologique pour l'étiquetage de corpus peut difficilement se permettre le non-déterminisme. L'étiquetage sera de toutes façons révisé manuellement. En revanche, un désambiguïseur placé en milieu de chaîne servant de pré-traitement syntaxique a tout intérêt à ne pas faire de désambiguïsations abusives pour éviter le chaînage d'erreurs et reléguer à l'analyseur syntaxique (voire sémantique) les ambiguïtés qu'il ne peut résoudre sans riques. En effet, taux d'erreurs et taux de désambiguïsation constituent des vases communiquants : au-delà d'un certain seuil, on ne fait plus baisser le taux d'ambiguïté sans relever le taux d'erreurs [VOUTILAINEN 92], VOUTILAINEN 94] ce qui est très préjudiciable en termes de robustesse [CHANOD 93] et de qualité.

Si l'on s'autorise de l'ambiguïté résiduelle, quel format doit-elle avoir ? Doit-on revenir au format d'ambiguïté locale hors-contexte ou bien conserver le format d'ambiguïté liée, en contexte ?

6. Ambiguïté globale

Il faut bien comprendre tout d'abord que faire un désambiguïseur non-déterministe n'oblige pas nécessairement à gérer l'ambiguïté globale.

En effet, l'ambiguïté globale fait référence à un découpage syntagmatique :

par le placement des frontières de syntagmes gauche et droite,
par la catégorisation.

Elle peut aussi faire référence à la longueur de l'énoncé, mais ironie du sort, l'usage ne dit malheureusement pas si l'ambiguïté doit être globale à l'énoncé ou globale à un syntagme de niveau quelconque dans la structure syntagmatique.

Quoiqu'il en soit, le terme d'ambiguïé globale présuppose un niveau de représentation syntagmatique arborescent récursif, niveau de représentation qui n'est pas disponible dans les grammaires de désambiguïsation. De plus, si toutes les ambiguïtés globales reposent sur des ambiguïtés liées, toutes les ambiguïtés liées ne sont pas nécessairement déterminées par des ambiguïtés globales. A preuve certains syntagmes nominaux de longueur identique mais d'analyses différentes.

Ex : le plus embarassant DET-ADV-ADJ/DET-N-ADJ.

Par ailleurs, si l'ambiguïté globale n'est pas, par essence même, du ressort des grammaires de surface, ces dernières en subissent toutefois les conséquences, ce qui se traduit en termes d'ambiguïté liée. Et contrairement aux idées reçues, ce phénomène n'est pas un simple cas d'école.

En effet, les vrais corpus sont d'une part en typographie pauvre (peu ou pas de diacritiques), et sont d'autre part truffés de phrases nominales et d'impératives infinitives. Du même coup, l'ambiguïté initiale y est très importante et les décisions de désambiguïsation sont parfois impossibles à prendre sauf à introduire des erreurs. Les alternatives DET-N/PRO-V (Ex : la charge) et PREP-N/PRO-V (Ex : un matelas en mousse) sont sur-représentées. Mais il en existe d'autres, notamment l'alternative PREP-N/PRO-V/V-V à cause de l'ambiguïté du "a/à" V/PREP en typographie pauvre (Ex : Une préparation a base de beurre).

En interne comme en externe (cad en sortie), le format d'ambiguïté doit donc pouvoir exprimer l'ambiguïté liée lorsqu'elle est présente, pour permettre une gestion optimale de l'ambiguïté résiduelle et du travail réalisé par la grammaire de désambiguïsation.

7. Conclusion

La lemmatisation travaille sur l'axe paradigmatique (vertical). Les alternatives morphologiques y sont locales à chaque unité textuelle et forment un paradigme d'ambiguïté morpho-lexicale hors-contexte. La morpho-syntaxe introduit rien moins qu'un changement d'axe dans le cours de l'analyse, à savoir le passage du paradigmatique au syntagmatique, "syntagmatique" devant être pris dans son acceptation la plus élémentaire qui est le chaînage des éléments sur un axe horizontal de surface. C'est bien ce que formalisent les chemins d'analyse et les graphes d'ambiguïté qui représentent une ambiguïté liée, en contexte.

Tant dans ses traitements que dans ses sorties, la désambiguïsation morpho-syntaxique donne corps et réalité à un niveau d'analyse morpho-syntaxique à part entière. Ce niveau grâce à elle ne se pose plus comme une simple vue de l'esprit, mais peut bel et bien prétendre à être considéré comme une nouvelle interface de données avant l'entrée dans l'analyse syntaxique proprement dite. Tout un programme pour les analyseurs syntaxiques qui n'admettent généralement en entrée que des ambiguïtés lexicales locales.

8. Références

[A. VOUTILAINEN 92]: A. ANTTILA, A. VOUTILAINEN, J. HEIKKILA. Constraint grammar of English : A performance-oriented introduction. In Publications of the Department of general Linguistics, No. 21, University of Helsinki, 1992.
[CHANOD 93]: J.-P. CHANOD. Problèmes de robustesse en analyse syntaxique. In Actes du colloque informatique et langue naturelle. ILN'93 Nantes, 1993.
[CHURCH 88]: K. WARD CHURCH. A schotastic parts program and noun phrase parser for unrestricted text. In 2nd conference on applied natural language processing. Austin., 1998.
[KARLSON 95]: F. KARLSON et al., editor. Constrant grammar : a language-Independant System for Parsing Unrestricted Text. Mouton de Guyter, berlin. New York, 1995.
[KARLSON 90]: F. KARLSSON. Constraint grammar as a framework for parsing running text. In COLING-90. 13th International Conference on Computational Linguistics, vol. 3. Kargen, H (ed.) Helsinki, Filande, 1990.
[KOSKENNIEMI 90]: F. KOSKENNIEMI. Finite-state parsing and disambiguation. In COLING-90. 13th International Conference on Computational Linguistics, vol. 3. Kargen, H (ed.) Helsinki, Finlande, 1990.
[VERGNE 94]: J. VERGNE. A non-recursive sentence segmentation applied to parsing linear complexity in time. In International Conference on New Methods in Language Processing 94, Manchester, 1994.
[VOUTILAINEN 93]: A. VOUTILAINEN. NPtool : a detector of English Noun Phrases. In Publications of the Department of General Linguistics, University of Helsinki, 1993.
[VOUTILAINEN 94]: A. VOUTILAINEN. Designing a parsing grammar: three studies of grammar-based surface parsing of unrestricted English text. In Publications of the Department of General Linguistics, No 22, University of Helsinki, 1994.

Notes

¹: Cet article a été publié dans NLP-IA96, Moncton, Canada, 1996. Retour au texte.
²: Sur ce critère, on notera au passage que les grammaires de désambiguïsation ne doivent donc pas être confondues avec ce qu'on appelle les "grammaires locales", bien que toutes deux écrivent leurs règles sous forme d'expressions régulières. Les grammaires locales sont des grammaires qui servent essentiellement à la reconnaissance d'expressions connexes du type dates et nombres. Ce ne sont pas des grammaires de désambiguïsation. Elles doivent leur nom au fait qu'elles traitent des ilôts de certitude locaux, ce qui n'est pas nécessairement le cas des grammaires de désambiguïsation. Retour au texte.
³: Le tilde marque l'analyse à supprimer.

Le dollar indique les début et fin de phrase.

L'étoile et le point d'exclamation sont des indicateurs d'occurence, respectivement 0-N et 1.

Le circonflexe est l'opérateur de négation.

Le tiret bas la sous-spécification de catégorie. Retour au texte.
⁴: La programmation par contraintes peut en effet servir à tout autre chose, notamment en intelligence artificielle. Retour au texte.