Traitement Automatique des Langues (TAL)
Définition
TAL est l'abréviation de Traitement Automatique des Langues.
Le TAL développe des programmes informatiques :
- pour le traitement de l’écrit et de la parole,
- dans des contextes monolingues ou multilingues,
- sur la langue générale ou dans des domaines de spécialité.
Le TAL est une discipline à part entière qui s'appuie sur :
- la linguistique : morphologie, syntaxe, sémantique, phonétique, pragmatique, analyse du discours ;
- les formalismes : représentation de l'information et des connaissances dans des formats interprétables par des machines ;
- l’informatique : implémentation d’une tâche suivant un algorithme détaillé ;
mais développe dans chacune de ces disciplines des connaissances et des compétences spécifiques pour répondre à ses besoins.
Le TAL permet d'automatiser tout ou partie des tâches faisant appel à la linguistique.
ATTENTION : Il est très important de noter que l'automatisation n'est pas toujours systématique ni complète.
A cela différentes raisons :
- tout n'est pas automatisable (bien qu'arrivé à maturité industrielle en morphologie et syntaxe, le TAL peine encore à donner des résultats fiables dans le domaine de la sémantique),
- tout n'est pas à automatiser (le contrôle d'un humain peut être structurellement requis)
.
Les logiciels d'assistance, tels que la Traduction Assistée par Ordinateur (TAO), et l'Enseignement Assisté par Ordinateur (EAO) qui automatisent seulement une partie du travail s'inscrivent bel et bien dans le champ d'application du TAL.
L'adjectif automatique peut donc prêter à confusion.
Tout dépend de sa portée en fait.
L'automatisation (totale ou partielle donc) permet aux clients du TAL :
- de soulager les opérateurs humains des tâches les plus ingrates et répétitives,
- de réduire drastiquement les coûts et les délais de fabrication,
- d'offrir éventuellement des services qui seraient économiquement non-viables sans le TAL.
Produits
Les produits du TAL sont de différents types :
- produits logiciels
- produits linguistiques :
Applications et composants logiciels
Les applications et les composants logiciels les plus connus du TAL sont les suivants :
- traduction,
- génération de texte,
- aide à la rédaction,
- correction orthographique,
- résumé,
- recherche documentaire,
- classification de documents,
- surveillance-veille, filtrage, routage d'information,
- synthèse vocale,
- reconnaissance de locuteur,
- dictée vocale,
- commande vocale,
- etc.
NB : L'opposition application / composant est une opposition plus marketing que fonctionnelle.
C'est pourquoi nous les regroupons sous ce même paragraphe.
En effet, un même service TAL peut prendre l'une ou l'autre forme.
C'est le cas typiquement de la correction orthographique et de la traduction automatique, qui sont soit des applications à part entière, soit des addendum aux traitements de texte.
Outils
Les outils sont les briques de base qui composent les applications et les composants TAL.
Si ces outils sont totalement inconnus du grand public,
ils constituent en revanche le savoir-faire spécifique aux développeurs TAL,
qui savent exploiter au mieux leurs possibilités dans leurs produits.
Il s'agit de :
- analyseur morphologique, qui se décompose lui-même en sous-outils :
- reconnaissance de langue,
- segmenteur ("tokenizer"),
- lemmatiseur ("stemming"),
- étiqueteur ("tagger"),
- désambiguïseur("disambiguator"),
- analyseur syntaxique,
- réaccentuation de mots,
- extraction de mots inconnus,
- extraction de termes,
- phonétiseur,
- éditeur de dictionnaire,
- etc...
Lexiques
Le TAL exploite un ensemble de "lexiques".
Ces lexiques peuvent avoir été créés sur mesure pour un logiciel de TAL ou bien avoir été récupérés par un logiciel de TAL qui les détourne de leur objet premier.
Dans tous les cas, le lexique doit pouvoir être exploité par le logiciel et retravaillé par un professionnel : lexicographe, terminologue, cogniticien.
Suivant leur usage, on distingue différentes catégories de lexiques :
- dictionnaires génériques (morphologie + syntaxe + sémantique),
- dictionnaires spécifiques (de dérivation, d'abréviations, de synonymes, etc.)
- dictionnaires terminologiques,
- dictionnaires de définition,
- dictionnaires de traduction,
- nomenclatures,
- thésaurus,
- taxinomies,
- ontologies.
Corpus
On distingue différents types de corpus :
- corpus de textes / corpus oraux ;
- corpus bruts (sans annotations) / corpus de référence (avec annotations) ;
- corpus "réel" / corpus de test.
Les corpus sont des recueils de données utilisés pour le développement et l'évaluation des produits TAL :
- le développement de grammaires :
- grammaires statistiques (par apprentissage de bigrammes ou de trigrammes) ou
- grammaires symboliques (validation d'hypothèses linguistiques, recherche d'exhaustivité et de robustesse)
- l'évaluation interne et externe de la fiabilité des logiciels.
Dans tous ces contextes, la qualité d'échantillonnage des corpus est très importante.
Grammaires
Grammaire s'entend au sens de système de règles symboliques qui régissent une micro-tâche du TAL.
Le terme n'est donc pas réservé à la seule syntaxe :
- grammaire de segmentation,
- grammaire de flexion,
- grammaire de lemmatisation,
- grammaire de dérivation,
- grammaire de désambiguïsation,
- grammaire syntaxique,
- grammaires de surface,
- mot à mot (cf. "shallow parsing")
- groupes de mots sans enchâssement de SN (cf. "chunker")
- grammaires fonctionnelles (LFG),
- grammaires lexicalisées (GPSG, HPSG, TAG)
- grammaires de dépendance
- grammaires génératives,
- grammaire d'extraction de termes,
- grammaire d'expansion de requêtes,
- grammaire de génération,
- etc.
Liens
Points d'entrée les plus utiles dans le domaine du TAL :
Associatif
Actions nationales ou communautaires
Listes de diffusion