Traitement Automatique des Langues (TAL)

Définition

TAL est l'abréviation de Traitement Automatique des Langues.

Le TAL développe des programmes informatiques :

Le TAL est une discipline à part entière qui s'appuie sur :

mais développe dans chacune de ces disciplines des connaissances et des compétences spécifiques pour répondre à ses besoins.

Le TAL permet d'automatiser tout ou partie des tâches faisant appel à la linguistique.
ATTENTION : Il est très important de noter que l'automatisation n'est pas toujours systématique ni complète. A cela différentes raisons :

Les logiciels d'assistance, tels que la Traduction Assistée par Ordinateur (TAO), et l'Enseignement Assisté par Ordinateur (EAO) qui automatisent seulement une partie du travail s'inscrivent bel et bien dans le champ d'application du TAL. L'adjectif automatique peut donc prêter à confusion. Tout dépend de sa portée en fait.

L'automatisation (totale ou partielle donc) permet aux clients du TAL :

Produits

Les produits du TAL sont de différents types :

Applications et composants logiciels

Les applications et les composants logiciels les plus connus du TAL sont les suivants :

NB : L'opposition application / composant est une opposition plus marketing que fonctionnelle. C'est pourquoi nous les regroupons sous ce même paragraphe. En effet, un même service TAL peut prendre l'une ou l'autre forme. C'est le cas typiquement de la correction orthographique et de la traduction automatique, qui sont soit des applications à part entière, soit des addendum aux traitements de texte.

Outils

Les outils sont les briques de base qui composent les applications et les composants TAL. Si ces outils sont totalement inconnus du grand public, ils constituent en revanche le savoir-faire spécifique aux développeurs TAL, qui savent exploiter au mieux leurs possibilités dans leurs produits.

Il s'agit de :

Lexiques

Le TAL exploite un ensemble de "lexiques". Ces lexiques peuvent avoir été créés sur mesure pour un logiciel de TAL ou bien avoir été récupérés par un logiciel de TAL qui les détourne de leur objet premier. Dans tous les cas, le lexique doit pouvoir être exploité par le logiciel et retravaillé par un professionnel : lexicographe, terminologue, cogniticien.

Suivant leur usage, on distingue différentes catégories de lexiques :

Corpus

On distingue différents types de corpus :

Les corpus sont des recueils de données utilisés pour le développement et l'évaluation des produits TAL :

Dans tous ces contextes, la qualité d'échantillonnage des corpus est très importante.

Grammaires

Grammaire s'entend au sens de système de règles symboliques qui régissent une micro-tâche du TAL. Le terme n'est donc pas réservé à la seule syntaxe :

Liens

Points d'entrée les plus utiles dans le domaine du TAL :

Associatif

Actions nationales ou communautaires

Listes de diffusion