|
Vous pouvez
maintenant télécharger cette page au format
PDF
------
Si le Langage Naturel semble être porté par
l'air du temps, il est frappant de constater à quel
point l'expression elle-même " langage naturel
" manque sacrément de naturel. Je me suis prise
à relever, petite manie de linguiste oblige, par
quelles périphrases l'internaute, au moment d'entamer
une recherche, était invité à faire
une requête sans trop se poser de questions sur la
bonne façon de poser une question : "langue
naturelle", "langage courant", "langage
ordinaire","texte libre".
Frédéric Plais (Infoclic) dans "Chasseurs
de Moteurs" (n°25) : nous dit que "naturel
" signifie dans ce contexte " sans contrainte
"! Infoclic invite l'internaute à "poser
des questions avec ses propres mots".
Car c'est bien le propre
d'une interrogation en langage naturel que d'offrir la possibilité
à l'internaute de ne pas avoir à construire
une requête en manipulant les opérateurs de
la syntaxe booléenne ni à choisir les bons
mots clé.
Les interfaces
de dialogue en langage naturel qui font une entrée
en force sur le marché français, invitent
sans complexe l'internaute à s'exprimer en langage
naturel.
Et là, paradoxalement, dès que le dialogue
s'engage avec une hôtesse robotisée, la conversation
devient naturelle. En d'autres termes, plus l'illusion de
la convivialité est poussée, plus le naturel
du langage revient au galop (les bases de connaissances
linguistiques de ces outils prévoient d'ailleurs
toujours un bon dictionnaire d'insultes d'ailleurs!).
L'invitation de Question.fr
à poser ses questions en langage naturel contribue
à semer la confusion : ces questions sont recueillies
et lues par des experts humains (c'est plus le principe
d'une boîte aux lettres que d'un formulaire) et donc
traitées humainement et non par des automates.
La différence entre
les outils d'interrogation se réclamant du langage
naturel et les autres se fait du côté des dispositifs
mis en place pour interpréter les questions.
Rien de vous empêche
de poser une question en langage naturel avec des outils
de recherche traditionnels (annuaires ou moteurs de recherche).
Mais attention, tout ce que vous tapez ne sera jamais identifié
que comme des chaînes
de caractères. Ces outils affichent même
parfois " supporter le langage naturel ". L'ambiguïté
de l'expression est fort jolie : si l'on prend " supporter
" dans son acception technique un peu anglicisante,
on peut entendre là qu'il est possible de poser une
question en langage naturel sans planter son ordinateur.
Si on la prend dans son acception courante, on supporte
quand on n'aime pas, n'est-ce pas ?. (A quand le fan-club
du langage naturel ?) Plus sérieusement, il semble
que c'est la formule consacrée des outils qui ne
sont pas spécifiquement prévus pour traiter
des requêtes en langage naturel mais qui n'opposeront
pas de résistance farouche à mouliner une
requête de plus de 2 mots.
Ces chaînes de caractères
sont recherchées dans la base de données des
outils, après :
- élimination éventuelle des mots
vides
- avec repérage des opérateurs
booléens éventuels
- par défaut, ajout d'un des opérateurs ET
ou OU.
(voir prochainement l'article
" Les grands outils de recherche traditionnels (booléens
?) à l'épreuve du langage naturel ").
Finalement, l'interprétation d'une requête
est du " Traitement automatique du langage naturel
" lorsque ces chaînes de caractères sont
identifiées comme étant des mots.
C'est à dire des objets porteurs de sens.
Les variations d'un mot ne
sont pas ici aléatoires comme c'est le cas avec l'opérateur
de troncature " * " accolé à une
chaîne de caractères (exemple : mag* ->
"magazine" et "magasin"). Les mots sont
identifiés car ils sont listés dans une base
indépendante de la base d'index. Cette base, souvent
appelée dictionnaire,
permet l'application de règles morphologiques précises
(règles de flexion : masculin/féminin, psluriel/singulier,
règles de dérivation : adjectif, nom, verbe
etc
). Ce dictionnaire peut également apporter
une information de contenu supplémentaire quand ces
mots sont reliés entre eux par des liens sémantiques
de type hiérarchique (générique/spécifique),
synonymique et " termes approchants ".
Evidemment, l'évaluation des capacités d'analyse
linguistique d'un outil au vu des seuls résultats
d'une requête n'est pas si simple.
Par souci de méthode, nous avons choisi de présenter
nos commentaires autour de trois grandes fonctionnalités
où le traitement du langage naturel apporte ses solutions
propres : l'interrogation, la navigation et l'indexation.
Les articles disponibles sur le site :
Une interface de dialogue : Semantia
|