Web Référence : référencement sur mesure
Accueil Conseil en référencement liens utiles pour le référencement référencement Contact
 
>> 1 - Vous avez dit Langage Naturel ?

Vous pouvez maintenant télécharger cette page au format PDF

------
Si le Langage Naturel semble être porté par l'air du temps, il est frappant de constater à quel point l'expression elle-même " langage naturel " manque sacrément de naturel. Je me suis prise à relever, petite manie de linguiste oblige, par quelles périphrases l'internaute, au moment d'entamer une recherche, était invité à faire une requête sans trop se poser de questions sur la bonne façon de poser une question : "langue naturelle", "langage courant", "langage ordinaire","texte libre".
Frédéric Plais (Infoclic) dans "Chasseurs de Moteurs" (n°25) : nous dit que "naturel " signifie dans ce contexte " sans contrainte "! Infoclic invite l'internaute à "poser des questions avec ses propres mots".

Car c'est bien le propre d'une interrogation en langage naturel que d'offrir la possibilité à l'internaute de ne pas avoir à construire une requête en manipulant les opérateurs de la syntaxe booléenne ni à choisir les bons mots clé.

Les interfaces de dialogue en langage naturel qui font une entrée en force sur le marché français, invitent sans complexe l'internaute à s'exprimer en langage naturel.
Et là, paradoxalement, dès que le dialogue s'engage avec une hôtesse robotisée, la conversation devient naturelle. En d'autres termes, plus l'illusion de la convivialité est poussée, plus le naturel du langage revient au galop (les bases de connaissances linguistiques de ces outils prévoient d'ailleurs toujours un bon dictionnaire d'insultes d'ailleurs!).

L'invitation de Question.fr à poser ses questions en langage naturel contribue à semer la confusion : ces questions sont recueillies et lues par des experts humains (c'est plus le principe d'une boîte aux lettres que d'un formulaire) et donc traitées humainement et non par des automates.

La différence entre les outils d'interrogation se réclamant du langage naturel et les autres se fait du côté des dispositifs mis en place pour interpréter les questions.

Rien de vous empêche de poser une question en langage naturel avec des outils de recherche traditionnels (annuaires ou moteurs de recherche). Mais attention, tout ce que vous tapez ne sera jamais identifié que comme des chaînes de caractères. Ces outils affichent même parfois " supporter le langage naturel ". L'ambiguïté de l'expression est fort jolie : si l'on prend " supporter " dans son acception technique un peu anglicisante, on peut entendre là qu'il est possible de poser une question en langage naturel sans planter son ordinateur. Si on la prend dans son acception courante, on supporte quand on n'aime pas, n'est-ce pas ?. (A quand le fan-club du langage naturel ?) Plus sérieusement, il semble que c'est la formule consacrée des outils qui ne sont pas spécifiquement prévus pour traiter des requêtes en langage naturel mais qui n'opposeront pas de résistance farouche à mouliner une requête de plus de 2 mots.

Ces chaînes de caractères sont recherchées dans la base de données des outils, après :
- élimination éventuelle des mots vides
- avec repérage des opérateurs booléens éventuels
- par défaut, ajout d'un des opérateurs ET ou OU.

(voir prochainement l'article " Les grands outils de recherche traditionnels (booléens ?) à l'épreuve du langage naturel ").


Finalement, l'interprétation d'une requête est du " Traitement automatique du langage naturel " lorsque ces chaînes de caractères sont identifiées comme étant des mots. C'est à dire des objets porteurs de sens.

Les variations d'un mot ne sont pas ici aléatoires comme c'est le cas avec l'opérateur de troncature " * " accolé à une chaîne de caractères (exemple : mag* -> "magazine" et "magasin"). Les mots sont identifiés car ils sont listés dans une base indépendante de la base d'index. Cette base, souvent appelée dictionnaire, permet l'application de règles morphologiques précises (règles de flexion : masculin/féminin, psluriel/singulier, règles de dérivation : adjectif, nom, verbe etc…). Ce dictionnaire peut également apporter une information de contenu supplémentaire quand ces mots sont reliés entre eux par des liens sémantiques de type hiérarchique (générique/spécifique), synonymique et " termes approchants ".


Evidemment, l'évaluation des capacités d'analyse linguistique d'un outil au vu des seuls résultats d'une requête n'est pas si simple.
Par souci de méthode, nous avons choisi de présenter nos commentaires autour de trois grandes fonctionnalités où le traitement du langage naturel apporte ses solutions propres : l'interrogation, la navigation et l'indexation.


Les articles disponibles sur le site :

Une interface de dialogue : Semantia


line
Outils d'interrogation :

Liste que nous complèterons et que nous vous invitons à commenter.

Sur l'Internet :

Albert (société Albert Inc)
Il parle en français même si le site est exclusivement en anglais !


DigOut4U (société Arisem)
en version téléchargeable.

Infoclic (société Infoclic)

Sur intranet :

LexiGuide (société Lexiquest)
Sur la base de données de brevets de l'INPI

Intuition (société Sinequa)
à tester :
sur le site de Leroy Merlin
+ pourquoi Leroy Merlin a choisi le Langage Naturel


Nomino (société Nomino Technologies)
Société Canadienne. Outil de recherche et Interface de dialogue.

Semantia (société Semantia)
Interface de dialogue en Langage naturel.
à lire : notre prochain article.

Spirit (société Technologie-Gid)
Version 2 disponible sur le site du Premier Ministre

DioWeb Search (société Delphes Technologies International)
Société Canadienne.
en version téléchargeable, anglais, français, espagnol.
Nos commentaires prochainement, un de nos favoris.


Windex
moteur de recherche booléen " permettant le langage naturel "
en version téléchargeable

Voici des sites où sont répertoriés les outils de laboratoire de recherche :

Répertoire d'outils pour le Traitement Automatique des Langues
Association pour le Traitement Automatique des Langues


Le Réseau international Francophone d'aménagement linguistique (RIFAL), groupe d'étude de la Délégation générale à la langue française donne également une liste des outils universitaires et industriels. A prendre avec avec prudence car elle n'est pas tout à fait à jour : Sinequa s'appelle toujours Cora.

Pour en savoir plus sur les formalismes d'usage en ingénierie linguistique :
- les actions GRACE (Actions d'évaluation des ressources linguistiques) menées par le Limsi et Inalf:
Grammaires et Ressources pour les Analyseurs de Corpus et leur Évaluation

- Les rapports EAGLES (Expert Advisory Group on Language Engineering Standards) en anglais.
Concerne les corpus de textes, les lexiques, l'évaluation des systèmes de traitement automatique du langage naturel, et les différents formalismes en linguistique computationnelle.

Enfin, un hors sujet mais qui vient du cœur : le site Ethnologue qui est un fabuleux répertoire de quelques 6 000 langues parlées dans le monde, classées par aires géographiques, bien loin de l'ingénierie linguistique … quoique … sont également répertoriés les dictionnaires, grammaires et traducteurs en ligne.

Liliane Khouri
Responsable du développement linguistiquei

 

Conseil | liens utiles | Prestations | Contact | Actualités
Page d'accueil | Haut de page

Web Référence © 2000 - 2001 -2002 - 2003 - 2004- 2005