FR2885712A1

FR2885712A1 - Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Info

Publication number: FR2885712A1
Application number: FR0504765A
Authority: FR
Inventors: Kabire Fidaali; Hermann Prignitz
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-05-12
Filing date: 2005-05-12
Publication date: 2006-11-17
Anticipated expiration: 2025-05-12
Also published as: US7856438B2; WO2006120352A1; EP1880314A1; FR2885712B1; US20090077113A1

Abstract

Un dispositif (D), dédié à l'analyse sémantique de documents, comprend une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) comportant i) un gestionnaire d'arbre n-aire (GAN) chargé de constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre n-aire structural comprenant un noeud racine associé à une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, et ii) un gestionnaire d'arbre sémantique (GAS) chargé de déterminer, à partir de l'arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains noeuds de l'arbre n-aire, afin de construire un arbre sémantique muni de noeuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres noeuds de l'arbre n-aire et de leurs liens respectifs.

Description

HK1

DISPOSITIF ET PROCÉDÉ D'ANALYSE SÉMANTIQUE DE DOCUMENTS PAR CONSTITUTION D'ARBRES N-AIRE ET SÉMANTIQUE L'invention concerne le domaine de l'analyse automatisée de documents 5 ainsi que l'utilisation des résultats de telles analyses.

On entend ici par document un ensemble de donnée; représentant des caractères connus ou reconnaissables. II pourra notamment s'agir d'un texte constitué d'une suite ordonnée d'entités verbales, comme par Exemple des mots, des groupes de mots, des chiffres ou des groupes alphanumériques.

Par ailleurs, on entend ici par analyse tout type de vérification destinée à déterminer si un document possède un sens, compte tenu éventuellement de son contexte.

De plus, on entend ici par utilisation des résultats toute opération ou tout procédé pouvant être appliqué à un document analysé, par exemple en vue d'une traduction, éventuellement simultanée, ou en vue d'un filtrage d'information (par exemple dans le cadre d'une gestion de messagerie électronique), ou en vue d'une correction orthographique et/ou grammaticale, ou en vue d'une transcription d'une dictée vocale, ou en vue d'une génération de textes (tels que des résumés), ou encore en vue d'une recherche, au moyen d'un moteur de recherche, d'informations textuelles accessibles dans des serveurs de réseaux privés ou publics (tels qu'Internet).

De nombreuses applications permettent de traiter le langage naturel. Elles sont fondées sur différentes techniques, comme par exemple les analyseurs syntaxiques, les réseaux sémantiques ou les modèles bayésiens, parfois associés à des réseaux de neurones ou à de la logique modale floue.

Ces techniques offrent certains avantages par rapport aux moteurs de recherche de première génération, qui étaient limités par l'emploi de mots clés.

Cependant, dans certains domaines ces techniques s'avèrent insuffisantes, voire inopérantes, en matière de traitement du langage naturel, du fait qu'elles négligent une partie des informations qui sont contenues dans les documents à analyser.

Cela résulte essentiellement de la difficulté majeure que représente pour une machine le traitement automatique du langage naturel du faim: de son ambiguïté et de sa polysémie. Le terme ambiguïté désigne un énoncé présentant plusieurs interprétations, et le terme polysémie désigne les mots qui oni: plusieurs sens (la polysémie est une source d'ambiguïté parmi d'autres).

En effet, il est extrêmement difficile, voire impossible, de modéliser le langage sans modéliser le sens. En outre, le sens n'étant rien sans sa compréhension, le traitement automatique devrait intégrer une modélisation des mécanismes de la compréhension humaine du sens. Or, on ne sait même pas si la compréhension humaine est modélisable.

Aucune technique connue n'étant entièrement satisfaisante, l'invention a donc pour but d'améliorer la situation, et notamment de permettre l'interprétation correcte d'un document par une évaluation automatique du rôle joué par chacune des entités verbales (ou mots) qui composent ce document (tel qu'un texte) sur les plans syntaxique, sémantique et contextuel.

Elle propose à cet effet un dispositif d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques et un interpréteur de document chargé de déterminer si un document a un sens à l'aide de la base de données.

Ce dispositif d'analyse sémantique de documents se caractérise par le fait 20 que son interpréteur de document comprend: un gestionnaire d'arbre n-aire chargé de constituer un arbre 1-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un noeud racine, formé d'une entité verbale régissante primaire, et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle, ure entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, - un gestionnaire d'arbre sémantique chargé de déterminer, au moins à partir de l'arbre n-aire structural et de la base de données, des entités catégorisantes de type objet et de type acte activées par certains noeuds de l'arbre n-aire, afin de construire un arbre sémantique muni de noeuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres noeuds de l'arbre n-aire et de leurs liens respectifs.

En d'autres termes, le gestionnaire d'arbre sémantiq ae est chargé de transformer chaque arbre (structural) n-aire en un arbre sémantique, d'une première part, en extrayant de celui-ci des entités catégorisantes, d'une deuxième part, en créant des liens sémantiques entre entités catégorisantes extraites à partir de l'interprétation des liens structuraux qui relient les entités verbales qui ont activé ces entités catégorisantes, et d'une troisième part, en affectant à chaque entité catégorisante extraite une liste d'au moins un attribut selon un modèle (ou patron) défini par un lexique.

On entend ici par lexique une liste d'entrées (les entités verbales) 15 définies chacune par: des caractéristiques structurales catégorisantes, par exemple verbe, substantif, etc., genre, nombre, etc., et/ou - des contraintes structurales, c'est-à-dire des schémas actanciels (potentiels de connexion), et/ou des caractéristiques sémantiques génériques, c'est-àdire une décomposition sur les ontologies sous-jacentes, et/ou des contraintes sémantiques spécifiques à chaque classe structurale, c'est-àdire des relations de compatibilité sémantique qui exploitent les caractéristiques sémantiques génériques, et/ou des fonctions lexicales, et/ou des patrons (comportant chacun un modèle de connexion sémantique et une liste de propriétés (ou attributs)) servant de modèles lors de la construction des noeuds de l'arbre sémantique.

Par ailleurs, une contrainte est un lien régulé définissant une caractéristique 30 connexionnelle.

On peut également, et éventuellement, affecter aux attributs des valeurs issues des noeuds de l'arbre n-aire n'ayant pas encore été exploités.

On entend ici par entité catégorisante de type objet une abstraction obtenue (essentiellement) par catégorisation d'objets du mondé réel (comme par exemple une table, une étoile ou une rose) ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels (comme par exemple des sentiments), généralement référencés par des substantifs (la réciproque n'étant pas nécessairement vraie).

Par ailleurs, on entend ici par entité catégorisante de type acte une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel (comme par exemple aller ou déplacer) ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles (comme par exemple penser ou aimer) pouvant être référencées soit (préférentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale (cette fonction lexicale faisant partie de la définition du substantif concerné) - à titre d'exemple on peut citer la transformation de l'expression le déplacement de la table en l'expression déplacer la table ), soit par toute autre catégorie structurale selon un procédé propre à la langue considérée.

En outre, selon l'invention un document possède au moins un sens dès lors 20 que l'on a pu constituer un arbre sémantique à partir de ses entités verbales.

Le dispositif selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment: son interpréteur de document peut comprendre un gestionnaire d'arbre binaire chargé de constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, cet arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux noeuds fils rattachés à un noeud père, et un noeud racine, constituant un noeud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, le gestionnaire d'arbre n-aire est chargé de constituer chaque arbre n-aire à partir d'un arbre binaire structural; son interpréteur de document peut comprendre un module de décomposition chargé de décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales; - son interpréteur de document peut comprendre un analyseur:;émantique chargé de déterminer les relations de compatibilité sémantique entre noeuds principaux de type objet et/ou noeuds principaux de type acte d'au moins un arbre sémantique; - son analyseur sémantique peut être chargé de déterminer ces relations entre noeuds principaux d'au moins un arbre sémantique parmi des relations spatiale, temporelle, causale, anaphorique et cataphorique; son analyseur sémantique peut être chargé d'effectuer un diagnostic relatif à l'analyse d'un document, et de délivrer un message représentatif du résultat de ce diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétations différentes d'une phrase (qui résultent de la présence d'ambiguïtés non encore résolues), et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grarnmaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non-sens, et/ou d'une liste d'ambiguïtés non résolues.

L'invention propose également un procédé d'analyse sémantique de documents consistant: à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre n-aire structural comprenant un noeud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement au noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, à déterminer, au moins à partir de l'arbre n-aire structural et de données stockées dans une base de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains noeuds de l'arbre n-aire, afin de construire un arbre sémantique muni de noeuds principaux constitués des entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles do l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres noeuds de l'arbre n-aire et de leurs liens respectifs.

Le procédé selon l'invention peut comporter d'autres caractéristiques qui peuvent être prises séparément ou en combinaison, et notamment: avant de constituer un arbre n-aire, on peut constituer un arbre binaire structural à partir de la décomposition d'un document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, l'arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de la suite et constituant l'un des deux noeuds fils rattachés à un noeud père, et un noeud racine, constituant un noeud père et associé à tout ou partie des entités verbales de la suite. Dans ce cas, on constitue chaque arbre n-aire à partir d'un arbre binaire structural; avant de constituer un arbre binaire ou un arbre n-aire, on peut décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales; on peut déterminer les relations de compatibilité sémantique entre noeuds principaux de type objet et/ou noeuds principaux de type acte d'au moins un arbre sémantique; on peut déterminer si le document analysé possède un sens en déterminant des relations entre noeuds principaux d'au moins un arbre sémantique, choisies parmi des relations spatiale, temporelle, causale, anaphorique, et cataphorique; après avoir constitué un arbre sémantique, on peut effectuer un diagnostic relatif à l'analyse d'un document, puis délivrer un message représentatif du résultat du diagnostic. Ce message de diagnostic précise la nature des problèmes rencontrés pendant l'analyse du document. Il peut par exemple comprendre à cet effet des informations représentatives des difficultés rencontrées pendant l'analyse d'un document, et/ou des possibilités d'interprétation différentes d'une phrase, et/ou d'au moins un mot inconnu, et/ou d'au moins une faute de grammaire, et/ou d'au moins un défaut de construction, et/ou d'au moins un non- sens, et/ou d'une liste d'ambiguïtés non résolues.

D'autres caractéristiques et avantages de l'inventicn apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés, sur lesquels: la figure 1 illustre de façon très schématique et fonctionnelle un exemple de 5 réalisation d'un dispositif d'analyse sémantique de documents selon l'invention, la figure 2 illustre de façon schématique les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales, la figure 3 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre binaire structural à partir d'une 1 o décomposition de document en entités verbales, la figure 4 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre n-aire structural à partir d'un arbre binaire structural, la figure 5 est un diagramme arborescent, non limitatif, illustrant 15 schématiquement des relations entre différents types, sous- types et sous-soustypes d'entités catégorisantes, la figure 6 illustre de façon schématique les principales étapes d'un exemple d'algorithme de construction d'un arbre sémantique à partir d'un arbre n-aire structural, la figure 7 illustre de façon schématique un exemple d'arbre bir aire structural, la figure 8 illustre de façon schématique un exemple d'arbre n-aire structural résultant de l'arbre binaire structural de la figure 7, la figure 9 illustre de façon schématique un exemple d'arbre sémantique résultant de l'arbre n-aire structural de la figure 8, la figure 10 illustre de façon schématique des relations causale et anaphorique dans un autre exemple d'arbre sémantique, les figures 11A et 11B illustrent de façon schématique respectivement un autre exemple d'arbre n-aire structural et l'arbre sémantique associé dans le cas d'une gestion chronologique, - la figure 12 illustre de façon schématique une relation temporelle entre deux exemples d'arbre sémantique, la figure 13 illustre de façon schématique des relations temporelle et anaphorique entre deux autres exemples d'arbre sémantique, la figure 14 illustre de façon schématique des relations de compatibilité sémantique entre des entités verbales d'un autre exemple d'arbre sémantique, la figure 15 illustre schématiquement les principales relations entre des noeuds associés à des substantifs (NO) et des noeuds associés à des adjectifs (NA), et les principales notions qui y sont rattachées (en particulier les rnétriques), et la figure 16 illustre schématiquement les principales relations entre des entités catégorisantes de type objet et acte, et les principales rotions qui y sont 1 o rattachées.

Les dessins annexés pourront non seulement servir à compléter l'invention, mais aussi contribuer à sa définition, le cas échéant.

L'invention a notamment pour objet de permettre la structuration, par le sens, de l'information contenue dans un document à analyser, au moyen, 15 notamment, d'un modèle de levée automatique d'une part e au moins des ambiguïtés et polysémies inhérentes aux documents en langage naturel.

On se réfère tout d'abord à la figure 1 pour décrire un exemple de réalisation d'un dispositif d'analyse sémantique de documents D, selon l'invention.

Dans ce qui suit, on considère à titre d'exemple non limitatif que le dispositif 20 D est dédié à la levée automatique d'ambiguïtés et de polysémies de documents de type texte.

Un tel dispositif D peut par exemple être implanté dans un ordinateur ou un serveur d'application(s) dont il utilise certaines ressources, notamment de calcul (CPU).

Un dispositif d'analyse D, selon l'invention, comporte au rioins une base de données structurales et sémantiques BD et un interpréteur de document ID.

La base de données BD, également appelée lexique (ou référentiel-lexique), comprend des mots (ou entités verbales) auxquel(le)s sont affectées des propriétés syntaxiques et sémantiques ainsi que des règles de composition (ou liens). Les propriétés et liens (ou règles) constituent des données qui servent à construire des entités catégorisantes (ou conceptuelles) de type acte et objet.

Les définitions des entités catégorisantes ont été données précédemment.

Par ailleurs, on entend ici par propriété une abstrac:ion obtenue par catégorisation de notions à caractère définitoire, basées sur des ensembles de valeurs, généralement référencées par des substantifs (comme par exemple la couleur ou la taille). Une valeur est par définition une abstraction directement référencée par un adjectif et nécessairement liée à une propriété. Les valeurs peuvent généralement être associées à des échelles quantitatives ( objectives ) et/ou qualitatives ( subjectives ), comme on le verra plus loin lors de l'introduction de la notion de métrique.

Les mots sont classés au sein de classes structurales de verbes, de 1 o substantifs, d'adjectifs, d'adverbes et de mots structurants. Toutes ces classes peuvent se subdiviser par exemple en sous-classes, sous-sousclasses, et ainsi de suite (comme on le verra plus loin en référence à la figure 15 où les NOA, NOu et analogues sont des sous-classes de la classe des substantifs).

Une entité catégorisante est chargée d'engendrer librement du sens ambigu par association avec d'autres entités catégorisantes, sous le contrôle de propriétés qui limitent leur liberté au respect d'une structure syntaxique et sémantique contrôlée.

Les liens sont chargés de contrôler les propriétés à travers des surdéterminations pragmatiques (contraintes pragmatiques faibles ou fortes), soit issues du document (texte) lui même, soit issues du contexte général. Par contraintes pragmatiques faibles on entend ici le fait qu'aucun référentiel généraliste en contexte ouvert ne saurait épuiser toutes les possibilités d'interprétation d'un message textuel. Les liens offrent une souplesse au processus de levée d'ambiguïté (ou désambiguïsation) en activant ou en désactivant certaines règles des propriétés suivant les besoins, par exemple en privilégiant la sémantique sur la syntaxe quand une phrase agrammaticale présente manifestement un sens. Leur rôle dans la désambiguïsation est essentiel.

Comme cela est illustré sur la figure 1, la base de données BD peut être subdivisée en une base de données généralistes BD1 et une base de données 30 spécialisées BD2.

La base de données généralistes BD1, également appelée lexique général, comporte des entrées, typiquement plusieurs dizaines de milliers (par exemple 000) qui définissent des formes fléchies (typiquement plusieurs centaines de milliers, et par exemple plus de 300 000), munies de données traduisant des contraintes pragmatiques faibles intervenant notamment dans la désambiguïsation du sens intrinsèque d'un texte qui préserve sa polysémie générale.

La base de données spécialisées BD2, également: appelée lexique spécialisé, comporte des données traduisant des particularités linguistiques d'un contexte précis (contraintes pragmatiques fortes) qui perme.:tent de limiter la polysémie générale des messages pour en extraire un ou plusieurs sens interprétés localement pertinents. Plus la définition du contexte est détaillée, plus l'interprétation finale est simple à réaliser.

Les propriétés sémantiques sont organisées selon une taxinomie et distribuées sur les axes de trois référentiels primaires multidimensionnels le réel matériel, l'intentionnel et le contextuel. Elles sont indépendantes des syntaxes classiques qui n'intègrent que faiblement les paramètres sémantiques. Par conséquent elles ne sont pas spécifiques à une langue particulière.

Chaque référentiel primaire multidimensionnel dispose d'axes de décomposition des propriétés sémantiques et d'une logique de composition propre. Les logiques associées aux trois référentiels primaires sont de type modal.

Le calcul des contributions à la désambiguïsation de chaque référentiel primaire se fait selon une évaluation d'une ou plusieurs résultantes qui fixent les paramètres de son influence sur le processus général de désarbiguïsation. Si les axes intentionnels et contextuels se prêtent au calcul de telles résultantes, en revanche le réel matériel apporte dans la quasi totalité des langues connues, une contribution différenciée qu'il n'est pas toujours possible de réduire à une composante globale. On exploite ainsi les propriétés sémantiques portant sur le réel en préservant les quatre axes classiques d'un espace spatio-temporel à 4 dimensions.

Les entités catégorisantes sont des objets dynamiques d'un univers linguistique à six dimensions muni d'une algèbre en logique multimodale. Un ensemble de règles de compatibilité entre propriétés régissent les interactions entre entités catégorisantes.

L'interpréteur de document ID est chargé de déterminer si un document a un sens à l'aide de la base de données BD et de fonctions de traitement mettant en oeuvre un modèle mathématique sur lequel on reviendra plus loin. Il comprend au moins un gestionnaire d'arbre n-aire GAN et un gestionnaire d'arbre sémantique GAS, ainsi qu'éventuellement un analyseur sémantique AS.

Le gestionnaire d'arbre n-aire GAN est chargé de constituer, à l'aide de ses fonctions de traitement et de la base de données BD, un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales (ou mots, ou groupes de mots, ou encore groupes alphanumériques) et de contraintes structurales et/ou sémantiques choisies et définies dans la base de données BD.

Un texte (ou document) étant généralement constitué de phrases, on considère dans ce qui suit que chaque phrase constitue tout ou partie d'une suite ordonnée d'entités verbales.

Il est important de noter que les suites ordonnées d'entités verbales sont par exemple fournies par un module de décomposition de cocument MD qui, comme dans l'exemple illustré sur la figure 1, peut faire partie du dispositif D. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent lui être directement fournies par un équipement externe.

Le module de décomposition de document MD est chargé, lorsqu'il existe, de décomposer chaque ensemble de données, qui définit un document (tel qu'un texte), en une suite ordonnée d'entités verbales à analyser. Dans la plupart des situations, après avoir décomposé un document en une suite ordonnée d'entités verbales on ne procède pas à l'identification de la langue Et de sa structure syntaxique. Cette dernière si elle n'est pas donnée, est identifiée à l'étape suivante. Cependant, on peut envisager de déterminer, à ce stade, des séparateurs spécifiques à une langue donnée, comme par exemple pour le chinois.

Chaque arbre n-aire structural, qui est construit par le gestionnaire d'arbre n-aire GAN, comprend un noeud racine qui est associé à une entité verbale régissante dite primaire et à des structures qui sont formées d'une entité verbale subordonnée dite secondaire et rattachées soit directement soi.: indirectement au noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle.

La mise en place d'un lien (identifié par sa (ou ses.) caractéristique(s) connexionnelle(s)) dans un arbre structural binaire se fait par application des contraintes structurales et/ou sémantiques fournies par les potentiels de connexion qui sont associés aux données élémentaires (issues de la base de données (ou lexique) BD1 ou BD2) des deux entités verbales concernées.

Certaines entités verbales subordonnées secondaires Deuvent devenir à leur tour des entités verbales régissantes.

Chaque arbre n-aire structural peut être construit à partir d'un arbre binaire, lui-même construit à partir d'une suite ordonnée d'entités verbales, éventuellement 10 fournie par le module de décomposition MD.

Dans ce cas, l'interpréteur de document ID comprend, ccmme illustré sur la figure 1, un gestionnaire d'arbre binaire structural. Ce dernier est chargé de recomposer chaque suite ordonnée d'entités verbales qu'il reçoit en un arbre binaire structural. Plus précisément, comme on le verra ci-après deux noeuds adjacents entrent en composition pour former un nouveau noeud, sachant qu'au départ on ne dispose que de feuilles.

Un arbre binaire structural comprend un noeud racine qui représente l'ensemble des entités verbales d'une phrase (ou portion de phrase) à traiter, et qui constitue un noeud père pour deux noeuds fils résultant de sa décomposition binaire. Selon le nombre d'entités verbales que comporte un noeud fils, il constitue soit une feuille de l'arbre binaire, soit un noeud père décomposable à son tour, de façon binaire, en deux noeuds fils.

En d'autres termes, la décomposition binaire du noeud racine donne deux noeuds fils qui peuvent à leur tour être des noeuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la (portion de) phrase traitée.

Cette décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD. Préférentiellement, l'utilisateur du dispositif D n'intervient pas à ce stade. Son intervention se réduit éventuellement à la définition de règles locales permettant d'outrepasser certaines règles générales (comme par exemple interdire l'application des règles d'accord en genre).

Le gestionnaire d'arbre binaire GAB et/ou le gestionnaire d'arbre n-aire GAN peuvent disposer d'une fonction d'identification des unités lexicales (ou entités verbales) propres à la langue utilisée pour rédiger (ou dicter) un document, permettant de mettre en évidence des ambiguïtés lexicales.

Le gestionnaire d'arbre sémantique GAS est chargé de déterminer des entités catégorisantes de type objet et de type acte à partir de l'arbre n-aire structural et des données stockées dans la base de données BD.

Il est ici rappelé qu'une entité catégorisante de type objet est une abstraction obtenue (essentiellement) par catégorisation d'objets du monderéel ou de notions abstraites qui fonctionnent comme des métaphores d'objets réels, généralement référencés par des substantifs. Par ailleurs, une entité catégorisante de type acte est une abstraction obtenue (essentiellement) par catégorisation d'actions du monde réel ou de notions abstraites qui fonctionnent comme des métaphores d'actions réelles pouvant être référencées soit (préf rentiellement) par des verbes, soit par des substantifs (dans ce cas la construction de l'arbre sémantique nécessite une étape supplémentaire consistant à appliquer une fonction lexicale pour transformer la structure substantivale en une structure verbale).

Comme on le verra plus loin, le gestionnaire d'arbre sémantique GAS peut, dans certaines situations, se servir des informations contenues dans un ou plusieurs autres arbres n-aires correspondant à d'autres phrases d'un même document pour constituer un arbre sémantique. C'est notamment le cas en présence d'ambiguïtés de type anaphore ou cataphore.

Chaque arbre sémantique est constitué de noeuds principaux qui sont chacun associés à au moins une entité catégorisante de type objet ou de type acte, qui est activée par certains noeuds de l'arbre n-aire, et qui sont liés par des relations sémantiques issues de caractéristiques connexionnelles de l'arbre n-aire et auxquelles sont associés des attributs fonction des caractéristiques des autres noeuds de l'arbre naire et de leurs liens respectifs.

L'analyseur sémantique AS est chargé de déterminer les relations de compatibilité sémantique entre les noeuds principaux de type objet et/ou les noeuds principaux de type acte d'au moins un arbre sémantique.

2885712 14 Les relations de compatibilité sémantique exploitent les caractéristiques sémantiques. Par exemple, seul un humain , qui est une entité catégorisante de type objet, peut penser , qui est une entité catégorisante de type acte.

L'analyseur sémantique AS constitue un outil de diagnostic d'analyse de document. Il peut par exemple préciser quelles difficultés ont été rencontrées pendant l'analyse d'un document (ou d'une phrase) et/ou différentes possibilités d'interprétation d'une phrase et/ou des mots inconnus et/cu des fautes de grammaire (par exemple des règles d'accord non respectées) et/ou des défauts de construction et/ou des non-sens (par exemple des règles de compatibilité sémantique non respectées) et/ou des ambiguïtés qui n'ont pas pu être résolues.

Grâce aux diagnostics fournis, il est alors par exemple possible de classer des messages, ou de résoudre une situation problématique (par application d'une règle locale ou par identification d'un défaut d'information empêchant la compréhension complète d'un message), ou encore de savoir pourquoi un message est jugé incompréhensible . En outre, lorsque le diagnostic fourni est compréhensible et répertorié, des actions automatisées peuvent être entreprises.

Comme indiqué précédemment, les différents élérnents composant l'interpréteur de document ID utilisent des fonctions de traitement qui mettent en oeuvre un modèle mathématique. Ce dernier repose sur plusieurs algorithmes qui interviennent sur les liens qui sont pourvus d'au moins une caractéristique connexionnelle et qui sont établis entre des structures formées d'une entité verbale subordonnée secondaire et un noeud racine. Plus précisément, ces algorithmes exploitent les propriétés des entrées de la base de données I3D, préalablement transformées en entités catégorisantes dont les données et les liens constituent les propriétés.

Comme évoqué précédemment, les entités catégorisantes constituent des variétés distribuées suivant des axes regroupés en trois référentiels primaires différents. Les variétés peuvent interagir et se combiner via des règles de composition lexicales, syntaxiques, sémantiques, et pragmatiques dans un univers linguistique à six dimensions.

Le traitement des ambiguïtés se fait transversalement, non pas successivement mais de façon interactive, en fonction des règles de compatibilité de chaque entité catégorisante avec d'autres entités catégorisantes.

Les propensions de plusieurs entités catégorisantes à cohabiter ou à s'exclure, par activation ou désactivation de règles de compatibilité, dirigent la réalisation de graphes linguistiques primaires, sous la forme de ç roupes constituant des arbres structuraux (binaires ou n-aires).

Les groupes sont assimilables à des syntagmes disposant de propriétés syntaxiques et sémantiques. Ils héritent de nouvelles disponibilités de composition d'un ordre supérieur qui autorisent la création de graphes linguistiques secondaires ou super groupes qui correspondent grossièrement à des phrases informatives éventuellement agrémentées d'un diagnostic, par exemple sous la forme d'un classement en information compréhensible , information douteuse , information absurde ou information hors contexte .

II est important de noter que les notions de primaire et de secondaire , relatives aux graphes linguistiques, ne sont là que pour mettre en évidence le caractère récursif de la construction. Elles traduisent une progression dans la complexité des associations réalisées.

Le modèle mathématique fait interagir librement les données entre elles sous le seul contrôle des règles de compatibilité de leurs propriétés respectives. Diverses hypothèses sont explorées et se réduisent, par exemple au moyen d'une méthode de réduction d'hypothèses inspirée du système modal dit S4 de Gerhard Gentzen.

Les règles de compatibilité sont de premier et de second niveau, elles permettent de lever dès que possible les différents types d'ambiguïtés de premier niveau qui peuvent apparaître dans une suite ordonnée d'entités verbales (ou phrase).

Une algèbre de compatibilité entre les différentes variétés d'entités catégorisantes permet de constituer des groupes de plusieurs entités catégorisantes syntaxiquement et sémantiquement compatibles. Cette algèbre de compatibilité est constituée des règles de compatibilité sémantique.

Si il n'y a qu'un seul super groupe mathématiquement possible, la phrase est totalement désambiguïsée (et donc comprise). En revanche, si plusieurs super groupes sont mathématiquement possibles, la phrase demeure ambiguë (et donc non comprise).

Le super groupe peut ensuite être mis en relation avez la phrase (ou le document) originel(le) en vue de l'exploitation des informations structurées qu'il contient.

Par exemple, on peut comparer un super groupe avec des super groupes de référence (définissant des filtres pré paramétrés, éventuellement issus d'une analyse de questions en langage naturel posées par des utilisateurs ou par d'autres textes). On peut également effectuer des opérations sur des ensembles de super groupes, comme par exemple des calculs de distance ou des contrôles de cohérence. On peut également utiliser un ou plusieurs super groupes pour extraire des informations spécifiques, comme par exemple des résumés. On peut encore utiliser un ou plusieurs super groupes pour générer de nouveaux messages.

On se réfère à la figure 2 pour décrire les principales étapes d'un exemple d'algorithme de décomposition d'un document en entités verbales. Cet algorithme est mis en oeuvre par le module de décomposition MD du dispositif D selon l'invention. Il est important de noter que lorsque l'on utilise d'autres méthodes de décomposition que celle décrite ci- après, le module de décomposition MD est adapté en conséquence. Ainsi, il peut par exemple reposer sur l'utilisation de transducteurs.

En A, le module de décomposition MD reçoit un document à analyser. Il s'agit par exemple d'un texte en langage naturel. Dans une étape 10, le module de décomposition MD détermine (lit) le premier caractère du document. Puis, dans une étape 20 le module de décomposition MD effectue un test afin de déterminer si le caractère lu est le dernier du document. Si tel est le cas, la décomposition du document prend fin en B. En revanche, si le caractère lu n'est pas le dernier du document, le module de décomposition MD effectue un nouveau test dans une étape 30 afin de déterminer si le caractère lu est un séparateur. Si ce n'est pas le cas, dans une étape 40 le module de décomposition MD ajoute ce caractère au mot qui est en cours de composition, puis il retourne à l'étape 10 afin de recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas un séparateur, le module de décomposition MD effectue un nouveau test dans une étape 50 afin de déterminer si le caractère lu est le dernier d'un mot en cours de composition. Si tel est le cas, dans une étape 60 le module de décomposition MD identifie le mot qui vient d'être composé, puis il stocke le mot dans une mémoire tampon avant de retourner à l'étape 10 afin dl? recommencer les étapes de l'algorithme avec le caractère suivant du document. En revanche, si le caractère lu n'est pas le dernier d'un mot en cours de composition, le module de décomposition MD crée, dans une étape 55, un niveau qui rnatérialise un trait d'union, puis il passe à l'étape 60.

Les séparateurs sont soit des séparateurs de mots (ce qui conduit effectivement à l'étape 60), soit des séparateurs d'unités de textes de différents niveaux logiques, imbriquées les unes dans les autres, telles que des segments, des phrases, des paragraphes, ou des chapitres.

Cet exemple d'algorithme est ainsi appliqué à chaque caractère d'un document jusqu'au dernier. Cet algorithme de décomposition fournit ainsi une suite ordonnée d'entités verbales constituées respectivement de mots groupes de mots, chiffres ou groupes alphanumériques, généralement séparés par des séparateurs, et dont le sens doit être analysé.

La mise en oeuvre de l'algorithme de décomposition de document peut se faire au moyen d'un transducteur, par exemple construit sous la forme d'un automate à états finis qui optimise à la fois l'espace mémoire requis et les performances.

L'analyse de sens d'une suite ordonnée d'entités verbales commence de préférence par la constitution d'un arbre binaire structural pour chaque phrase du document. Lorsque le document ne comprend qu'une seule phrase, toute la suite ordonnée d'entités verbales sert à construire un arbre binaire. En revanche, lorsque le document comprend plusieurs phrases, chaque portion de la suite ordonnée d'entités verbales, qui correspond à une phrase, sert à construire un arbre binaire.

On se réfère à la figure 3 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre binaire structural. Cet algorithme est mis en oeuvre par le gestionnaire d'arbre binaire GAB du dispositif D selon l'invention.

En B, le gestionnaire d'arbre binaire GAB reçoit une suite ordonnée d'entités verbales. Cette suite est par exemple fournie par le module de décomposition de document MD qui met en oeuvre un algorithme de décomposition du type de celui décrit ci-avant. Mais, cela n'est pas obligatoire. En effet, lorsque le dispositif D ne comporte pas de module de décomposition de document MD, les suites peuvent être directement fournies au gestionnaire d'arbre binaire GAB par un équipement externe.

Dans une étape 100, le gestionnaire d'arbre binaire GAB procède à l'initialisation de l'arbre binaire structural à construire.

Puis, dans une étape 110 le gestionnaire d'arbre binaire GAB met par exemple à zéro (0) la valeur d'un compteur de noeud père i de l'arbre binaire structural. Il ne s'agit ici que d'un exemple de mise en oeuvre. Par exemple, en présence d'un langage capable de gérer des listes, la gestion du compteur peut ne plus être assurée par le programmeur. On peut alors utiliser un algorithme de parcours de la structure physique qui a été utilisée pour implémenter la liste.

A l'exception du noeud racine (i=0) qui est constitué de l'ensemble des entités verbales de la phrase à traiter, chaque autre noeud père (i>0) de l'arborescence binaire représente le résultat d'une partie de la décomposition binaire des entités verbales qui occupent son propre noeud père La décomposition binaire du noeud racine donne deux noeuds fils qui peuvent à leur tour être des noeuds pères pouvant faire l'objet d'une décomposition binaire et ainsi de suite jusqu'à ce que chaque feuille de l'arbre binaire soit occupée par une entité verbale (mot) de la phrase traitée.

La décomposition binaire se fait en fonction de contraintes structurales et/ou sémantiques stockées dans la base de données BD.

Dans une étape 120 le gestionnaire d'arbre binaire GAB commence l'analyse du noeud père i pointé en mettant à zéro (0) la valeur d'un compteur de noeud fils j de l'arbre binaire structural. Puis, il procède à une décomposition des entités verbales du noeud père i pointé en deux parties j et j' (non représenté).

Dans une étape 130 le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée, résultant de la décomposition du noeud père i pointé, satisfait à une ou plusieurs contraintes structurales et/ou sémantiques choisies. Si ce n'est pas le cas, il passe à l'étape 140. Dans le cas contraire, dans une étape 135 le gestionnaire d'arbre binaire GAB définit un nouveau noeud (de connexion) au sein de l'arbre binaire afin de l'attribuer à la parte j pointée, puis il passe à l'étape 140. Ce nouveau noeud j est alors un noeud fils du noeud père i pointé.

A l'étape 140, le gestionnaire d'arbre binaire GAB effectue un test pour déterminer si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du noeud père i pointé. Si ce n'est pas le cas, dans une étape 150 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice j, puis il retourne effectuer l'étape 130. En revanche, si la partie j pointée qui vient d'être traitée est la dernière partie résultant de la décomposition du noeud père i pointé, alors le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 160 pour déterminer s'il y a d'autres noeuds i à traiter. Si ce n'est pas le cas, dans une étape 170 le gestionnaire d'arbre binaire GAB incrémente d'une unité le compteur d'indice i, puis il retourne effectuer l'étape 120. En revanche, si il n'y a plus de noeud i à traiter le gestionnaire d'arbre binaire GAB effectue un autre test dans une étape 180 pour déterminer si la dernière itération effectuée à l'étape 135 n'a pas créé de nouveaux noeuds et donc de nouvelles possibilités de connexion qu'il est nécessaire d'explorer. Si ce n'est pas le cas, l'arbre bi paire structural est constitué et l'algorithme de construction d'arbre binaire prend fin on C. En revanche, si une itération doit être effectuée, le gestionnaire d'arbre binaire GAB retourne effectuer l'étape 110.

Un exemple d'arbre binaire structural correspondant à la phrase La petite brise la glace est illustré sur la figure 7. Dans cet exemple, le noeud racine correspond à toute la phrase La petite brise la glace . Un premier noeud fils du noeud racine comprend les mots La petite brise , tandis que lE' second noeud fils du noeud racine comprend les mots la glace ).

Le premier noeud fils ( La petite brise ) est alors un noeud père pour ses deux noeuds fils associés respectivement aux mots brise et La petite . Le noeud fils associé au mot brise est une feuille de l'arborescence binaire qui ne peut plus être décomposée. Le noeud fils associé aux mots La petite est alors un noeud père pour ses deux noeuds fils associés respectivement aux mots La et petite . Les noeuds fils associés respectivement aux mots x La et petite sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées.

De même, le second noeud fils ( la glace ) est un noeud père pour ses deux noeuds fils associés respectivement aux mots la et glace . Les noeuds fils associés respectivement aux mots la et glace sont des feuilles de l'arborescence binaire qui ne peuvent plus être décomposées.

Une fois un arbre binaire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre naire structural pour chaque phrase du document. On entend ici par arbre n-aire un arbre dans lequel la décomposition d'un noeud père aboutit à un nombre quelconque de noeuds fils, ce nombre pouvant varier d'un noeud père à l'autre.

On se réfère à la figure 4 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre n-aire structural. Cet algorithme est mis en oeuvre par le gestionnaire d'arbre n-aire GAN du dispositif D selon l'invention.

Il est important de noter que dans l'exemple illustré :sur la figure 1, le gestionnaire d'arbre n-aire GAN est alimenté en arbres binaires par le gestionnaire d'arbre binaire GAB du dispositif D. Mais, cela n'est pas obligatoire. En effet, on peut envisager que le gestionnaire d'arbre naire GAN soit alimenté en arbres binaires par un équipement externe, ou bien qu'il soit agencé de manière à construire directement un arbre naire à partir d'une suite ordonnée d'entités verbales, et donc sans qu'il faille préalablement construire un arbre binaire.

En C, le gestionnaire d'arbre n-aire GAN reçoit la description d'un arbre binaire, par exemple fournie par l'algorithme de constitution d'arbre binaire structural décrit ci-avant. Dans une étape 200, le gestionnaire d'arbre n-aire GAN procède à l'initialisation de l'arbre n-aire structural à construire. Il crée un premier noeud C (courant) dans l'arbre n-aire qui devient son noeud racine, pet met à zéro un compteur d'indice i de noeud de l'arbre binaire associé.

Il est important de noter que chaque noeud d'un arbre r-aire est associé à une unique entité verbale (ou mot) provenant d'une feuille de l'arbre binaire, contrairement audit arbre binaire qui comporte des noeuds intermédiaires associés à plusieurs entités verbales (ou mots).

Dans une étape 210 le gestionnaire d'arbre n-aire GAN prend un noeud 30 d'indice i dans l'arbre binaire, puis dans une étape 220 il effectue un test pour déterminer si ce noeud d'indice i est une feuille de l'arbre binaire.

Si tel est le cas, le gestionnaire d'arbre n-aire GAN effectue un test dans une étape 230 pour déterminer si le noeud d'indice i est de type régissant (R) ou de type subordonné (S).

Si le noeud d'indice i est régissant (R), alors dans une étape 240 le gestionnaire d'arbre n-aire GAN associe au noeud courant C le nceud feuille d'indice i de l'arbre binaire, et ce noeud courant C est alors considéré comme le père d'au moins un noeud fils de l'arbre n-aire. Il est en effet rappelé qu'à chaque noeud père d'un arbre binaire correspond systématiquement un noeud fils régissant et un noeud fils subordonné. Par conséquent, les deux noeuds fils feuilles de chaque noeud intermédiaire père d'un arbre binaire peuvent être liés l'un à l'autre pour constituer 1 o au sein de l'arbre n-aire associé une structure dans laquelle le r oeud fils régissant est rattaché au n ud fils subordonné correspondant par un lien qui peut être associé à des caractéristiques connexionnelles de leur noeud père. En raison de ce type de rattachement entre noeuds feuilles de l'arbre binaire, au sein de l'arbre p-aire associé, le noeud racine de l'arbre n-aire ne peut être qu'un noeud feuille régissant qui est rattaché, directement et indirectement, au noeui racine de l'arbre binaire associé par un ou des noeuds intermédiaires exclusivement de type régissant. En d'autres termes, ce noeud racine est issu d'une lignée exclusivement régissante.

Après cette étape 240, le gestionnaire d'arbre n-aire GAN passe à une 20 étape 270.

En revanche, si le noeud d'indice i n'est pas de type régissant (R) , c'est donc qu'il est de type subordonné (S). Par conséquent, il doit être rattaché par un lien (ou branche B) au noeud régissant (R) qui est rattaché à son propre noeud père au sein de l'arbre binaire. Dans une étape 250 le gestionnaire d'arbre n-aire GAN connecte (rattache) donc le noeud subordonné (S) d'indice i au noeud régissant (R) correspondant, au moyen d'un lien associé à des caractéristiques connexionnelles de leur noeud père. Puis, le gestionnaire d'arbre n-aire GAN passe à l'étape 270.

Si le résultat du test effectué à l'étape 220 indique que le noeud d'indice i n'est pas une feuille de l'arbre binaire, c'est donc qu'il s'agit de l'un de ses noeuds intermédiaires. Par conséquent, dans une étape 250 le gestionr aire d'arbre n-aire GAN commence par créer une nouvelle branche dans l'arbre n-aire en construction, puis il affecte les propriétés du noeud d'indice i à cette branche B. Ensuite, il connecte (ou rattache) l'extrémité supérieure (sup(B)) de la branche B au noeud courant C, et crée un nouveau noeud N qu'il connecte (ou rattache) à l'extrémité inférieure (inf(B)) de la branche B. Enfin, le gestionnaire d'arbre n-aire GAN remplace le noeud courant C par le noeud N qu'il vient de créer, avant de passer à l'étape 270.

A l'étape 270, le gestionnaire d'arbre n-aire GAN effectue un test pour déterminer si le noeud d'indice i en cours de traitement est le dernier noeud de l'arbre binaire à traiter. Si tel est le cas, alors l'arbre naire structural est constitué et l'algorithme de construction d'arbre naire prend fin en D. En revanche, si le noeud d'indice i en cours de traitement n'est pas le dernier noeud da l'arbre binaire à traiter, dans une étape 280 le gestionnaire d'arbre n-aire GAN incrémente d'une unité la valeur de l'indice i, puis il retourne effectuer l'étape 210 avec le noeud suivant de l'arbre binaire. Tous les noeuds de l'arbre binaire sont ainsi traités les uns après les autres en partant du noeud racine.

Un exemple d'arbre n-aire structural, issu de l'arbre binaire structural de la figure 7 (lequel correspond à la phrase La petite brise la glace ), est illustré sur la figure 8.

Dans cet exemple, comme cela a été matérialisé sur la figure 7, le noeud racine de l'arbre n-aire est le verbe brise qui est le seul noeud feuille régissant de l'arbre binaire issu d'une lignée exclusivement régissante. Dans la plupart des cas, le noeud racine de l'arbre n-aire est le verbe principal de la phrase analysée.

Deux structures de deux noeuds fils associés sont rattachées au noeud racine brise .

Une première structure est composée des noeuds La et petite qui sont respectivement des noeuds feuilles régissant et subordonné du noeud intermédiaire associé aux entités verbales La petite dans l'arbre binaire. Le noeud feuille La étant ici régissant, il est donc rattaché au noeud racine brise . Le noeud feuille petite est ici subordonné et rattaché au noeud régissant associé La par un lien associé à des caractéristiques connexionnelles de leur noeud père ( La petite ) au sein de l'arbre binaire.

Une seconde structure est composée des noeuds la et glace qui sont respectivement des noeuds feuilles subordonné et régissant du noeud intermédiaire associé aux entités verbales la glace dans l'arbre binaire. Le noeud feuille glace étant ici régissant, il est donc rattaché au noeud racine brise . Le noeud feuille la est ici subordonné et rattaché au noeud régissant associé glace par un lien associé à des caractéristiques connexionnelles de leur noeud père ( la glace ) au sein de l'arbre binaire.

Une fois un arbre n-aire construit, l'analyse de sens d'une suite ordonnée d'entités verbales se poursuit par la constitution d'un arbre sémantique pour chaque phrase du document. On entend ici par arbre sémantique un arbre qui ne comprend plus que des entités catégorisantes (de type objet o acte) munies de leurs propriétés, nécessaires à la compréhension du sens de la phrase (ou du document), compte tenu de son contexte.

Les entités catégorisantes constituent le premier niveau de décomposition d'une taxonomie: l'ontologie. Toutes les entités catégorisantes entrent dans l'un ou l'autre de leurs sous-types (ou sous-classes).

On a représenté sur la figure 5 un exemple non limitatif de diagramme arborescent décrivant différents types, sous-types et sous-sous-types d'entités catégorisantes. Plus précisément, dans cet exemple les entités catégorisantes de type acte regroupent deux sous-types (ou sousclasses) d'entités catégorisantes appelées événementiel et définitoire , qui regroupent respectivement deux sous-sous-types (ou sous-sous-classes) d'entités catégorisantes appelées action et événement d'une part, et définition et modalisation d'autre part. Les entités catégorisantes de type objet regroupent deux soustypes (ou sous-classes) d'entités catégorisantes appelées individu et lieu .

II est important de noter que la qualité des lexiques est fortement dépendante de la qualité de l'ontologie. Par ailleurs, les ontologies peuvent être construites de façon automatisée.

On se réfère à la figure 6 pour décrire les principales étapes d'un exemple d'algorithme de constitution d'un arbre sémantique. Cet algorithme est mis en oeuvre par le gestionnaire d'arbre sémantique GAS du dispositif O selon l'invention.

Il peut être précédé par une éventuelle application d'une fonction lexicale destinée à normaliser l'arbre n-aire structural afin de supprimer d'éventuelles particularités stylistiques susceptibles de nuire à son analyse sémantique.

En D, le gestionnaire d'arbre sémantique GAS reçoit la description d'un arbre n-aire, par exemple fournie par l'algorithme de constitution d'arbre n-aire structural décrit ci-avant. Dans une étape 300, le gestionnaire c 'arbre sémantique GAS extrait de l'arbre n-aire structural l'entité verbale sous-tendue par une entité catégorisante la plus haut placée dans l'arbre n-aire (généralement associée à son noeud racine) et qui constitue la racine de l'arbre sémantique.

Puis, dans une étape 310, le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si l'entité verbale correspond à un acte.

Si l'entité verbale correspond à un acte, le gestionnaire d'arbre sémantique 1 o GAS passe à une étape 320. Si ce n'est pas le cas, le gestionnaire d'arbre sémantique GAS crée, dans une étape 315, un verbe support définissant un acte, puis il passe à l'étape 320.

A l'étape 320, le gestionnaire d'arbre sémantique GAS initialise l'arbre sémantique. Puis, il insère l'acte dans une liste chronologique d'actes, qui peut éventuellement déjà comporter d'autres actes répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse. Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans une mémoire. Ensuite, le gestionnaire d'arbre sémantique GAS instancie une structure sémantique. En d'autres termes, le lexique fournit un patron d'arbre sémantique pour l'entité catégorisante (objet ou acte) dont les cases vont ensuite être remplies à l'aide des informations fournies par les autres noeuds de l'arbre structural.

Un patron comporte, d'une part, un modèle de connexion sémantique (de même nature que certaines fonctions lexicales) qui permet de transformer le schéma actanciel d'une entité verbale en (sous-)arbre sémantique, comme cela est représenté schématiquement, à titre d'exemple, sur les figures 8 et 9, et d'autre part, une liste de propriétés (ou attributs), comme cela est représenté schématiquement sur la figure 9. Puis, dans une étape 330 le gestionnaire d'arbre sémant que GAS extrait le

noeud suivant de l'arbre n-aire, et dans une étape 340 il effectue un test pour déterminer si l'entité verbale associée à ce noeud extrait active un objet.

Conformément à la définition donnée précédemment, le mot objet doit être ici compris dans sa définition la plus large et la plus courante, en l'étendant aux objets abstraits tels que les sentiments et les représentations, et non dans la définition spécialisée et restrictive qu'il a en informatique.

Si l'entité verbale active un objet, alors dans une étape 350 le gestionnaire d'arbre sémantique GAS insère cet objet dans l'arbre sémantique. Puis, il insère l'objet dans une liste (ou un univers) d'objets, qui peut éventuellement déjà comporter d'autres objets répertoriés dans la phrase en cours d'analyse et/ou dans des phrases précédentes du document en cours d'analyse. Cette liste se présente par exemple sous la forme d'une table construite au fur et à mesure et stockée dans 1 o une mémoire. Ensuite, le gestionnaire d'arbre sémantique GAS instancie la structure sémantique (comme indiqué ci-avant). Le gestionnaire d'arbre sémantique GAS passe ensuite à une étape 410.

Si le résultat du test effectué à l'étape 340 indique que l'entité verbale n'est pas un objet, alors dans une étape 360 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si des propriétés (ou caractéristiques connexionnelles) sont associées à cette entité verbale.

Si tel est le cas, dans une étape 370 le gestionnaire d'arbre sémantique GAS identifie un objet propriétaire. Plus précisément, une entité catégorisante de type propriété qui n'a pas de fonctionnement autonome (à rnoins d'en faire un méta-objet), et qui caractérise nécessairement un objet, a été identifiée. Cet objet, qui est dit propriétaire , est identifié soit directement par le biais d'une connexion (ordinaire ou anaphorique) qui le relie à la propriété (cornme par exemple l'expression la couleur du ciel ou sa couleur ), soit (plus rarement, lorsqu'il n'existe pas de connexion apparente) en parcourant la liste des objets instanciés par le texte analysé à la recherche d'un objet qui possède la propriété en question (ce qui peut être source d'anomalies lorsqu'il n'y en a pas ou s'il y en a plusieurs possibles).

Puis, le gestionnaire d'arbre sémantique GAS affecte une valeur à l'objet.

La (les) valeur(s) associée(s) à la propriété est (sont) identifiée(s) directement en recherchant parmi les noeuds subordonnés ceux qui sont en ccnnexion adjectivale (comme par exemple l'expression de couleur bleue ) quitte à affecter une valeur non connue (ou NC) lorsque ce type de connexion n'existe pas, soit directement parce qu'elle est portée par l'entité verbale qui active la propriété (par exemple le mot beauté affecte d'autorité une valeur positive à une propriété que l'on appelle ici arbitrairement esthétique ), soit indirectement lorsque le verbe régissant est un verbe définitoire (comme par exemple dans le cas de l'expression sa couleur est rouge ou augmenter le volume de 100 Mo ).

Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.

Si le résultat du test effectué à l'étape 360 indique que l'entité verbale n'est pas associée à une propriété, alors dans une étape 380 le gestionnaire d'arbre sémantique GAS effectue un nouveau test pour déterminer si ure modalisation est possible. La modalisation est portée par des verbes tels que pouvoir ou vouloir, d'une part, et penser (que) ou croire (que), d'autre part. Ces verbes n'activent pas des actes (contrairement aux verbes penser ou croire lorsqu'ils sont utilisés de manière absolue) mais modifient l'interprétation de l'acte auquel ils sont rattachés. Ainsi, l'expression je peux y aller n'a pas la même valeur que l'expression j'y vais , mais dans les deux cas la tête sémantique est le verbe aller . De même, l'expression Pierre pense que nous n'écrivons pas assez n'a pas la même valeur que l'expression nous n'écrivons pas assez , la tête sémantique étant cependant le verbe écrire dans les deux cas.

Si une modalisation est possible, le gestionnaire d'arbre sémantique GAS identifie un acte propriétaire dans une étape 390. La procédure (l'identification d'un acte propriétaire est similaire à celle d'un objet propriétaire présentée ci-avant (mais appliquée à un acte).

Puis, le gestionnaire d'arbre sémantique GAS affecte une modalisation à l'acte propriétaire. Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 25 410.

Si le résultat du test effectué à l'étape 390 indique qu'il n'y a pas de modalisation, alors dans une étape 400 le gestionnaire d'arbre sémantique GAS considère qu'il est en présence d'une anomalie. On est alors en présence d'un noeud qu'il n'y a aucun moyen de rattacher à l'arbre sémantique en cours de création.

Le gestionnaire d'arbre sémantique GAS passe ensuite à l'étape 410.

A l'étape 410 le gestionnaire d'arbre sémantique GAS effectue un test pour déterminer si le noeud de l'arbre n-aire qui vient d'être analysé est le dernier dudit arbre n-aire. Si tel est le cas, alors l'arbre sémantique est const tué et l'algorithme de construction d'arbre sémantique prend fin en E. En revanche, si le noeud de l'arbre n-aire qui vient d'être analysé n'est pas le dernier dudit arbre n-aire, alors le gestionnaire d'arbre sémantique GAS retourne à l'étape 330 pour commencer à analyser le noeud suivant de l'arbre n-aire. Tous les noeuds de l'arbre n-aire sont ainsi analysés les uns après les autres.

Un exemple d'arbre sémantique, issu de l'arbre n-aire structural de la figure 8 (lequel correspond à la phrase La petite brise la glace ), est illustré sur la figure 9.

Dans cet exemple, le noeud racine de l'arbre sémantique est le verbe briser qui est issu du mot brise de l'arbre n-aire de la figure 8. Ce mot brise possède en effet deux significations très différentes: verbe briser conjugué au présent (et donc acte correspondant à la réponse maintenant à la question quand ? , sachant qu'il reste à déterminer si le mot maintenant concerne le temps du discours ou s'il est défini par le discours), et le substantif brise qui désigne un petit vent frais.

L'analyse du contexte de la phrase La petite brise la glace indique par exemple que le mot brise est le verbe briser . Dans une;autre interprétation de cet exemple de phrase, le verbe pourrait être le mot glace , le sujet de ce verbe le mot brise , l'adjectif rattaché au sujet brise le mot petite et le complément d'objet direct le mot la jouant le rôle d'un pronom anaphorique.

Si le verbe principal retenu est briser , associé à la propriété temporelle qui décrit son temps (ici le présent maintenant ), il existe urne incertitude quand à son sujet et son complément. En effet, sur la figure 8 le mot brise est rattaché à deux structures La - petite et la - glace . II peut donc y avoir une première connexion (Act1) consistant à La petite briser et une seconde connexion (Act2) consistant à briser la glace . La première connexion est dite prime actant (ou sujet) tandis que la seconde connexion est dite second actant (ou objet).

Ici, il ressort de la construction de la phrase que le mot glace est un complément d'objet direct du verbe briser puisqu'il répond à la question quoi ? posée au sujet de ce verbe. Le substantif glace est donc un noeud principal de type objet rattaché au verbe briser qui est un noeud principal de type acte.

Par ailleurs, le mot petite est un adjectif rattaché du fiait de sa position à un sujet du verbe briser qui est ici représenté par le mot La qui est donc un pronom anaphorique désignant un nom commun féminin introdu t dans une phrase précédente. La est ici un déterminant dont le rôle est, d'une part, de confirmer le statut de substantif de l'entité verbale qu'il accompagne (permettant ainsi de substantiver, par exemple, des adjectifs ou des verbes), et d'autre part, de fournir des informations quant à l'existence de l'objet associé.

1 o L'adjectif petite constitue donc un noeud principal de type objet (référencé x sur la figure 9), puisqu'il répond à la question qui . Ce noeud objet x est associé à deux propriétés, une de genre féminin (référencée F sur la figure 9) et une de taille (référencée petit sur la figure 9).

L'arbre sémantique illustré sur la figure 9 est donc le n.sultat de la levée d'ambiguïté relative aux deux branches rattachées au mot brise de la figure 8.

Cependant, cet arbre sémantique ne permet pas de lever l'autre ambiguïté relative à l'interprétation de la phrase, évoquée ci-avant. Pour tenter de lever cette autre ambiguïté des analyses complémentaires de type contextuel doivent être effectuées par l'analyseur sémantique AS du dispositif D. Dans l'exemple de phrase présenté, cette autre ambiguïté ne peut être levée que par une analyse cotextuelle par rapport aux phrases précédentes et/ou suivantes du document analysé, ou contextuelle (c'est-àdire d'ordre pragmatique). On fait ici la distinction entre la notion de cotexte , qui désigne le texte entourant une phrase en cours d'analyse, et la notion de contexte qui fait référence à l'environnement (au sens large) dans lequel un texte est produit et/ou reçu.

Ces analyses complémentaires consistent plus précisément à tenter de déterminer des relations entre des mots appartenant à des phrases d'un même document, placés dans la liste des actes et/ou dans l'univer3 des objets. Ces relations peuvent être de plusieurs types, et notamment spatial, temporel, anaphorique, ou causal.

Ces analyses complémentaires ont essentiellement pour objet de traiter les anaphores et cataphores. Elles se font en déterminant au sein des tables (ou listes) d'objets et d'actes les mots qui ne présentent pas d'identité sémantique, comme par exemple les pronoms. En d'autres termes, on cherche parmi les mots stockés ceux qui peuvent servir d'anaphorèmes.

II est important de noter que les objets et les actes sont o-ganisés selon des classes sémantiques dans des ontologies auxquelles sont associés les métriques et les référentiels (spatial, temporel, etc.). Cela permet d'appliquer des fonctions de compatibilité sémantique de type RCS1, RCS2. Les fonctions de type RCS contraignent la construction d'un arbre structural.

Quelques exemples d'analyses complémentaires permettant de lever des 10 ambiguïtés sont décrits ci-après.

Sur la figure 10 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par le séparateur : . Cette phrase est Le client a appelé : il a reçu sa facture en retard .

L'arbre sémantique de gauche correspond à la partie de phrase Le client a appelé . Les noeuds principaux de cet arbre sémantique sont appeler et client . Le mot appeler est le verbe principal et donc l'acte, tandis que le mot client est un substantif sujet du verbe appeler et donc un objet.

L'arbre sémantique de droite correspond à la partie de prase il a reçu sa facture en retard . Les noeuds principaux de cet arbre sémantique sont recevoir , il et facture . Le mot recevoir est le verbe principal et donc l'acte, tandis que le mot il est un pronom sujet du verbe recevoir et donc un objet, et le mot facture est un substantif complément d'objet direct du verbe recevoir et donc un objet.

Le séparateur : est ici équivalent à parce que , Si bien qu'il existe une 25 relation causale entre les deux parties de la phrase.

L'anaphorique il ne peut renvoyer qu'au mot client. En effet, dans la liste des objets instanciés du document analysé, seul le mot , plient remplit les conditions de compatibilité structurale et sémantique (substantif masculin singulier, sémantiquement compatible avec le prime actant (ou sujet) du verbe recevoir qu'est le mot il ). II existe donc une relation anaphorique entre les mots client et il .

De ces deux relations causale et anaphorique, on peut déduire le fait que le client a appelé (à l'instant t) car il a reçu une facture à un instant t' (t' = tF + 8tR > t, où tF est la date de facturation et 8tR le temps nécessaire à la création de la facture et à son acheminement) . On peut alors représenter la levée d'ambiguïté en associant au verbe appeler une propriété relative au temps (1 <tD) où to désigne le temps du discours, et au verbe recevoir une propriété également relative au temps (t > tF + 8tR).

II est important de noter qu'une ambiguïté liée à une cataphore se traite de la même manière qu'une anaphore, à condition que la liste des objets instanciés ait été complètement établie pour l'ensemble du document.

Sur les figures 11A et 11B se trouvent illustrés un arbre n-aire structural et l'arbre sémantique associé qui correspondent à la phrase La facture est arrivée après la date d'échéance .

Pour exploiter le sens de cette phrase, par exemple dans une application de type filtrage d'informations, on essaie d'y identifier un (ou plusieurs) acte(s)- type(s) compatible(s) sur le plan chronologique. La notion de c< retard (dans la réception de la facture) est une appréciation portée sur le respect de la date théorique de réalisation de l'acte observé, en lui comparant la date effective.

Les ambiguïtés sont ici matérialisées dans l'arbre n-aire:structural par des T stylisés placés au niveau des mots après et échéance , et matérialisant une fonction de translation du mot de droite par le mot de gauche. Lc mot qui se trouve à gauche d'un T stylisé est obligatoirement un translatif; c'est un mot grammatical qui a la faculté de faire changer de catégorie structurale le mot qui se trouve à droite du même T stylisé. Par exemple, dans l'expression je prends le rouge (en parlant d'un vêtement), le déterminant le fait passer rouge de sa catégorie originale d'adjectif à celle de substantif, sous-entendant qu'il doit exister au plan sémantique un objet compatible avec la couleur rouge qui réponde à la question posée.

Sur la figure 12 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une phrase séparées par e séparateur , (virgule). Cette phrase est Pendant que X fait A, Y fait B . Cet exemple matérialise la relation temporelle entre les deux actions respectivement effectuées par X et Y. Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de comprendre que l'action A se déroule dans un intervalle de temps I et que l'action B se déroule dans un intervalle de temps l' qui est inclus dans I. Sur la figure 13 se trouvent illustrés deux arbres sémantiques correspondant à deux parties d'une même phrase. Cette phrase est Pierre a perdu le livre que je lui avais donné . Cet exemple matérial se, d'une part, la relation temporelle entre les deux actions ( donner un livre et x perdre le livre ), et d'autre part, la relation anaphorique entre les mots Pierre et lui et les mots livre et que .

Plus précisément, l'analyse des deux arbres sémantiques et des tables d'actes et d'objets, associées au document analysé, permet de I.; omprendre que le mot lui ne peut que renvoyer au mot Pierre , et que le mot que ne peut que renvoyer au mot livre . Puis, on déduit des temps respectifs associés aux deux verbes et des deux relations anaphoriques que l'action <c donner un livre s'est déroulée à un instant t=X et que l'action perdre le livre s'est déroulée à l'instant t=X'?X.

Sauf exception, constituant une anomalie (détectée à l'étape 400 de la figure 6), un noeud principal appartenant à un arbre sémantique ne peut être qu'un acte ou un objet issu des classes structurales verbe et substantiÉ'. Cependant, dans quelques cas très particuliers certains noeuds d'un arbre n-aire stÉuctural peuvent ne pas répondre à cette contrainte. C'est notamment le cas du mot rouge dans la phrase Je prends le rouge .

Le mot rouge étant ici un adjectif, il ne peut pas cràer directement de noeud principal dans l'arbre sémantique. Il ne peut qu'être en principe une valeur d'une propriété (la couleur) d'un substantif objet auquel il se rapporte. Une analyse complémentaire, parallèle à celle permettant de résoudre les anaphores et cataphores, doit donc être effectuée. Cette analyse complémentaire consiste à déterminer les objets, déjà répertoriés dans la liste d'objets du dccument à analyser, celui ou ceux qui possèdent une propriété de même type que celle associée au mot posant problème. Dans l'exemple concerné, cette propriété est la couleur. On applique ensuite aux objets déterminés dans la liste les contraint9s sémantiques qui sont portées par le verbe principal, ici le verbe prendre . La valeur rouge est alors affectée à la propriété couleur de l'objet compatible qui constitue alors un noeud autorisé à être intégré dans l'arbre sémantique de la phrase à laquelle il appartient.

Le problème de la compatibilité sémantique évoqué ci-avant va être décrit maintenant plus en détail en référence aux figures 14 à 16.

Sur la figure 13 se trouve illustré un arbre n-aire correspondant à la phrase Augmenter le volume de la base xx de yy Go . Les ambiguïtés sont ici matérialisées dans l'arbre n-aire structural par des T stylisés pla fiés au niveau des mots base et Go (pour Giga octet ).

Une première pré-analyse sémantique permet de vair que les mots sémantiquement pertinents, c'est-à-dire qui relèvent de l'environnement modélisé, sont ici augmenter , volume , base , xx , Go et yy .

Les mots inconnus, comme xx ou yy , sont, dans le doute, 15 préférentiellement retenus lors du filtrage sémantique du document en cours d'analyse.

Les relations de compatibilité sémantique sont par exemple régies par deux types de règles de compatibilité appelées C1x et C2.

Les règles de compatibilité de type Cix s'appliquent à deux noeuds qui sont en connexion directe, c'est-à-dire dont la connexion (ou le rattachement) ne comporte pas de noeud intermédiaire. C'est par exemple le cas des mots augmenter et volume . La connexion peut cependant inclure des translatifs (T stylisés) comme par exemple dans le cas des mots volume et base .

Ces règles de compatibilité de type C1x se répartissent er deux groupes.

Un premier groupe concerne la compatibilité basée sur les schémas actanciels / sémantiques que la langue permet de dégrader en remplaçant un noeud objet (NO), tel qu'un substantif, par un autre noeud objet compatible avec le premier dans le cadre de métriques.

Un schéma actanciel (ou potentiel de connexion) décrit l'ensemble des connexions (d'où la collocation potentiel de connexion ) qu'une entité verbale est susceptible d'accepter, ainsi que leurs conditions de réalisation. Chaque connexion potentielle est identifiée par une caractéristique connexionnelle, comme par exemple celles référencées Act1, Act2 et Dét sur la figure 8. De plus, chaque connexion potentielle comporte un nombre variable de contrainte: structurales et/ou sémantiques (par exemple, la connexion potentielle Act1 d'un verbe ne peut être pourvue que par un substantif compatible en nombre, en genre et sémantiquement).

Un second groupe concerne la compatibilité basée:;ur les métriques, laquelle contraint de manière privilégiée la connexion d'un nceud associé à un substantif (NO) à un noeud associé à un adjectif (NA), y compris les noeuds associés à des substantifs véritables (notés NO ) et les autres noeuds associés à o des substantifs unités (notés NOu).

Les règles de compatibilité de type C2 s'appliquent à deux noeuds en connexion indirecte, c'est-à-dire dont la connexion (ou le rattachement) traverse au moins un autre noeud. C'est par exemple le cas des mots volurne et Go .

Ces règles de compatibilité de type C2 s'appuient sur es paramètres qui sont partie prenante dans l'interprétation subséquente qui est faite du document analysé. Ces règles font partie du patron d'arbre sémantique présenté ci-avant lors de la description de l'étape 320 de la figure 6.

La notion de métrique intervient lors de l'analyse complémentaire des relations de compatibilité sémantique entre un substantif et un adjectif qui lui est subordonné, que cet adjectif soit subordonné d'origine ou par translation (T stylisés).

Une métrique se définit par l'ensemble des valeurs qu'elle admet associée à une unité (ainsi que ses multiples et ses subdivisions).

Si l'on considère une connexion NO NA dans laquelle, d'une part, NA appartient à une ou plusieurs métrique(s), il est possible d'établir la liste PA de toutes les propriétés (indépendamment des objets qu'elles définissent) auxquelles ces métriques peuvent être associées, et d'autre part, NO est défini par un ensemble de propriétés P , chacune d'entre elles étant liée à une métrique. Alors, plusieurs cas peuvent se présenter: - soit card(PAnP ) = 0 et il y a incompatibilité entre le substantif (NO) et son adjectif (NA), soit card(PAnP ) = 1, et on affecte la valeur que constitue l'adjectif (NA) à la propriété du substantif qui est l'unique élément de l'intersection, soit encore card(PAnP ) > 1, et il y a une ambiguïté, car l'intersection des deux ensembles contenant plusieurs éléments, on ne sait pas à cruelle propriété du substantif on doit affecter la valeur que constitue l'adjectif.

Il existe deux types de métriques: les quantitatives et les qualitatives.

Les métriques quantitatives sont généralement décrites en intension, comme sous-ensemble satisfaisant à une condition, comme par exemple l'appartenance à l'ensemble des entiers positifs ou des décimaux. Les métriques qualitatives sont généralement décrites en extension sous la forme d'un ensemble de valeurs discrètes, comme par exemple la couleur (rouge, vert, jaune, bleu, orange, ...) ou la beauté (beau, laid,...).

Les métriques quantitatives se distinguent également des métriques qualitatives parce qu'elles admettent une relation d'ordre (les valeurs peuvent être classées, ce qui n'est pas le cas des métriques qualitatives purEis), et qu'elles font généralement intervenir la notion d'unité (sauf lorsqu'il s'agit de dénombrement).

Un statut particulier doit être prévu pour les unités et les pourcentages. En effet, les unités répondent à la problématique du dénombrement (créant une catégorie de l'absolu), tandis que les pourcentages permettent de créer des échelles relatives indépendantes de toute unité.

Par exemple, une métrique quantitative exacte peut correspondre à une échelle d'intensité comprises entre -25 et +25, et une métrique quantitative approximative peut être définie par des valeurs discrètes d'adjectifs tels que grand, moyen et petit.

Un exemple d'utilisation des métriques est donné ci-après dans le cas de la 25 phrase Créer une base vide; son volume sera 3 Go .

Le mot créer (acte) est compatible avec le mot base (objet) qui est un substantif véritable (NO ) défini par des propriétés telles que identifiant, volume, contenu, serveur, etc. Le mot vide est un adjectif (NA) qui est régi par le mot base , et qui doit donc être affecté comme valeur à l'une des propriétés du m Dt base (NO ).

Parmi les propriétés précitées seules les propriétés identifiant et contenu sont dotées d'une métrique compatible. La propriété identifiant a pour particularité de ne pas avoir de métrique précise, tout mot, existant ou fabriqué, pouvant être utilisé. II s'ensuit qu'il est fortement déconseillé d'utiliser les mots du langage courant en tant qu'identifiants, ce qui fournit un premier indice pour lever l'ambiguité précédente. Un mot inconnu placé au bon endroit dans un arbre structural est un candidat tout désigné. Un second indice est fourni par l'absence de majuscule.

Il résulte de ce qui précède que le mot vide ne peut être affecté qu'à la propriété contenu.

L'analyse peut être complétée en ramenant le mot vicie à un nombre. En effet, la métrique associée à la propriété contenu comprend au minimum 10 {vide, plein} u [0, 100]...

Par ailleurs, le mot sera est un verbe [de complément] d'information, le mot volume est une propriété étant donné que le mot son > renvoit à un objet défini par ailleurs (connexion anaphorique), le mot Go relève de la catégorie très particulière des unités qui sont obligatoirement associées à une métrique quantitative, et le mot 3 est un adjectif (NA) de type nombre susceptible d'appartenir à toutes les métriques quantitatives compatibles avec les entiers positifs.

Le mot 3 peut donc être affecté comme valeur au mot volume à condition que l'intersection Mvolume n MG0 n M3 (où Mx représente l'ensemble de toutes les métriques associables à x) contienne un et un seul élément. Dans le cas contraire, il y a soit impossibilité si l'intersection est vide, soit ambiguïté si il existe plusieurs solutions.

Quand il y a incompatibilité entre un groupe (ou syntagme) substantivai (SO) et un groupe (ou syntagme) adjectival (SA) a priori, les métriques peuvent fournir des renseignements. C'est par exemple le cas de la phrase Je souhaite augmenter mon portable de deux heures .

Dans cet exemple, il y a en effet une incompatibilité a priori entre le mot augmenter , qui appelle un noeud associé à un substantif qui porte la valeur de l'adjectif associé (NOA) (et donc qui constitue une propriété), et le mot portable , qui est un noeud associé à un substantif véritable (NO ) (et donc qui constitue un objet). Par contre, dans l'ensemble des propriétés (P) du mot portable , il en existe qui sont compatibles avec le mot augmenter . Par exemple le mot durée , est un substantif (NOA) qui porte la valeur de l'adjectif associé au mot forfait , lui-même propriété du mot portable , compatible également avec la métrique horaire.

D'autres situations créent des ambiguïtés. C'est par exemple le cas lorsque l'on connecte un groupe (ou syntagme) verbal (SI) et un substantif véritable NO : augmente la musique , baisse la musique , ou mesure la table . Pour lever ce type d'ambiguïté on utilise une fonction qui, lorsqu'une incornpatibilité apparaît lors de la vérification d'une compatibilité directe, refait un test de compatibilité entre le verbe et les propriétés du noeud de l'actant concerné. On considère ici comme actant un noeud faisant l'objet d'une connexion directe avec un verbe, laquelle est répertoriée dans le patron (ou schéma actanciel) de ce dernier.

Sur la figure 15 se trouvent schématiquement représentées (et résumées) les principales relations entre noeuds associés à des substantifs (NO) et noeuds associés à des adjectifs (NA), et les notions qui y sont rattachées, notamment les métriques, les unités, et les contraintes (ou règles) Cl servant;à interdire tous les triplets (identifiant, valuation, mesure) qui ne sont pas valides.

Par ailleurs, sur la figure 16 se trouvent schématiquement représentées (et résumées) les principales relations entre les entités catégorisantes de type objet et acte, et les notions qui y sont rattachées, notamment lescirconstances, les modalisations, les propriétés, les valeurs et les métriques.

Le dispositif d'analyse sémantique de documents D salon l'invention, et notamment son interpréteur de document ID et sa base de données BD, ainsi qu'éventuellement son module de décomposition MD, peuvent âtre réalisés sous la forme de circuits électroniques, de modules logiciels (ou inforrratiques), ou d'une combinaison de circuits et de logiciels.

Par ailleurs, le dispositif d'analyse sémantique de documents D peut être utilisé dans toute application ayant besoin d'une séparation fiable des textes ou messages correctement analysés de ceux qui ne le sont pas, et d'un diagnostic précis et facile à exploiter pour les textes ou messages incorrectement analysés.

Une première application concerne les outils (ou équipements) de gestion de messagerie électronique (par exemple de type courriel (ou e-mail )). Le dispositif D peut en effet servir à filtrer de l'information en déterminant si le message qui contient cette information satisfait à un ensemble de critères sémantiques.

A cet effet, on peut par exemple organiser les critères:; émantiques en un super groupe de référence définissant un filtre. On compare alcrs le super groupe résultant de l'analyse du message au super groupe de référence qui définit le filtre.

Le message analysé est accepté si les deux super groupes sont compatibles.

Si le message fournit des informations surnuméraires, le dispositif D continuera à réagir positivement via son filtre, ce qui est sans importance dès lors que le filtre fournit au moins les informations exigées par le super groupe de référence.

Les super groupes de référence peuvent être créés à partir de la synthèse des résultats de l'analyse d'un corpus de messages de référence, ce qui permet d'éviter à l'utilisateur chargé de concevoir les filtres [apprentissage de connaissances spécifiques à l'application; il lui suffit en effet d'avoir une maîtrise suffisante du langage naturel pour pouvoir élaborer le corpus concerné.

On peut également juxtaposer plusieurs filtres au sein d'un seul dispositif D ou de dispositif D parallèles, et coupler ce(s) dispositif(s) à une irterface adaptée au routage, de manière à constituer un gestionnaire de courrier élec.:ronique.

Une deuxième application concerne les outils (ou équipements) de correction orthographique et/ou grammaticale. Le dispositif D peut en effet permettre, d'une part, de repérer les fautes grammaticales qui résultent généralement d'une mauvaise application des règles de syntaxe, puis d'identifier la règle non respectée et proposer une correction, et d'autre part, d'identifier les mots inconnus en séparant les noms propres et les barbarismes, puis en proposant pour ces derniers des mots qui soient compatibles. Le dispositif D permet effectivement de répondre à la question quels sont les mots qui, substitués un mot fautif, sont susceptibles de lever une ambiguïté ou une erreur ? .

Une troisième application concerne les outils (ou équipements) de dictée vocale. Le dispositif peut en effet permettre de choisir une solution parmi plusieurs solutions proposées par un moteur de reconnaissance vocale.

Une quatrième application concerne les outils (ou équipements) de génération de texte. Le dispositif D peut en effet collaborer avec un générateur de texte qui se fonde, par exemple, sur la théorie dite Sens H Texte (ou TST).

Une cinquième application concerne les outils (ou équipements) de génération de résumés.

Il existe au moins deux manières de concevoir un résumé. La première consiste à créer de toutes pièces un nouveau texte qui constitue un condensé de l'original, avec un taux de compression variable (mais généralement élevé). La seconde consiste à extraire, en fonction de critères définis par un utilisateur, des sections pertinentes d'un texte original.

Le dispositif D peut calculer des résultantes thématiques s'il est couplé à une fonction de hiérarchisation et en présence de marqueurs linguistiques.

Une sixième application concerne les moteurs de recherche. La recherche d'informations textuelles, que ce soit dans un réseau public, tel qu'Internet, ou dans un réseau privé d'entreprise(s), ou encore sur un disque dur d'un ordinateur personnel, peut consister à rechercher soit une information factuelle, matérialisée par une question de type quelle est la valeur de... ? , soit des textes relatifs à un thème ou un sujet prédéfini.

Le dispositif D peut en effet assurer, dans le cas de la recherche factuelle, une indexation sémantique adéquate permettant de produire directement une réponse. On peut par exemple injecter dans une base de données tout ou partie des informations déterminées par un dispositif D, puis utiliser ces informations dans n'importe quelle opération réalisée par un système de gestion de base de données (ou SGBD), et notamment l'indexation. En outre cela permettrait d'utiliser des requêtes exprimées en langage naturel, sans restriction quant à la langue utilisée (dans le cas d'une version multilingue).

Le dispositif D peut également permettre, dans le cas de la recherche de textes à thèmes, de faire des calculs de distance à partir de résultantes thématiques, puis de proposer une liste de documents pertinents en fonction desdits calculs. Ce type de fonctionnement pourrait être enrichi par l'implémentation d'un taux d'exactitude.

Cette application peut être étendue à l'administration des bases de documents en vue de leur enrichissement, étant donné que IID dispositif D peut faciliter la constitution des index nécessaires au bon fonctionnement d'un moteur de recherches.

Une septième application concerne les traducteurs multilingue. Le dispositif D peut fournir une analyse sémantique de texte, rapide et fiable, permettant de lever les ambiguïtés de traduction. Seule une utilisation de la totalité de l'information présente dans un texte peut en effet garantir une traduction pert nente, c'est à dire une traduction respectant autant que faire se peut le sens véhiculé par le texte original.

L'invention ne se limite pas aux modes de réalisation de dispositif d'analyse sémantique de documents décrits ci-avant, seulement à titre d'exemple, mais elle englobe toutes les variantes que pourra envisager l'homme de l'art dans le cadre

o des revendications ci-après.

Claims

REVENDICATIONS

1. Dispositif (D) d'analyse sémantique de documents, comprenant une base de données structurales et sémantiques (BD) et un interpréteur de document (ID) agencé pour déterminer si un document a un sens à l'aide de ladite base de données, caractérisé en ce que ledit interpréteur de document (ICI) comprend: un gestionnaire d'arbre n-aire (GAN) agencé pour constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre n-aire structural comprenant un noeud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, un gestionnaire d'arbre sémantique (GAS) agencé pour déterminer, au moins à partir dudit arbre n-aire structural et de la base de données (BD), des entités catégorisantes de type objet et de type acte activées par certains desdits noeuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de noeuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre p-aire et auxquelles sont associés des attributs fonction des caractéristiques d'autres noeuds dudit arbre n-aire et de leurs liens respectifs.

2. Dispositif selon la revendication 1, caractérisé en ce que ledit interpréteur de document (ID) comprend un gestionnaire d'arbre binaire (GAB) agencé pour constituer un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies et définies dans ladite base de données (BD), ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux noeuds fils rattachés 1 un noeud père, et un noeud racine, constituant un noeud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que ledit gestionnaire d'arbre n-aire (GAN) est agencé pour constituer chaque arbre n-aire à partir d'un arbre binaire structural.

3. Dispositif selon l'une des revendications 1 et 2, caractérisé en ce que ledit interpréteur de document (ID) comprend un module de décomposition (MD) agencé pour décomposer chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.

4. Dispositif selon l'une des revendications 1 à 3, caractérisé en ce que ledit interpréteur de document (ID) comprend un analyseur sémantique (AS) agencé pour déterminer lesdites relations de compatibilité sémantique entre noeuds principaux de type objet et/ou noeuds principaux de type acte d'au moins un arbre sémantique.

5. Dispositif selon la revendication 4, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour déterminer des relations entre noeuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.

6. Dispositif selon l'une des revendications 4 et 5, caractérisé en ce que ledit analyseur sémantique (AS) est agencé pour effectuer un diagnostic relatif à l'analyse d'un document, et pour délivrer un message représentatif du résultat dudit diagnostic.

7. Dispositif selon la revendication 6, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un document, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au mois un non-sens, et une liste d'ambiguïtés non résolues.

8. Procédé d'analyse sémantique de documents, caractérisé en ce qu'il consiste: - à constituer un arbre n-aire structural à partir d'une décomposition d'un document à analyser en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques choisies, ledit arbre n-aire structural comprenant un noeud racine formé d'une entité verbale régissante primaire et des structures formées d'une entité verbale subordonnée secondaire et rattachées soit directement soit indirectement audit noeud racine par un lien pourvu d'au moins une caractéristique connexionnelle, une entité verbale subordonnée secondaire pouvant devenir à son tour une entité verbale régissante, à déterminer, au moins à partir dudit arbre n-aire structural et de données structurales et sémantiques, des entités catégorisantes de type objet et de type acte activées par certains desdits noeuds de l'arbre n-aire, de manière à construire un arbre sémantique muni de noeuds principaux constitués desdites entités catégorisantes objet et acte et liés par des relations sémantiques issues de caractéristiques connexionnelles dudit arbre n-aire e.: auxquelles sont associés des attributs fonction des caractéristiques d'autres nceuds dudit arbre p- aire et de leurs liens respectifs.

9. Procédé selon la revendication 8, caractérisé en ce qu'avant de constituer un arbre n-aire on constitue un arbre binaire structural à partir de ladite décomposition de document en une suite ordonnée d'entités verbales et de contraintes structurales et/ou sémantiques, ledit arbre binaire structural comprenant des feuilles, associées chacune à une entité verbale de ladite suite et constituant l'un de deux noeuds fils rattachés à un noeud père, et un noeud racine, constituant un noeud père et associé à tout ou partie des entités verbales de ladite suite, et en ce que l'on constitue chaque arbre n-aire à partir d'un arbre binaire structural.

10. Procédé selon l'une des revendications 8 et 9, caractérisé en ce qu'avant de constituer un arbre binaire ou un arbre n-aire on décompose chaque ensemble de données définissant un document à analyser en une suite ordonnée d'entités verbales.

11. Procédé selon l'une des revendications 8 à 10, caractérisé en ce que l'on 25 détermine lesdites relations de compatibilité sémantique entre nceuds principaux de type objet et/ou noeuds principaux de type acte d'au moins un arbre sémantique.

12. Procédé selon l'une des revendications 8 à 11, caractérisé en ce que l'on détermine si ledit document analysé possède un sens en déterminant des relations entre noeuds principaux d'au moins un arbre sémantique, choisies dans un groupe comprenant une relation spatiale, temporelle, une relation causale, une relation anaphorique, et une relation cataphorique.

13. Procédé selon l'une des revendications 8 à 12, caractérisé en ce qu'après avoir constitué un arbre sémantique, on effectue un diagnostic relatif à l'analyse d'un document, puis on délivre un message représentatif du résultat dudit diagnostic.

14. Procédé selon la revendication 13, caractérisé en ce que ledit message de diagnostic comporte des informations choisies dans un groupe comprenant une liste de difficultés rencontrées pendant l'analyse d'un documen:, des possibilités d'interprétation différentes d'une phrase, au moins un mot inconnu, au moins une faute de grammaire, au moins un défaut de construction, au moins un non-sens, et une liste d'ambiguïtés non résolues.