FR3102276A1

FR3102276A1 - Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique

Info

Publication number: FR3102276A1
Application number: FR1911579A
Authority: FR
Inventors: Christophe BLAYA; Srudeep Kumar Reddy KATAMREDDY; Bernard Jean Marie RANNOU; Bastien DECHAMPS
Original assignee: Amadeus SAS
Current assignee: Amadeus SAS
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2021-04-23
Also published as: US20210117617A1

Abstract

Un procédé de génération de résumés concis en langage naturel de documents textuels liés emploie une technique abstraite (218) en combinaison avec une technique d’extraction (222). Un résumé de machine est généré à l’étape abstraite en construisant une structure de données graphiques (430) dans laquelle des nœuds (434, 436, 438) représentent des paires uniques de jetons et des parties de discours (POS) correspondantes, des séquences des bords représentent des paires jeton/POS comprenant des phrases (432) d’un groupe de sujets correspondant identifié dans les documents textuels. Des phrases récapitulatives candidates classées sont générées sur la base de sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant à des paires jeton/POS de début et de fin de phrase valides, et le résumé de machine est composé d’au moins une phrase récapitulative représentative sélectionnée dans les candidats classés dans chaque groupe de sujets. Un résumé en langage naturel est ensuite généré à partir du résumé de machine à l’étape d’extraction en calculant (512), pour chaque groupe de sujets, des mesures d’adéquation numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant. Le résumé en langage naturel est composé en sélectionnant (516), pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d’adéquation numérique correspondantes.

Description

PROCEDES ET SYSTEMES POUR RÉSUMER DES DOCUMENT MULTIPLES EN UTILISANT UNE APPROCHE D’APPRENTISSAGE AUTOMATIQUE

L’invention concerne la synthèse automatique de textes, et en particulier, des procédés et systèmes améliorés qui utilisent une approche d’apprentissage automatique pour fournir des résumés de documents multiples, concis et au langage naturel.

Contexte

Avec la croissance des systèmes d’information, d’Internet et du World Wide Web, les documents sous forme numérique sont devenus omniprésents. Les utilisateurs peuvent à présent accéder partout dans le monde à un grand nombre de documents contenant de grandes quantités d’informations avec une relative facilité. Cependant, il peut par conséquent être demandé aux utilisateurs d’examiner de nombreux documents pour trouver les informations dont ils ont besoin. De plus, il est possible d’accéder et de consulter les documents sur de nombreux dispositifs (par ex. ordinateurs portables et de bureau, tablettes, smartphones et autres dispositifs informatiques portatifs, smart watches, etc.) dont le format des écrans varie de grand à très petit. Les documents qui sont facilement visualisés sur de grands écrans sont impossibles à gérer sur de petits écrans. Dans certains cas, les utilisateurs veulent peut-être accéder à des documents via des interfaces non visuelles, telles qu’une interface texte-parole, soit par choix (par ex. lors de l’exercice ou du fonctionnement d’un véhicule) soit par besoin (par ex. en raison d’une déficience visuelle). Dans tous ces scénarios, il peut être non souhaitable et/ou impossible pour l’utilisateur d’examiner l’intégralité du texte de multiples documents pour accéder aux informations intéressantes.

La synthèse automatique peut être utilisée pour répondre à la nécessité de présenter des informations dans des documents textuels dans un format réduit qui est plus approprié pour les utilisateurs ayant des contraintes de temps, des dispositifs d’affichage de format plus petit, et/ou qui s’appuient sur l’utilisation d’interfaces non visuelles. Le résumé automatique est le processus consistant à réduire un ou plusieurs documents textuels en un document textuel plus court qui retient le contenu informatif essentiel des documents. Il peut par conséquent être un outil utile pour fournir des informations sur les contenus de document sous une forme concise, sans exiger qu’un utilisateur lise, ou examine autrement, de gros volumes de texte qui peut être contenu dans les documents originaux.

Par exemple, le brevet européen n°EP 0 952 533, délivré le 14 septembre 2017 à Xerox Corporation, révèle des procédés et systèmes mis en œuvre par ordinateur pour résumer automatiquement du texte dans un seul document. Ces procédés et systèmes emploient des informations de partie de la parole (POS) pour fournir un résumé continu de texte « à la volée », ce qui est approprié pour une utilisation avec une interface texte-parole, ou un écran de petit format, pour permettre à un utilisateur de balayer rapidement le document afin d’identifier un contenu spécifique intéressant pour un examen plus détaillé.

Contrairement au fait de fournir des résumés de contenus de documents individuels, il existe des applications dans lesquelles il peut être nécessaire de fournir un résumé concis des contenus de multiples documents liés. Par exemple, une recherche sur un sujet particulier peut renvoyer de nombreux documents de sorte qu’il serait utile de résumer le contenu des informations pertinent pour les aspects du sujet de recherche découlant de multiples documents. Dans un autre scénario, les documents liés peuvent être des avis générés par l’utilisateur d’un produit ou service particulier, auquel cas un résumé des sujets communs des avis liés à un ou plusieurs aspects du produit ou service serait utile pour une personne n’ayant pas le temps la capacité de lire tous les avis individuels.

De nombreuses solutions existantes pour résumer le texte emploient une approche basée sur des règles. Par exemple, des modèles dérivés manuellement peuvent être développés pour correspondre à certains mots-clés et/ou modèles dans le texte. Les résumés en découlant sont basés sur les termes qui correspondent, en ignorant les éléments non inclus dans le modèle afin de réduire la quantité de texte. Un désavantage de cette approche est que la création de modèles est un processus manuel consommateur de temps qui peut être réalisé pour chaque domaine d’intérêt, et les résumés en découlant peuvent être seulement aussi spécifiques que la sélection des mots-clés et modes inclus dans les modèles. Des techniques d’extraction automatisée de phrases et/ou de mots-clés inclus des approches basées sur la fréquence (par ex. en utilisant la fréquence terme-fréquence de document inverse, TF-IDF) et des approches basées sur la sémantique (par ex. en utilisant l’incorporation de mots/termes). Cependant, tandis que ces techniques peuvent identifier des termes caractéristiques apparaissant dans les documents, elles ne génèrent pas des résumés actuels.

Un autre inconvénient des résumés générés par ordinateur et qu’ils peuvent apparaître sous une forme générique, standardisée, non naturelle ou « robotique », alors qu’il est préférable de fournir des résumés qui sont aussi naturels ou « humanoïde » que possible.

RÉSUMÉ

L’invention résout les besoins de synthèse automatique de texte, tout en évitant ou en améliorant les inconvénients et limitations de la technique antérieure tel que celles décrites ci-dessus, en fournissant des procédés et systèmes mis en œuvre par ordinateur qui appliquent des techniques et technologies d’apprentissage automatique pour générer des résumés automatisés basés sur les collectes de documents textuels multiples. Des modes de réalisation de l’invention appliquent en premier lieu une approche de synthèse abstraite utilisant le marquage de POS et des structures de données graphiques pour représenter un texte au langage naturel, dont dérive ainsi une pluralité de phrases récapitulatives candidates classées à partir d'une pluralité de documents textuels. Une approche extractive est ensuite appliquée, laquelle peut employer des représentations de vecteurs numériques de mots générés à l’aide de techniques d’apprentissage automatique pour capturer du contenu sémantique, pour identifier des séquences de mots dans les documents textuels ayant une signification similaire à une ou plusieurs des phrases récapitulatives candidates classées. Avantageusement, l’approche abstraite permet de fournir des résumés confits qui reflètent les contenus de documents multiples, tandis que l’approche extractive permet de présenter des résumés sous une forme de langage naturel basée sur du texte composé par un être humain et extrait des documents.

Des modes de réalisation de l’invention satisfont par conséquent la double exigence de réduction d’une quantité potentiellement importante de textes dans de multiples documents en un résumé concis, et de présentation du résumé dans un langage humain naturel.

En particulier, un premier aspect de l’invention fournit un procédé mis en œuvre par ordinateur de synthèse de texte, comprenant la réception de données textuelles d’entrée comprenant des jetons (tokens) d’une pluralité de documents textuels liés ; le traitement des données textuelles d’entrée pour identifier une pluralité de phrases correspondante ; la formation d’un ou plusieurs groupes de sujets, chacun comprenant un sous-ensemble de la pluralité de phrases sélectionnées selon des jetons liés au sujet dans chaque phrase ; la génération d’un résumé de machine des documents textuels liés en déterminant des données de partie de la parole (POS) pour chaque jeton dans le texte, dans lequel les données POS représente une fonction grammaticale du jeton dans sa phrase correspondante, les jetons étant substitués à des paires jeton/POS ; la construction pour chaque groupe de sujets, d’une structure de données graphiques ayant une pluralité de nœuds et de bords de liaison, dans laquelle chaque nœud représente une paire jeton/POS unique, et des séquences des bords représentent des séquences de paires jeton/POS comprenant des phrases du groupe de sujets correspondant, générant, pour chaque groupe de sujets, une pluralité de phrases récapitulatives candidates classées basées sur des sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant au aux paires jeton/POS de début et de fin de phrase valides, et composant le résumé de machine en sélectionnant, pour chaque groupe de sujets, au moins une phrase récapitulative représentative provenant des phrases récapitulatives candidates classées ; la génération d’un résumé en langage naturel correspondant au résumé de machine en calculant, pour chaque groupe de sujets, des mesures d’adéquations numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant, et composant le résumé en langage naturel en sélectionnant, pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d’adéquation numériques correspondantes ; et l’obtention de données textuelles résumées des données textuelles d’entrée comprenant le résumé en langage naturel.

Dans des modes de réalisation de l’invention, chaque structure de données graphiques peut comprendre des informations de référence de position associées à chaque nœud, qui suit des phrases du groupe de sujets correspondant contenant la paire jeton/POS représentée par le nœud, et les phrases récapitulatives candidates peuvent être classées à l’aide d’une pondération qui dépend des informations de référence de position des nœuds comprenant les sous-graphiques correspondants. Avantageusement, pour chaque groupe de sujets, une seule phrase récapitulative représentative ayant une valeur de rang la plus élevée des phrases récapitulatives candidates peut être sélectionnée.

La mesure d’adéquation numérique entre la phrase de résumé représentative et les phrases du groupe de sujets correspondant peut comprendre une mesure de distance sémantique calculée à l’aide des représentations de vecteurs numériques de jetons générés à l’aide d’un processus d’apprentissage par apprentissage automatique configuré pour capturer le contenu sémantique dans une caractéristique des représentations des vecteurs numériques. La caractéristique des représentations de vecteurs numériques peut être une direction vectorielle, et la mesure de distance sémantique peut être une similarité cosinus.

La mesure d’adéquation numérique entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondants peut par ailleurs comprendre une mesure de distance de vocabulaire basée sur l’occurrence de jetons partagés et distincts entre les phrases. La mesure de distance de vocabulaire peut être la similarité de Jaccard.

Avantageusement, en combinant une mesure de distance sémantique et une mesure de distance de vocabulaire dans la mesure d’adéquation numérique, un équilibre peut être obtenu entre la similarité sémantique et une variation de vocabulaire. C’est une caractéristique utile pour de tels modes de réalisation de l’invention, parce qu’un résultat basé uniquement sur une distance sémantique peut donner lieu à l’extraction d’une phrase qui est plus semblable à la phrase de synthèse générée par machine, tandis qu’un objectif souhaitable est d’extraire une phrase différente et formulée plus naturellement des phrases du groupe de sujets originales. La phrase récapitulative préférée peut être identifiée comme la phrase ayant une valeur la plus grande de compatibilité numérique provenant de toutes les phrases comparées du groupe de sujets correspondant.

Dans certains modes de réalisation, la mesure d’adéquation numérique est calculée selon :
[Math 1]
où représente la première et la deuxième phrase, est la mesure de distance sémantique, et est la mesure de distance de vocabulaire.

Dans des modes de réalisation de l’invention, le procédé peut comprendre l’exécution d’une analyse de sentiments sur des phrases dans lesquelles chacun de la pluralité de documents textuels liés des données textuelles d’entrée, et l’abandon de phrases et/ou de documents textuels qui ne satisfont pas un critère de sentiment prescrit. Avantageusement, en limitant le résumé des documents ou phrases qui satisfont un critère de sentiment, l’occurrence de déclarations contradictoires dans les données textuelles résumées peut être réduite ou éliminée.

Dans un autre aspect, l’invention fournit un système informatique pour résumer le texte comprenant : un processeur, au moins un dispositif de mémoire accessible par le processeur ; et au moins une source de données textuelles, dans lequel le dispositif de mémoire contient un corps d’instructions de programme qui, lorsqu’elles sont exécutées par le processeur amène le système informatique à mettre en œuvre un procédé comprenant : la réception, à partir de la source de données textuelles, de données textuelles d’entrée comprenant des jetons d’une pluralité de documents textuels liés ; le traitement des données textuelles d’entrée pour identifier une pluralité de phrases correspondante ; la formation d’un ou plusieurs groupes de sujets, chacun comprenant un sous-ensemble de la pluralité de phrases sélectionnées selon des jetons liés au sujet dans chaque phrase ; la génération d’un résumé de machine des documents textuels liés en déterminant des données de partie de la parole (POS) pour chaque jeton dans le texte, dans lequel les données POS représente une fonction grammaticale du jeton dans sa phrase correspondante, les jetons étant substitués à des paires jeton/POS ; la construction pour chaque groupe de sujets, d’une structure de données graphiques ayant une pluralité de nœuds et de bords de liaison, dans laquelle chaque nœud représente une paire jeton/POS unique, et des séquences des bords représentent des séquences de paires jeton/POS comprenant des phrases du groupe de sujets correspondant, générant, pour chaque groupe de sujets, une pluralité de phrases récapitulatives candidates classées basées sur des sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant au début de phrase valide et aux paires jeton/POS d’extrémité, et composant le résumé de machine en sélectionnant, pour chaque groupe de sujets, au moins une phrase récapitulative représentative provenant des phrases récapitulatives candidates classées ; la génération d’un résumé en langage naturel correspondant au résumé de machine en calculant, pour chaque groupe de sujets, des mesures d’adéquation numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant, et composant le résumé en langage naturel en sélectionnant, pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d’adéquation numériques correspondantes ; et la fourniture de données textuelles résumées des données textuelles d’entrée comprenant le résumé en langage naturel.

Dans certains modes de réalisation, la mesure date d’équation numérique entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondants comprend une mesure de distance sémantique calculée à l’aide des représentations de vecteurs numériques de jetons générés à l’aide d’un processus d’apprentissage par apprentissage automatique configuré pour capturer du contenu sémantique dans une caractéristique des représentations de vecteurs numériques ; et une mesure de distance de vocabulaire basée sur l’occurrence de jetons partagés et distincts entre les phrases.

Dans certains modes de réalisation de l’invention, les instructions de programmes qui, lorsqu’elles sont exécutées par le processeur, amènent par ailleurs le système informatique à exécuter une analyse de sentiments de phrases dans lesquelles chacun de la pluralité de documents textuels liés des données textuelles d’entrée, et à abandonner des phrases et/ou des documents textuels qui ne satisfont pas un critère de sentiment prescrit.

Dans un autre aspect, l’invention fournit un produit–programme informatique comprenant un support tangible lisible par ordinateur sur lequel sont stockées des instructions, et qui, lorsqu’il est exécuté par un processeur, met en œuvre un procédé comprenant : la réception de données textuelles d’entrée comprenant des jetons d’une pluralité de documents textuels liés ; le traitement des données textuelles d’entrée pour identifier une pluralité de phrases correspondante ; la formation d’un ou plusieurs groupes de sujets, chacun comprenant un sous-ensemble de la pluralité de phrases sélectionnées selon des jetons liés au sujet dans chaque phrase ; la génération d’un résumé de machine des documents textuels liés en déterminant des données de partie de la parole (POS) pour chaque jeton dans le texte, dans lequel les données POS représente une fonction grammaticale du jeton dans sa phrase correspondante, les jetons étant substitués à des paires jeton/POS ; la construction pour chaque groupe de sujets, d’une structure de données graphiques ayant une pluralité de nœuds et de bords de liaison, dans laquelle chaque ne représente une paire jeton/POS unique, et des séquences des bords représentent des séquences de paires jeton/POS comprenant des phrases du groupe de sujets correspondant, générant, pour chaque groupe de sujets, une pluralité de phrases récapitulatives candidates classées basées sur des sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant aux paires jeton/POS de début et de fin de phrase valides, et composant le résumé de machine en sélectionnant, pour chaque groupe de sujets, au moins une phrase récapitulative représentative provenant des phrases récapitulatives candidates classées ; la génération d’un résumé en langage naturel correspondant au résumé de machine en calculant, pour chaque groupe de sujets, des mesures d’adéquation numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant, et composant le résumé en langage naturel en sélectionnant, pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d’adéquation numériques correspondantes ; et l’obtention de données textuelles résumées des données textuelles d’entrée comprenant le résumé en langage naturel.

D’autres aspects, avantages et caractéristiques des modes de réalisation de l’invention seront apparents aux hommes de métier à partir de la description suivante de divers modes de réalisation. On notera cependant que l’invention ne se limite pas aux modes de réalisation décrits, qui sont fournis pour illustrer les principes de l’invention telle que définie, et pour aider les personnes qualifiées à mettre ces principes en pratique.

Des modes de réalisation de l’invention seront à présent décrits en référence aux dessins qui les accompagnent, dans lesquels les mêmes numéros de référence réfèrent aux mêmes caractéristiques, et dans lesquels :

est un diagramme bloc illustrant un système en réseau exemplaire incluant un serveur de synthèse mettant en œuvre l’invention ;

est un organigramme d’un procédé de synthèse d’un ensemble de documents textuels liés mettant en œuvre l’invention ;

est un organigramme fournissant de plus amples détails sur une étape de prétraitement procédé illustré à la Figure 2.

est un organigramme d’un procédé d’exécution d’une étape abstraite du procédé illustré à la Figure 2.

présente une description de pseudocode d’un algorithme pour construire une structure de données graphiques, correspondant à des étapes dans le procédé illustré à la Figure 4A.

présente schématiquement une structure de données graphiques construite selon le procédé illustré aux Figures 4A et 4B.

est un organigramme d’un procédé d’exécution d’une étape d’extraction du procédé illustré à la Figure 2 ; et

présente un diagramme schématique exemplaire d’une interface utilisateur graphique d’un service basé sur le Web incorporant du contenu fourni par un serveur de synthèse mettant en œuvre l’invention.

DESCRIPTION DÉTAILLÉE

La Figure 1 est un diagramme bloc illustrant un système en réseau exemplaire 100 incluant un serveur de synthèse 102 mettant en œuvre l’invention. En particulier, le serveur de synthèse 102 comprend un système mettant en œuvre l’invention, qui est configuré pour fournir des services de synthèse textuelle sous la forme de procédés mis en œuvre par ordinateur qui appliquent des techniques et technologies d’apprentissage automatique pour générer des résumés automatisés basés sur la collecte de documents textuels multiples.

Le serveur de synthèse 102 peut comprendre un système informatique ayant une architecture conventionnelle. En particulier, le serveur de synthèse 102, tel qu’illustré, comprend un processeur 104. Le processeur 104 être associé de manière opérationnelle à un dispositif de stockage/mémoire non volatile 106, par ex. via un ou plusieurs bus d’adresse/de données 108, tel qu’illustré. Le stockage non volatile 106 peut être un lecteur de disque dur, et/ou peut inclure une mémoire non volatile à l’état solide telle qu’une ROM, une mémoire flash, un disque à circuits intégrés (SSD), ou similaire. Le processeur 104 est également interfacé avec le stockage volatile 110, tel qu’une RAM, qui contient des instructions de programme et des données transitoire liée au fonctionnement du serveur de synthèse 102.

Dans une configuration conventionnelle, le dispositif de stockage 106 maintient un programme connu et un contenu de données pertinent pour le fonctionnement normal du serveur de synthèse 102. Par exemple, le dispositif de stockage 106 peut contenir des programmes de système d’exploitation et des données, ainsi que d’autres logiciels d’application exécutables nécessaires pour les fonctions visées du serveur de synthèse 102. Le dispositif de stockage 106 contient également des instructions de programmes qui, lorsqu’elles sont exécutées par le processeur 104, amène le serveur de synthèse 102 à exécuter des opérations liées à un mode de réalisation de la présente invention, telles que décrites plus en détail ci-dessous, et en référence aux Figures 2-5, en particulier. En fonctionnement, les instructions et les données conservées sur le dispositif de stockage 106 sont transférées à la mémoire volatile 110 pour exécution à la demande.

Le processeur 104 est également associé de manière opérationnelle à une interface de communication 112 de manière conventionnelle. L’interface de communication 112 facilite l’accès à un réseau de communication de données étendu, tel qu’Internet 116.

En utilisation, le stockage volatile 110 contient un corps correspondant 114 d’instruction de programmes transféré à partir du dispositif de stockage 106 et configuré pour exécuter le traitement et d’autres opérations mettant en œuvre les caractéristiques de la présente invention. Les instructions de programme 114 comprennent une contribution technique à l’art développé et configuré spécifiquement pour mettre en œuvre un mode de réalisation de l’invention, au-delà et au-dessus de l’activité conventionnelle bien comprise, de routine dans le domaine du traitement de langage automatisé, tel que décrit plus en détail ci-dessous. En particulier, des processus et algorithmes mettant en œuvre des inventions sont décrits en référence aux Figures 2-5 avec des détails techniques suffisants pour permettre aux personnes de métier de comprendre les principes de l’invention, et de mettre ces principes en pratique par la programmation spécifique pour développer un code de programme qui peut être interprété, compilé, et/ou autrement fourni pour s’exécuter dans le corps d’instructions de programme 114.

Concernant le précédent aperçu du serveur de synthèse 102, et autres systèmes et dispositifs de traitement décrits dans la présente spécification, les termes tels que « processeur », « ordinateur », et cætera, sauf si le contexte requiert le contraire, doivent être compris comme faisant référence à une gamme de mises en œuvre possibles des dispositifs, appareils et systèmes comprenant une combinaison de matériel et de logiciels. Cela inclut des dispositifs et des appareils à processeur unique et à processeurs multiples, incluant des dispositifs portables, des ordinateurs de bureau, et divers types de systèmes serveurs, incluant des plates-formes de matériel et de logiciel coopérante qui peuvent être co-localisées ou distribuées. Des processeurs physiques peuvent inclure des CPU à usage général, des processeurs de signaux numériques, des unités de traitement graphique (GPU), et/ou autres dispositifs matériels appropriés pour exécuter efficacement les programmes et algorithmes requis.

Les systèmes informatiques peuvent inclure des architectures d’ordinateurs personnels conventionnelles, ou d’autres plates-formes matérielles à usage général. Le logiciel peut inclure un logiciel de système d’exploitation à source ouverte et/ou disponible dans le commerce en combinaison avec divers programmes de services et d’application. Alternativement, des plates-formes de traitement ou informatiques peuvent comprendre des architectures logicielles et/matérielles personnalisées. Pour une extensibilité améliorée, les systèmes de traitement et informatiques peuvent comprendre des plates-formes de calcul dématérialisées, permettant aux ressources logicielles physiques d’être allouées de manière dynamique en réponse aux demandes de services. Tandis que toutes ces variations entrent dans le champ de la présente invention, pour faciliter l’explication et la compréhension, les modes de réalisation exemplaires sont décrits dans les présentes avec une référence illustrative à des plates-formes de calcul à usage général et à processeur unique, des plates-formes de système d’exploitation couramment disponibles, et/ou des produits de consommation largement disponibles, tels que des ordinateurs personnels de bureau, des ordinateurs portables, des smartphones, des tablettes informatiques, et cætera.

En particulier, les termes « unité de traitement » et « module » sont utilisés dans la présente spécification pour faire référence à toute combinaison appropriée de matériel et de logiciels configurés pour exécuter une tâche définie en particulier. Une telle unité de traitement ou module peut comprendre un code exécutable s’exécutant à un seul emplacement sur un seul dispositif de traitement, ou peut comprendre des modules de code exécutables coopérant s’exécutant en de multiples emplacements et/ou sur de multiples dispositifs de traitement. Par exemple, dans certains modes de réalisation de l’invention, des algorithmes de synthèse et de prétraitement textuel peuvent être réalisés entièrement par un code exécutant sur un système unique, tel que le serveur de synthèse 102, tandis que dans d’autres modes de réalisation le traitement correspondant peut être exécuté de manière distribuée sur une pluralité de systèmes.

Des composants logiciels, par ex. les instructions de programme 114 mettant en œuvre des caractéristiques de l’invention peuvent être développés à l’aide de tout langage de programmation approprié, environnement de développement, ou combinaison de langages et d’environnements de développement, comme cela sera familier aux hommes de métier du génie logiciel. Par exemple, un logiciel approprié peut être développé à l’aide du langage de programmation C, du langage de programmation Java, du langage de programmation C#, du langage de programmation F#, du langage de programmation Visual Basic^®(c.-à-d. VB.NET), du langage de programmation C++, du langage de programmation Go, du langage de programmation Python, du langage de programmation R, du langage d’interrogation SQL, et/ou autre langage approprié pour la mise en œuvre d’applications, incluant des applications basées sur le Web, comprenant le stockage et la récupération de données, le traitement de langage naturel (NLP), l’apprentissage automatique, et autres algorithmes, tels que décrits ci-dessous en référence aux Figures°2-5, pour générer des résumés automatisés basés sur la collecte de multiples documents textuels. Le développement et le déploiement de NLP et les techniques et technologies d’apprentissage automatique employés dans des modes de réalisation de l’invention peuvent être soutenus par l’utilisation de structures et de bibliothèques de code, tels que TensorFlow^®, PyTorch, Keras, spaCy, Gensim, Natural Language Toolkit (NLTK), SparkNLP, et/ou Stanford CoreNLP.

Les hommes de métier apprécieront cependant, sur la base de la description technique suivante, que des modes de réalisation de l’invention impliquent la mise en œuvre de structures logicielles et de code qui ne sont pas considérés comme bien compris, de routine, ou conventionnels dans le métier dans le domaine du traitement de langage automatisé, et que tandis que des langages, structures, plates-formes, environnement de développement préexistants, et bibliothèques de code peuvent aider à la mise en œuvre, ils requièrent une configuration spécifique et une augmentation importante (c.-à-d. Le développement de code supplémentaire) pour réaliser divers avantages de l’invention et mettre en œuvre les structures spécifiques, le traitement, les calculs, et les algorithmes décrits ci-dessous, particulièrement en référence aux Figures 2-5.

Les exemples précédents de langages, environnements et bibliothèques de code ne sont pas conçus pour être limitant et on notera que tout langage, bibliothèque, et système de développement appropriés peuvent être employés, conformément aux exigences du système. Les descriptions, diagrammes blocs, organigrammes, algorithmes de pseudocode, et cætera, présenté dans la présente spécification sont fournis, à titre d’exemple, pour permettre aux hommes de métier de l’ingénierie logicielle, du traitement de langage naturel (NLP), et de l’ apprentissage automatique de comprendre et d’apprécier les caractéristiques techniques, la nature, et la portée de l’invention et pour mettre en pratique un ou plusieurs modes de réalisation de l’invention par la mise en œuvre de code logiciel approprié à l’aide de tout langage, structure, bibliothèque et système de développement appropriés conformément à la présente déclaration, sans faire preuve d’une ingéniosité inventive supplémentaire.

Le code de programme mis en œuvre dans l’un(e) quelconque des applications/modules décrit(e)s dans les présentes peut être individuellement ou collectivement distribué comme un produit de programme dans une variété de formes différentes. En particulier, le code de programme peut être distribué à l’aide d’un support de stockage lisible par ordinateur ayant sur lui des instructions de programme lisibles par un ordinateur pour amener un processeur à réaliser des aspects des modes de réalisation de l’invention.

Le support de stockage lisible par ordinateur peut inclure un support tangible volatile et non volatile, amovible et non amovible mis en œuvre dans tout procédé ou technologie de stockage d’informations, tel(le) que des instructions lisibles par ordinateur, des structures de données, des modules de programmes, ou autres données. Le support de stockage lisible par ordinateur peut par ailleurs inclure une mémoire vive (RAM), une mémoire morte (ROM), une mémoire morte programmable effaçable (EPROM), une mémoire morte programmable effaçable électriquement (EEPROM), une mémoire flash ou autre technologie de mémoire à l’état solide, une mémoire morte de disque compact portable (CD-ROM), ou autre stockage optique, des cassettes magnétiques, une bande magnétique, un stockage de disque magnétique ou autres dispositifs de stockage magnétiques, ou tout autre support qui peut être utilisé pour stocker les informations souhaitées et qui peut être lu par un ordinateur. Tandis qu’un support de stockage lisible par ordinateur ne peut pas comprendre des signaux transitoires en soi (par ex, des ondes radio ou autres ondes électromagnétiques se propageant, des ondes électromagnétiques se propageant à travers un support de transmission tel qu'un guide d'ondes, ou des signaux électriques transmis à travers un fil), des instructions de programme lisibles par ordinateur peuvent être téléchargées via de tels signaux transitoires sur un ordinateur, un autre type d’appareil de traitement de données programmables, ou autre dispositif à partir d’un support de stockage lisible par ordinateur ou sur un ordinateur externe ou un dispositif de stockage externe via un réseau.

Les instructions de programme lisibles par ordinateur stocké sur un support lisible par ordinateur peuvent être utilisées pour diriger un ordinateur, d’autres types d’appareils de traitement de données programmables, ou autres dispositifs pour fonctionner de manière particulière, de sorte que les instructions stockées dans le support lisible par ordinateur produisent un article de fabrication incluant des instructions qui mettent en œuvre les fonctions, actes, et/ou opérations précisées dans les organigrammes, algorithmes de pseudocode, diagrammes séquentiels et/ou diagrammes blocs. Les instructions des programme informatique peuvent être fournies à un ou plusieurs processeurs d’un ordinateur universel, d’un ordinateur spécialisé, ou autres appareils de traitement de données programmables pour produire une machine, de sorte que les instructions, qui sont exécutées via ledit un ou plusieurs processeurs, amènent une série de calculs à être exécutés pour mettre en œuvre les fonctions, actes, et/ou opérations précisés dans les organigrammes, diagrammes séquentiels, et/ou diagrammes blocs.

Pour en revenir à la discussion relative à la Figure 1, le système en réseau 100 inclus par ailleurs une ou plusieurs bases de données de stockage de documents, par ex 118, auquel le serveur de synthèse 102 a accès, par ex. via une connexion directe, des connexions de réseau local (LAN), une connexion à distance via Internet 116. Une base de données de stockage de documents 118 peut contenir un grand nombre de documents textuels, qui peuvent par ailleurs comprendre un ou plusieurs ensembles de documents textuels liés. Dans le contexte de la présente invention, les documents liés sont des documents qui sont liés par un sujet commun, par lequel on peut souhaiter générer un résumé concis de ce sujet basé sur les contenus de tous les documents liés afin de réduire le fardeau d’un utilisateur, ou un système automatisé (telle qu’un système texte-parole) consistant à examiner le contenu d’un grand nombre potentiel de documents. Un exemple d’un groupe de documents textuels liés est un ensemble de documents découlant d’une recherche sur un sujet particulier, dans lequel c’est la demande de recherche qui détermine les documents renvoyés à partir de la base de données de stockage de documents 118. Un autre exemple d’un groupe de documents textuels liés est un ensemble d’examens d’un produit ou service particulier, par ex. un film, des séries télé, une chanson ou un album, un point de vente au détail, un fournisseur d’hébergement, un fournisseur de transport, et cætera.

De plus, des modes de réalisation de la présente invention mettent en œuvre un concept de « sujets » dans un ensemble de documents textuels liés. Dans ce contexte, un sujet est un aspect identifiable du sujet qui lie les documents liés pour lesquels un composant d’un résumé global peut être généré. À titre d’exemple concret (qui sera utilisé tout au long de la description suivante, sans limiter la généralité des principes de l’invention) les sujets associés aux documents concernant des avis sur des services d’hébergement peuvent comprendre des aspects tels que « le confort », « la propreté », « la nourriture », « les normes de service », « l’emplacement », et cætera.

En général, les utilisateurs finaux ne peuvent pas avoir directement accès aux services fournis par le serveur de synthèse 102 mais ils ne peuvent plus communément y avoir accès via des serveurs de prestataires de services tiers, par ex 120. Les utilisateurs peuvent accéder à ces serveurs tiers, à leur tour, via des terminaux, par ex. 122, tels que des ordinateurs personnels, ou autres dispositifs, à l’aide d’un navigateur web ou autre logiciel d’application. Un exemple concret d’un tel arrangement est un serveur en ligne fournit par un prestataire de service de réservation de voyage via lequel les utilisateurs finaux peuvent chercher, examiner, et réserver un hébergement et d’autres services de voyage. Lors de la présentation d’options d’hébergement à un utilisateur final, le serveur de prestataire de services peut être configuré pour inclure des avis de services d’hébergement. Puisqu’un grand nombre d’avis d’utilisateurs peuvent avoir été reçus pour certains fournisseurs d’hébergement, il peut être souhaitable, alternativement ou en plus, de présenter un résumé concis de l’ensemble intégral des avis. Dans ce cas, le serveur de réservation de voyage 120 peut accéder aux services fournis par le serveur de synthèse 102, par ex. via une interface de programmation d’application (API), afin d’obtenir un résumé concis des avis disponibles pour présentation sur le terminal 122 de l’utilisateur final.

La Figure 2 est un organigramme d’un procédé de synthèse d’un ensemble de documents textuels liés mettant en œuvre l’invention. L’entrée 202 au procédé 200 est un corps de données textuelles comprenant des jetons d’une pluralité de documents textuels, par ex. tels que récupérés dans une base de données de documents 118. Chaque jeton est une séquence de caractères provenant de l’un des documents textuels qui peuvent être groupés ensemble en tant qu’unité sémantique utile pour le traitement. Plus communément, un jeton est un mot, c.-à-d. des caractères délimités par une paire de marques limites, telles que des espaces ou la ponctuation. Cependant, un jeton peut être une partie d’un mot (par ex. le mot « shouldn’t » peut comprendre les jetons « should » et « n’t ») ou un groupe de mots et/ou la ponctuation (par ex. le terme « année lumière », ou l’adjectif composé « temps partiel » peuvent pour quelque raison que ce soit être considérés comme des jetons uniques).

À l’étape 204, le prétraitement des données textuelles d’entrée 202 peut être exécuté, ce qui peut employer un nombre de ressources de langage naturel (NL) 206. Les ressources NL 206 peuvent être stockées dans le stockage local 106 du serveur de synthèse 102, ou peuvent être récupérées dans une base de données éloignée, comme requis. Le prétraitement 204 peut comprendre l’exécution de modules de code disponibles dans une ou plusieurs structures NLP ou bibliothèques, et peut par ailleurs comprendre l’exécution de code développé spécifiquement aux fins de mise en œuvre d’un mode de réalisation de l’invention afin de fournir le prétraitement requis et de lier et de transférer des données entre différents modules de code de prétraitement.

Dans un mode de réalisation de l’invention, le prétraitement 204 comprend des sous-étapes de tokenisation et de détection de phrases 302, de normalisation du jargon 304, de vérification orthographique 308, et de lemmatisation 312, comme illustré plus en détail dans l’organigramme présenté à la Figure 3. Les modules de code pour la détection de phrases et la tokenisation 302 sont fournis dans un bon nombre de bibliothèques NLP par ex. le lot « tokénisé » dans la bibiothèque Python NLTK, la catégorie « PTBTokeniseur » de la structure Stanford CoreNLP, un objet de « Langage » dans la bibliothèque Python spaCy ou le Modèle annotateur « Tokeniseur » dans la bibliothèque SparkNLP. Le code exécutable peut par conséquent être mis en œuvre pour incorporer un ou plusieurs des modules de ce type dans le code de programme 114 mettant en œuvre l’invention. Alternativement, ou en plus, un tokeniseur personnalisé et/ou un détecteur de phrases peut être mis en œuvre sur la base des caractéristiques des documents textuels. Par exemple, dans le cas des avis d’utilisateurs, il a été découvert qu’il est utile de fractionner les phrases avec des virgules (« , ») et le mot « et », ainsi qu’avec des points (« . »), parce qu’ils tendent à diviser les sujets (par ex. une phrase d’avis telle que « le lieu était idéal et le prix raisonnable » comprend actuellement les deux aspects distincts que sont le lieu et la valeur).

Un module de code pour la normalisation du jargon 304 peut employer un dictionnaire de jargon 306, par ex. stocker avec les ressources NL 206, qui comprend des traductions à partir d’abréviations communes ou autres termes du jargon dans des formes « normales » correspondantes (par ex. « gr8 »  « great », « fyi »  « for your information »). De manière similaire, un module de code de vérification orthographique 308 peut être employés pour corriger au moins les fautes d’orthographe les plus communes et standardiser des orthographes alternatives (par ex. Anglais britannique versus Anglais américain) afin d’améliorer la cohérence dans les données textuelles d’entrée. Comme avec la tokenisation et la détection de phrases, les modules de code pour la vérification orthographique sont fournis dans un bon nombre de bibliothèques NLP, généralement basées sur un lexique spécifique à un langage correspondant ou un dictionnaire 310. La correction orthographique peut être une tâche complexe, les différents algorithmes fournissent en général des compromis entre la précision/qualité et la charge de calcul. La bibliothèque SparkNLP, par exemple, inclus un nombre de Modèles d’annotateur pour la correction orthographique. Parmi eux, on a trouvé que le modèle NorvigSweeting fournit un compromis raisonnable entre précision et exigences de calcul dans des modes de réalisation de l’invention.

Une autre étape de prétraitement est la lemmatisation 312, qui fait référence au processus de réduction des formes infléchies et/ou des formes associées à un dérivé, d’un mot en une forme de base commune (par ex. « manger », « mangeant », « a mangé »  « mange »). Un lemmatiseur est un outil NLP qui effectue une analyse morphologique pour identifier précisément le lemme pour chaque mot. Les lemmatiseurs sont disponibles dans un bon nombre de bibliothèques NLP, spaCy, Stanford CoreNLP, et SparkNLP. Le code exécutable peut par conséquent être mis en œuvre pour incorporer un ou plusieurs des modules de ce type dans le code de programme 114 mettant en œuvre l’invention.

Pour en revenir à la Figure 2 à l’étape 208, la détection de sentiments peut être effectuée sur les phrases prétraitées. L’objectif de la détection de sentiments est principalement de déterminer si chaque phrase exprime un sentiment positif ou négatif. Elle est donc particulièrement intéressante dans le cas des résumés d’avis et d'autres documents pour lesquels un sentiment est important, et où il peut par conséquent être souhaitable de faire la distinction entre un contenu positif et un contenu négatif. Cependant, pour des documents essentiellement factuels, tels que des résultats de recherche généraux, le sentiment ne peut pas être pertinent et l’étape de détection de sentiments 208 peut être omise.

La détection de sentiments 208 peut employer des ressources stockées 210, telles qu’un lexique et/ou un modèle de sentiments. Un détecteur de sentiments relativement simple peut être mis en œuvre ; il emploie un lexique qui mappe les jetons lemmatisés d’une phrase sur des formes de valeurs qui sont accumulées pour calculer un résultat de sentiment général pour la phrase. Les formes de valeur comprennent quatre types : une valeur de résultat positive (par ex. pour les mots tels que « bon », ou « excellent »), une valeur de résultat négative (par ex. pour les mots tels que « mauvais », ou « pire », ou « impoli ») ; une forme de « retour » (pour retourner le score si des mots de négation telle que « ne pas » sont rencontrés) ; et une forme d’« incrément » (pour amplifier le score si des mots tels que « très » sont rencontrés). Dans des modes de réalisation de l’invention, le lexique peut être fourni comme une ressource stockée 210, et cet algorithme de résultat mis en œuvre en tant qu’instructions exécutables dans le code de programme 114. Les techniques alternatives de détection de sentiments incluent des approches d’apprentissage automatique supervisées, dans lesquels un modèle de détection de sentiments qui a été formé à l’aide d’un corpus de phrases étiquetées peut être utilisé pour générer une valeur de sentiment. Dans certains modes de réalisation, par conséquent, un tel modèle peut être formé et fourni en tant que ressource stockée 210. Certaines bibliothèques NLP, par ex. Stanford CoreNLP, fournissent des modèles d’analyse de sentiments, et un code exécutable peut par conséquent être mis en œuvre pour incorporer un ou plusieurs de ces modèles dans le code de programme 114 mettant en œuvre l’invention.

L’étape 212 est une formation de groupe de sujets qui consiste à former un ou plusieurs groupes de sujets, chacun comprenant un sous-ensemble des phrases identifiées sélectionnées conformément aux jetons liés au sujet dans chaque phrase. Plus spécifiquement, l’entrée dans l’étape de formation de groupe de sujets 212 est l’ensemble des phrases prétraitées, dont chacune est tokenisée et normalisée, et peut en option avoir un résultat de sentiment attribué. Chaque phrase est associée à un ou plusieurs sujets correspondants basés sur un vocabulaire de sujet 214, qui comprend un ensemble de mappages entre les jetons et les identifiants de sujet. Le vocabulaire de sujet 214 peut être spécifique au service fourni par le serveur de synthèse 102. Dans le cas exemplaire de fourniture de résumé des avis d’hébergement, les identifiants de sujets peuvent inclure des aspects tels que l’« emplacement » (par ex. « aéroport », « plage », « magasins »), « le prix/la valeur » (par ex. « bon marché », « cher »), la « nourriture » (par ex. « restaurant », « petit-déjeuner », le « service » (par ex., « aimable », « efficace »), et cætera. Par conséquent, les instructions exécutables peuvent être mises en œuvre dans le code de programme 114 qui sont configurés pour faire correspondre des jetons dans les phrases prétraitées avec des identifiants de sujets dans le vocabulaire 214 afin d’associer un ou plusieurs sujets à chaque phrase

Dans des modes de réalisation employant la détection de sentiments, une autre sous-étape de formation de groupe de sujets peut comprendre l’agrégation de résultats de sentiments pour chaque sujet dans chaque document. Par exemple, dans le cas où les documents sont des avis d’hébergement, il peut être souhaitable de déterminer si un avis est positif ou négatif dans l’ensemble, en rapport à différents aspects du prestataire d’hébergement tels que l’emplacement ou la valeur. Le processus d’agression peut comprendre l’ajout des résultats de sentiment d’une phrase individuelle pour chaque identifiant de sujet pour produire un résultat total, puis la mise à l’échelle du résultat total pour chaque sujet dans une plage fixe, par ex. (-1 ; 1), à l’aide d’une fonction de mise à l’échelle non linéaire/saturante. On notera qu’un bon nombre de fonctions de mise à l’échelle appropriées sont disponibles. Une de ses fonctions est
[Math 2]
.

Une fonction de mise à l’échelle alternative est donnée par :
[Math 3]
.

Un ensemble de groupes de sujets de sortie 216 est formé en sélectionnant des identifiants de sujet et des phrases associées. Dans des modes de réalisation employant la détection de sentiments, un critère de sentiment prescrit peut être appliqué pour déterminer s’il faut ou non retenir et/ou abandonner des phrases/documents basés sur le critère. Par exemple, il peut être souhaitable de résumer des documents textuels et/ou sujets basés uniquement sur un contenu représentant des sentiments positifs ou négatifs, afin d’éviter des contradictions qui peuvent autrement survenir. Dans le cas exemplaire de fourniture de résumés d’avis d’utilisateurs, il est bien connu que les examinateurs individuels peuvent avoir des expériences et des opinions contraires, et des résumés qui reflètent simultanément des points de vue opposés peuvent par conséquent être confus et d’une valeur réduite. Le fait de résumer uniquement les avis positifs permet de souligner les qualités positives d’un produit ou service, par exemple pour des clients potentiels. Inversement, le fait de résumer uniquement des avis négatifs permet de souligner les sources d’insatisfaction des clients, par ex. pour les fournisseurs de biens/prestataires de services qui peuvent souhaiter utiliser ce retour pour identifier des zones d’amélioration.

Les instructions exécutables peuvent par conséquent être mises en œuvre dans le code de programme 114 ; elles sont configurées pour mettre en œuvre les procédés ci-dessus afin de former un ensemble de groupes de sujets 216, chacun comprenant un identifiant de sujet et un sous-ensemble associé de phrases sélectionnées selon des jetons liés au sujet dans chaque phrase, et en option excluant des phrases qui ont été abandonnées, qui ne satisfont pas un critère de sentiment prescrit.

Dans les étapes restantes présentées dans l’organigramme 200, des modes de réalisation de l’invention mettent premièrement en œuvre un processus d’abstraction de résumé 218, qui utilise le marquage d’une partie de la parole (POS) et des structures de données graphiques pour représenter du texte de langage naturel, dont dérive ainsi une pluralité de phrases récapitulatives candidates générées par machine provenant de chaque groupe de sujets 216. Un processus d’extraction de résumé 222 est ensuite appliqué, lequel peut employer des représentations de vecteurs numériques de mots générés à l’aide de techniques d’apprentissage automatique pour capturer un contenu sémantique, pour identifier des séquences de mots dans les documents textuels ayant une signification similaire à une ou plusieurs des phrases récapitulatives candidates 220. Les phrases récapitulatives de langage naturel 224 correspondant aux phrases générées par machine sont ainsi identifiées pour être incorporées dans les données textuelles résumées de sortie. Avantageusement, l’étape abstraite 218 permet de fournir de résumé concis 220 qui reflètent les contenus de multiples documents. Cependant, tandis que ces phrases récapitulatives générées par machine peuvent sembler « robotiques », génériques ou monotones (comme avec certaine approche basée sur les règles de la technique antérieure), l’étape d’extraction ultérieure 222 à l’avantage technique particulier de fournir les phrases récapitulatives correspondantes ayant une forme de langage naturel basée sur un texte composé par un être humain, extrait des documents.

L’étape abstraite 218 ci-dessous est décrite plus en détails en référence aux Figures 4A, 4B et 4C, tandis que les détails de l’étape d’extraction 222 sont décrits en référence à la Figure 5. On notera qu’un mode de réalisation de l’invention comprend du code de programme qui est développé, et incorporé dans le corps des instructions programme 114, de sorte que, lorsqu’il est exécuté par le processeur 104, les instructions mettent en œuvre les procédés, algorithmes, et calculs décrits comme suit en référence aux Figures 4A, 4B et 4C et 5.

La Figure 4A est un organigramme d’un procédé d’exécution de l’étape abstraite 218 mettant en œuvre l’invention. Dans la première partie de ce procédé une structure de données graphiques est construite pour chaque groupe de sujets qui a une pluralité de nœuds et de bords de liaison, dans lesquels chaque nœud représente une paire unique comprenant un jeton marqué avec une POS correspondante. Des séquences de bords représentent des séquences de paires jeton/POS comprenant des phrases de groupe de sujets correspondant.

Une description de pseudocode d’un algorithme 426 pour construire la structure de données graphiques pour un groupe de sujets comprenant un ensemble S de phrases est présenté à la Figure 4B, qui est basée sur la divulgation dans Kavita Ganesan, ChengXiang Zhai et Jiawei Han, « Opinosis : A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions » (Une approche basée sur le graphique de résumé abstrait d’opinions très redondants), Procédures de la 23ème conférence internationale sur la linguistique informatique, 2010.

L’algorithme 426 requiert que chaque jeton wj de chaque phrase d’entrée soit marqué avec sa partie de discours correspondante pour former une paire jeton/POS. Par conséquent, à l’étape 402 des données POS sont déterminées pour chaque jeton des phrases du groupe de sujets actuel, et utilisées pour marquer les jetons de sorte qu’ils sont substitués aux paires jeton/POS utilisées par l’algorithme 428. Des modules pour exécuter le marquage POS sont disponibles dans un bon nombre de bibliothèques NLP, spaCy, Stanford CoreNLP, et SparkNLP. De tels modules emploient typiquement un modèle de langage 404, tel qu’un modèle de réseau neuronal qui a été formé à l’aide d’échantillons marqués de texte dans une langue cible. Le code exécutable peut par conséquent être mis en œuvre pour incorporer un ou plusieurs modules de ce type dans le code de programme 114 mettant en œuvre l’invention.

À l’étape 406 une nouvelle structure de données graphiques vide est créée pour le groupe de sujets actuel. Ensuite, aux étapes 408 et 410, des phrases dans le groupe de sujets actuel sont traitées conformément à la boucle externe de l’algorithme 426. En particulier, l’étape 408 représente le traitement 428 dans la boucle qui met à jour la structure de données graphiques pour chaque phrase, tandis que l’étape 410 est une vérification pour déterminer s’il existe d’autres phrases pour traitement et, le cas échéant, pour renvoyer la commande à l’étape de mise à jour 408. Le traitement 428 met à jour la structure de données graphiques de sorte que chaque paire jeton/POS wj unique comprenne un nœud au niveau duquel une liste des structures d'information de référence de position (PRI) est conservée. Chaque structure PRI contient une perte de valeur {SID:PID}, si SID est un identifiant de la phrase i dans laquelle le jeton apparaît, et PID est un identifiant j de l’emplacement du jeton dans la phrase.

À titre d’illustration supplémentaire, la Figure 4C présente schématiquement une structure de données graphiques 430 construite à partir de quatre phrases exemplaires 432 d’un groupe de sujets « propreté », conformément à l’algorithme 426. Chacune nœud du graphique 430, par ex. les nœuds 434, 436, 438, est étiqueté avec sa paire jeton/POS unique correspondante, et la liste associée de structures PRI découlant du traitement des phrases 432. Par exemple, le nœud 434 correspond au déterminant « le » (c.-à-d. « le/DT »), qui est le premier jeton des phrases 2, 3 et 4 ; le nœud 436 correspond au verbe au passé « était » (c.-à-d. « était/VBD »), qui est le troisième jeton des phrases 2 et 3 ; et le nœud 438 correspond au jeton de fin de phrase (EOS) (étiqueté « ./. »), qui est le jeton final des quatre phrases (c.-à-d. jeton 5 des phrases 1 et 2, jeton 6 de la phrase 3 et jeton 7 de la phrase 4). Il faut noter que les abréviations des tickets de POS employé dans cette description correspondent à celles du Projet Penn Treebank.

Pour en revenir à la Figure 4A, la structure de données graphiques qui a été construite pour le groupe de sujets actuel est utilisée pour générer au moins une phrase récapitulative abstraite correspondante. L’algorithme pour générer une telle phrase implique l’identification de tous les chemins valides dans le graphique, ces chemins ayant des nœuds initiaux et finaux valides (c.-à-d. correspondant aux jetons qui comprennent des débuts et des fins de phrases légitimes), et ils passent dans toute une série de nœuds intermédiaires ayant une séquence d’étiquettes POS qui satisfont des règles de syntaxe prédéterminées. Spécifiquement, à l’étape 412 tous les nœuds initiaux et finaux valides sont identifiés. Selon un mode de réalisation de l’invention, un nœud de départ valide (VSN) doit avoir une étiquette POS qui peut commencer une phrase (par ex déterminant DT mais aucune ponctuation), et doit de plus avoir une valeur PID moyenne qui est en dessous d’un seuil prédéterminé σ_VSNqui limite la sélection aux nœuds qui tendent à apparaître tôt dans les phrases d’entrée. De plus, selon un mode de réalisation de l’invention des nœuds d’extrémité valides (VEN) sont limités aux marques de ponctuation appropriées (par ex. point ou virgule). Dans certains modes de réalisation, des règles supplémentaires peuvent cependant être mises en œuvre pour identifier les VEN, tels que des conjonctions de coordination comme « mais » ou « pourtant ».

Aux étapes 414-418, toutes les séquences valides liant des paires de VSN et VEN sont identifiées. Ces séquences peuvent être considérées comme des phrases candidates pour résumer le contenu du groupe de sujets actuel. En particulier, à l’étape 141 une phrase candidate est identifiée en sélectionnant un VSN dans le graphique, et en exécutant une première traversée profonde de la structure de données graphiques à la recherche d’une séquence de nœuds, précédemment non identifiée qui satisfait les règles syntaxiques appropriées dans le langage pertinent. Par exemple, en anglais, la séquence DT NN V (RB) JJ (c.-à-d. déterminant, nom, verbe, adverbe optionnel, adjectif) est une séquence valide tandis que NN JJ NN JJ V ne l’est pas. À l’étape 416, un résultat de classement est calculé pour la phrase candidate en découlant. L’étape de décision 418 déterminent si la recherche de phrases candidates est complète (c.-à-d. que la première traversée de profondeur du graphique est achevée, et qu’il n’y a plus de VSN) et, sinon, la commande retourne à l’étape 414 pour continuer la recherche.

Dans un mode de réalisation exemplaire de l’invention, le résultat de classement est calculé à l’étape 416 basée sur une mesure de redondance de chemin. Pour un chemin valide (c.-à-d. une phrase candidate)p = {w ₁, …,w _n }, la redondance du cheminrdepest définie par le nombre de phrases se chevauchant couvertes par le chemin :
[Math 4]
où est l’intersection entre deux ensembles de SID de sorte que le décalage entre les PID correspondants n’est pas plus grand qu’une valeur prédéterminée σ _gap , qui est sélectionnée pour prendre en compte de petites variations entre les phrases d’entrée dont le sens ne change pas de manière significative. Le résultat de classementsd’un cheminpest calculé selon :
[Math 5]
où le composant logarithmique est inclus pour accorder une pondération supplémentaire à des chemins plus longs, qui sont généralement moins redondants que des chemins plus courts.

À l’étape 410, les phrases candidates sont triées en fonction de leurs résultats de classement, de sorte que le(s) chemin(s) aux résultats supérieurs puisse(nt) être identifié(s). Une vérification 422 est ensuite réalisée pour déterminer s’il existe d’autres groupes de sujets à traiter et, si tel est le cas, la commande retourne alors à l’étape 402. Autrement, un ensemble de sorties de phrases récapitulatives abstraites 424 est généré, et le processus 418 se termine. Dans un mode de réalisation exemplaire, l’ensemble de phrases récapitulatives abstraites 424 comprend la phrase candidate de premier rang (c.-à-d. le chemin au résultat supérieur) dans chaque groupe de sujets.

Tandis que les résumés découlant du processus décrit ci-dessus sont significatifs, et résument généralement le contenu de chaque groupe de sujets, on a trouvé typiquement qu’ils comprennent du vocabulaire trop générique et non naturel. Par conséquent, une procédure d’extraction 222 présentée dans l’organigramme de la Figure 5 est employée dans des modes de réalisation de l’invention pour fournir une sortie de langage naturel améliorée. On notera qu’un mode de réalisation de l’invention comprend du code de programme qui est développé, et incorporé dans le corps des instructions programme 114, de sorte que, lorsqu’il est exécuté par le processeur 104, les instructions mettent en œuvre les procédés, algorithmes, et calculs décrits comme suit en référence à la Figure 5.

Dans un mode de réalisation exemplaire de l’invention, la procédure d’extraction 222 prend comme entrée les phrases récapitulatives générées par machine 424, comprenant une phrase pour chaque groupe de sujets identifié, et des boucles à travers chaque phrase à leur tour. Ainsi, à l’étape 502, une seule phrase récapitulative de sujet est sélectionnée pour traitement. Une boucle interne comprenant les étapes 504, 506, 510 et 512 traite alors les phrases du groupe de sujets originales correspondantes 216 pour évaluer l’adéquation de chaque phrase à l’extraction en tant que substitut de la phrase récapitulative de sujet générée par machine, en calculant une mesure d’adéquation numérique pour chaque phrase originale. Dans le mode de réalisation exemplaire, à l’étape 504 une phrase de groupe de sujets est récupérée. À l’étape 506, une mesure de distance sémantique entre la phrase récupérée et la phrase récapitulative de sujet est calculée sur la base des incorporations de mots préformés et/ou du modèle de langage 508. À l’étape 510, une mesure de distance de vocabulaire entre la phrase récupérée et la phrase récapitulative de sujet est calculée. À l’étape 512, une mesure d’adéquation numérique est calculée, sur la base de la mesure de distance sémantique et de la mesure de distance de vocabulaire. Une vérification 514 est réalisée pour déterminer s’il existe d’autres phrases de groupes de sujets originales dans l’ensemble de données 216 pour traitement et, si tel est le cas, la commande retourne alors à l’étape 504. Autrement, les phrases de groupe de sujets traitées sont classées selon leurs résultats d’adéquation numérique associés, et la phrase de rang supérieur est sélectionnée 516 comme une phrase récapitulative préférée pour le groupe de sujets.

Dans des modes de réalisation de l’invention, la mesure de distance sémantique peut être calculée sur la base de représentations de vecteurs numériques qui capturent le contenu sémantique de la phrase récapitulative de sujets générée par machine et de la phrase originale dans un espace vectoriel multidimensionnel. Des représentations vectorielles fixes appropriées de jetons (c.-à-d. des mots ou des phrases), qui sont communément appelées « incorporations », peuvent être formées à l’aide de modèles tels que word2vec (développé à l’origine chez Google) ou GloVe (développé à l’origine à l’université de Stanford). Des représentations vectorielles appropriées de mots, locutions et/ou phrases peuvent alternativement être obtenues à l’aide de modèles de langage formés tels que BERT (représentations de codeur bidirectionnels provenant de transformateurs), GPT (pré-apprentissage génératif), ou ELMo (incorporations à partir de modèles de langage). Des incorporations préformées et/ou modèles de langage peuvent être stocké(e)s 508 et utilisé(e)s à l’étape 506 pour obtenir des représentations vectorielles numériques de phrases appropriées pour le calcul de la mesure de distance sémantique. Des exemples d’incorporations et de modèles préformés sont disponibles publiquement ; cependant dans des applications particulières de mode de réalisation de l’invention, il peut être avantageux de former des incorporations et/ou modèles à l’aide d’échantillons de langage spécifiques à l’application. Dans le cas d’avis d’hébergement, par exemple, les incorporations de mots et/ou les modèles de langage peuvent être formés à l’aide d’échantillons d’avis d’hébergement, les incorporations et/ou modèles en résultant comprenant ainsi une représentation plus précise du langage utilisé dans ce contexte particulier. Les incorporations et/ou modèles formés en résultant peuvent alors être stocké(e)s 508 pour être utilisé(e)s à l’étape 506.

Dans un mode de réalisation exemplaire de l’invention, des incorporationsword2vecsont employées pour obtenir des représentations vectorielles de jetons dans chaque phrase, et des vecteurs de phrases sont calculés en établissant une moyenne des vecteurs de jeton, tout en excluant les jetons avec un contenu sémantique faible, comme défini par un ensemble de « mots d’arrêt » (stopwords). Dans le cas des incorporationsword2vec, il est connu que les informations sémantiques sont encodées dans les directions des vecteurs, et ainsi une mesure de distance sémantique appropriée entre deux phrases s ₁ets ₂est la similarité cosinus entre les vecteurs de phrases correspondants v ₁etv ₂:

Un résultat d’adéquation basé uniquement sur une distance sémantique donnerait lieu à l’extraction d’une phrase qui est plus semblable à la phrase récapitulative générée par machine, qui est clairement non souhaitable puisque l’objectif de l’étape d’extraction est d’extraire une phrase différente, formulée plus naturellement des phrases du groupe de sujets originales. Des modes de réalisation de l’invention évitent cela en incorporant une mesure de distance de vocabulaire dans la mesure d’adéquation numérique. Une mesure de distance de vocabulaire utile est la similarité Jaccard définie comme suit :
[Math 7]
oùS ₁andS ₂sont les ensembles de jetons distincts dans les phrasess ₁ets ₂excluant tout jeton défini dans l’ensemble de mots d’arrêt. La similarité Jaccard a ainsi une valeur entre 0,0 et 0,1, les valeurs plus grandes correspondants aux paires de phrases avec une proportion plus grande de jetons en commun.

Afin d’obtenir un équilibre entre la similarité sémantique, et la variation de vocabulaire, des modes de réalisation de l’invention calculent ainsi la mesure d’adéquation de phrase numérique à l’étape 512 selon :

Pour en revenir à l’organigramme de la Figure 5, après avoir sélectionné la phrase avec le résultat le plus élevé pour extraction à l’étape 516, une vérification 518 est effectuée pour déterminer s’il existe d’autres sujets pour traitement et, le cas échéant, la commande retourne l’étape 502. Autrement, à l’étape 520 un résumé est composé comprenant les phrases extraites au lieu des phrases générées par machine.

Les Figures 6A et 6B présentent des diagrammes schématiques exemplaires d’une interface utilisateur graphique d’un service basé sur le Web incorporant du contenu fourni par un serveur de synthèse 102 mettant en œuvre l’invention. Aux fins du présent exemple, le service basé sur le Web est un fournisseur de réservation d’hébergement, qui fournit un serveur de réservation, par ex 120, auquel on peut accéder à partir d’un terminal utilisateur final, par ex 122, via le logiciel de navigateur Web ou une application dédiée. L’interface 600 présentée à la Figure 6A comprend une page de profil pour un fournisseur d’hébergement particulier, et inclut une image 602, ainsi que des informations sur l’hébergement 604. La page de profil 600 inclut par ailleurs des informations d’avis d’utilisateurs, qui comprennent un groupe de résultats 606, et un résumé d’avis 608.

Les résultats 606 peuvent être obtenus en établissant la moyenne des résultats ou notations fourni(e)s par des utilisateurs individuels, et concerne divers aspects de l’expérience utilisateur de l’hébergement, tels que le personnel, les installations, la propreté, le confort, la valeur et l’emplacement. On notera que de tels résultats sont un indicateur utile des qualités générales du prestataire de services. Cependant les détails qui peuvent être nécessaires pour qu’un utilisateur prenne une décision réservation basée sur ses propres exigences et priorités individuelles manquent. C’est-à-dire que, tandis que des résultats élevés indiquent les expériences positives par les utilisateurs précédents, ils ne révèlent pas les raisons des avis de ces utilisateurs. Puisque différents individus, et différents types de voyageurs, peuvent avoir des intérêts, exigences et priorités différents, une chose qui est une caractéristique fortement positive pour un utilisateur peut l’être moins pour un autre. Un utilisateur peut par conséquent souhaiter lire des avis individuels, afin de mieux comprendre les raisons spécifiques des résultats moyens 606 qui ont été attribués. Cependant, puisque le nombre d’avis peut être très grand, et peut contenir une gamme d’opinions et d’informations différentes, cela peut ne pas être pratique. Par conséquent, il est souhaitable de fournir un résumé utile 608 des avis qui capturent les principales raisons des résultats attribués.

Afin de fournir le résumé 608, le serveur de réservation 120 accède au service fourni par le serveur de synthèse 102. Le serveur de synthèse 102 dans cet exemple est capable de récupérer des avis du stockage des documents 118, et d’exécuter le traitement décrit ci-dessus en référence aux Figures 2-5 pour générer un ensemble de phrases récapitulatives provenant des avis dudit fournisseur d’hébergement. Le serveur de synthèse 102 peut fournir une API à cette fin, permettant aux serveurs de réservation 120 d’émettre une demande identifiant les documents pertinents à résumer, ainsi que d’autres paramètres pertinents, tels que tout critère de sentiments à appliquer au moment de générer le résumé, et de recevoir l’ensemble de phrases récapitulatives en découlant en réponse.

Les phrases récapitulatives peuvent capter des aspects spécifiques des avis qui ne sont pas apparents dans les résultats moyens seuls. Dans le cas de l’interface exemplaire 600, le résumé d’avis 608 révèle qu’une raison pour le résultat moyen élevé attribué à « l’emplacement » est la proximité de l’emplacement d’hébergement avec l’aéroport. Tandis que cela peut être important pour un voyageur commercial, cela peut être moins souhaitable pour un type différent de voyageur, tel qu’un visiteur récréatif. Dans l’autre interface exemplaire 610 présentée à la Figure 6B, une page de profil d’hébergement alternative présente également des résultats élevés 612 sur une gamme de caractéristiques, incluant l’emplacement. Dans ce cas cependant, le résumé d’avis 614 révèle que la raison du score moyen élevé attribué à « l’emplacement » est la proximité avec la plage et des criques d’eau douce. Ces caractéristiques peuvent être importantes pour les visiteurs récréatifs intéressés par les activités aquatiques, mais sont peu susceptibles d’être une priorité élevée pour un voyageur commercial, ou un voyageur récréatif ayant plus d’intérêt pour les activités terrestres telles que la randonnée.

Il faut noter que dans les deux exemples 600, 610, le service de résumé réduit la quantité de texte qui doit être lu par l’utilisateur afin d’obtenir un aperçu du contenu provenant de plusieurs centaines d’avis, jusqu’à un petit nombre de phrases récapitulatives 608, 612. Cela réduit de manière significative le fardeau sur les utilisateurs et représente ainsi une amélioration substantielle de l’utilité de l’interface utilisateur. De plus, les résumés 608, 612 sont suffisamment concis pour s’afficher confortablement et être lus sur un dispositif à petit écran, tel que l’écran d’un smartphone. Ils sont également suffisamment concis pour être lus par une technologie d’assistance, tels qu’une interface texte-parole, améliorant l’accessibilité des informations fournies par le serveur de réservation d’hébergement 120 à une gamme d’utilisateurs devant ou choisissant d’employer une technologie de ce type.

À partir de ce qui précède, on comprend que des modes de réalisation de la présente invention fournissent des systèmes informatiques configurés pour générer des résumés de données textuelles d’entrée à l’aide d’une combinaison de synthèse abstraite pour produire des phrases récapitulatives générées par machine, avec une approche d’extraction qui améliore les phrases générées par machine en sélectionnant les phrases correspondantes écrites par des êtres humains pour produire des résumés ayant des qualités améliorées de langage naturel. Une application exemplaire de cette technologie, dans la présentation d’avis d’utilisateurs de fournisseurs d’hébergement, est illustrée ; cependant on notera que des modes de réalisations de l’invention peuvent être employés plus largement. Par exemple, une approche similaire peut être appliquée aux avis d’autres produits et services, étant donné que presque tous les fournisseurs en ligne incluent et encouragent les avis d’utilisateurs. De plus, on note que la capacité des modes de réalisation de l’invention à évaluer les sentiments facilite la suppression de présentation de déclarations contradictoires dans les résumés. Tandis que cette facilité peut être employée pour résumer les avis avec des sentiments positifs aux fins de promotion de produits et services, elle peut être alternativement utilisée pour résumer les avis ayant des sentiments négatifs, par exemple afin de fournir un retour aux fournisseurs de biens ou services dans des domaines d’amélioration éventuelle. Dans les deux cas, la technologie mettant en œuvre l’invention peut réduire de manière significative le fardeau sur l’utilisateur, - qu’il s’agisse d’un client ou d’un prestataire de services - en réduisant un grand nombre de rapports en un ensemble concis de phrases récapitulatives. Les modes de réalisation de l’invention ne sont également pas limités à la synthèse d’avis, et peuvent être utilisés pour fournir des résumés concis d’autres collectes de documents liés, tels que des documents récupérés dans des demande de recherche de base de données ou Internet.

On notera par conséquent que les modes de réalisation décrits sont fournis à titre d’exemple, afin d’enseigner les caractéristiques les principes généraux de l’invention, mais ne devraient pas être compris comme limitant la portée de l’invention.

Tandis que toute l’invention a été illustrée par une description de divers modes de réalisation et que ces modes de réalisation ont été décrits très en détail, il n’est pas dans l’intention du demandeur de restreindre ou de limiter de quelque manière que ce soit la portée de la spécification à ces détails. Des avantages et modifications supplémentaires apparaîtront facilement aux hommes de métier. Cette invention dans ses aspects plus larges n’est donc pas limitée aux détails spécifiques, à un appareil et procédé représentatif et aux exemples illustratifs présentés et décrits.

Claims

Un système informatique pour résumer du texte comprenant :
un processeur ;
au moins un dispositif de mémoire accessible par le processeur ; et
au moins une source de données textuelles,
dans lequel le dispositif de mémoire contient un corps d’instruction des programmes qui, lorsqu’elles sont exécutées par le processeur, amènent les systèmes informatiques à mettre en œuvre un procédé comprenant :
la réception, à partir de la source de données textuelles, de données textuelles d’entrée comprenant des jetons d’une pluralité de documents textuels liés ;
le traitement des données textuelles d’entrée pour identifier une pluralité de phrases correspondante ;
la formation d’un ou plusieurs groupes de sujets, chacun comprenant un sous-ensemble de la pluralité de phrases sélectionnées selon des jetons liés au sujet dans chaque phrase ;
la génération d’un résumé de machine des documents textuels liés en
déterminant des données de partie de la parole (POS) pour chaque jeton dans le texte, dans lequel les données POS représente une fonction grammaticale du jeton dans sa phrase correspondante, les jetons étant substitués à des paires jeton/POS ;
construisant pour chaque groupe de sujets, une structure de données graphiques ayant une pluralité de nœuds et de bords de liaison, dans laquelle chaque nœud représente une paire jeton/POS unique, et des séquences des bords représentent des séquences de paires jeton/POS comprenant des phrases du groupe de sujets correspondant,
générant, pour chaque groupe de sujets, une pluralité de phrases récapitulatives candidates classées basées sur des sous-graphiques de la structure de données graphiques ayant des nœuds initiaux et finaux correspondant aux paires jeton/POS de début et de fin de phrase valides, et
composant le résumé de machine en sélectionnant, pour chaque groupe de sujets, au moins une phrase récapitulative représentative provenant des phrases récapitulatives candidates classées ;
générant un résumé en langage naturel correspondant au résumé de machine en
calculant, pour chaque groupe de sujets, des mesures d’adéquation numériques qui fournissent une comparaison entre la phrase récapitulative représentative et les phrases du groupe de sujet correspondant, et
composant le résumé en langage naturel en sélectionnant, pour chaque groupe de sujets, une phrase récapitulative préférée basée sur les mesures d’adéquation numériques correspondantes ; et
la fourniture des données textuelles résumées des données textuelles d’entrée comprenant le résumé en langage naturel pour l’affichage des données textuelles résumées obtenues sur un écran d’un dispositif à petit écran, en particulier d’un smartphone.
Le système selon la revendication 1 dans lequel la mesure d’adéquation numérique entre la phrase récapitulative représentative et les phrases du groupe de sujets correspondant comprend :
une mesure de distance sémantique calculée à l’aide des représentations de vecteurs numériques de jetons générés d’un processus d’apprentissage par apprentissage automatique configuré pour capturer du contenu sémantique dans une caractéristique des représentations de vecteurs numériques ; et
une mesure de distance de vocabulaire basée sur l’occurrence de jetons partagés et distincts entre les phrases.
Le système selon la revendication 2 dans lequel la mesure d’adéquation numérique est calculée selon :
où représente la première et la deuxième phrase, est la mesure de distance sémantique, et set la mesure de distance de vocabulaire.
Le système selon l’une quelconque des revendications 1 à 3, dans lequel les instructions de programmes qui, lorsqu’elles sont exécutées par le processeur, amènent par ailleurs le système informatique à exécuter une analyse de sentiments sur des phrases dans chacun de la pluralité de documents textuels liés des données textuelles d’entrée, et à abandonner des phrases et/ou des documents textuels qui ne satisfont pas un critère de sentiment prescrit.