FR3030812A1 - Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur - Google Patents

Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur Download PDF

Info

Publication number
FR3030812A1
FR3030812A1 FR1554546A FR1554546A FR3030812A1 FR 3030812 A1 FR3030812 A1 FR 3030812A1 FR 1554546 A FR1554546 A FR 1554546A FR 1554546 A FR1554546 A FR 1554546A FR 3030812 A1 FR3030812 A1 FR 3030812A1
Authority
FR
France
Prior art keywords
text
learning
readers
representation
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1554546A
Other languages
English (en)
Inventor
Quentin Pleple
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Short Edition
Original Assignee
Short Edition
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Short Edition filed Critical Short Edition
Publication of FR3030812A1 publication Critical patent/FR3030812A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un perfectionnement au procédé d'analyse de la qualité littéraire d'un texte, mise en œuvre par un programme d'ordinateur selon la demande de brevet FR 14 63074. Le perfectionnement consiste à tenir compte du profil du lecteur.

Description

PROCEDE D'ANALYSE AUTOMATIQUE DE LA QUALITE LITTERAIRE D'UN TEXTE SELON LE PROFIL DU LECTEUR Domaine technique La présente invention concerne un procédé d'analyse automatique de la qualité littéraire d'un texte selon le profil du lecteur. Par « qualité littéraire chiffrée d'un texte», on entend dans le cadre de l'invention, la qualité littéraire d'un texte qui lui est intrinsèque et qui se matérialise par une note discrète de 1 à 10, par un score continu dans [0, 1], comme un score réel 1-00, +00[ ou comme des labels « très bon », « bon », « moyen », etc.
Par « qualité littéraire connue d'un texte d'apprentissage», on entend dans le cadre de l'invention, la note donnée par un profil d'experts de lecture pour estimer la qualité de celui-ci. Etat de la technique De manière générale, le but de la catégorisation automatique de textes est d'apprendre à une machine informatique à classer un texte dans la bonne catégorie en se basant sur son contenu. On peut résoudre par des algorithmes de catégorisation, divers problèmes de catégorisation de textes. En ce qui concerne l'analyse de la qualité d'un texte littéraire ou scientifique, différentes approches ont déjà été effectuées et différents algorithmes de catégorisation mis en oeuvre. Il existe ainsi plusieurs travaux qui concernent la qualité d'un texte littéraire, mais la plupart ne sont pas pertinents car ils définissent la notion de qualité dans un sens qui leur est propre et donc non réellement indépendante des facteurs qui sont choisis.
On peut citer le brevet US7200606 dans lequel la notion de qualité est considérée dans le sens de pertinence vis-à-vis d'une requête utilisateur. Ainsi, une des approches pertinentes est l'approche dite intrinsèque selon laquelle il s'agit d'utiliser des algorithmes de catégorisation pour classer des documents en fonction de caractéristiques textuelles (indicateurs) qui sont intrinsèques au texte: composition, éléments de style, précision du vocabulaire par rapport à un sujet, construction des raisonnements, orthographe, etc.
Les caractéristiques de tri relèvent d'approches orthographiques, lexicales et stylistiques très variables, parmi lesquelles la longueur des mots, régularité du vocabulaire, analyse des cooccurrences, usage de la ponctuation, détection d'erreurs grammaticales et orthographiques, facilité de lecture, liens lexicaux avec un thème ou un genre, etc.
Ces caractéristiques liées au texte peuvent être complétées utilement par des méthodes sémantiques faites autour des rapports entre qualité et respect des règles orthographiques et typographiques, de la grammaire (mesure de qualité sur des n-grammes longs), de la capitalisation, de la densité du texte (rapport entre lettres et espaces) ou de son entropie (au niveau des mots, voire au niveau des caractères).
La lexicométrie, méthode d'analyse quantitative des textes, peut s'avérer un outil utile pour la mesure de qualité ou de non-qualité, paradoxalement. Quels que soient les méthodes et les algorithmes de catégorisation retenus, la difficulté première réside dans le choix des indicateurs et de l'algorithme, et dans leur combinaison pour évaluer la qualité littéraire d'un texte.
On trouve peu de littérature qui s'intéresse à la qualité littéraire d'un texte par approche intrinsèque. On peut citer tout d'abord les publications [1] et [2] qui décrivent une extraction d'indicateurs intrinsèques à partir d'un texte littéraire brut puis une régression ou une classification pour atteindre la valeur cible que l'on cherche à déterminer. Le choix des indicateurs reste relativement sommaire, ce qui ne permet pas d'affiner avec une très bonne précision l'analyse de la qualité. La publication [3] divulgue une prédiction de la qualité à partir d'un nombre restreint d'articles de journal (journal « Wall Street Journal »). L'analyse selon cette publication reste basique, puisque seule une corrélation est établie entre chaque indicateur et une valeur cible réalisée sur une trentaine d'articles de référence. Le demandeur a déposé le 22 décembre 2014 sous le n° 14 63074 une demande de brevet française relative à un procédé d'analyse de la qualité littéraire d'un texte, qui permet d'assurer une meilleure précision de l'analyse.
Il existe encore un besoin non pris en compte qui est d'améliorer l'analyse de la qualité littéraire en fonction du profil de lecteur, c'est-à-dire en fonction de ses goûts. Le but de l'invention est de répondre au moins en partie à ce besoin.
Exposé de l'invention Pour ce faire, l'invention a pour objet un procédé d'analyse de la qualité littéraire d'un texte selon le profil de lecteur, mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de lecteurs dit lecteurs d'apprentissage ; a'/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire pour chaque lecteur d'apprentissage et pour les textes d'apprentissage, ses indicateurs propres que sont le nombre de textes lus, le rapport entre sa manifestation d'intérêt et le nombre des textes lus, et les moyennes des notes données aux textes lus ; c/ générer une représentation vectorielle de chaque lecteur d'apprentissage à partir de ses indicateurs propres; d/ soumettre les différentes représentations vectorielles des lecteurs d'apprentissage à un classifieur de partitionnement de données de sorte à obtenir des groupes de lecteurs d'apprentissage ; e/ générer une représentation vectorielle pour chaque groupe de lecteurs d'apprentissage en faisant la moyenne des représentations vectorielles des lecteurs du groupe; b'/ extraire les indicateurs numériques de chaque texte d'apprentissage, c'/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, f/ pour chaque groupe de lecteurs, faire l'apprentissage entre les composantes de la représentation vectorielle des textes d'apprentissage et des représentations vectorielles des groupes de lecteurs et la qualité littéraire connue de chaque texte d'apprentissage, de sorte à obtenir un modèle prédictif de la qualité littéraire en fonction des groupes de lecteurs; g/ recevoir un nouveau texte à analyser ; h/ appliquer au nouveau texte et à partir d'un groupe donné de lecteurs le modèle prédictif construit à l'étape d/, de sorte à obtenir la qualité littéraire du nouveau texte selon le groupe de lecteurs donné.
On précise que selon l'invention, la partition de données (« data clustering » en anglais) permet d'obtenir des groupes de lecteurs qui définissent donc chacun un profil de lecteurs. L'inventeur de la présente invention est parti du constat que l'invention selon la demande de brevet FR 14 63074 précitée permet bien d'améliorer la précision de l'analyse littéraire d'un texte, mais qu'elle n'était pas complètement satisfaisante car elle ne permet pas d'avoir une qualité de texte en fonction du profil du lecteur, c'est-à-dire en fonction de ses goûts. Aussi, l'invention consiste essentiellement à prendre en compte le profil de lecteur dans la prédiction de la qualité d'un texte littéraire. L'invention concerne également un programme d'ordinateur de mise en oeuvre du procédé décrit précédemment. Description détaillée D'autres avantages et caractéristiques de l'invention ressortiront mieux à la lecture de la description détaillée d'exemples de mise en oeuvre de l'invention faite à titre illustratif et non limitatif en référence aux figures suivantes : - figure 1 : représentation schématique de la représentation vectorielle d'un groupe de lecteurs d'apprentissage selon leur profil ; - figure 2 : organigramme des étapes d'apprentissage du procédé selon l'invention mis en oeuvre par programme d'ordinateur ; - figure 3 : organigramme des étapes de prédiction de l'analyse de la qualité littéraire subjective du procédé selon l'invention, également mis en oeuvre par programme d'ordinateur. Par la suite, on utilise indifféremment les termes « algorithme » et «programme d'ordinateur » qui est le codage lisible par un ordinateur de l'algorithme. Ainsi, un algorithme est un plan d'exécution pour un ordinateur. L'ordinateur prend des données entrantes, applique le traitement décrit par l'algorithme et renvoie en retour un résultat à l'utilisateur. Dans le cadre de l'invention, l'algorithme mis en oeuvre pour l'analyse prédictive est un algorithme d'apprentissage automatique (« machine learning » en anglais). Dans ce type d'algorithme, ses règles de décisions ne sont pas fixées à la conception, car il est conçu pour qu'il puisse modifier ses règles de décisions, en fonction des données qu'il voit. Le procédé proprement dit selon l'invention, comprend trois phases successives, la première étant une phase de « data clustering, » la deuxième étant une phase d'apprentissage et la dernière étant une phase de prédiction successives. On réalise tout d'abord la phase de clustering. On considère tout d'abord toutes les métadonnées incluses dans chaque texte d'apprentissage que sont par exemple : - le genre littéraire : romance, drame, policier, haiku, alexandrin... - l'âge du lecteur du texte : 6, 8, 10... ans, - les émotions exprimées, c'est-à-dire qui sont ressenties par les personnages des textes. En ce qui concerne les émotions considérées, on choisit de préférence les six suivantes: bonheur, affection, intérêt, tristesse, mélancolie, colère et peur.
Pour un lecteur donné, on prend alors en compte des mesures de son goût, c'est-à-dire des indicateurs qui lui sont propres, pour chaque métadonnée de chaque texte d'apprentissage. Ces indicateurs qui lui sont propres sont établis comme suite : - le nombre de ces textes lus ; - le rapport entre sa manifestation d'intérêt (« like » en anglais) et le nombre des textes lus des moyennes, - la moyenne de ses notes. L'algorithme génère alors une représentation vectorielle de chaque lecteur d'apprentissage à partir de ses indicateurs propres. On regroupe alors les lecteurs d'apprentissage en n groupes selon une technique usuelle de « data clustering », par proximité des représentations vectorielles. A titre d'exemple, n est égal à 20. On précise que la proximité est à considérer au sens mathématique du terme, c'est-à-dire qu'elle est obtenue en calculant le cosinus entre les représentations vectorielles. Pour chaque groupe de lecteurs qui détermine donc un profil de lecteurs, on génère une représentation vectorielle pour chaque groupe de lecteurs en faisant la moyenne des représentations vectorielles des lecteurs du groupe (étape Si).
En parallèle, l'algorithme réalise ensuite les étapes suivantes, à partir des textes d'apprentissage à analyser. On extrait les indicateurs numériques des textes d'apprentissage (étape S'O). Puis, on génère une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques (étape S'1). L'algorithme peut avantageusement procéder de la manière suivante pour la construction de la représentation vectorielle, à partir d'un texte brut à analyser. Il génère plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs bas-niveau.
La première sous-représentation consiste en une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams, 3-grams, 4-grams, 5-grams et 6-grams à l'échelle du mot et des caractères. Ainsi, dans cette étape, le texte est transformé en une suite de tokens selon des expressions régulières de découpage. La représentation par sac-de-mots ne tient pas compte de la mise en forme du texte, de l'ordre des mots, de leur sens ou des relations structurées par des mots de liaison. La deuxième sous-représentation représente la structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions. Les mots grammaticaux sont les articles, les prépositions, les adjectifs non qualificatifs. Le calcul des paramètres de la distribution des mots grammaticaux est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Une fonction syntaxique est un verbe, un nom, un adjectif, un adverbe, un déterminant, une préposition. Ainsi, cette étape permet d'extraire des éléments de structure du texte dans pour autant monter jusqu'au niveau pragmatique de la compréhension générale du texte. La troisième sous-représentation représente des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée. Les fautes d'écriture sont les fautes d'orthographe, de grammaire, de conjugaison, d'anglicisme, de syntaxe, d'expression, et d'usage. Ainsi, cette étape consiste à analyser automatiquement les différents types de fautes apparaissant dans le texte. La quatrième sous-représentation représente la stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte. La longueur du texte est calculée à partir du nombre de paragraphes, phrases, propositions, mots, caractères. La longueur d'un paragraphe est calculée à partir du nombre de phrases, propositions, mots, caractères. La longueur des phrases est calculée à partir du nombre de propositions, mots, caractères. La longueur des propositions est calculée à partir du nombre de mots, caractères. Le calcul des paramètres de la distribution des dialogues dans le texte est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Ainsi, cette étape permet d'identifier le style du texte.
A partir de toutes les sous-représentations précédentes, l'algorithme génère une cinquième sous-représentation qui est une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations (sommes) et ratios (divisions) des indicateurs bas-niveau obtenus précédemment.
On donne ci-après un exemple d'agrégation calculé à partir d'indicateurs bas niveau qui sont les suivants: - NIN = nombre de verbes à l'infinitif - NPR = nombre de verbes au présent - NFU = nombre de verbes au futur - NPA = nombre de verbes au passé. L'agrégation calculé donne un indicateur de niveau intermédiaire NV qui est le nombre total de verbes, soit NV = NIN + NPR + NFU + NPA. On donne ci-après un exemple de ratio calculé à partir d'indicateurs bas niveau qui sont les suivants: - NP = nombre de phrases - NV = nombre de verbes.
Le ratio calculé donne un indicateur de niveau intermédiaire NM qui est le nombre moyen de verbes par phrases, soit NM = NV / NP. Ainsi, cette étape permet d'obtenir des méta-descriptions telles que la lisibilité, l'étendue du vocabulaire ou la cohésion lexicale.
A partir de la sous-représentation par sac-de-mots, l'algorithme génère une sixième sous-représentation qui représente des champs lexicaux présents dans le texte, par une analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou une factorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). Il s'agit donc ici d'une étape de réduction de dimensionnalité pour obtenir des champs lexicaux. Lorsqu'on obtient trop de champs lexicaux par ces trois analyses, l'algorithme génère une étape supplémentaire de réduction de la dimensionnalité. Cette étape consiste donc à mettre tous les champs lexicaux ensemble et à n'en conserver qu'un nombre restreint afin que ceux conservés soient des champs uniques et pertinents. Autrement dit, en cas de redondance dans les composantes du vecteur généré selon l'étape précédente, cette étape permet de sélectionner les composantes non redondantes du vecteur. Une fois toutes les sous-représentations vectorielles générées, l'algorithme réalise leur concaténation en une représentation finale du texte.
L'algorithme fait alors l'apprentissage entre les composantes de la représentation vectorielle des textes d'apprentissage et des représentations vectorielles des groupes de lecteurs et la qualité littéraire connue de chaque texte d'apprentissage, de sorte à obtenir un modèle prédictif de la qualité littéraire en fonction des groupes de lecteurs (étape S2).
On précise que pour obtenir la qualité littéraire connue de chaque texte d'apprentissage, on considère la population d'experts de lecture (lecteurs d'apprentissage). Chaque lecteur donne également une note pour chaque texte littéraire d'apprentissage. Les notes d'un groupe donné obtenu par le clustering précédent mesurent la qualité littéraire de chaque texte pour ledit groupe et elle sont pondérées en étant centrées puis réduites selon 1 ' équation: x' = (x - m) / s où : x est la note donnée entre 1 et 10 par un individu M pour une oeuvre, m est la moyenne des notes données par M, s est l'écart-type des notes données par M, x' est la nouvelle note corrigée.
Ainsi, x' quantifie la qualité littéraire connue d'un groupe donné d'experts ou lecteurs d'apprentissage. Pour établir la prédiction de la qualité littéraire d'un nouveau texte l'algorithme procède comme suit. On applique au nouveau texte et à partir d'un groupe donné de lecteurs le modèle prédictif construit précédemment de sorte à obtenir la qualité littéraire du nouveau texte selon le groupe de lecteurs donné (étape S3). L'invention qui vient d'être décrite permet ainsi d'obtenir de manière précise et fiable la qualité littéraire de tout texte selon un profil de lecteurs, le profil de lecteurs étant déterminé au préalable par clustering des lecteurs d'apprentissage.
De nombreuses variantes et améliorations peuvent être envisagées sans pour autant sortir du cadre de l'invention.
REFERENCE S CITEES [1]: «DEFT2014, analyse automatique de textes littéraires et scientifiques en langue française», Lecluze and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [2] : « Catégorisation sémantique fine des expressions d'opinion pour la détection de consensus », Benamara and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [3] : « Revisiting Readability: A Unified Framework for Predicting Text Quality », Pitler and al. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '08). Association for Computational Linguistics, Stroudsburg, PA, USA, 186-195.15

Claims (6)

  1. REVENDICATIONS1. Procédé d'analyse de la qualité littéraire d'un texte selon le profil de lecteur, mis en oeuvre par un (micro)processeur d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de lecteurs dit lecteurs d'apprentissage ; a'/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire pour chaque lecteur d'apprentissage et pour les textes d'apprentissage, ses indicateurs propres que sont le nombre de textes lus, le rapport entre sa manifestation d'intérêt et le nombre des textes lus, et les moyennes des notes données aux textes lus ; c/ générer une représentation vectorielle de chaque lecteur d'apprentissage à partir ses indicateurs propres; d/ soumettre les différentes représentations vectorielles des lecteurs d'apprentissage à un classifieur de partitionnement de données de sorte à obtenir des groupes de lecteurs d'apprentissage ; e/ générer une représentation vectorielle pour chaque groupe de lecteurs d'apprentissage en faisant la moyenne des représentations vectorielles des lecteurs du groupe; b'/ extraire les indicateurs numériques de chaque texte d'apprentissage, c'/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, f/ pour chaque groupe de lecteurs, faire l'apprentissage entre les composantes de la représentation vectorielle des textes d'apprentissage et des représentations vectorielles des groupes de lecteurs et la qualité littéraire connue de chaque texte d'apprentissage, de sorte à obtenir un modèle prédictif de la qualité littéraire en fonction des groupes de lecteurs; g/ recevoir un nouveau texte à analyser ; h/ appliquer au nouveau texte et à partir d'un groupe donné de lecteurs le modèle prédictif construit à l'étape d/, de sorte à obtenir la qualité littéraire du nouveau texte selon le groupe de lecteurs donné.
  2. 2. Procédé d'analyse selon la revendication 1, comprenant, pour la génération vectorielle d'un texte d'apprentissage selon l'étape c/, les étapes suivantes :cl/ générer plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs, dits indicateurs bas-niveau, les sous-représentations consistant en : - une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams,
  3. 3-grams,
  4. 4-grams,
  5. 5-grams et
  6. 6-grams à l'échelle du mot et des caractères, - une représentation dite de structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions, - une représentation des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée, - une représentation de stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte ; c2/ générer: - une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations et ratios des indicateurs bas-niveau obtenus en 20 cil; - une représentation des champs lexicaux présents dans le texte à partir de la =présentation par sac de mots effectuée en cil, par analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou une 25 factorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). c3/ concaténation de sous-représentation vectorielles générées en cl/ et c2/. 3. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon la revendication précédente lorsque ledit 30 programme est exécuté sur un ordinateur.
FR1554546A 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur Pending FR3030812A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1463074A FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte

Publications (1)

Publication Number Publication Date
FR3030812A1 true FR3030812A1 (fr) 2016-06-24

Family

ID=53872087

Family Applications (4)

Application Number Title Priority Date Filing Date
FR1463074A Pending FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte
FR1554544A Withdrawn FR3030810A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article
FR1554545A Pending FR3030811A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle)
FR1554546A Pending FR3030812A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur

Family Applications Before (3)

Application Number Title Priority Date Filing Date
FR1463074A Pending FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte
FR1554544A Withdrawn FR3030810A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article
FR1554545A Pending FR3030811A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle)

Country Status (1)

Country Link
FR (4) FR3030809A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN111737446B (zh) * 2020-06-22 2024-04-05 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2803928B1 (fr) * 2000-01-18 2002-11-29 Auralog Systeme de traitement de donnees pour l'evaluation d'un texte

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230748, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867> [retrieved on 20151124] *
ANONYMOUS: "Maaouia Hamza, Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité | ISIDORE - Accès aux données et services numériques de SHS", 10 July 2014 (2014-07-10), XP055230677, Retrieved from the Internet <URL:http://www.rechercheisidore.fr/search/resource/?uri=10670/1.zqpm41> [retrieved on 20151124] *
CHARLOTTE LECLUZE ET AL: "DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française", 1 July 2014 (2014-07-01), XP055230403, Retrieved from the Internet <URL:http://www.aclweb.org/anthology/W14-6302> [retrieved on 20151123] *
EMILY PITLER ET AL: "Revisiting readability", PROCEEDINGS OF THE CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, EMNLP '08, 1 January 2008 (2008-01-01), Morristown, NJ, USA, pages 186, XP055230406, DOI: 10.3115/1613715.1613742 *
HAMZA MAAOUIA: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230685, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867/document> [retrieved on 20151124] *

Also Published As

Publication number Publication date
FR3030810A1 (fr) 2016-06-24
FR3030809A1 (fr) 2016-06-24
FR3030811A1 (fr) 2016-06-24

Similar Documents

Publication Publication Date Title
Cummins et al. Multimodal bag-of-words for cross domains sentiment analysis
Lita et al. Truecasing
US7587308B2 (en) Word recognition using ontologies
CN104881402B (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
WO2008023470A1 (fr) Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d&#39;enregistrement et stockage de document
CN101477566A (zh) 一种用于候选主题词广告投放的方法及装置
Pompili et al. Pragmatic aspects of discourse production for the automatic identification of Alzheimer's disease
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
KR20230061001A (ko) 문서 교정 장치 및 방법
Álvarez et al. Towards customized automatic segmentation of subtitles
Samoilenko et al. (Don't) mention the war: A comparison of Wikipedia and Britannica articles on national histories
Nerabie et al. The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach
Lee et al. Impact of out-of-vocabulary words on the twitter experience of blind users
FR3030812A1 (fr) Procede d&#39;analyse automatique de la qualite litteraire d&#39;un texte selon le profil du lecteur
Efthymiou et al. Productivity of verb-forming suffixes in Modern Greek: a corpus-based study
CN117033796A (zh) 基于用户表达偏好的智能回复方法、装置、设备及介质
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
Sharounthan et al. Retracted: Singlish Sentiment Analysis Based Rating For Public Transportation
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
Grivaz Automatic extraction of causal knowledge from natural language texts
Bhagchandani et al. A hybrid solution to abstractive multi-document summarization using supervised and unsupervised learning
Bilal A linguistic system for predicting sentiment in arabic tweets

Legal Events

Date Code Title Description
PLSC Publication of the preliminary search report

Effective date: 20160624