DE112013004082T5 - Suchsystem der Emotionsentität für das Microblog - Google Patents

Suchsystem der Emotionsentität für das Microblog Download PDF

Info

Publication number
DE112013004082T5
DE112013004082T5 DE112013004082.4T DE112013004082T DE112013004082T5 DE 112013004082 T5 DE112013004082 T5 DE 112013004082T5 DE 112013004082 T DE112013004082 T DE 112013004082T DE 112013004082 T5 DE112013004082 T5 DE 112013004082T5
Authority
DE
Germany
Prior art keywords
microblog
emotion
word
words
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112013004082.4T
Other languages
English (en)
Inventor
Zhifeng Hao
Ruichu Cai
Shenzhi Du
Jie Cheng
Wen Wen
Yinzhang Lu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Publication of DE112013004082T5 publication Critical patent/DE112013004082T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Suchsystem der Emotionsentität für das Microblog. Das Suchsystem weist folgende 5 Module auf: (1) eine Benutzerschnittstelle, wobei der Benutzer durch das Modul eine Abfrage vorlegen und eine Rückkopplung erhalten kann; (2) ein Abfrageerweiterungsmodul, das ein Mining der Wörterbeziehung der Microblog-Sprachendaten realisiert, wobei im Zusammenhang mit der WordNet-Essenzbank ein Beziehungsdiagramm der gewichteten Wörter errichtet wird; (3) ein Abfrageverarbeitungsmodul zur Umwandelung der Abfrage des Benutzers in die Abfrageschlüsselwörter und Abfrageworte, die akzeptierbar für die Indexbank sind, wobei eine Abfrageerweiterung auf dem durch das Modul (2) errichteten Beziehungsdiagramm der Wörter basierend ausgeführt wird; (4) ein Mining-Modul der Emotionsinformation zum Mining der Emotionen in der Microblog-Sprachenbank, wobei die Beurteilungsregel für die Emotionsentität und die emotionale Polarität generiert werden; (5) ein Beurteilungs- und Indexerrichtungsmodul der Emotionsinformation zur Beurteilung der Emotionsentität und der emotionalen Polarität der Microblog-Daten, um den Index der Emotionsinformation zu errichten und zu speichern;(6) ein Errichtungsmodul des invertierten Indexes zur Errichtung des invertierten Indexes für die Microblog-Textinformation und zur Speicherung. Die vorliegende Erfindung löst das schwierige Problem mit der Extraktion der Emotionsentität des Microblogs, der Analyse der emotionalen Polarität und der Suche der Emotionsentität, dadurch wird ein intelligentes Suchprodukt der Netzwerkmeinungsanalyse und Überwachung zur Verfügung gestellt.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft das Gebiet vom Text-Emotions-Mining und Informationsabruf, insbesondere ein Suchsystem der Emotionsentität für das Microblog, das eine innovative Technik des Suchsystems der Emotionsentität für das Microblog.
  • Stand der Technik
  • Im Laufe der Entwicklung vom Internet und sozialen Netzwerk vermehren sich die Daten des sozialen Netzwerks einschließlich des Microblogs exponentiell schnell. Mit den wachsenden Mikroblogs bestehen mehr und mehr Informationen zum Abruf. Jedoch ist es schwierig, die benötigten Informationen schnell und genau aus den enormen Microblog-Daten zu finden. Aufgrund der Freiheit beim Schreiben der Microblog-Text ist die Retrieval der Emotionsinformationen schwieriger im Vergleich zu herkömmlichen Texten. Auf dem Gebiet des Microblog-Emotionsinformationsabrufs, das eine große Rolle in Meinungsüberwachungs- und Produktsforschungsindustrien spielt, bestehen zurzeit keine bewährten Technologien oder Systeme.
  • Das Suchverfahren und Suchsystem der Emotionsentität für das Microblog betreffen vor allem drei Sorten vom entsprechenden wichtigen Stand der Technik. Erstens ist die Abfrageerweiterungstechnik, zweitens ist die Emotionsentität-Extraktionstechnik, drittens ist die Emotionspolaritäts-Unterscheidungstechnik. Im Folgenden werden die vorstehenden drei Sorten vom entsprechenden wichtigen Stand der Technik erläutert und analysiert.
  • 1. Abfrageerweiterungstechnik
  • Die traditionellen Abrufsysteme oder Suchmaschinen, die durch die Stichwörter eine Direktabfrage ausführen, können einige relevante Suchergebnisse erhalten. Jedoch sind solche Ergebnisse, die mit Hilfe eines einfachen Zusammenpassens aufgefunden werden, maschinell. Die Abfrageintension des Benutzers kann nicht gut verstanden werden. Deshalb sind die aufgefundenen Ergebnisse auch nicht zufriedenstellend. Um das vorstehend Problem zu lösen, soll ein Verfahren zur Verfügung gestellt werden, das die Abfrageintension des Benutzers gut verstehen und die Genauigkeit und die Vollständigkeit des Abrufs verbessern kann. Die Abfrageerweiterungstechnik ist genau so ein Verfahren. Durch die Abfrageerweiterung kann der Abfragebedarf des Benutzers genauer verstanden werden, um dem Benutzer dabei zu helfen, die erforderlichen Informationen genauer zu erhalten. Das klassische Abfrageerweiterungsverfahren umfasst vor allem vier Sorten, die jeweils auf der globalen Analyse, auf der lokalen Analyse, auf dem Abfrageprotokoll des Benutzers und auf der Assoziationsregel basieren. In den letzten Jahren stellten einige Gelehrte ein Abfrageerweiterungsverfahren zur Verfügung, die auf der Essenz (oder Essenz des Gebiets) und dem semantischen Netzwerk basiert.
  • Das auf der globalen Analyse basierend Abfrageerweiterungsverfahren führt die Erweiterung dadurch aus, dass der Relevanzsgrad der Wörter im gesamten Datensatz oder in Texten in ganzer Datenbank aufgefunden wird. Dabei liegt der Vorteil darin, dass der ganze Datensatz vollständig analysiert werden kann und alle Aspekte des Dokuments erkannt werden können. Dabei ist es der Nachteil: Da der gewöhnliche Datensatz zu groß ist, bestehen hohe Anforderungen an die Analysezeit und die Geräte, weiter kann es nicht online ausgeführt werden. Beim Bestehenden Abrufsystem wird die Analyse der kompletten Wörter offline ausgeführt. Deshalb kann das Verfahren schwer für die Suchmaschinen, die die Echtzeit erfordern, verwendet werden.
  • Das auf der lokalen Analyse basierende Verfahren umfasst das Relevanz-Feedback-Verfahren und das Pseudorelevanz-Feedback-Verfahren. Beim Relevanz-Feedback werden die Suchergebnisse zuerst über die primäre Abfrage durch den Benutzer erhalten, dann werden die Relevanz oder die Irrelevanz der Ergebnisdokumente durch den Benutzer manuell beurteilt, die dann zwei verschiedenen Dokumentssätzen zugeordnet werden. Dadurch werden gekennzeichnete relevante Dokumente erhalten. Vor der Abfrageerweiterung ist es nur nötig, die Wörteranalyse für solche Dokumente auszuführen. Dabei liegt der Vorteil darin, dass nur die relevanten Dokumente verarbeitet werden, so dass die Anzahl des Dokuments sich verringert, und der Relevanzsgrad wird auch verbessert. Dabei liegt der Nachteil darin, dass eine große Menge am manuellen Feedback erforderlich ist, was eine große Menge an Arbeitskräften erfordert, weiter ist immer noch eine große Anzahl von Experimenten für die Inbetriebnahme benötigt. Deshalb wird das Verfahren selten für bestehende Abrufsysteme oder Suchmaschine n verwendet.
  • Es ist das Pseudorelevanz-Feedback-Verfahren, eine Analyse mit Hilfe der über die primäre Abfrage durch den Benutzer erhaltenen ersten n Ergebnisse auszuführen. Dabei wird es angenommen, dass die Dokumente in den Ergebnissen, die mit dem Suchwort relevant sind, an der Front des Abrufs auftreten werden, nämlich werden solche Dokumente als Dokumente mit höchstem Relevanzsgrad angesehen werden. Durch die Analyse von solchen Dokumenten wird ein Erweiterungswort aufgefunden, dann wird die Abfrageerweiterung ausgeführt. Die Erfindung "Abfrageerweiterungsverfahren und Abfrageerweiterungssystem" mit Patent Nr. von CN 20091032193.5 ist ein Beispiel des Patents unter der Verwendung des Pseudorelevanz-Feedbacks. Dabei ist es das Hauptkonzept, eine Cluster-Analyse für einen Teil von den Dokumenten an der Front unter den primären Suchergebnissen durch den Benutzers auszuführen, so dass die Cluster generiert werden. Nachdem die Cluster in Reihenfolge gebracht wurde, wird das Erweiterungswort aus einer bestimmten Anzahl von TOP-Clustern extrahiert. Das erhaltene Erweiterungswort wird in ursprünglicher Abfrage hinzugefügt, um die Kombination der Erweiterungswörter zu bilden und den sekundären Abruf auszuführen. Das Verfahre hat einen Nachteil, dass es nicht gewährleistet werden kann, dass die durch die primäre Abfrage erhaltenen Dokumente relevant sind. Wenn sie irrelevant sind, kann das erhaltene Erweiterungswort die Ergebnisse des sekundären Abrufs irrelevanter machen. Dadurch kann die Abrufsperformance verschlechtert werden.
  • Das auf dem Abfrageprotokoll des Benutzers basierende Verfahren ist gegenwärtig ein allgemeines Verfahren für die Suchmaschinen. Bei diesem Verfahren wird eine Wörteranalyse für das Abfrageprotokoll des Benutzers ausgeführt, dann werden die Wörter, die gleichzeitig auftreten, als Erweiterungswort benutzt. Bei der Erfindung "Abfrageerweiterungsverfahren und Gerät sowie relevanter Abruf-Thesaurus" mit Patent Nr. von CN 200710097501.6 und der Erfindung "Abfrageerweiterungsverfahren, Gerät und Suchmaschinensystem" mit Patent Nr. von CN 200810115470.7 werden die durch den Benutzer eingegebenen Suchwörter analysiert, um relevante Wörter zu erhalten. Dann werden die Wörter als Erweiterungswort benutzt. Das Erweiterungsverfahren erfordert zuerst eine große Anzahl von Abfrageprotokollen. Dazu ist ein Sammlungsprozess notwendig.
  • Das auf der Assoziationsregel basierende Verfahren ist ein klassisches Verfahren zum Daten-Mining und dient häufig zum Auffinden der Assoziativität zwischen den Angelegenheiten. Bei der Abfrageerweiterung kann das Verfahren zum Auffinden von verschiedenen Ressourcen dienen, z.B. Auffinden der Assoziativität zwischen den Wörtern aus den Ressourcen wie Daten-Dokumentation, Abfrageprotokolle etc. Die Erfindung "Verfahren und Server zur Erweiterung der Suchergebnisse des Benutzers" mit Patent Nr. von CN 201010605956.6 ist ein Beispiel der Abfrageerweiterung mit Hilfe der Assoziationsregel-Technik. Beim vorliegenden Patent werden die errichteten Regeln in einer Assoziationsregeldatenbank gespeichert. Die Regeln können manuell errichtet werden, es ist auch möglich, mit Hilfe der Assoziationsregel des Unterstützungsgrad-Vertrauengrad-Frameworks ein Mining für bestimmte Dokumente durchzuführen, dann werden die erzeugten Regeln in der Assoziationsregeldatenbank zu speichern. Wenn der Benutzer das Suchwort eingibt, werden zuerst Relevanzwörter aus der Regeldatenbank erhalten. Dann bilden das eigentliche Suchwort, das erhaltene Relevanzwort und das Kombinationswort von den beiden ein neues Suchwort aus, dann wird ein sekundärer Abruf für die Datenbank durchgeführt. Die Methode hat einen Nachteil, dass ein Wort nicht durch die Bedeutung des Worts verstanden werden kann. Nur die Frequenz des Worts wird berücksichtigt. Deshalb kann die Erweiterung die Abfrageintension des Benutzers sehr gut verstehen.
  • Das auf der Essenz oder dem semantischen Netzwerk errichtete Abfrageerweiterungsverfahren ist eine Technik, bei der durch die Verwendung oder die Errichtung des semantischen Netzwerks die Erweiterung durchzuführen. Das semantische Netzwerk kann ein fertig errichtetes Netzwerk sein, wie Word-Net und HowNet, es kann auch selbst errichtet werden, wie Gebietskenntnisse oder Gebietsessenz. Das semantische Netzwerk oder die Essenzbank organisieren die mehrschichtige Beziehung der Wörter, wie Paritätswort, Kontextwort, Begriffwort, Ganzes-Teil-Wort usw., so dass ein Netzwerk über die Wörter ausgebildet wird. Das Patent "ein auf den Gebietskenntnissen basierendes semantisches Abfrageerweiterungsverfahren" mit Patent Nr. von CN 200810116729.X errichtet zuerst ein Gebietskenntnisbank mit Hilfe der Gebietskenntnis und der Analyse der Satzmerkmale des Benutzers, dann mit Hilfe des Inhalts der Gebietskenntnisbank wird eine semantische Analyse für das eigentliche Suchwort durchgeführt, um eine Liste der semantischen Artikel zu erhalten, dann wird ein erweiterbarer Artikel durch die semantische Berechnung erhalten; am Ende wird der Erweiterungsartikel in der Suchgruppe zurückgesetzt, um ein sekundärer Abruf der Datenbank durchzuführen. Das Patent "ein im Bildabruf auf dem Text basierendes Abfrageerweiterungs- und Ordnungsverfahren" mit Patent Nr. von CN 20101084725.2 führt eine semantische Analyse für die Wörter mit Hilfe des WordNet-Netzwerks und HowNet-Netzwerks durch und erhält ein Wort mit semantischer Erweiterung, das im Bildabrufsystem der Textanalyse verwendet wird. Weiter wird ein Algorithmus erfunden, der die zurückgegebenen Ergebnisse optimal ordnet. Durch die semantische Erweiterung kann die Abfrageintension des Benutzers sehr gut erkannt werden. Jedoch analysiert das Erweiterungswort gemäß dem vorliegenden Verfahren die zu suchende Datenbank nicht, dabei ist der Suchperformance oft sehr beschränkt. Darüber hinaus ist die Errichtung der Gebietsessenzbank arbeitsaufwendig und zeitaufwendig.
  • 2. Emotionsentität-Extraktionstechnik
  • Das Emotionsobjekt ist das Objekt des Emotionsausdrucks und ist in der Regel ein Substantiv oder eine Nominalphrase. In der Regel ist es sinnlos, nur die Emotionstendenziösität zu analysieren und zu untersuchen, ohne das Emotionsobjekt zu kennen. Die Erforscher legen einen großen Wert auf die Extraktion des Emotionsobjekts, die eine sehr wichtige und gleichzeitig sehr herausfordernde Aufgabe in der Emotionsanalyse und dem Meinungsmining ist. Obwohl zurzeit eine sehr große Anzahl von Forschungen am Emotionsausdruck und Emotionsobjekt besteht, analysieren sie meist die Kommentarinformationen des Produkts oder die Nachrichten.
  • Im Vergleich zur traditionellen Information hat die systembedingte Wörteranzahlbeschränkung und die Freiheit des Internettexts, so dass die Microblog-Daten aufgrund der systembedingten Wörteranzahlbeschränkung und der Freiheit des Internettexts eine große Menge an abgekürzten Ausdrücken, Tippfehlern, Sonderzeichen (wie Gesichtsausdrücken und Links etc.) und anderen verschiedenen Textausdrücken enthalten, die anders als herkömmliche Regel sind. Das erhöht zweifellos die Schwierigkeit der Datenanalyse. Da die Emotionsanalyse und das Meinungsmining in China einen späten Anfang haben, Unterschiede zwischen dem Chinesisch und Englisch bestehen und entsprechende Techniken sich nicht reif entwickeln, bestehen zurzeit noch relativ wenige Forschungen in Hinsicht auf die Identifizierung des Emotionsobjekts für das Microblog.
  • Zurzeit besteht eine Emotionsobjekt-Identifizierungstechnik: ein Patent von der Universität für Luft- und Raumfahrt Beijing "eine auf der Abhängigkeitsbeziehung der Wörter basierende Meinungsextraktionsmethode" mit Patent Nr. von CN 201210317183.0 . Bei der Methode wird der auf der Abhängigkeitsbeziehungskette der Wörter basierende Anpassungsalgorithmus das Kommentarobjekt extrahiert. Erstens werden keine anderen verfügbaren Hilfsinformationen zur Verbesserung der Genauigkeit der Methode verwendet. Zweitens ist die Methode nicht unbedingt geeignet für die besonderen Textinformationen des Microblogs.
  • Die häufig vorkommende Emotionsobjektsextraktion in der Literatur richtet vor allem nach dem Kommentar des Produkts. Da dabei bestimmte Produktsinformationen und Gebiete definiert werden, ist die Frage deutlicher und klarer. Deshalb hat die Extraktion der Relevanztexte eines Themas üblicherweise eine bessere Auswirkung. Jedoch hat die Extraktion keine gute Auswirkung bei den irrelevanten Texten des Themas. Der Grund dafür liegt hauptsächlich darin, dass die Kommentarobjekte in solchen Texten sehr verschieden sind, darüber hinaus sind die Emotionswörter auch vielfältig. Zurzeit besteht selten Emotionsobjekt-Identifizierungstechnik für das Microblog mit einem irrelevanten Thema. Bei meisten bestehenden Methoden wird meist eine syntaktische Abhängigkeitsanalyse für das Microblog durchgeführt, im Zusammenhang mit dem Emotionswörterbuch wird ein Paar von <Emotionswort, Emotionsobjekt> erhalten, dadurch wird das Emotionsobjekt extrahiert. Das Methode hat keine ideale Identifizierungsauswirkung und hat folgende Nachteile: (1) Der Extraktionsprozess hängt zu viel von dem Emotionswörterbuch und bestimmten syntaktischen Abhängigkeitsbeziehungen ab, erstens werden viele Fehlbeurteilungen bestehen, da die auf dem Wörterbuch basierende Beurteilungsmethode beschränkt und sehr stark von den Gebietskenntnissen beeinflusst wird; zweitens sind die Emotionswörter und die Emotionsobjekte aufgrund der Besonderheit des Ausdrucks des Microblogs nicht unbedingt auf einige bestimmte Abhängigkeitsbeziehungen beschränkt; (2) Im Microblog treten einige Emotionswörter und ihre Emotionsobjekte oft nicht paarweise im Text auf, dabei drückt nur das Emotionswort die Emotionstendenziösität aus, jedoch erscheint das Emotionsobjekt nicht dominant im Satz, dabei können einige Emotionsobjekte, die nicht direkt im Satz auftreten, durch den Extraktionsprozess nicht extrahiert werden.
  • 3. Emotionspolaritäts-Unterscheidungstechnik
  • In Hinsicht auf die Körnigkeit der Analyse konzentrieren sich das bestehenden Emotionsanalysesystem und die Technik hauptsächlich auf die Emotionsanalyse der Artikelklasse und der Satzklasse. Die Emotionsanalysetechnik der Entitätsklasser hat eine sehr kleine Anzahl, bei der die Entitätsidentifizierung und die Emotionsanalyse als zwei separate Aufgaben durchgeführt werden. In Hinsicht auf die Analyseobjekte richten die bestehenden Systeme und Techniken nach Nachrichten, Microblogs und andere Kommentarinformationen, dabei ist die Analyse der sozialen Meinungen fokussiert.
  • Folgend sind gegenwärtig bestehende Emotionsanalysetechniken der Artikelklasse und der Satzklasse: ein Patent der technischen Universität von Nordwesten "Hybridmodell-basierte Identifizierungsmethode für WEB-Text-Emotionsthemen" mit Patent Nr. von CN 200910219161.9 ; ein Patent vom Computertechnik-Forschungsinstitut der chinesischen Akademie der Wissenschaften "Analysemethode der Tendenziösität der Textemotionen" mit Patent Nr. von CN 200910083522.1 ; ein Patent vom Automatisierungs-Forschungsinstitut der chinesischen Akademie der Wissenschaften "Emotionsanalysemethode der kurzen Texte für das Microblog" mit Patent Nr. von CN 201210088366.X ; ein Patent von der Firma Fujitsu "Analysemethode und Gerät für die Tendenziösität der Emotionen" mit Patent Nr. von CN 201010157784.0 .
  • Die vorstehende Emotionsanalysetechnik enthält hauptsächlich zwei Schritte - Training und Emotionsbeurteilung. Im Folgenden wird das Patent "Hybridmodell-basierte Identifizierungsmethode für WEB-Text-Emotionsthemen" der technischen Universität von Nordwesten als Beispiel genommen, um die Hauptschritte für das Training und die Emotionsbeurteilung vorzustellen. Die anderen einschlägigen Techniken sind im Wesentlichen ähnlich. Die Methode hat hauptsächlich folgende Schritte: 1. Eine manuelle Markierung wird für Texte mit konzentriertem Training durchgeführt, um zwei Sorten von Emotionsmodellen zu vermuten: "positives" Modell und "negatives" Model; gleichzeitig werden Modell für verschiedenen Sorten von Themensprachen in Übereinstimmung mit Ausdrucksweisen von verschiedenen Texten zu vermuten; 2. Mit der Maximum-Likelihood-Schätzung(MLE)-Methode werden die Parametervermutungen jeweils für die im Schritt 1 errichteten Emotionsmodelle und Themenmodelle durchgeführt; 3. Für die verarbeitenden Texte wird der Abstand zwischen dem Sprachenmodell und den zwei Sorten von Sprachenmodellen errechnet, so dass die Emotionstendenziösität und das Thema der Texte beurteilt werden.
  • Zurzeit ist die Emotionstendenziösitätstechnik hauptsächlich auf die Artikelklasse und die Satzklasse konzentriert. Die auf dem Maschinenlernen basierende Methode ist weit verbreitet, jedoch ist die auf dem emotionalen Landepunkt basierende Emotionsanalysetechnik selten.
  • Die bestehende auf den Emotionswörtern basierende Emotionsanalysetechnik hat hauptsächlich folgende drei Nachteile: (A) Die Extraktion der Emotionswortgruppe berücksichtigt die Modifikation der Adverbien nicht, jedoch definieren die Adverbien in der Regel die Emotionswörter wie Adjektive zum einen bestimmten Grad. Wenn es nicht berücksichtigt wird, können die Abweichungen der emotionalen Intensität bewirkt werden; (B) Bei der Identifizierung und Verarbeitung des negativen Worts ist es eine allgemeine Methode, mit einer bestimmten Strategie die negativen Wörter zu suchen, dabei ist das negative Objekt sehr schwer zu bestimmen; (C) Einige automatische errichtete Emotionswörterintensitäts-Wörterbuch ist nicht zuverlässig, weil die Emotionswörterintensität die wesentliche Eigenschaft der Emotionswörter ist und vor allem von ihrer Eigenabsicht abhängt.
  • Inhalt der Erfindung
  • Es ist das Ziel der vorliegenden Erfindung, die vorstehenden technischen Mängel der bestehenden Suchtechnik der Emotionsentität zu überwinden und ein Suchsystem der Emotionsentität für das Microblog zur Verfügung zu stellen, das die Genauigkeit der Beurteilung der emotionalen Polarität verbessert.
  • Die vorliegende Erfindung wird durch die folgende technische Lösung realisiert: Ein Suchsystem der Emotionsentität für das Microblog der vorliegenden Erfindung weist folgende 5 Module auf:
    • (1) eine Benutzerschnittstelle für die Interaktivität zwischen dem System und dem Benutzer, wobei der Benutzer durch das Modul eine Abfrage vorlegen und eine Rückkopplung erhalten kann;
    • (2) ein Abfrageerweiterungsmodul zum Mining der Wörterbeziehung der Microblog-Sprachendaten, wobei im Zusammenhang mit der Word-Net-Essenzbank ein Beziehungsdiagramm der gewichteten Wörter errichtet wird;
    • (3) ein Abfrageverarbeitungsmodul zur Umwandelung der Abfrage des Benutzers in die Abfrageschlüsselwörter und Abfrageworte, die akzeptierbar für die Indexbank sind, wobei eine Abfrageerweiterung auf dem durch das Modul (2) errichteten Beziehungsdiagramm der Wörter basierend ausgeführt wird;
    • (4) ein Mining-Modul der Emotionsinformation zum Mining der Emotionen in der Microblog-Sprachenbank, wobei die Beurteilungsregel für die Emotionsentität und die emotionale Polarität generiert werden;
    • (5) ein Beurteilungs- und Indexerrichtungsmodul der Emotionsinformation zur Beurteilung der Emotionsentität und der emotionalen Polarität der Microblog-Daten, um den Index der Emotionsinformation zu errichten und zu speichern;
    • (6) ein Errichtungsmodul des invertierten Indexes zur Errichtung des invertierten Indexes für die Microblog-Textinformation und zur Speicherung;
    • Im vorstehenden Modul (1) wird die Abfrageerweiterung durch folgende Schritte realisiert:
    • (11) Mining der Relevanzregel für die Daten in der Microblog-Sprachenbank, Ausgabe der relevanten Wörtergruppe, die durch das Mining der Relevanzregel erhalten wird;
    • (12) Errichtung des Beziehungsdiagramms der gewichteten Wörter im Zusammenhang mit dem im Schritt (11) erhaltenen Frequenzartikel und der WordNet-Essenzbank.
  • Im Schritt (11) werden die Frequenzartikelgruppen der Microblog-Sprachenbank mit Hilfe vom Eclat-Algorithmus aufgefunden, wobei die Relevanzwörtergruppe generiert wird, und wobei die Relevanzwörtergruppe und die WordNet-Essenzbank durch die Kartografierung oder die Einsetzung ein Beziehungsdiagramm der gewichteten Wörter ausbilden; und wobei bei der Errichtung des Beziehungsdiagramms der gewichteten Wörter die Gewichtsberechnungsmethode des Knotens wie folgt ist: f(d) = deg(d) = deg+(d) + deg(d) und wobei deg(d)deg+(d)deg(d) jeweils Grad, Außengrad und Innengrad des Knotens sind; und wobei die Berechnungsmethode des Kantengewichts wie folgt ist:
    Figure DE112013004082T5_0002
  • Im Modul (3) wird die Abfrageverbreitung durch folgende Schritte realisiert:
    • (31) Empfang der durch den Benutzer eingegebenen Abfragewörter oder Worte;
    • (32) Durchführung der Wortsegmentierung, der Entfernung des Stoppworts und der Bestimmung des Stichworts für die Eingabe des Benutzers, um ein Stichwort oder mehrere Stichwörter zu erhalten;
    • (33) Auswahl eines passenden Erweiterungsworts aus dem durch die Essenz und die Regelwörter ausgebildeten Beziehungsdiagramm der gewichteten Wörter für das Stichwort, wobei eine Gewichtsberechnung für das Erweiterungswort durchgeführt wird;
    • (34) Auswahl der p Wörter mit größtem Gewicht und Hinzufügung in der Suchwörtergruppe, wobei die Erweiterungswörtergruppe in die Abfrageschnittstelle eingegeben wird.
  • Im Schritt (33) wird eine Gewichtsberechnung wie folgt für das Erweiterungswort durchgeführt:
  • Wobei das eigentliche Suchwort als q = (q1, q2, ..., qm) angenommen wird, und wobei der Artikel qi ni dnächste Wörte di = (di1, di2, ..., qini) hat, und wobei die Berechnungsmethode des Relevanzsgrades zwischen dem
  • eigentlichen Suchwort qi und dem nächsten Wort dij ist:
    Figure DE112013004082T5_0003
    und wo W(qi, dij) der Relevanzsgrad zwischen dem Wort qi und dem Wort dij ist, und wobei g(qi, dij) das Gewicht von den beiden Wörtern ist, und wobei f(dij) der Grad des Worts dij ist, und wobei die Gewichtsbe rechnungsmethode aller nächsten Wörter
    Figure DE112013004082T5_0004
    ist.
  • Im Schritt (4) werden die Identifizierung und die Beurteilung der Emotionsentität durch folgende Schritte realisiert:
    • (41) Sammlung von repräsentativen Microblog-Daten;
    • (42) Vorverarbeitung der gesammelten Microblog-Daten, einschließlich Bereinigung, Transformation, Wandlung, Satzsegmentierung, Wortsegmentierung, Wortart-Markierung und Syntaxanalyse etc;
    • (43) Durchführung der Merkmalsextraktion für die Microblog-Daten, die als Merkmalsvektoren ausgedrückt werden;
    • (44) Training des Erkennungsmodell der Emotionsentität, um die Modellparameter zu erhalten;
    • (45) Ausgabe und Speicherung des Beurteilungsmodells der Emotionsentität.
  • Im Schritt (43) wird die Merkmalsextraktion wie folgt realisiert: Im Zusammenhang mit dem Kontext der Wörter wird ein benutzerdefiniertes Wörterbuch mit gesamten Merkmalen gestaltet, wobei in Übereinstimmung mit dem benutzerdefinierten Wörterbuch die Merkmalsextraktion der Microblog-Daten durchgeführt wird, und wobei die Microblog-Daten ins Eingabedatenformat umgewandelt werden, die das Erkennungsmodell der Emotionsentität verarbeiten kann.
  • Im Schritt (44) wird das Erkennungsmodell der Emotionsentität wie folgt realisiert: Im Modell des konditionalen Randomfeldes (CRF) werden die Knoten der gesamten Merkmale eingeführt, um ein GLCRF-Modell zu errichten, in dem die gesamten Merkmale hinzugefügt werden, wobei die Trainings unter der Verwendung vom L-BFGS-Algorithmus durchgeführt werden, um die Modellparameter zu erhalten.
  • Im Schritt (5) wird die Beurteilung der emotionalen Polarität vom Microblog durch folgende Schritte realisiert:
  • (51) Entfernung des Microblog-Rausches und Umwandlung der semantischen Form;
  • (52) Wortsegmentierung, Wortart-Markierung und Analyse der chinesischen Grammatik;
  • (53) Extraktion der Emotionswortgruppe im Zusammenhang mit dem Emotionswörterbuch;
  • (54) Filterung der Emotionswortgruppe;
  • (55) Beurteilung der emotionalen Polarität und Ausgabe der Ergebnisse. Im Schritt (53) wird die Emotionswortgruppe mit der sentiPY-Methode extrahiert, wobei die Form der Emotionswortgruppe einheitlich als phrase:modifier·sentiment ausgedrückt wird, nämlich beinhaltet eine Wortgruppe ein zentrales emotionales Wort, gleichzeitig kann die Wortgruppe mehrere Adverbien zur Modifikation zusätzlich beinhalten;
  • Im Schritt (55) wird die emotionale Polarität vom Microblog mit Hilfe von dem auf dem emotionalen Landepunkt basierenden Mischentscheidungsalgorithmus beurteilt, wobei der Beurteilungsprozess folgende Schritte beinhalten:
    • (551) Es wird beurteilt, ob ein Satz ein Zusammenfassungswort beinhalt, wenn nicht, geht es zum Schritt (552); wenn ja, werden die Wörter nach dem Zusammenfassungswort als emotionaler Landepunkt benutzt, wobei die Polarität des emotionalen Landepunkts als die emotionale Polarität vom Microblog ausgegeben wird;
    • (552) Der Satzanfang und das Satzende des Microblogs werden als emotionaler Landepunkt benutzt. Die emotionalen Polaritäten des Satzanfangs und Satzendes werden verglichen. Wenn die beiden emotionalen Polaritäten einander neutralisieren, geht es zum Schritt (553); sonst wird die stärkere emotionale Polarität als emotionale Polarität vom Microblog ausgegeben;
    • (553) Berechnung der Stärken der Emotionswörter des ganzen Microblogs, wobei die Stärken aufsummiert und gemittelt werden, und wobei die mittlere Stärke als emotionale Polarität vom Microblog ausgegeben wird.
  • Die vorliegende Erfindung betrifft eine Lösung der Abfrageerweiterung für die Suche der Emotionsentität des Microblogs, dadurch gekennzeichnet, dass ein Mining der Wörterbeziehung der Microblog-Sprachendaten durchgeführt wird, ein Beziehungsdiagramm der gewichteten Wörter im Zusammenhang mit der WordNet-Essenzbank errichtet wird und die Abfrageerweiterung in Übereinstimmung mit dem errichteten Beziehungsdiagramm der Wörter durchgeführt wird, um die Abfrageintension des Benutzers besser zu verstehen. Hinsichtlich der Abfrageerweiterung löst die vorliegende Erfindung das Problem mit der wirksamen Kombination zwischen der semantischen Essenz und der Wörterbeziehung, so dass der Abfragezweck des Benutzers besser verstanden werden kann, weiter wird der Abfragesatz ins bessere Abfrageerweiterungswort umgewandelt. Hinsichtlich der Extraktion der Emotionsentität und der Analyse der emotionalen Farbe wird das Problem der Microblog-Texten mit größerer Freiheit beim Schreiben mit der Extraktion des Emotionsobjekts und der Beurteilung der emotionalen Polarität, dadurch wird das Problem mit der Entitätsextraktion beim verdeckten Emotionsobjekt gelöst, so dass die Extraktionswirkung der Emotionsentität optimiert wird, gleichzeitig wird die Genauigkeit der Beurteilung der emotionalen Polarität erhöht. Dadurch wird eine gute technische Lösung der Netzwerkmeinungsüberwachung und der Produktsmeinungsanalyse zur Verfügung gestellt. Die vorliegende Erfindung löst das schwierige Problem mit der Extraktion der Emotionsentität des Microblogs, der Analyse der emotionalen Polarität und der Suche der Emotionsentität, dadurch wird ein intelligentes Suchprodukt der Netzwerkmeinungsanalyse und Überwachung zur Verfügung gestellt.
  • Kurze Beschreibung der Zeichnung
  • 1 zeigt eine Gesamtstrukturansicht der vorliegenden Erfindung.
  • 2 zeigt ein Ablaufdiagramm der Ausführung und der Verwendung der vorliegenden Erfindung.
  • 3 zeigt ein Systemarchitekturdiagramm der vorliegenden Erfin dung.
  • 4 zeigt ein Ablaufdiagramm der Analysemethode der emotionalen Polarität gemäß der vorliegenden Erfindung.
  • 5 zeigt ein Beispiel der Abbildungsstruktur während der Optimierung der emotionalen Stärke auf der Grundlage der Nachbarbeziehung.
  • 6 zeigt ein Ablaufdiagramm vom Algorithmus des emotionalen Landepunkts.
  • 7 zeigt ein Ablaufdiagramm der Extraktion des Emotionsobjekts des Microblogs.
  • 8 zeigt ein Ablaufdiagramm der Vorverarbeitung der Daten.
  • 9 zeigt ein Prinzipbild der Realisierung des Modelltrainings des Emotionsobjekts.
  • 10 zeigt eine Abbildungsstruktur des GLCRF-Modells.
  • 11 zeigt eine Modellabbildungsstruktur des GLCRF-Modells nach der Erweiterung von mehreren gesamten Knoten.
  • Ausführliche Ausführungsformen
  • Im Zusammenhang mit Figuren wird die Ausführungsform der vorliegenden Erfindung näher erläutert. Jedoch wird die Ausführungsform der vorliegenden Erfindung nicht darauf beschränkt.
  • 1 zeigt eine Gesamtstrukturansicht der vorliegenden Erfindung. Ein Suchsystem der Emotionsentität für das Microblog, aufweisend: ein Benutzerschnittstellemodul, wobei der Benutzer durch das Modul eine Abfrage vorlegen und eine Rückkopplung erhalten kann; ein Abfrageerweiterungsmodul, das ein Mining der Wörterbeziehung der Microblog-Sprachendaten realisiert, wobei im Zusammenhang mit der WordNet-Essenzbank ein Beziehungsdiagramm der gewichteten Wörter errichtet wird; ein Abfrageverarbeitungsmodul zur Umwandelung der Abfrage des Benutzers in die Abfrageschlüsselwörter und Abfrageworte, die akzeptierbar für die Indexbank sind, wobei eine Abfrageerweiterung auf dem durch das Abfrageerweiterungsmodul errichteten Beziehungsdiagramm der Wörter basierend ausgeführt wird; ein Mining-Modul der Emotionsinformation zum Mining der Emotionen in der Microblog-Sprachenbank, wobei die Beurteilungsregel für die Emotionsentität und die emotionale Polarität generiert werden; ein Beurteilungs- und Indexerrichtungsmodul der Emotionsinformation zur Beurteilung der Emotionsentität und der emotionalen Polarität der Microblog-Daten, um den Index der Emotionsinformation zu errichten und zu speichern; ein Errichtungsmodul des invertierten Indexes zur Errichtung des invertierten Indexes für die Microblog-Textinformation und zur Speicherung.
  • 2 zeigt ein Ablaufdiagramm des Betriebs des Abfrageverarbeitungsmoduls der vorliegenden Erfindung.
  • Siehe 2, enthält der Ablauf folgende Schritte: 1. Das Abfrageinterface empfängt die durch den Benutzer eingegebenen Abfragewörter oder Sätze; 2. Durch den Abfrageprozess werden die Wortsegmentierung, die Entfernung des Stoppworts und die Bestimmung des Stichworts für die Eingabe des Benutzers durchgeführt, um ein Stichwort oder mehrere Stichwörter zu erhalten, das Stichwort kann ein Schlüsselwort oder ein dekoratives Wort etc. sein; 3. Für das Stichwort wird ein passendes Erweiterungswort aus dem durch die Essenz und die Regelwörter ausgebildeten Beziehungsdiagramm der gewichteten Wörter ausgewählt, der Abstand der ausgewählten Worts ist 1, nämlich ist es das nächste Wort des Stichworts; 4. Da durch den Schritt 3 eine große Anzahl von den Erweiterungswörtern erhalten werden kann, wird die Wichtigkeit des jeweiligen Worts gemessen, dazu wird eine Gewichtsberechnung für jedes Wort durchgeführt wird, dann werden die p Wörter mit größtem Gewicht ausgewählt und in der Suchwörtergruppe hinzugefügt; 5. im Schritt 4 werden die notwendigen Erweiterungswörter schon erhalten, jedoch soll ein System eingeführt werden, damit der Benutzer die Erweiterungswörter kennen kann, und der Benutzer betätigt die Wörter, nämlich die geänderte und erweiterte Suchwörtergruppe, so dass die Erweiterungswörter der Abfrageintension des Benutzers entsprechen; 6. die Erweiterungswörtergruppe wird zum Abfragezugang zurückgegeben, und ein erweiterter Abruf wird für die Rich-Media-Datenbank durchgeführt; 7. die Abrufsergebnisse werden zurückgegeben und dem Benutzer angezeigt.
  • 3 zeigt die Einfügungsdetails des Abfrageverarbeitungs- und Abfrageerweiterungsmodul der vorliegenden Erfindung.
  • Siehe 3, umfassen die Abfrageverarbeitung und die Abfrageerweiterung der vorliegenden Erfindung zwei Teile-Hintergrundinformationensverarbeitungs- und Abrufsprozess, dabei kann es in 5 Untermodule unterteilt werden: Microbloginformation-Extraktionsmodul, Indexerrichtungsmodul, Errichtungsmodul des Beziehungsdiagramms der Wörter, Benutzerabrufmodul und Administratorbedien- und Benutzerbedienmodul.
  • Der Prozess des Microbloginformation-Extraktionsmoduls enthält: Organisation der primären Microblog-Daten, Durchführung der passenden Bereinigung, Satzsegmentierung, Wortsegmentierung und grammatischen Analyse. Beim Indexerrichtungsmodul wird vor allem ein Index für die Microblog-Datengruppe errichtet, um einen Schnellabruf durchzuführen. Dabei wird Lucene zur Errichtung des invertierten Indexes verwendet. Lucene ist ein Open-Source-Framework für die Volltext-Suchmaschine, die ein vollständiges Abfrage-Engine und Index-Engine bietet und die boolesche Operation, Fuzzy-Abfrage, Grupenabfragen und andere Operationen unterstützt. Mit Lucene wird der invertierte Index errichtet und gespeichert.
  • Das Errichtungsmodul des Beziehungsdiagramms der Wörter ist der Kernteil der vorliegenden Erfindung, das ist auch der innovative Abschnitt. Der Abschnitt wird in einen Wortsegmentierungsprozess, einen Mining-Prozess der Eclat-Relevanzregel, einen Generierungsprozess der Relevanzregelwörter und einen Generierungsprozess des Beziehungsdiagramms der gewichteten Wörter im Zusammenhang mit WordNet unterteilt. Beim Wortsegmentierungsprozess wird die Wörterressource eines Texts ins einzelne Wort segmentiert. Dabei wird die ICTCLAS-Software, die eine höhere Genauigkeit bei chinesischer Wortsegmentierung hat, zur Wortsegmentierung verwendet. Die chinesische Akademie der Wissenschaften hat das System spezifisch für die chinesische Wortsegmentierung entwickelt. Zuerst wird die Wortsegmentierung für die Dokumente im Datensatz hintereinander durchgeführt, dann werden die Dokumente verschiedener Sorten zusammengesetzt, um einen Dokumentssatz zu bilden, der dem Mining der Relevanzregel zur Verfügung gestellt wird. Während des Mining-Prozesses der Relevanzregel wird der Eclat-Mining-Algorithmus mit einer höheren Mining-Effizienz verwendet. Das ist ein Algorithmus, bei dem die Tiefe vorrangig ist. Beim größeren Dokument kann das Mining des Relevanzworts in verschiedenen Abschnitten durchgeführt werden, dann erfolgt die Kombination. In der vorliegenden Erfindung wird der Unterstützungsgrad-Interessengrad-Relevanzregelrahmen verwendet. Der Rahmen setzt zwei Beurteilungsformeln ein:
  • (1) Unterstützungsgrad-Formel: supp(X → Y) = |X∪Y| / |D|
  • (2) Interessengrad-Formel: lift(X → Y) = supp(X ∪ Y) / supp(X) × supp(Y)
  • Dabei ist |X ∪ Y| die Anzahl der gleichzeitig X und Y enthaltenden Angelegenheiten, |D| ist die Gesamtzahl der Angelegenheiten der Datenbank; supp(X ∪ Y) ist das Prozent der gleichzeitig X und Y enthaltenden Angelegenheiten in der Datenbank, supp(X), supp(Y) stehen jeweils für das Prozent der nur X enthaltenden Angelegenheiten und der nur Y enthaltenden Angelegenheiten.
  • Während des Mining-Prozesses werden verschiedene Schwellenwerte des Unterstützungsgrads in Übereinstimmung mit verschiedenen Dokumentssätzen eingestellt. Nur wenn der Interessengrad höher als 1 ist, generiert der durch das Mining erhaltene Frequenzartikelsatz den Relevanzregelartikel. Denn die vorliegende Erfindung behauptet, dass zwei Wörter in positiver Korrelation sind, nur wenn der Interessengrad von den beiden Wörtern höher als 1 ist. Während des Mining-Prozesses wird weiter der Begriff eines zusammengesetzten Worts hinzugefügt: wenn der Interessengrad von zwei Wörtern höher als 4 ist, werden das vordere Wort und das hintere Wort des Regelartikels zusammengesetzt, so dass ein zusammengesetztes Wort generiert wird. Das Wort bildet jeweils mit dem vorderen Teil und dem hinteren Teil des Regelworts eine neue Regel aus. Der Interessengradswert der neuen Regel ist identisch mit dem der eigentlichen Regel, so dass das zusammengesetzte Wort auch als Erweiterungswort ausgewählt werden kann. Nach dem Mining des Relevanzworts wird die Relevanzregel generiert und gespeichert. Das Speicherformat ist "X Y". Dadurch werden das Mining und die Analyse des Relevanzregelworts abgeschlossen.
  • Im letzten Schritt werden die Regelwörter und die WordNet-Essenzbank zu einem Beziehungsdiagramm der gewichteten Wörter kombiniert. WordNet ist ein auf dem Wortschatz basierendes semantisches Netzwerk. WordNet organisiert nicht nur den Wortschatz zu Begriffen, sondern definiert auch die Begriffe und verschiedene semantische Zusammenhänge zwischen den Wortschätzen (wie appositionelles Wort, obergeordnetes/untergeordnetes Wort, Antonyme, Ganzes-Teil-Wort, Implikation, etc.). Die Beziehung zwischen den Wörtern bildet einen gerichteten Graph aus (wie in 3 dargestellt). Während des Prozesses wird es berücksichtigt, die Regelwörter in bestimmter Reihenfolge in der WordNet-Essenzbank abzubilden oder hinzuzufügen. Das Konstruktionsprinzip des Beziehungsdiagramms der gewichteten Wörter wird so eingestellt, dass zwischen den Knoten von den zwei Regelwörtern eine vom vorderen Teil nach hinterem Teil gerichtete Kante hinzugefügt wird. Dabei ist die Hinzufügung des Regelworts vollautomatisch, dafür bestehen zwei Situationen: 1. Wenn das Wort im eigentlichen WordNet-Essenzdiagramm besteht, ist es nur nötig, das Wort im Diagramm abzubilden, dann werden die Knotendaten aktualisiert; 2. Wenn das Wort im eigentlichen WordNet-Essenzdiagramm nicht besteht, wird dann das Wort zuerst hinzugefügt, dann wird die Kante hinzugefügt und die Daten werden aktualisiert. Nach Abschließen des Diagramms werden alle Knotendaten hintereinander gezählt. Das schließlich geformte Beziehungsdiagramm kann in Form eines Quartettes dargestellt werden: G = <V, E, f, g>. Dabei ist V die Knotensammlung, E ist die Kantensammlung, f ist die Funktion von V zur nichtnegativen reellen Zahl und wird als Grad des Knotens eingestellt; g ist die Funktion von E zur nicht-negativen reellen Zahl und wird als Wert von beiden Knotenkanten eingestellt. d, di, dj ∊ V wird eingestellt, deg(d) steht für den Grad des Knotens (nämlich Gesamtsumme vom Außengrad und Innengrad des Knotens), lift(di → dj) steht für den Interessengradswert des Knotenworts di und dj, davon resultieren: f(d) = deg(d) (1)
    Figure DE112013004082T5_0005
  • Im Beziehungsdiagramm der gewichteten Wörter (wie in 4 dargestellt) hängt die Wichtigkeit des Worts im ganzen Diagramm von der Maße des Knotens ab, an dem das Wort sich befindet, nämlich von der Gesamtsumme vom Außengrad und Innnengrad des Knotens (ganze Zahl neben dem Knoten in 4). Der Wert der Kante ist gewichteter Wert, dabei wird der gewichtete Wert zwischen den Essenzwörtern im eigentlichen WordNet-Diagramm auf 1 eingestellt (blaue Kante in 4), der gewichtete Wert zwischen den durch die Regel eingesetzten Wörtern ist der Interessengradswert der beide Wörter (Blaue Kante in 4). Wenn die beiden Wörter sowohl WordNet-Beziehungswörter als auch Regelwörter sind, ist der gewichtete Wert Interessengradswert plus 1. In 4 richtet die schwarze Kante nach einem zusammengesetzten Wort (z.B. "geistiges Eigentum"), das einen identischen gewichteten Wert wie die beiden Regelwörter hat. Dadurch wird die Errichtung des Beziehungsdiagramms der gewichteten Wörter abgeschlossen.
  • Das Benutzerabrufmodul enthält einen Abfrageeingabe- und Abfrageanalyseprozess, einen Zusammenpassprozess des Erweiterungsworts, einen Generierungsprozess der Erweiterungssuchwörtergruppe, einen Abrufindexprozess und einen Ergebnisverarbeitungs- und Anzeigeprozess. Bei der Abfrageeingabe empfängt das Abfrageinterface die durch den Benutzer eingegebenen Abfragewörter oder Sätze; bei der Abfrageanalyse werden die Wortsegmentierung, die Entfernung des Stoppworts und die Bestimmung des Stichworts für die Eingabe des Benutzers durchgeführt, um ein Stichwort oder mehrere Stichwörter zu erhalten; beim Zusammenpassprozess des Erweiterungsworts wird das Stichwort des letzten Schritts in die Beziehungsdiagrammbank der gewichteten Wörter eingegeben, um eine passende Erweiterungswort-Quelle auszuwählen, nämlich wird das Wort mit einem kürzesten Abstand zum eigentlichen Suchwort (nämlich Wort mit einem Abstand von 1) aus dem Diagramm als optionales Erweiterungswort ausgewählt. Beim Generierungsprozess der Erweiterungssuchwörtergruppe wird das Gewicht des Worts in Übereinstimmung mit dem Relevanzsgrad des jeweiligen Worts zum eigentlichen Suchwort berechnet, dann werden die ersten p Wörter als endgültige Erweiterungswörter ausgewählt. Die vorliegende Erfindung gründet die Formeln zur Berechnung des Gewichts des jeweiligen Worts. In Übereinstimmung mit der Struktur des Beziehungsdiagramms der gewichteten Wörter ist es bekannt: Je größer der gewichtete Wert von zwei Knoten ist, desto höher ist der Relevanzsgrad von den beiden Knoten; je höher der Grad des Knotens ist, desto wichtiger ist der Knoten.
  • Das eigentliche Suchwort wird als q = (q1, q2, qm) angenommen qwird, wobei der Artikel qi ni nächste Wörter
    Figure DE112013004082T5_0006
    hat, und wobei die Berechnungsmethode des Relevanzsgrades zwischen dem eigent lichen Suchwort qi und dem nächsten Wort dij ist:
    Figure DE112013004082T5_0007
    und wobe W(qi, dij) der Relevanzsgrad zwischen dem Wort qi und dem Wort dij ist, und wobei g(qi, dij) das Gewicht von den beiden Wörtern ist, und wobei f(dij) der Grad des Worts dij ist, und wobei die Gewichtsbe rechnungsmethode aller nächsten Wörter
    Figure DE112013004082T5_0008
    ist.
  • Dabei ist W(dk) das Gewicht vom Wort dk,m steht für die Anzahl der eigentlichen Suchwörter. Nachdem die Gewichte der jeweiligen optionalen Erweiterungswörter berechnet wurden, werden die Gewichte in absteigende Reihenfolge gebracht. Weiter werden erste p Wörter ausgewählt und in der eigentlichen Abfrage hinzugefügt, so dass die Erweiterungswörtergruppe gebildet wird. Dabei haben die eigentlichen Abfrageartikel alles ein Gewicht von 1. Durch den letzten Schritt wird die Erweiterungswörtergruppe erhalten, die z.B. in folgender Form ist: Q = (q1, q2, ..., qm, d1, d2, ..., dp) (4)
  • Beim Abrufprozess wird die Erweiterungswörtergruppe zum Abfragezugang zurückgegeben, und ein erweiterter Abruf wird für die Rich-Media-Datenbank durchgeführt. Beim Ergebnisverarbeitungs- und Anzeigeprozess werden die in Reihenfolge gebrachten Abrufergebnisse zurückgegeben und dem Benutzer angezeigt.
  • 4 zeigt ein Ablaufdiagramm der Analysemethode der emotionalen Polarität gemäß der vorliegenden Erfindung.
  • Siehe 4, enthält die Methode folgende Schritte:
    • (1) Entfernung des Rausches in Kommentarwortdaten und Umwandlung der semantischen Form: Bei der Entfernung des Rausches in Kommentarwortdaten werden vor allem störende Sätze entfernt, wie z.B. Konjunktiv. Solche störende Sätze sind keine wahren objektiven Kommentare und werden die Analyse in den kommenden Phasen stören. Die Emoticons werden durch entsprechende Texte ersetzt, so dass die semantische Form in die verarbeitungsfreundliche Form umgewandelt wird.
    • (2) Verarbeitung der natürlichen Sprache: Vor allem werden die Wortsegmentierung, die Markierung der Wortart und die Analyse der chinesischen Grammatik für die Kommentarwortdaten mit Hilfe der Stanford NLP-Software durchgeführt.
    • (3) Extraktion der Emotionswortgruppe im Zusammenhang mit dem Emotionswörterbuch. Da die Emotionswörter in den Kommentarwortdaten vom POS-Tagger-Label hauptsächlich an wenig Labels konzentriert sind, wird die Emotionswortgruppe im Zusammenhang mit dem Wohnart-Etikett und dem Emotionswörterbuch extrahiert. Unter der Verwendung der durch uns entwickelten sentiPY-Methode wird die Emotionswortgruppe extrahiert. Im vorliegenden System haben die Emotionswortgruppen eine einheitliche Form: phrase:modifier·sentiment nämlich enthält eine Wortgruppe ein zentrales emotionales Wort, gleichzeitig kann die Wortgruppe mehrere Adverbien zur Modifikation zusätzlich enthalten.
    • (4) Filterung der Emotionswortgruppen: Die im Schritt 3 extrahierten grobkörnigen Emotionswortgruppen werden gefiltert, so dass die Form der Emotionswortgruppen reiner wird, dadurch kann die Genauigkeit der endgültigen Polaritätsklassifizierung verbessert werden.
    • (5) Emotionsanalyse und Ausgabe der Ergebnisse Ein auf dem emotionalen Landepunkt basierender Mischentscheidungsalgorithmus wird gestaltet. Der Algorithmus kann die Kommentarwortdaten auf verschiedenen Gebieten wirksam analysieren.
  • 5 zeigt ein Beispiel der Abbildungsstruktur während der Optimierung der emotionalen Stärke auf der Grundlage der Nachbarbeziehung. Siehe 5, werden die Emotionswörter in den Kommentarwortdaten als Knoten im Diagramm angesehen. Der auf der Verbreitung basierende Algorithmus kann die Emotionsstärke errechnet werden. Auf dem Emotionswörterbuch wird die benachbarte Beziehung der Emotionswörter errechnet, und mit NGD wird das Gewicht des Knotens von zwei Emotionswörtern errechnet, so dass ein gerichtetes Diagramm ausgebildet wird. 3 zeigt eine Abbildungsstruktur eines Kommentars.
  • 6 zeigt ein Ablaufdiagramm vom Algorithmus des emotionalen Landepunkts. Siehe 4, ist es das Ziel in diesem Schritt, den emotionalen Landepunkt eines Kommentars zu finden. Der emotionale Landepunkt ist der Emotionsteil in einem Kommentar, den der Autor ausdrücken will. Dabei basiert es hauptsächlich auf den zusammenfassenden Wörtern (wie "Allgemein"), dabei werden die Emotionsstärken am Anfang und Ende und die stärksten Emotionswortgruppen im Satz verglichen, dadurch wird der emotionale Landepunkt eines Kommentars gefunden.
  • 7 zeigt ein Ablaufdiagramm der Extraktion der Microblog-Emotionsentität der vorliegenden Erfindung.
  • Siehe 1, enthält die Extraktion der Emotionsentität in der vorliegenden Erfindung die Erfassung der Microblog-Daten, die Datenvorverarbeitung, die Merkmalsextraktion, das Laden des Wörterbuchs, die Markierung und Korrektur, das Modelltraining und die Emotionsobjektsextraktion und andere Schritte. Bei der Erfassung der Microblog-Daten werden die Microblog-Daten im Internet in Form einer Datei gespeichert. Das durch das Modelltraining erhaltene Extraktionsmodell des Emotionsobjekts wird auch zur Extraktion des Objekts gespeichert. Die durch die Extraktion des Emotionsobjekts erhaltenen Ergebnisse werden in Form einer Datei gespeichert, so dass der Benutzer die vermutlichen Ergebnisse einsehen und berichtigen kann.
  • Die Erfassung der Microblog-Daten dient zur Sammlung der Microblog-Daten aus den Microblog-Systemen (wie Sina-Microblog, Twitter und Tencent-Microblog etc.) aus Internet und zur Speicherung der erfassten Microblog-Rohdaten in Übereinstimmung mit bestimmter Organisationsweise in Form der Datei, um die Unterstützung der späteren Verarbeitung des Systems zu Verfügung zu stellen.
  • Bei der Datenvorverarbeitung werden einige Vorverarbeitungen für die ursprünglichen Microblog-Daten durchgeführt, um die spätere Merkmalsextraktion zu erleichtern. Das Modul enthält Datenbereinigung, Datentransformation, Satzsegmentierung, Wortsegmentierung, Wortart-Markierung und Syntaxanalyse. Details sind wie in 2 dargestellt.
  • Beim Laden des Wörterbuchs wird ein relevantes Wörterbuch geladen, die notwendig für die Datenvorverarbeitung und die Merkmalsextraktion sind. Das Wörterbuch enthält ein Emotionswörterbuch, ein Stoppwörterbuch, ein Wörterbuch für häufig benutzte Netzwerkwörter und andere Wörterbuchdaten.
  • Bei der Merkmalsextraktion werden die ins Modul geladenen Wörterbuchdaten geladen, und eine Extraktion der vorbestimmten Merkmale wird für die verarbeiteten Daten durchgeführt, um den Text zu vektorisieren und in ein Format zu wandeln, das das Objektextraktionsmodul verarbeiten kann.
  • Das Emotionsobjekt-Modelltraining dient zum Training des Modells der Emotionsobjektsextraktion, das der Kern des Systems ist. Aus dem Markierungs- und Korrekturmodul werden die Trainingsdaten, die ins erforderte Format gewandelt sind, erhalten. Mit dem L-BFGS-Algorithmus wird das Training für das in Übereinstimmung mit den Trainingsdaten errichteteCRF-Modell durchgeführt. Das in der vorliegenden Erfindung verwendete CRF-Modell wird auf der Grundlage des Linear-CRF(lineares konditionales Randomfeld)-Modell ausgebildet und ist die erste Anwendung des CRF(konditionales Randomfeld)-Modells auf dem Gebiet der Identifizierung des Emotionsobjekts. Globale Variablen werden im konventionellen CRF-Modell hinzugefügt, so dass die Situation identifiziert wird, in der das Emotionsobjekt nicht in der Markierungssequenz dominant erscheint.
  • Bei der Emotionsobjektsextraktion wird das Emotionsobjekt aus den Microblog-Daten extrahiert. In diesem Schritt wird hauptsächlich eine Vermutung mit Hilfe des durch das Modelltraining fertig trainierten Modells durchgeführt, um das Ziel der Objektsextraktion zu erreichen.
  • Die Markierung und die Korrektur. Das in der vorliegenden Erfindung verwendete CRF-Modell ist eine überwachte statistische Lernmethode, deshalb sollen die Daten markiert werden. Gleichzeitig wird ein Rückkopplungsmechanismus eingeführt, um die Fehleranalyseinformationen zu lernen. Bei der bestehenden Methode werden die Fehlklassifikationsergebnisse in der Regel nicht verarbeitet, jedoch enthalten die Rückkopplungsinformationen eine große Menge an nützlichen Informationen. Es wird der Schlüssel des Selbstlernens des Systems, wie die Informationen vollständig verwendet werden. Mit der Einführung vom Rückkopplungsmechanismus kann das Modell die Ergebnisse der Fehleranalyse wieder lernen, so dass das System im Laufe mit der Verwendung eine immer gute Genauigkeit hat.
  • 8 zeigt ein Prinzipbild der Realisierung des Datenvorverarbeitungsschritts der vorliegenden Erfindung. Dabei enthält der Datenvorverarbeitungsschritt folgende Schritte:
    • (1) Datenbeinigungs-Verarbeitungsschritt, aus den durch das Datenerfassungsmodul gesammelten Microblog-Rohdaten werden die Daten gelesen, der Datenbereinigungsprozess in der Datenvorverarbeitung wird durchgeführt, um einige leere ungültige Microblog-Daten zu filtern.
    • (2) Datenkonvertierungs-Verarbeitungsschritt, in diesem Schritt werden die nach der Verarbeitung im Schritt (1) übertragenen Daten verarbeitet, die Konvertierungsverarbeitung wird für einige Inhalte in den Microblog-Daten durchgeführt, um die entsprechenden Verarbeitungen im Schritt (3), (4), (5) und (6) zu erleichtern, dabei sind folgende Situationen häufig vorkommend: (a) Das Microblog enthält oft einige ungültige Informationen für die Arbeit, die gelöscht werden sollen; (b) einige Links (wie Bildlinks und Websitelinks etc.), die nutzlos für die Arbeit sind, und einige spezielle Strings sollen gelöscht werden; (c) das Microblog enthält oft ein Thema mit Symbol “#” und eine Kontaktperson mit Symbol “@”, das Thema und die Kontaktperson, die am Anfang und Ende des Microblogs auftreten, werden direkt gelöscht, im Microblogsatz werden nur die Symbole “#” und “@” gelöscht; (d) das Microblog enthält oft einige Emoticons, die starke emotionale Neigungen enthalten und helfende Informationen für die Arbeit sind, jedoch die Emoticons können die Genauigkeit der Wortsegmentierung, der Wortart-Markierung (POS-Markierung) und der Syntaxanalyse, deshalb sollen die Emoticons während des Prozesses extrahiert werden; (e) einige Internetsprachen im Microblog sollen konvertiert werden, z.B. wird der Internetausdruck "VS" in einen genormten Ausdruck "mächtig" konvertiert, das ist förderlich für die Verbesserung der Genauigkeit der Wortsegmentierung, der Wortart-Markierung (POS-Markierung) und der Syntaxanalyse.
    • (3) Microblogtextsatzsegmentierungs-Verarbeitungsschritt, das Modell des konditionalen Randomfeldes in der Emotionsobjekt-Identifizierungsmethode der vorliegenden Erfindung wird auf der Sequenzmarkierung der Satzklasse errichtet, um die Informationsextraktion durchzuführen. Jedoch kann ein Microblog bestimmt mehr als 1 Satz enthalten, deshalb soll die Satzsegmentierungs-Verarbeitung dafür durchgeführt werden. Während der Satzsegmentierungs-Verarbeitung wird die Satzsegmentierung hauptsächlich in Übereinstimmung mit den Satzzeichen durchgeführt. Aufgrund der Besonderheit des Microblogs ist jedoch die nur in Übereinstimmung mit den Satzzeichen durchgeführte Satzsegmentierung nicht genügend. Viele Menschen sind daran gewöhnt, Leerzeichen oder Sonderzeichen (wie "~" und so weiter) im Microblog zur Satzsegmentierung zu benutzen, deshalb wird die entsprechende Satzsegmentierungsverarbeitung für solche Situationen während des Prozesses durchgeführt.
    • (4) Satzwortsegmentierungs-Verarbeitungsschritt, beim Modell des konditionalen Randomfeldes in der Emotionsobjekt-Identifizierungsmethode der vorliegenden Erfindung wird jedes Wort in der Sequenz der Satzklasse markiert, deshalb soll die Wortsegmentierungsverarbeitung durchgeführt werden. Während der Satzwortsegmentierung werden einige häufig vorkommende Internetwörter (wie "verrückt", "Menschenmenge guckt" etc.) benutzt, um die Genauigkeit der Wortsegmentierung zu verbessern.
    • (5) Wortartmarkierungsschritt für Wörter im Satz, in diesem Schritt wird die Wortart-Markierung für jedes Wort nach der Wortsegmentierung durchgeführt, um die entsprechenden Merkmale der Wortart dem Merkmalsextraktionsmodell der vorliegenden Erfindung bei der Durchführung der Merkmalsextraktion zu Verfügung zu stellen.
    • (6) Syntaxanalyseschritt, in diesem Schritt werden die syntaktischen Abhängigkeiten zwischen den Wörtern im Satz mit Hilfe der Syntaxanalyseinstrumente analysiert, dabei ist es das Ziel, die entsprechenden Abhängigkeitsmerkmale der Wörter dem Merkmalsextraktionsmodell der vorliegenden Erfindung bei der Merkmalsextraktion zur Verfügung zu stellen.
  • 9 zeigt ein Prinzipbild der Realisierung der Trainingsschritte des Emotionsobjekt-Identifizierungsmodells der vorliegenden Erfindung. Siehe 9, in diesem Schritt stammen die markierten Trainingsdatengruppen aus den Microblog-Daten, die durch das Datenerfassungsmodul aus Internet gesammelt sind und dafür eine Verarbeitung durch das Vorverarbeitungsmodul durchgeführt wird. Da in der vorliegenden Erfindung das Modell des konditionalen Randomfeldes (CRF) zur Emotionsobjektsextraktion verwendet wird und das CRF-Modell eine überwachte Lernmethode ist, soll eine manuelle Markierung der Datengruppen für die Trainingsdatengruppe während des Trainingsprozesses durchgeführt werden. Während des Modelltrainings wird zuerst das Benutzerwörterbuch mit Hilfe des Wörterbuchlademoduls geladen, einschließlich Emotionswörterbuch und Stoppwörterbuch; im nächsten Schritt werden die Merkmalsextraktion und die Normierung der Daten für die Trainingsdatengruppen mit Hilfe des Merkmalsextraktionsmoduls im Zusammenhang mit dem letzten geladenen Wörterbuch durchgeführt; im letzten Schritt wird das Modellparametertraining für die normierten Daten im zweiten Schritt mit Hilfe des Modelltrainingsmoduls durchgeführt, und mit Hilfe vom L-BFGS-Algorithmus werden die Modellparameter durch das Training und Lernen erhalten.
  • Die Form des in der vorliegenden Erfindung benutzten Modells des konditionalen Randomfeldes ist wie in 10 dargestellt. Der Emotionsobjekt-Identifizierungsprozess wird als ein Sequenzmarkierungsproblem angesehen. X in der ersten Schicht des Modells steht für die eingegebenen Microblog-Sätze, xi steht für das Wort mit der i-Position im Satz, yi in der zweiten Schicht und g1, g2 in der dritten Schicht geben die Ergebniszustande aus, der Wert der Markierungen von solchen Zustanden kann die 5 Kennzeichen sein: L = {"N-B", "N-I", "P-B", "P-I", "O"}, das steht für der Wertraum des markierten Kennzeichens jeder Position der Sequenz während der Sequenzmarkierungsprozesses. Dabei steht das Kennzeichen N-B für das Kennzeichen der Anfangsposition des negativen Emotionsobjekts. N-I steht für das nachfolgende Kennzeichen des negativen Emotionsobjekts (nämlich soll das letzte Kennzeichen N-B oder N-I sein). Das Kennzeichen P-B für das Kennzeichen der Anfangsposition des positiven Emotionsobjekts. P-I steht für das nachfolgende Kennzeichen des positiven Emotionsobjekts (analog dazu soll das letzte Kennzeichen P-B oder P-I sein). Das Kennzeichen O steht für alle anderen Kennzeichen, nämlich yi ∊ L. Z.B. ist die Sequenz {"Handy", "Bildschirm", "Sehr", "Klar"}, "Handybildschirm" ist ein positives emotionales Objekt, und das entsprechende Markierungsergebnis ist {"P-B", "P-I", "O", "O"}.
  • Im Modell stehen zwei Gesamtknoten g1 und g2 für zwei separate einzelne Emotionsobjekte, deshalb kann der Wert nur die drei Kennzeichen sein: {"N-B", "P-B", "O"}. Es kann ein positives Emotionsobjekt sein, nämlich ist P-B das Kennzeichn, oder es ist ein negatives Emotionsobjekt, nämlich ist N-B das Kennzeichen, oder es ist kein Emotionsobjekt, nämlich ist "O" das Kennzeichen. Es kann nicht das nachfolgende Kennzeichen des Emotionsobjekts N-I und P-I sein.
  • Um die Flexibilität und die Erweiterbarkeit der Emotionsobjektsidentifizierung zu verbessern, wird das Modell des konditionalen Randomfeldes in der vorliegenden Erfindung nicht auf die in 9 dargestellten Bildergebnisse beschränkt, die Darstellung der nicht-dominanten Eigenschaft wird auch nicht auf die zwei verdeckten Knoten g1 und g2 beschränkt, dabei ist die Erweiterung auf die in 11 dargestellte g1...gn (n > = 1) möglich.
  • Die vorstehenden ausführlichen Ausführungsformen sind eine weitere nähere Erläuterung für das Ziel, die technische Lösung und die Vorteile der vorliegenden Erfindung. Es versteht sich, dass der vorstehende Inhalt lediglich die ausführliche Ausführungsform der vorliegenden Erfindung ist. Darauf wird die vorliegende Erfindung nicht beschränkt. Alle auf der Grundlage des Konzepts und Prinzips der vorliegenden Erfindung durchgeführten Änderungen, äquivalenten Ersatze und Verbesserungen sollen als vom Schutzumfang der vorliegenden Erfindung angesehen werden.

Claims (10)

  1. Suchsystem der Emotionsentität für das Microblog, dadurch gekennzeichnet, dass es folgende 5 Module aufweist: eine Benutzerschnittstelle für die Interaktivität zwischen dem System und dem Benutzer, wobei der Benutzer durch das Modul eine Abfrage vorlegen und eine Rückkopplung erhalten kann; ein Abfrageerweiterungsmodul zum Mining der Wörterbeziehung der Microblog-Sprachendaten, wobei im Zusammenhang mit der Word-Net-Essenzbank ein Beziehungsdiagramm der gewichteten Wörter errichtet wird; ein Abfrageverarbeitungsmodul zur Umwandelung der Abfrage des Benutzers in die Abfrageschlüsselwörter und Abfrageworte, die akzeptierbar für die Indexbank sind, wobei eine Abfrageerweiterung auf dem durch das Modul (2) errichteten Beziehungsdiagramm der Wörter basierend ausgeführt wird; ein Mining-Modul der Emotionsinformation zum Mining der Emotionen in der Microblog-Sprachenbank, wobei die Beurteilungsregel für die Emotionsentität und die emotionale Polarität generiert werden; ein Beurteilungs- und Indexerrichtungsmodul der Emotionsinformation zur Beurteilung der Emotionsentität und der emotionalen Polarität der Microblog-Daten, um den Index der Emotionsinformation zu errichten und zu speichern; ein Errichtungsmodul des invertierten Indexes zur Errichtung des invertierten Indexes für die Microblog-Textinformation und zur Speicherung.
  2. Suchsystem der Emotionsentität für das Microblog nach Anspruch 1, dadurch gekennzeichnet, dass beim Modul (1) die Abfrageerweiterung durch folgende Schritte realisiert wird: Mining der Relevanzregel für die Daten in der Microblog-Sprachenbank, Ausgabe der relevanten Wörtergruppe, die durch das Mining der Relevanzregel erhalten wird; Errichtung des Beziehungsdiagramms der gewichteten Wörter im Zusammenhang mit dem im Schritt (11) erhaltenen Frequenzartikel und der WordNet-Essenzbank.
  3. Suchsystem der Emotionsentität für das Microblog nach Anspruch 1, dadurch gekennzeichnet, dass im Schritt (11) die Frequenzartikelgruppen der Microblog-Sprachenbank mit Hilfe vom Eclat-Algorithmus aufgefunden werden, wobei die Relevanzwörtergruppe generiert wird, und wobei die Relevanzwörtergruppe und die WordNet-Essenzbank durch die Kartografierung oder die Einsetzung ein Beziehungsdiagramm der gewichteten Wörter ausbilden; und wobei bei der Errichtung des Beziehungsdiagramms der gewichteten Wörter die Gewichtsberechnungsmethode des Knotens wie folgt ist: f(d) = deg(d) = deg+(d) + deg(d) und wobei deg(d)deg+(d)deg(d) jeweils Grad, Außengrad und Innengrad des Knotens sind; und wobei die Berechnungsmethode des Kantengewichts wie folgt ist:
    Figure DE112013004082T5_0009
    und wobei lift(di → dj) der Relevanzsgrad von di, dj ist, der mit Hilfe des Eclat-Algorithmuses erhalten wird.
  4. Suchsystem der Emotionsentität für das Microblog nach Anspruch 1, dadurch gekennzeichnet, dass beim Modul (3) die Abfrageverarbeitung durch folgende Schritte realisiert wird: Empfang der durch den Benutzer eingegebenen Abfragewörter oder Worte; Durchführung der Wortsegmentierung, der Entfernung des Stoppworts und der Bestimmung des Stichworts für die Eingabe des Benutzers, um ein Stichwort oder mehrere Stichwörter zu erhalten; Auswahl eines passenden Erweiterungsworts aus dem durch die Essenz und die Regelwörter ausgebildeten Beziehungsdiagramm der gewichteten Wörter für das Stichwort, wobei eine Gewichtsberechnung für das Erweiterungswort durchgeführt wird; Auswahl der p Wörter mit größtem Gewicht und Hinzufügung in der Suchwörtergruppe, wobei die Erweiterungswörtergruppe in die Abfrageschnittstelle eingegeben wird.
  5. Suchsystem der Emotionsentität für das Microblog nach Anspruch 4, dadurch gekennzeichnet, dass im Schritt (33) eine Gewichtsberechnung wie folgt für das Erweiterungswort durchgeführt wird: Wobei das eigentliche Suchwort als q = (q1, q2, qm) angenommen wird, und wobei der Artikel qi ni nächste Wörter
    Figure DE112013004082T5_0010
    hat, und wobei die Berechnungsmethode des Relevanzsgrades zwischen dem eigentlichen Suchwort qi und dem nächsten Wort dij ist:
    Figure DE112013004082T5_0011
    und wobei W(qi, dij) der Relevanzsgrad zwischen dem Wort qi und dem Wort dij ist, und wobei g(qi, dij) das Gewicht von den beiden Wörtern ist, und wobei f(dij) der Grad des Worts dij ist, und wobei die Gewichtsberechnungsmethode aller nächsten Wörter
    Figure DE112013004082T5_0012
    ist.
  6. Suchsystem der Emotionsentität für das Microblog nach Anspruch 1, dadurch gekennzeichnet, dass beim Modul (4) die Identifizierung und die Beurteilung der Emotionsentität durch folgende Schritte realisiert werden: Sammlung von repräsentativen Microblog-Daten; Vorverarbeitung der gesammelten Microblog-Daten, einschließlich Bereinigung, Transformation, Wandlung, Satzsegmentierung, Wortsegmentierung, Wortart-Markierung und Syntaxanalyse etc; Durchführung der Merkmalsextraktion für die Microblog-Daten, die als Merkmalsvektoren ausgedrückt werden; Training des Erkennungsmodell der Emotionsentität, um die Modellparameter zu erhalten; Ausgabe und Speicherung des Beurteilungsmodells der Emotionsentität.
  7. Suchsystem der Emotionsentität für das Microblog nach Anspruch 6, dadurch gekennzeichnet, dass im Schritt (43) die Merkmalsextraktion wie folgt realisiert wird: wobei im Zusammenhang mit dem Kontext der Wörter ein benutzerdefiniertes Wörterbuch mit gesamten Merkmalen gestaltet wird, und wobei in Übereinstimmung mit dem benutzerdefinierten Wörterbuch die Merkmalsextraktion der Microblog-Daten durchgeführt wird, und wobei die Microblog-Daten ins Eingabedatenformat umgewandelt werden, die das Erkennungsmodell der Emotionsentität verarbeiten kann.
  8. Suchsystem der Emotionsentität für das Microblog nach Anspruch 6, dadurch gekennzeichnet, dass im Schritt (44) das Erkennungsmodell der Emotionsentität wie folgt realisiert wird: wobei im Modell des konditionalen Randomfeldes (CRF) die Knoten der gesamten Merkmale eingeführt werden, um ein GLCRF-Modell zu errichten, in dem die gesamten Merkmale hinzugefügt werden, und wobei die Trainings unter der Verwendung vom L-BFGS-Algorithmus durchgeführt werden, um die Modellparameter zu erhalten.
  9. Suchsystem der Emotionsentität für das Microblog nach Anspruch 1, dadurch gekennzeichnet, dass beim Modul (5) die Beurteilung der emotionalen Polarität vom Microblog durch folgende Schritte realisiert wird: Entfernung des Microblog-Rausches und Umwandlung der semantischen Form; Wortsegmentierung, Wortart-Markierung und Analyse der chinesischen Grammatik; Extraktion der Emotionswortgruppe im Zusammenhang mit dem Emotionswörterbuch; Filterung der Emotionswortgruppe; Beurteilung der emotionalen Polarität und Ausgabe der Ergebnisse.
  10. Suchsystem der Emotionsentität für das Microblog nach Anspruch 9, dadurch gekennzeichnet, dass im Schritt (53) die Emotionswortgruppe mit der sentiPY-Methode extrahiert wird, wobei die Form der Emotionswortgruppe einheitlich als phrase:modifier·sentiment ausgedrückt wird, und wobei nämlich eine Wortgruppe ein zentrales emotionales Wort beinhaltet, und wobei die Wortgruppe gleichzeitig mehrere Adverbien zur Modifikation zusätzlich beinhalten kann; und wobei im Schritt (55) die emotionale Polarität vom Microblog mit Hilfe von dem auf dem emotionalen Landepunkt basierenden Mischentscheidungsalgorithmus beurteilt wird, und wobei der Beurteilungsprozess folgende Schritte beinhalten: Beurteilung, ob ein Satz ein Zusammenfassungswort beinhalt, wenn nicht, geht es zum Schritt (552); wenn ja, werden die Wörter nach dem Zusammenfassungswort als emotionaler Landepunkt benutzt, wobei die Polarität des emotionalen Landepunkts als die emotionale Polarität vom Microblog ausgegeben wird; Benutzung des Satzanfangs und des Satzendes des Microblogs als emotionaler Landepunkt, wobei die emotionalen Polaritäten des Satzanfangs und Satzendes verglichen werden, und wobei es zum Schritt (553) geht, wenn die beiden emotionalen Polaritäten einander neutralisieren, und wobei sonst die stärkere emotionale Polarität als emotionalen Polarität vom Microblog ausgegeben wird; Berechnung der Stärken der Emotionswörter des ganzen Microblogs, wobei die Stärken aufsummiert und gemittelt werden, und wobei die mittlere Stärke als emotionale Polarität vom Microblog ausgegeben wird.
DE112013004082.4T 2013-09-29 2013-12-06 Suchsystem der Emotionsentität für das Microblog Withdrawn DE112013004082T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310461443.6 2013-09-29
CN201310461443.6A CN103544242B (zh) 2013-09-29 2013-09-29 面向微博的情感实体搜索***
PCT/CN2013/088772 WO2015043075A1 (zh) 2013-09-29 2013-12-06 面向微博的情感实体搜索***

Publications (1)

Publication Number Publication Date
DE112013004082T5 true DE112013004082T5 (de) 2015-07-23

Family

ID=49967694

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112013004082.4T Withdrawn DE112013004082T5 (de) 2013-09-29 2013-12-06 Suchsystem der Emotionsentität für das Microblog

Country Status (3)

Country Link
CN (1) CN103544242B (de)
DE (1) DE112013004082T5 (de)
WO (1) WO2015043075A1 (de)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095270B (zh) * 2014-05-12 2019-02-26 北京大学 检索装置和检索方法
CN105095271B (zh) * 2014-05-12 2019-04-05 北京大学 微博检索方法和微博检索装置
US9836529B2 (en) * 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
CN104217026B (zh) * 2014-09-28 2017-08-11 福州大学 一种基于图模型的中文微博客倾向性检索方法
CN104346326A (zh) * 2014-10-23 2015-02-11 苏州大学 一种情绪文本的情绪特征确定方法及装置
CN104516947B (zh) * 2014-12-03 2017-08-22 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN104484437B (zh) * 2014-12-24 2018-07-20 福建师范大学 一种网络短评情感挖掘方法
CN104598588B (zh) * 2015-01-19 2017-08-11 河海大学 基于双聚类的微博用户标签自动生成算法
CN105989176A (zh) * 2015-03-05 2016-10-05 北大方正集团有限公司 数据处理方法及装置
CN104794212B (zh) * 2015-04-27 2018-04-10 清华大学 基于用户评论文本的上下文情感分类方法及分类***
CN105183803A (zh) * 2015-08-25 2015-12-23 天津大学 一种社交网络平台中的个性化搜索方法及其搜索装置
CN105183807A (zh) * 2015-08-26 2015-12-23 苏州大学张家港工业技术研究院 一种基于结构句法的情绪原因事件识别方法及***
CN105045925A (zh) * 2015-08-26 2015-11-11 苏州大学张家港工业技术研究院 一种基于crf模型的情绪原因事件识别方法及***
CN106599737A (zh) * 2015-10-19 2017-04-26 北京奇虎科技有限公司 信息显示方法、信息显示装置和终端
CN106610990B (zh) * 2015-10-22 2020-12-29 北京国双科技有限公司 情感倾向性分析的方法及装置
CN106910512A (zh) * 2015-12-18 2017-06-30 株式会社理光 语音文件的分析方法、装置及***
US20200168343A1 (en) * 2016-02-29 2020-05-28 Koninklijke Philips N.V. Device, system, and method for classification of cognitive bias in microblogs relative to healthcare-centric evidence
CN105589976B (zh) * 2016-03-08 2019-03-12 重庆文理学院 基于语义相关度的目标实体确定方法及装置
CN113837531A (zh) * 2016-05-30 2021-12-24 中国计量大学 一种基于网络评论的产品质量问题发现及风险评估方法
CN107515877B (zh) * 2016-06-16 2021-07-20 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106339368A (zh) * 2016-08-24 2017-01-18 乐视控股(北京)有限公司 文本情感倾向的获取方法及装置
CN106776566B (zh) * 2016-12-22 2019-12-24 东软集团股份有限公司 情感词汇的识别方法及装置
CN107330041A (zh) * 2017-06-27 2017-11-07 达而观信息科技(上海)有限公司 一种基于时间衰减的相关搜索词挖掘方法及***
US10901989B2 (en) * 2018-03-14 2021-01-26 International Business Machines Corporation Determining substitute statements
CN108629005B (zh) * 2018-05-04 2021-10-22 北京林业大学 一种地震应急的主题词的探测方法及装置
CN108897778B (zh) * 2018-06-04 2021-12-31 创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法
CN110852095B (zh) * 2018-08-02 2023-09-19 ***股份有限公司 语句热点提取方法及***
CN109359296B (zh) * 2018-09-18 2023-08-18 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN110929026B (zh) * 2018-09-19 2023-04-25 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN109376239B (zh) * 2018-09-29 2021-07-30 山西大学 一种用于中文微博情感分类的特定情感词典的生成方法
CN109635081B (zh) * 2018-11-23 2023-06-13 上海大学 一种基于词频幂律分布特性的文本关键词权重计算方法
CN110110744A (zh) * 2019-03-27 2019-08-09 平安国际智慧城市科技股份有限公司 基于语义理解的文本配对方法、装置及计算机设备
CN111950278A (zh) * 2019-05-14 2020-11-17 株式会社理光 一种序列标注方法、装置及计算机可读存储介质
CN110188200A (zh) * 2019-05-27 2019-08-30 哈尔滨工程大学 一种使用社交上下文特征的深度微博情感分析方法
CN110442857B (zh) * 2019-06-18 2024-05-10 平安科技(深圳)有限公司 情感智能判断方法、装置及计算机可读存储介质
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110321562B (zh) * 2019-06-28 2023-06-02 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
CN110851589B (zh) * 2019-08-28 2023-06-23 湖北科技学院 表情符与文本的情感交互机制表示与识别模型建立方法
CN112711650B (zh) * 2019-10-24 2024-04-12 富驰律法(北京)科技有限公司 一种公益诉讼线索挖掘方法及***
CN112711693B (zh) * 2019-10-24 2024-04-09 富驰律法(北京)科技有限公司 一种基于多特征融合的诉讼线索挖掘方法及***
CN110991637B (zh) * 2019-11-27 2023-06-16 国网能源研究院有限公司 一种公司形象提升***的社交网络数据提取方法及***
CN111401074A (zh) * 2020-04-03 2020-07-10 山东爱城市网信息技术有限公司 一种基于Hadoop的短文本情感倾向性分析方法、***及装置
CN111666752B (zh) * 2020-04-20 2023-05-09 中山大学 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN111626050B (zh) * 2020-05-25 2023-12-12 安徽理工大学 基于表情词典与情感常识的微博情感分析方法
CN111400617B (zh) * 2020-06-02 2020-09-08 四川大学 基于主动学习的社交机器人检测数据集扩展方法及***
CN111914556B (zh) * 2020-06-19 2023-10-31 合肥工业大学 基于情感语义转移图谱的情感引导方法及***
CN111950273B (zh) * 2020-07-31 2023-09-01 南京莱斯网信技术研究院有限公司 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112069312B (zh) * 2020-08-12 2023-06-20 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置
CN112053758B (zh) * 2020-08-27 2024-04-16 北京颢云信息科技股份有限公司 一种单病种数据库智能构建方法
CN112100325A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种基于分层门控循环单元的人机对话情感分析方法
CN112580336A (zh) * 2020-12-25 2021-03-30 深圳壹账通创配科技有限公司 信息校准检索方法、装置、计算机设备及可读存储介质
CN112699240A (zh) * 2020-12-31 2021-04-23 荆门汇易佳信息科技有限公司 中文情感特征词智能动态发掘和归类方法
CN113064991B (zh) * 2021-03-17 2024-04-19 西北工业大学 一种基于人机协作的微博事件真假检测方法
CN113297934B (zh) * 2021-05-11 2024-03-29 国家计算机网络与信息安全管理中心 检测互联网暴力有害场景的多模态视频行为分析方法
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质
CN113486243B (zh) * 2021-07-13 2023-09-05 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和***
CN113656641A (zh) * 2021-08-23 2021-11-16 严大莲 支持模糊评论挖掘的视频高效检索***
CN113688620B (zh) * 2021-08-26 2024-03-22 北京阅神智能科技有限公司 文章情感分析方法和装置
CN113779976B (zh) * 2021-09-27 2023-07-07 成都数之联科技股份有限公司 裁判规则提取方法及***及装置及介质
CN114168730A (zh) * 2021-11-26 2022-03-11 一拓通信集团股份有限公司 一种基于BiLSTM和SVM的消费倾向分析方法
CN114997398B (zh) * 2022-03-09 2023-05-26 哈尔滨工业大学 一种基于关系抽取的知识库融合方法
CN116501841B (zh) * 2023-06-26 2023-09-08 深圳市唯特视科技有限公司 数据模型模糊查询方法、***及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225043A1 (en) * 2010-03-12 2011-09-15 Yahoo! Inc. Emotional targeting
CN102073692B (zh) * 2010-12-16 2016-04-27 北京农业信息技术研究中心 基于农业领域本体库的语义检索***和方法
CN102279890A (zh) * 2011-09-02 2011-12-14 苏州大学 基于微博的情感词提取收集方法

Also Published As

Publication number Publication date
WO2015043075A1 (zh) 2015-04-02
CN103544242B (zh) 2017-02-15
CN103544242A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
DE112013004082T5 (de) Suchsystem der Emotionsentität für das Microblog
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN109213999B (zh) 一种主观题评分方法
CN108874878B (zh) 一种知识图谱的构建***及方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107818164A (zh) 一种智能问答方法及其***
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
CN106484664A (zh) 一种短文本间相似度计算方法
CN107368468A (zh) 一种运维知识图谱的生成方法及***
CN106021272A (zh) 基于分布式表达词向量计算的关键词自动提取方法
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及***
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及***
CN109344187B (zh) 一种司法判决书案情信息结构化处理***
DE112018005813T5 (de) Erleichterung von domänen- und kundenspezifischen empfehlungen für anwendungsprogramm-schnittstellen
CN107273358A (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN114265937A (zh) 科技情报的智能分类分析方法、***、存储介质及服务器
CN110147552A (zh) 基于自然语言处理的教育资源质量评价挖掘方法及***
CN115905487A (zh) 文档问答方法、***、电子设备及存储介质
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: CANZLER & BERGMEIER PATENTANWAELTE, DE

Representative=s name: PATENTANWAELTE CANZLER & BERGMEIER PARTNERSCHA, DE

R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee