JP7164701B2 - セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 - Google Patents

セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP7164701B2
JP7164701B2 JP2021501074A JP2021501074A JP7164701B2 JP 7164701 B2 JP7164701 B2 JP 7164701B2 JP 2021501074 A JP2021501074 A JP 2021501074A JP 2021501074 A JP2021501074 A JP 2021501074A JP 7164701 B2 JP7164701 B2 JP 7164701B2
Authority
JP
Japan
Prior art keywords
theme
semantic
text data
tag
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021501074A
Other languages
English (en)
Other versions
JP2021518027A (ja
Inventor
ウィー,ワン
シュエタオ,チウ
スーシュアン,ワン
シャオハン,シェ
ヤン,ワン
チー,ジャン
ジージュン,フェイ
Original Assignee
チャイナ ユニオンペイ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by チャイナ ユニオンペイ カンパニー リミテッド filed Critical チャイナ ユニオンペイ カンパニー リミテッド
Publication of JP2021518027A publication Critical patent/JP2021518027A/ja
Application granted granted Critical
Publication of JP7164701B2 publication Critical patent/JP7164701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、データ処理方法に関し、特に、セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体に関する。
モバイルインターネットの発展に伴い、人々は、モバイルデバイスを利用して観点を発表したり、関連するコンサルティングを求めたりする傾向が高まっている。例えば、APPのセルフサービスによるメッセージコンサルティング、ミニブログなどのSNSを利用して考え方を表明するなどがある。このような状況では、大量の構造化されていないショートテキストデータが生成されるが、これらのデータには、多くの場合、ユーザの主要な要望や製品とサービスの最適化に関するアドバイスが含まれていることがある。
これらの価値の高いデータに対して、関連部門は、日常的な分析作業において、多くの場合は、まずテキスト分類を行うが、従来のやり方は、主に手動的なマーキングにより行われるため、非効率的である。そのため、これらデータに対する分析及びマイニング能力、特に自動マイニングレベルを向上させることで、日常的な運用コストを大幅に削減させることができる。また、現在のモバイルネットワークでは、ユーザのコメントデータテキストは短く、口語化が激しく、情報価値がばらばらしており、言語スタイルが不規則であり、性格の異なるユーザの表現方式がそれぞれ異なるため、従来のセマンティック解析による特徴抽出に大きな課題を与えている。
従来のショートテキスト分類方法は、主に、大量のユーザの標識サンプルコーパスに基づいて分類モデルを訓練し、その主な特徴は、ユーザがサンプルコーパスを分析し、固定的なサンプル分類タグ体系を人工的に定義することである。定義された業務分類タグ体系に基づいて、人工的にサンプルコーパス中の各サンプルを1つずつスクリーニングし、サンプルに適切なタグを付けて、分類モデルを訓練するサンプルデータセットを構築する。構築されたサンプルデータセットに対して分類モデルを訓練する。ベクトル空間モデル、「頻出単語セット抽出」、または用語頻度-逆文書頻度(TF-IDF)の方法に基づいて、ショートテキストの特徴を抽出し、さらに、抽出したテキスト特徴に基づいて、分類アルゴリズム、例えばSVMを利用して訓練を行い、最終的な分類モデルを形成する。
本発明は、ユーザのコメント等のセマンティックテキストデータを分類するために、セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体を提案する。
本発明の一態様によれば、セマンティックテキストデータをタグとマッチングさせる方法であって、複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得することと、複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定することと、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングすることと、決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、マッピングされていないセマンティックテキストデータを前記訓練データに基づいて前記タグにマッチングさせることと、を含むことを特徴とする方法が提供される。
オプションとして、前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む。
オプションとして、前記前処理は、否定セマンティック及び/又は疑問セマンティック
を含む前記複数のセマンティックテキストデータのみを抽出することを含む。
オプションとして、前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈の再現の関連程度を示す。
オプションとして、前記複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定することは、前記オリジナルコーパスデータにおける全てのセマンティック独立メンバーをインデックスすることと、前記セマンティック独立メンバーの前記オリジナルコーパスデータにおける単語ベクトルを決定し、かつ前記セマンティック独立メンバーの任意の2つの間の類似性を決定することと、前記インデックス及び前記類似性に基づいて、セマンティック独立メンバー対の類似性マトリックスを構築することと、を含む。
オプションとして、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、前記類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマと前記セマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを含む。
オプションとして、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、を含む。
オプションとして、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、各クラスタリングにおける前記最大確率テーマの数を決定することと、クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、を含む。
オプションとして、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数の
セマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする。
オプションとして、異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、 確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる。
本発明の別の態様によれば、セマンティックテキストデータをタグとマッチングさせる装置であって、複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得する前処理ユニットと、複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定するテーマモデルユニットと、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングするタグ決定ユニットと、決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、マッピングされていないセマンティックテキストデータを前記訓練データに基づいてタグにマッチングさせるタグマッチングユニットと、を含むことを特徴とする装置を提供する。
オプションとして、前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む。
オプションとして、前記前処理は、否定セマンティック及び/又は疑問セマンティック
を含む前記複数のセマンティックテキストデータのみを抽出することを含む。
オプションとして、前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈の再現の関連程度を示す。
オプションとして、前記テーマモデルユニットが、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定することは、前記オリジナルコーパスデータにおける全てのセマンティック独立メンバーをインデックスすることと、前記セマンティック独立メンバーの前記オリジナルコーパスデータにおける単語ベクトルを決定し、かつ前記セマンティック独立メンバーの任意の2つの間の類似性を決定することと、前記インデックス及び前記類似性に基づいて、セマンティック独立メンバー対の類似性マトリックスを構築することと、を含む。
オプションとして、前記テーマモデルユニットが、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、前記類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマと前記セマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、含む。
オプションとして、前記タグ決定ユニットが、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、を含む。
オプションとして、前記タグ決定ユニットが、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、各クラスタリングにおける前記最大確率テーマの数を決定することと、クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、を含む。
オプションとして、前記タグ決定ユニットは、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする。
オプションとして、前記タグ決定ユニットは、異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる。
また、本発明の別の態様によれば、命令を格納するコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサによって実行される場合、前記プロセッサは、請求項1~10のいずれかに記載の方法を実行するように構成されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体が提供される。
本発明の上記の目的ならびに他の目的および利点は、添付された図面と併せた以下の詳細な説明により、さらに明らかになる。ここで、同一または類似の要素は、同一の符号を付けて示す。
図1は、本発明の一実施例に係るセマンティックテキストデータをタグとマッチングさせる方法のフローチャートを示す。 図2は、本発明の一実施例に係る前処理のフローチャートを示す。 図3は、本発明の一実施例に係るテーマモデルを構築するフローチャートを示す。 図4は、本発明の一実施例に係る分類タグ学習のフローチャートを示す。 図5は、本発明の一実施例に係る分類モデル訓練のフローチャートを示す。 図6は、本発明の一実施例に係るK-meansクラスタリングの概略図を示す。 図7は、本発明の一実施例に係るSVM分類器の各カテゴリタグの予測結果を示す。
簡潔さおよび説明の目的で、本明細書は、主に例示的な実施例を参照して本発明の原理を説明する。しかし、当業者は、同じアルゴリズムが、全てのタイプの視覚認識システムに用いる性能テストシステム及び/又は性能テスト方法に均等に適用されることができ、その中でこれらの同一または類似のアルゴリズムが実施可能であることを容易に認識できる。これらのあらゆる変更は、いずれも、本特許出願の思想及び範囲を逸脱しない。
実施例1
図1を参照すると、本発明の一実施例に係るセマンティックテキストデータをタグとマッチングさせる方法のフローチャートが示されている。ステップ102では、ユーザのコメントデータを前処理する。前処理の目的は、ユーザのコメントなどのセマンティックテキストデータを処理して、セマンティックが独立したメンバー(英単語、中国語語彙などの形態素)、及びオリジナルコーパスデータを得ることである。各セマンティックが独立したメンバーは、セマンティック解析のための独立ユニットであり、特に、セマンティックが独立したメンバーは、セマンティック解析のための最小のユニットであってもよい。
図2に示された実施例では、セマンティックが独立したメンバーを得るために、jiebaなどの中国語の単語分割ツールキットによって単語分割を実現することができる(ステップ202)。次に、単語分割後の独立メンバーに対して、ストップワードの除去、非中国語文字の除去、数字記号の除去、及び語句の誤り訂正等の操作を行う(ステップ204)。次に、選択可能な前処理として、ユーザの主な意図が含まれた文を抽出することもできる(図示せず)。例えば、ユーザのコメント内容であるデータプラットフォームのユーザフィードバック情報において、否定語または疑問語を含む文章のみを抽出し、元のサンプルの中核文とし、セマンティックが独立したメンバーやオリジナルコーパスデータをさらに取得することができる。抽出が難しい場合、当該ステップを直接スキップしてもよい。最後に、ステップ206では、複数のセマンティックが独立したメンバーを用いて、アオリジナルコーパスデータを形成する。
ステップ104では、テーマモデルを決定する。ナチュラルテキストにおける形態素の再現関係に基づいて、任意の2つの形態素間の関連度を決定し、関連度からその関連に対応するテーマを決定した後、形態素とテーマとのマッピング確率の関係を決定する。再現関係は、形態素間のセマンティックの関連程度を反映している。例えば、一文(または一節の文字など)において、「支払い」と文脈のセマンティックとの関連性がある特定の値Xに達し、「カード決済」と文脈のセマンティックとの関連性がある特定の値Yに達し、X≒Yであれば、「支払い」と「カード決済」はセマンティックの関連度が強いと見なすことができる。ここで、「支払い」と文脈のセマンティックとの関連性は、統計などを介して取得することができるので、「支払い」と文脈のセマンティックとの関連性は、統計において、ナチュラルテキストでの再現に基づいて決定される。ナチュラルテキストは、考察、処理のためのオブジェクトテキスト(本明細書ではオリジナルコーパスデータ)であってもよいし、百度百科(Baidu Baike)、ウィキペディア、捜狗インターネットコーパスなどの意味のある任意のナチュラルテキストコーパスであってもよい。
具体的には、ステップ104は、図3に示された実施例によって実施されることができる。ステップ402では、単語ベクトルを訓練する。前処理されたコーパスに対しては、gensimツールキットによって単語ベクトルの訓練を実現し、後続のショートテキストのモデリングに用いられる。収集されたデータが少ない場合、単語ベクトルの訓練効果が普通であり、捜狗インターネットコーパスなどの大型の中国語コーパスを補充的に導入することや、Googleオープンソースの中国語ベクトルモデルをそのまま採用することが考えられる。単語ベクトルは、TF-IDFが単語間のセマンティックの類似性を測定できないという欠点を補うことができる。
ステップ404では、単語対類似性マトリックスを作成する。テキスト中の異なる語彙のインデックスを作成し、インデックスは語彙のラベルとして存在する。
ステップ406では、まず、中国レストランプロセス(CRP)に基づいて、単語対-
テーマの確率分布マトリックスを生成することができる。そして、単語対集合に基づいて各文書に現れる単語対の数を統計し、全ての単語対が文書で現れる数を1×N次元のマトリックスで記憶する。単語対は、基本形態素である任意の二つの語彙のペアである。最後に、単語対類似性マトリックスSimが作成され、以降の処理に使用される。
ステップ408では、Simマトリックスを用いてギブス反復サンプリングを行い、単語対テーマモデルにおけるギブスサンプリングにより、全体コーパス‐テーママトリックス、及びテーマ‐単語対マトリックスを取得し、テキストモデルを構築する。具体的なプロセスは次のとおりである。
まず、単語対テーマモデルの初期化パラメータを設定する。ディリクレ分布のアプリオリパラメータα=0.5、β=0.1、反復最大回数iteration=100、中間結果を保存するステップサイズsavestep=10などである。
次に、コーパスの単語対集合をループトラバースし、サンプリング処理毎に単語対間の類似性を考慮して、単語対のテーマを割り当て、その中、単語対の類似性は、主に中国レストランプロセスに基づいて生成される。
Figure 0007164701000001
ここで、diは、テーマiの既存の単語対数を表し、n-1は、現在の単語対の前に既にある単語対の総数を表し、d0は、初期パラメータである。p(Dn=k|D-n)は、単語対Dnがテーマkに割り当てられる確率を表す。
再度、単語対のテーマ割当に基づいて、コーパス‐テーママトリックス、及びテーマ‐単語対マトリックスを更新し、さらに反復回数がsavestepの整数倍に達したか否かを判断し、達していなければ、コーパスの単語対集合をトラバースし続ける。
最後に、コーパス‐テーママトリックス、及びテーマ-単語対マトリックスを保存し、
反復回数が最大反復回数(100回)に達したか否かを判断し、達していなければ、コーパスの単語対集合をトラバースし、最終的に生成されたコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを保存する。
図1に戻り、ステップ106では、分類タグの学習を行う。具体的には、図4に示すように、推論によりユーザコメント‐テーマ確率分布マトリックス(ステップ604)、及びテーマ-単語確率分布マトリックス(ステップ602)が生成される。ショートテキス
トのテーママトリックスを用いてショートテキストを表す。すなわち、テーマの確率分布を用いてショートテキストの特徴を表す。
Figure 0007164701000002
ここで、p(zi|di)は、ショートテキストdiにおけるテーマziの確率を表し、kは、ショートテキストコーパス全体におけるテーマの数である。
ステップ606では、コーパス全体をK-Meansクラスタリングなどの方法でクラスタリングし、クラスタリングアルゴリズムではJS距離を用いてテキストの類似度を測定することができる。
Figure 0007164701000003
ステップ608では、クラスタリング内の全てのユーザコメントコーパスをトラバースし、ユーザコメント‐テーママトリックスに基づいて、各コメントデータの最大確率テーマを見つけ、異なる最大確率テーマの数を統計し、数が最大のテーマをクラスタリングテーマとして抽出する(ステップ610)。ステップ612では、さらに、当該テーマ-単語の確率マトリックスから、確率値が最も高い上位n個の語句を当該クラスタリングのタグ情報として選択する。クラスタリング毎のタグキーワードに対して、重複されているかをチェックし、異なるクラスタリングにおいてキーワードが重複されていると、それぞれのクラスタリングに対応するテーマでキーワードを選び直する。その同じキーワードのそれぞれのテーマでの確率値を見て、確率値の小さいキーワードが、次の確率値の語彙またはフレーズに置き換えられる。
図1に戻り、ステップ108では、分類モデルの訓練を行う。具体的には、図5に示された実施例のようである。ステップ802では、ステップ106で学習した分類種別情報に基づいて、ユーザコメントコーパスに自動的に分類タグを付与し、ユーザコメントとタグとのマッピング関係を得る。ステップ804では、テーマをクラスタリングした後のユーザコメントに基づいて、ユーザコメントコーパスを取得する。ステップ806では、ユーザコメントコーパス毎に、テキストの特徴としてTF‐IDF及び単語ベクトルを抽出する。次に、SVM及び双方向LSTMの2種類の分類アルゴリズムを用いて分類モデルを訓練し(ステップ808)、さらに投票分類器による投票集計を行い、ユーザコメント分類モデルを構築する(ステップ810)。
実施例2
本実施例は、主に、データプラットフォームにおけるユーザのフィードバックメッセージを分析する。まず、本発明が提案したショートテキスト特徴抽出方法に基づいてデータプラットフォームにおけるユーザのフィードバックメッセージのセマンティック特徴情報を抽出し、次に、分類モデルを構築し、ユーザのフィードバックメッセージの自動分類を実現する。データ源は、特定の月のデータプラットフォームAPPにおけるユーザのフィードバックメッセージデータである。オリジナルデータは、主にテキストの形で保存されており、具体例は表1を参照することができる。
Figure 0007164701000004
データプラットフォームのユーザフィードバックメッセージの自動分類は、例えば、次のように行うことができる。
ステップ1、フィードバックメッセージデータの前処理
大量のデータの分析をによると、ほとんどの場合、ユーザは否定語あるいは疑問詞を使用して質問するので、キー情報をさらに絞り込むためには、次のような方法を採用してユーザフィードバックメッセージの否定ウィンドウを抽出する。
1.1一般的な中英記号(例えば、全角、半角のコンマ、句点等)を利用して文章をい
くつかの短句に分ける。
1.2最初の否定語あるいは疑問詞がある短句を見つけてウィンドウとする。
1.3指定されたウィンドウサイズ(本明細書で設定した前後のステップサイズはいず
れも1である)を設定し、否定ウィンドウを抽出する。
ステップ2、データプラットフォームにおけるユーザフィードバックメッセージの特徴表示
2.1ステップ1で前処理したコーパスに対して、Googleで提案されたWord
2Vec方法におけるSkip‐gramモデルを使用して、gensimライブラリにおけるword2vec関数を用いて訓練を行う。ここで設定される単語ベクトル次元を200に設定し、Skip‐gramモデルのウィンドウサイズを5とする。表2は、例示的な結果を示す。
Figure 0007164701000005
2.2百度百科と専用分野の単語ベクトルを比較し、単語ベクトルを比較する。
Figure 0007164701000006
単語ベクトルは、支払い分野の知識をより正確に表現することができ、これは後の分類に対してより正確なセマンティック情報を提供する。
ギブスサンプリングを採用して、全体のユーザコメントコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを取得する。そのうち、ディクレ分布のアプリオリパラメータα=0.5、β=0.1、反復最大回数が500であり、中間結果を保存するためのステップサイズは10である。
ステップ3、データプラットフォームにおけるユーザフィードバックメッセージの分類タグの抽出
3.1、上記で得られた特徴マトリックスを入力として、scikit-learn機
械学習ツールキットを用いてK-meansクラスタリングを行う(図6)。なお、次のクラスタリングマージ方法と合わせて使用するために、このシーンでは、初期クラスタリングの数を60とし、最終的なクラスタリングの数は、輪郭係数とS_Dbwとで共通に決定する。
3.2クラスタリングにおけるテキストをトラバースし、テキスト‐テーマ確率分布マ
トリックスに基づいて該テキストにおける最大テーマ確率値のテーマを見つける。該クラスタリングにおける各テーマの占める割合を統計し、出現回数が最も多いテーマを見つける。テーマ‐単語マトリックスにおいて、前のステップで統計した出現回数が最も多いテーマを見つけ、該テーマにおける確率値の大きさが上位10位の語彙またはフレーズをクラスタリングとして見つけて記述する(表4、表5に示すように)。
Figure 0007164701000007
Figure 0007164701000008
ステップ4、データプラットフォームにおけるユーザメッセージの自動分類
4.1sklearnを用いて機械学習アルゴリズム(主にSVMアルゴリズムを用い
る)の分類実験を行い、指標の正確性を分類し、5分割交差検証を採用して結果の安定性を保証する。
分類モデルの構築過程で、グリッドサーチ(GridSearch)を用いて、パラメータがC=3.276、kernel='rbf'、gamma=0.01に設定された最適なSVMパラメータを得た。図7は、この構成によるタグ予測結果の一例を示す図である。
4.2実際の応用シーン、例えばデータプラットホームシーンでは、モデルの利用可能
性を向上させるために、分類予測の確率閾値を設け、予測確率種別が高くないデータに対しては人工的に処理する。モデルの適合率とリリコール率を総合的に考慮して、閾値は0.6とすることができる。
本明細書で提案したAPPユーザコメント自動返信方法を利用すると、ユーザのコメントなどのショートテキストデータにおけるホット話題の種類を効率的にマイニングすることができ、製品を使用する過程におけるユーザの主な相談ホットスポットを把握する一方で、ユーザコメントの自動分類を実現することができ、APPの運営サービスの効率を大幅に向上させることができる。
本発明で言及した分類タグ体系は、自己学習に基づく方法であり、ショートテキストコーパスにおける全てのテキスト情報を作業者が手動で分析する必要がなく、かつ後続のタグ体系の更新及びメンテナンスも自動的に完了するので、人手による作業量を大幅に低くすることができ、実際のシーンでより容易に適用することができる。本発明の分類訓練コーパスも、タグ分類の過程で生成されるため、コーパスを人工的にマーキングする必要がない。本発明は、分類タグ抽出過程において、ショートテキストコーパス全体を統合してテーマモデリングを行うため、テキストのセマンティックが疎であるという問題を効果的に緩和し、テーマ‐単語対サンプリング過程において、単語対の類似性を融合しているので、テキスト中の異なる単語対の文脈関連関係を考慮して、テキスト中のより広いセマンティック特徴を抽出することができ、セマンティック表現力がより高い。テキスト分類の過程において、各ショートテキストの特徴には、TF‐IDF計算の特徴に加えて、テーマモデル抽出の特徴も含まれ、統計的な観点から考慮するだけでなく、文脈情報の特徴も融合させている。
以上の例は、主に、本開示のセマンティックテキストデータをタグとマッチングさせる方法、セマンティックテキストデータをタグとマッチングさせる装置及び命令を格納するコンピュータ読み取り可能な記憶媒体を説明した。本発明のいくつかの実施形態を説明したが、当業者としては、本発明は、その要旨及び範囲を逸脱することなく、種々の形態で実施可能であることを理解するべきである。したがって、例示された例及び実施形態は例示的なものであって制限的なものではない。本発明は、添付の特許請求の範囲によって定義される本発明の精神及び範囲から逸脱しない限り、様々な修正及び置換を含むことができる。

Claims (19)

  1. コンピュータによってセマンティックテキストデータをタグとマッチングさせる方法であって、
    複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得することと、
    複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定することと、
    当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングすることと、
    決定された前記複数のセマンティックテキストデータと前記タグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいて前記タグにマッチングさせることと、
    を含み、
    前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする方法。
  2. 前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
    ことを特徴とする請求項1に記載の方法。
  5. 前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
    似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
    含むことを特徴とする請求項1に記載の方法。
  6. 当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
    前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
    前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
    を含むことを特徴とする請求項5に記載の方法。
  7. 前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
    前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
    各クラスタリングにおける前記最大確率テーマの数を決定することと、
    クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
    を含むことを特徴とする請求項6に記載の方法。
  8. 前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
    ことを特徴とする請求項7に記載の方法。
  9. 異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
    確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
    ことを特徴とする請求項8に記載の方法。
  10. セマンティックテキストデータをタグとマッチングさせる装置であって、
    複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得する前処理ユニットと、
    複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の2つの間の関連度を決定し、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定するテーマモデルユニットと、
    当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングするタグ決定ユニットと、
    決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいてタグにマッチングさせるタグマッチングユニットと、
    を含み、
    前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする装置。
  11. 前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
    ことを特徴とする請求項10に記載の装置。
  12. 前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
    ことを特徴とする請求項10に記載の装置。
  13. 前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
    ことを特徴とする請求項10に記載の装置。
  14. 前記テーマモデルユニットが、前記任意の2つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
    似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
    含むことを特徴とする請求項10に記載の装置。
  15. 前記タグ決定ユニットが、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
    前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
    前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
    を含むことを特徴とする請求項14に記載の装置。
  16. 前記タグ決定ユニットが、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
    前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
    各クラスタリングにおける前記最大確率テーマの数を決定することと、
    クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
    を含むことを特徴とする請求項15に記載の装置。
  17. 前記タグ決定ユニットは、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
    ことを特徴とする請求項16に記載の装置。
  18. 前記タグ決定ユニットは、
    異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
    確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
    ことを特徴とする請求項17に記載の装置。
  19. 命令を格納するコンピュータ読み取り可能な記憶媒体であって、
    前記命令がプロセッサによって実行される場合、前記プロセッサは、請求項1~9のいずれかに記載の方法を実行するように構成されている、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2021501074A 2018-12-27 2019-07-04 セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 Active JP7164701B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811610544.4A CN110032639B (zh) 2018-12-27 2018-12-27 将语义文本数据与标签匹配的方法、装置及存储介质
CN201811610544.4 2018-12-27
PCT/CN2019/094646 WO2020134008A1 (zh) 2018-12-27 2019-07-04 一种将语义文本数据与标签匹配的方法、装置以及一种储存指令的计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021518027A JP2021518027A (ja) 2021-07-29
JP7164701B2 true JP7164701B2 (ja) 2022-11-01

Family

ID=67235412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021501074A Active JP7164701B2 (ja) 2018-12-27 2019-07-04 セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US11586658B2 (ja)
JP (1) JP7164701B2 (ja)
KR (1) KR20200127020A (ja)
CN (1) CN110032639B (ja)
WO (1) WO2020134008A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515895B (zh) * 2019-08-30 2023-06-23 北京燕山电子设备厂 大数据存储***中对数据文件进行关联存储的方法及***
CN111274798B (zh) * 2020-01-06 2023-08-18 北京大米科技有限公司 一种文本主题词确定方法、装置、存储介质及终端
CN111310438B (zh) * 2020-02-20 2021-06-08 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111311450B (zh) * 2020-02-28 2024-03-29 重庆百事得大牛机器人有限公司 用于法律咨询服务的大数据管理平台及方法
CN111695358B (zh) * 2020-06-12 2023-08-08 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN114281928A (zh) * 2020-09-28 2022-04-05 ***通信集团广西有限公司 基于文本数据的模型生成方法、装置及设备
CN112989971B (zh) * 2021-03-01 2024-03-22 武汉中旗生物医疗电子有限公司 一种不同数据源的心电数据融合方法及装置
CN112926339B (zh) * 2021-03-09 2024-02-09 北京小米移动软件有限公司 文本相似度确定方法、***、存储介质以及电子设备
CN113934819B (zh) * 2021-10-14 2024-07-26 陈鹏 基于context的标签管理方法、装置、服务器及存储介质
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN114896398A (zh) * 2022-05-05 2022-08-12 南京邮电大学 一种基于特征选择的文本分类***及方法
CN116151542A (zh) * 2022-11-30 2023-05-23 上海韵达高新技术有限公司 物流订单实时监控方法、装置、设备及存储介质
CN118132818A (zh) * 2024-03-27 2024-06-04 中国科学院地理科学与资源研究所 基于意象差异的旅游区域资源评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094855A (ja) 2005-09-29 2007-04-12 Toshiba Corp 文書処理装置及び文書処理方法
JP2012042998A (ja) 2010-08-12 2012-03-01 Nec Biglobe Ltd 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP2014153977A (ja) 2013-02-12 2014-08-25 Mitsubishi Electric Corp コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
JP2017068848A (ja) 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2391967A (en) * 2002-08-16 2004-02-18 Canon Kk Information analysing apparatus
US8972410B2 (en) * 2008-07-30 2015-03-03 Hewlett-Packard Development Company, L.P. Identifying related objects in a computer database
US10536728B2 (en) * 2009-08-18 2020-01-14 Jinni Content classification system
GB2488925A (en) 2009-12-09 2012-09-12 Ibm Method of searching for document data files based on keywords,and computer system and computer program thereof
US9311386B1 (en) * 2013-04-03 2016-04-12 Narus, Inc. Categorizing network resources and extracting user interests from network activity
KR101478016B1 (ko) 2013-09-04 2015-01-02 한국과학기술정보연구원 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
US10510018B2 (en) * 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
CN106033445B (zh) 2015-03-16 2019-10-25 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机***有限公司 文本标签的提取方法和装置
CN104850650B (zh) * 2015-05-29 2018-04-10 清华大学 基于类标关系的短文本扩充方法
CN105975475A (zh) 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법
CN107301199B (zh) * 2017-05-17 2021-02-12 北京融数云途科技有限公司 一种数据标签生成方法和装置
US10311454B2 (en) * 2017-06-22 2019-06-04 NewVoiceMedia Ltd. Customer interaction and experience system using emotional-semantic computing
CN107798043B (zh) * 2017-06-28 2022-05-03 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
US10678816B2 (en) * 2017-08-23 2020-06-09 Rsvp Technologies Inc. Single-entity-single-relation question answering systems, and methods
CN107818153B (zh) * 2017-10-27 2020-08-21 中航信移动科技有限公司 数据分类方法和装置
CN108399228B (zh) * 2018-02-12 2020-11-13 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108763539B (zh) * 2018-05-31 2020-11-10 华中科技大学 一种基于词性分类的文本分类方法和***
CN108959431B (zh) * 2018-06-11 2022-07-05 中国科学院上海高等研究院 标签自动生成方法、***、计算机可读存储介质及设备
US11397859B2 (en) * 2019-09-11 2022-07-26 International Business Machines Corporation Progressive collocation for real-time discourse

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094855A (ja) 2005-09-29 2007-04-12 Toshiba Corp 文書処理装置及び文書処理方法
JP2012042998A (ja) 2010-08-12 2012-03-01 Nec Biglobe Ltd 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP2014153977A (ja) 2013-02-12 2014-08-25 Mitsubishi Electric Corp コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
JP2017068848A (ja) 2015-09-30 2017-04-06 株式会社日立製作所 自動分析方法

Also Published As

Publication number Publication date
WO2020134008A1 (zh) 2020-07-02
US20210286835A1 (en) 2021-09-16
CN110032639A (zh) 2019-07-19
JP2021518027A (ja) 2021-07-29
CN110032639B (zh) 2023-10-31
KR20200127020A (ko) 2020-11-09
US11586658B2 (en) 2023-02-21

Similar Documents

Publication Publication Date Title
JP7164701B2 (ja) セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
US11030401B2 (en) Unsupervised topic modeling for short texts
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
US20220050967A1 (en) Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
Diamantini et al. A negation handling technique for sentiment analysis
CN113961685A (zh) 信息抽取方法及装置
US20180081861A1 (en) Smart document building using natural language processing
WO2023159758A1 (zh) 数据增强方法和装置、电子设备、存储介质
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
WO2023065642A1 (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和***
JP5426292B2 (ja) 意見分類装置およびプログラム
CN114065749A (zh) 一种面向文本的粤语识别模型及***的训练、识别方法
KR102007437B1 (ko) 콘텐츠 분류 장치 및 방법
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
US20230118640A1 (en) Methods and systems for extracting self-created terms in professional area
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221020

R150 Certificate of patent or registration of utility model

Ref document number: 7164701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150