JP7164701B2

JP7164701B2 - セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP7164701B2
Application number: JP2021501074A
Authority: JP
Inventors: ウィー，ワン; シュエタオ，チウ; スーシュアン，ワン; シャオハン，シェ; ヤン，ワン; チー，ジャン; ジージュン，フェイ
Original assignee: チャイナユニオンペイカンパニーリミテッド
Priority date: 2018-12-27
Filing date: 2019-07-04
Publication date: 2022-11-01
Anticipated expiration: 2039-07-04
Also published as: WO2020134008A1; US20210286835A1; CN110032639A; JP2021518027A; CN110032639B; KR20200127020A; US11586658B2

Description

本発明は、データ処理方法に関し、特に、セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体に関する。

モバイルインターネットの発展に伴い、人々は、モバイルデバイスを利用して観点を発表したり、関連するコンサルティングを求めたりする傾向が高まっている。例えば、ＡＰＰのセルフサービスによるメッセージコンサルティング、ミニブログなどのＳＮＳを利用して考え方を表明するなどがある。このような状況では、大量の構造化されていないショートテキストデータが生成されるが、これらのデータには、多くの場合、ユーザの主要な要望や製品とサービスの最適化に関するアドバイスが含まれていることがある。

これらの価値の高いデータに対して、関連部門は、日常的な分析作業において、多くの場合は、まずテキスト分類を行うが、従来のやり方は、主に手動的なマーキングにより行われるため、非効率的である。そのため、これらデータに対する分析及びマイニング能力、特に自動マイニングレベルを向上させることで、日常的な運用コストを大幅に削減させることができる。また、現在のモバイルネットワークでは、ユーザのコメントデータテキストは短く、口語化が激しく、情報価値がばらばらしており、言語スタイルが不規則であり、性格の異なるユーザの表現方式がそれぞれ異なるため、従来のセマンティック解析による特徴抽出に大きな課題を与えている。

従来のショートテキスト分類方法は、主に、大量のユーザの標識サンプルコーパスに基づいて分類モデルを訓練し、その主な特徴は、ユーザがサンプルコーパスを分析し、固定的なサンプル分類タグ体系を人工的に定義することである。定義された業務分類タグ体系に基づいて、人工的にサンプルコーパス中の各サンプルを１つずつスクリーニングし、サンプルに適切なタグを付けて、分類モデルを訓練するサンプルデータセットを構築する。構築されたサンプルデータセットに対して分類モデルを訓練する。ベクトル空間モデル、「頻出単語セット抽出」、または用語頻度-逆文書頻度（ＴＦ－ＩＤＦ）の方法に基づいて、ショートテキストの特徴を抽出し、さらに、抽出したテキスト特徴に基づいて、分類アルゴリズム、例えばＳＶＭを利用して訓練を行い、最終的な分類モデルを形成する。

本発明は、ユーザのコメント等のセマンティックテキストデータを分類するために、セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体を提案する。

本発明の一態様によれば、セマンティックテキストデータをタグとマッチングさせる方法であって、複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得することと、複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定し、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定することと、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングすることと、決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、マッピングされていないセマンティックテキストデータを前記訓練データに基づいて前記タグにマッチングさせることと、を含むことを特徴とする方法が提供される。

オプションとして、前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む。

オプションとして、前記前処理は、否定セマンティック及び/又は疑問セマンティック
を含む前記複数のセマンティックテキストデータのみを抽出することを含む。

オプションとして、前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈の再現の関連程度を示す。

オプションとして、前記複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定することは、前記オリジナルコーパスデータにおける全てのセマンティック独立メンバーをインデックスすることと、前記セマンティック独立メンバーの前記オリジナルコーパスデータにおける単語ベクトルを決定し、かつ前記セマンティック独立メンバーの任意の２つの間の類似性を決定することと、前記インデックス及び前記類似性に基づいて、セマンティック独立メンバー対の類似性マトリックスを構築することと、を含む。

オプションとして、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、前記類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマと前記セマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを含む。

オプションとして、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、を含む。

オプションとして、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、各クラスタリングにおける前記最大確率テーマの数を決定することと、クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、を含む。

オプションとして、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数の
セマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする。

オプションとして、異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる。

本発明の別の態様によれば、セマンティックテキストデータをタグとマッチングさせる装置であって、複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得する前処理ユニットと、複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定し、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定するテーマモデルユニットと、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングするタグ決定ユニットと、決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、マッピングされていないセマンティックテキストデータを前記訓練データに基づいてタグにマッチングさせるタグマッチングユニットと、を含むことを特徴とする装置を提供する。

オプションとして、前記テーマモデルユニットが、複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定することは、前記オリジナルコーパスデータにおける全てのセマンティック独立メンバーをインデックスすることと、前記セマンティック独立メンバーの前記オリジナルコーパスデータにおける単語ベクトルを決定し、かつ前記セマンティック独立メンバーの任意の２つの間の類似性を決定することと、前記インデックス及び前記類似性に基づいて、セマンティック独立メンバー対の類似性マトリックスを構築することと、を含む。

オプションとして、前記テーマモデルユニットが、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、前記類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマと前記セマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、含む。

オプションとして、前記タグ決定ユニットが、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、を含む。

オプションとして、前記タグ決定ユニットが、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、各クラスタリングにおける前記最大確率テーマの数を決定することと、クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、を含む。

オプションとして、前記タグ決定ユニットは、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする。

オプションとして、前記タグ決定ユニットは、異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる。

また、本発明の別の態様によれば、命令を格納するコンピュータ読み取り可能な記憶媒体であって、前記命令がプロセッサによって実行される場合、前記プロセッサは、請求項１～１０のいずれかに記載の方法を実行するように構成されている、ことを特徴とするコンピュータ読み取り可能な記憶媒体が提供される。

本発明の上記の目的ならびに他の目的および利点は、添付された図面と併せた以下の詳細な説明により、さらに明らかになる。ここで、同一または類似の要素は、同一の符号を付けて示す。
図１は、本発明の一実施例に係るセマンティックテキストデータをタグとマッチングさせる方法のフローチャートを示す。図２は、本発明の一実施例に係る前処理のフローチャートを示す。図３は、本発明の一実施例に係るテーマモデルを構築するフローチャートを示す。図４は、本発明の一実施例に係る分類タグ学習のフローチャートを示す。図５は、本発明の一実施例に係る分類モデル訓練のフローチャートを示す。図６は、本発明の一実施例に係るＫ－ｍｅａｎｓクラスタリングの概略図を示す。図７は、本発明の一実施例に係るＳＶＭ分類器の各カテゴリタグの予測結果を示す。

簡潔さおよび説明の目的で、本明細書は、主に例示的な実施例を参照して本発明の原理を説明する。しかし、当業者は、同じアルゴリズムが、全てのタイプの視覚認識システムに用いる性能テストシステム及び／又は性能テスト方法に均等に適用されることができ、その中でこれらの同一または類似のアルゴリズムが実施可能であることを容易に認識できる。これらのあらゆる変更は、いずれも、本特許出願の思想及び範囲を逸脱しない。

実施例１
図１を参照すると、本発明の一実施例に係るセマンティックテキストデータをタグとマッチングさせる方法のフローチャートが示されている。ステップ１０２では、ユーザのコメントデータを前処理する。前処理の目的は、ユーザのコメントなどのセマンティックテキストデータを処理して、セマンティックが独立したメンバー（英単語、中国語語彙などの形態素）、及びオリジナルコーパスデータを得ることである。各セマンティックが独立したメンバーは、セマンティック解析のための独立ユニットであり、特に、セマンティックが独立したメンバーは、セマンティック解析のための最小のユニットであってもよい。

図２に示された実施例では、セマンティックが独立したメンバーを得るために、ｊｉｅｂａなどの中国語の単語分割ツールキットによって単語分割を実現することができる（ステップ２０２）。次に、単語分割後の独立メンバーに対して、ストップワードの除去、非中国語文字の除去、数字記号の除去、及び語句の誤り訂正等の操作を行う（ステップ２０４）。次に、選択可能な前処理として、ユーザの主な意図が含まれた文を抽出することもできる（図示せず）。例えば、ユーザのコメント内容であるデータプラットフォームのユーザフィードバック情報において、否定語または疑問語を含む文章のみを抽出し、元のサンプルの中核文とし、セマンティックが独立したメンバーやオリジナルコーパスデータをさらに取得することができる。抽出が難しい場合、当該ステップを直接スキップしてもよい。最後に、ステップ２０６では、複数のセマンティックが独立したメンバーを用いて、アオリジナルコーパスデータを形成する。

ステップ１０４では、テーマモデルを決定する。ナチュラルテキストにおける形態素の再現関係に基づいて、任意の２つの形態素間の関連度を決定し、関連度からその関連に対応するテーマを決定した後、形態素とテーマとのマッピング確率の関係を決定する。再現関係は、形態素間のセマンティックの関連程度を反映している。例えば、一文（または一節の文字など）において、「支払い」と文脈のセマンティックとの関連性がある特定の値Ｘに達し、「カード決済」と文脈のセマンティックとの関連性がある特定の値Ｙに達し、Ｘ≒Ｙであれば、「支払い」と「カード決済」はセマンティックの関連度が強いと見なすことができる。ここで、「支払い」と文脈のセマンティックとの関連性は、統計などを介して取得することができるので、「支払い」と文脈のセマンティックとの関連性は、統計において、ナチュラルテキストでの再現に基づいて決定される。ナチュラルテキストは、考察、処理のためのオブジェクトテキスト（本明細書ではオリジナルコーパスデータ）であってもよいし、百度百科（ＢａｉｄｕＢａｉｋｅ）、ウィキペディア、捜狗インターネットコーパスなどの意味のある任意のナチュラルテキストコーパスであってもよい。

具体的には、ステップ１０４は、図３に示された実施例によって実施されることができる。ステップ４０２では、単語ベクトルを訓練する。前処理されたコーパスに対しては、ｇｅｎｓｉｍツールキットによって単語ベクトルの訓練を実現し、後続のショートテキストのモデリングに用いられる。収集されたデータが少ない場合、単語ベクトルの訓練効果が普通であり、捜狗インターネットコーパスなどの大型の中国語コーパスを補充的に導入することや、Ｇｏｏｇｌｅオープンソースの中国語ベクトルモデルをそのまま採用することが考えられる。単語ベクトルは、ＴＦ－ＩＤＦが単語間のセマンティックの類似性を測定できないという欠点を補うことができる。

ステップ４０４では、単語対類似性マトリックスを作成する。テキスト中の異なる語彙のインデックスを作成し、インデックスは語彙のラベルとして存在する。

ステップ４０６では、まず、中国レストランプロセス（ＣＲＰ）に基づいて、単語対-
テーマの確率分布マトリックスを生成することができる。そして、単語対集合に基づいて各文書に現れる単語対の数を統計し、全ての単語対が文書で現れる数を１×Ｎ次元のマトリックスで記憶する。単語対は、基本形態素である任意の二つの語彙のペアである。最後に、単語対類似性マトリックスＳｉｍが作成され、以降の処理に使用される。

ステップ４０８では、Ｓｉｍマトリックスを用いてギブス反復サンプリングを行い、単語対テーマモデルにおけるギブスサンプリングにより、全体コーパス‐テーママトリックス、及びテーマ‐単語対マトリックスを取得し、テキストモデルを構築する。具体的なプロセスは次のとおりである。

まず、単語対テーマモデルの初期化パラメータを設定する。ディリクレ分布のアプリオリパラメータα＝０.５、β＝０.１、反復最大回数ｉｔｅｒａｔｉｏｎ＝１００、中間結果を保存するステップサイズｓａｖｅｓｔｅｐ=１０などである。

次に、コーパスの単語対集合をループトラバースし、サンプリング処理毎に単語対間の類似性を考慮して、単語対のテーマを割り当て、その中、単語対の類似性は、主に中国レストランプロセスに基づいて生成される。

ここで、ｄｉは、テーマｉの既存の単語対数を表し、ｎ－１は、現在の単語対の前に既にある単語対の総数を表し、ｄ０は、初期パラメータである。ｐ（Ｄｎ＝ｋ｜Ｄ－ｎ）は、単語対Ｄｎがテーマｋに割り当てられる確率を表す。

再度、単語対のテーマ割当に基づいて、コーパス‐テーママトリックス、及びテーマ‐単語対マトリックスを更新し、さらに反復回数がｓａｖｅｓｔｅｐの整数倍に達したか否かを判断し、達していなければ、コーパスの単語対集合をトラバースし続ける。

最後に、コーパス‐テーママトリックス、及びテーマ-単語対マトリックスを保存し、
反復回数が最大反復回数（１００回）に達したか否かを判断し、達していなければ、コーパスの単語対集合をトラバースし、最終的に生成されたコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを保存する。

図１に戻り、ステップ１０６では、分類タグの学習を行う。具体的には、図４に示すように、推論によりユーザコメント‐テーマ確率分布マトリックス（ステップ６０４）、及びテーマ-単語確率分布マトリックス（ステップ６０２）が生成される。ショートテキス
トのテーママトリックスを用いてショートテキストを表す。すなわち、テーマの確率分布を用いてショートテキストの特徴を表す。

ここで、ｐ（ｚｉ｜ｄｉ）は、ショートテキストｄｉにおけるテーマｚｉの確率を表し、ｋは、ショートテキストコーパス全体におけるテーマの数である。

ステップ６０６では、コーパス全体をＫ－Ｍｅａｎｓクラスタリングなどの方法でクラスタリングし、クラスタリングアルゴリズムではＪＳ距離を用いてテキストの類似度を測定することができる。

ステップ６０８では、クラスタリング内の全てのユーザコメントコーパスをトラバースし、ユーザコメント‐テーママトリックスに基づいて、各コメントデータの最大確率テーマを見つけ、異なる最大確率テーマの数を統計し、数が最大のテーマをクラスタリングテーマとして抽出する（ステップ６１０）。ステップ６１２では、さらに、当該テーマ-単語の確率マトリックスから、確率値が最も高い上位ｎ個の語句を当該クラスタリングのタグ情報として選択する。クラスタリング毎のタグキーワードに対して、重複されているかをチェックし、異なるクラスタリングにおいてキーワードが重複されていると、それぞれのクラスタリングに対応するテーマでキーワードを選び直する。その同じキーワードのそれぞれのテーマでの確率値を見て、確率値の小さいキーワードが、次の確率値の語彙またはフレーズに置き換えられる。

図１に戻り、ステップ１０８では、分類モデルの訓練を行う。具体的には、図５に示された実施例のようである。ステップ８０２では、ステップ１０６で学習した分類種別情報に基づいて、ユーザコメントコーパスに自動的に分類タグを付与し、ユーザコメントとタグとのマッピング関係を得る。ステップ８０４では、テーマをクラスタリングした後のユーザコメントに基づいて、ユーザコメントコーパスを取得する。ステップ８０６では、ユーザコメントコーパス毎に、テキストの特徴としてＴＦ‐ＩＤＦ及び単語ベクトルを抽出する。次に、ＳＶＭ及び双方向ＬＳＴＭの２種類の分類アルゴリズムを用いて分類モデルを訓練し（ステップ８０８）、さらに投票分類器による投票集計を行い、ユーザコメント分類モデルを構築する（ステップ８１０）。

実施例２
本実施例は、主に、データプラットフォームにおけるユーザのフィードバックメッセージを分析する。まず、本発明が提案したショートテキスト特徴抽出方法に基づいてデータプラットフォームにおけるユーザのフィードバックメッセージのセマンティック特徴情報を抽出し、次に、分類モデルを構築し、ユーザのフィードバックメッセージの自動分類を実現する。データ源は、特定の月のデータプラットフォームＡＰＰにおけるユーザのフィードバックメッセージデータである。オリジナルデータは、主にテキストの形で保存されており、具体例は表１を参照することができる。

データプラットフォームのユーザフィードバックメッセージの自動分類は、例えば、次のように行うことができる。

ステップ１、フィードバックメッセージデータの前処理
大量のデータの分析をによると、ほとんどの場合、ユーザは否定語あるいは疑問詞を使用して質問するので、キー情報をさらに絞り込むためには、次のような方法を採用してユーザフィードバックメッセージの否定ウィンドウを抽出する。
１.１一般的な中英記号（例えば、全角、半角のコンマ、句点等）を利用して文章をい
くつかの短句に分ける。
１.２最初の否定語あるいは疑問詞がある短句を見つけてウィンドウとする。
１.３指定されたウィンドウサイズ（本明細書で設定した前後のステップサイズはいず
れも１である）を設定し、否定ウィンドウを抽出する。

ステップ２、データプラットフォームにおけるユーザフィードバックメッセージの特徴表示
２.１ステップ１で前処理したコーパスに対して、Ｇｏｏｇｌｅで提案されたＷｏｒｄ
２Ｖｅｃ方法におけるＳｋｉｐ‐ｇｒａｍモデルを使用して、ｇｅｎｓｉｍライブラリにおけるｗｏｒｄ２ｖｅｃ関数を用いて訓練を行う。ここで設定される単語ベクトル次元を２００に設定し、Ｓｋｉｐ‐ｇｒａｍモデルのウィンドウサイズを５とする。表２は、例示的な結果を示す。

２.２百度百科と専用分野の単語ベクトルを比較し、単語ベクトルを比較する。

単語ベクトルは、支払い分野の知識をより正確に表現することができ、これは後の分類に対してより正確なセマンティック情報を提供する。
ギブスサンプリングを採用して、全体のユーザコメントコーパス‐テーママトリックス、及びテーマ-単語対マトリックスを取得する。そのうち、ディクレ分布のアプリオリパラメータα＝０.５、β＝０.１、反復最大回数が５００であり、中間結果を保存するためのステップサイズは１０である。

ステップ３、データプラットフォームにおけるユーザフィードバックメッセージの分類タグの抽出
３.１、上記で得られた特徴マトリックスを入力として、ｓｃｉｋｉｔ－ｌｅａｒｎ機
械学習ツールキットを用いてＫ－ｍｅａｎｓクラスタリングを行う（図６）。なお、次のクラスタリングマージ方法と合わせて使用するために、このシーンでは、初期クラスタリングの数を６０とし、最終的なクラスタリングの数は、輪郭係数とＳ＿Ｄｂｗとで共通に決定する。
３.２クラスタリングにおけるテキストをトラバースし、テキスト‐テーマ確率分布マ
トリックスに基づいて該テキストにおける最大テーマ確率値のテーマを見つける。該クラスタリングにおける各テーマの占める割合を統計し、出現回数が最も多いテーマを見つける。テーマ‐単語マトリックスにおいて、前のステップで統計した出現回数が最も多いテーマを見つけ、該テーマにおける確率値の大きさが上位１０位の語彙またはフレーズをクラスタリングとして見つけて記述する（表４、表５に示すように）。

ステップ４、データプラットフォームにおけるユーザメッセージの自動分類
４.１ｓｋｌｅａｒｎを用いて機械学習アルゴリズム（主にＳＶＭアルゴリズムを用い
る）の分類実験を行い、指標の正確性を分類し、５分割交差検証を採用して結果の安定性を保証する。
分類モデルの構築過程で、グリッドサーチ（ＧｒｉｄＳｅａｒｃｈ）を用いて、パラメータがＣ＝３.２７６、ｋｅｒｎｅｌ＝'ｒｂｆ'、ｇａｍｍａ＝０.０１に設定された最適なＳＶＭパラメータを得た。図７は、この構成によるタグ予測結果の一例を示す図である。
４.２実際の応用シーン、例えばデータプラットホームシーンでは、モデルの利用可能
性を向上させるために、分類予測の確率閾値を設け、予測確率種別が高くないデータに対しては人工的に処理する。モデルの適合率とリリコール率を総合的に考慮して、閾値は０.６とすることができる。

本明細書で提案したＡＰＰユーザコメント自動返信方法を利用すると、ユーザのコメントなどのショートテキストデータにおけるホット話題の種類を効率的にマイニングすることができ、製品を使用する過程におけるユーザの主な相談ホットスポットを把握する一方で、ユーザコメントの自動分類を実現することができ、ＡＰＰの運営サービスの効率を大幅に向上させることができる。

本発明で言及した分類タグ体系は、自己学習に基づく方法であり、ショートテキストコーパスにおける全てのテキスト情報を作業者が手動で分析する必要がなく、かつ後続のタグ体系の更新及びメンテナンスも自動的に完了するので、人手による作業量を大幅に低くすることができ、実際のシーンでより容易に適用することができる。本発明の分類訓練コーパスも、タグ分類の過程で生成されるため、コーパスを人工的にマーキングする必要がない。本発明は、分類タグ抽出過程において、ショートテキストコーパス全体を統合してテーマモデリングを行うため、テキストのセマンティックが疎であるという問題を効果的に緩和し、テーマ‐単語対サンプリング過程において、単語対の類似性を融合しているので、テキスト中の異なる単語対の文脈関連関係を考慮して、テキスト中のより広いセマンティック特徴を抽出することができ、セマンティック表現力がより高い。テキスト分類の過程において、各ショートテキストの特徴には、ＴＦ‐ＩＤＦ計算の特徴に加えて、テーマモデル抽出の特徴も含まれ、統計的な観点から考慮するだけでなく、文脈情報の特徴も融合させている。

以上の例は、主に、本開示のセマンティックテキストデータをタグとマッチングさせる方法、セマンティックテキストデータをタグとマッチングさせる装置及び命令を格納するコンピュータ読み取り可能な記憶媒体を説明した。本発明のいくつかの実施形態を説明したが、当業者としては、本発明は、その要旨及び範囲を逸脱することなく、種々の形態で実施可能であることを理解するべきである。したがって、例示された例及び実施形態は例示的なものであって制限的なものではない。本発明は、添付の特許請求の範囲によって定義される本発明の精神及び範囲から逸脱しない限り、様々な修正及び置換を含むことができる。

Claims

コンピュータによってセマンティックテキストデータをタグとマッチングさせる方法であって、
複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得することと、
複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定し、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定することと、
当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングすることと、
決定された前記複数のセマンティックテキストデータと前記タグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいて前記タグにマッチングさせることと、
を含み、
前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする方法。
前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
ことを特徴とする請求項１に記載の方法。
前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
ことを特徴とする請求項１に記載の方法。
前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
ことを特徴とする請求項１に記載の方法。
前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
含むことを特徴とする請求項１に記載の方法。
当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
を含むことを特徴とする請求項５に記載の方法。
前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
各クラスタリングにおける前記最大確率テーマの数を決定することと、
クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
を含むことを特徴とする請求項６に記載の方法。
前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
ことを特徴とする請求項７に記載の方法。
異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
ことを特徴とする請求項８に記載の方法。
セマンティックテキストデータをタグとマッチングさせる装置であって、
複数のセマンティックテキストデータを前処理して、複数のセマンティック独立メンバーを含むオリジナルコーパスデータを取得する前処理ユニットと、
複数の前記セマンティック独立メンバーのナチュラルテキストにおける再現関係に基づいて、複数の前記セマンティック独立メンバーのうちの任意の２つの間の関連度を決定し、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定し、さらに前記複数のセマンティックテキストデータと前記テーマとのマッピング確率を決定するテーマモデルユニットと、
当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択し、決定された前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、前記複数のセマンティックテキストデータを前記タグにマッピングするタグ決定ユニットと、
決定された前記複数のセマンティックテキストデータとタグとのマッピング関係を訓練データとし、機械学習によってマッピングされていないセマンティックテキストデータを前記訓練データに基づいてタグにマッチングさせるタグマッチングユニットと、
を含み、
前記再現関係は、形態素間のセマンティックの関連程度を反映していることを特徴とする装置。
前記前処理は、前記複数のセマンティックテキストデータを単語分割すること、ストップワードを除去すること、非中国語文字を除去すること、数字記号を除去すること、及び語句誤り訂正を行うことのうちの1つ以上を含む、
ことを特徴とする請求項１０に記載の装置。
前記前処理は、否定セマンティック及び/又は疑問セマンティックを含む前記複数のセマンティックテキストデータのみを抽出することを含む、
ことを特徴とする請求項１０に記載の装置。
前記ナチュラルテキストにおける再現関係は、前記オリジナルコーパスデータ及び/又はナチュラルテキストコーパスにおける文脈のセマンティックとの関連程度を示す、
ことを特徴とする請求項１０に記載の装置。
前記テーマモデルユニットが、前記任意の２つの間の関連度に基づいて、当該関連度に対応するテーマを決定することは、
類似性マトリックスにギブス反復サンプリングを行い、前記オリジナルコーパスデータと前記テーマとのマッピング関係及び前記テーマとセマンティック独立メンバー対とのマッピング関係を取得し、前記複数のセマンティックテキストデータと前記テーマのマッピング確率及び前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率を決定することを、
含むことを特徴とする請求項１０に記載の装置。
前記タグ決定ユニットが、当該関連度に対応する複数のセマンティック独立メンバーのうちの1つを前記テーマのタグとして選択することは、
前記複数のセマンティックテキストデータをクラスタリングし、前記複数のセマンティックテキストデータと前記テーマとのマッピング関係に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することと、
前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマをセマンティック独立メンバーにマッピングし、クラスタリング後のテーマに対応する前記タグとすることと、
を含むことを特徴とする請求項１４に記載の装置。
前記タグ決定ユニットが、前記複数のセマンティックテキストデータと前記テーマとのマッピング確率に基づいて、クラスタリング後の前記複数のセマンティックテキストデータのテーマを決定することは、
前記複数のセマンティックテキストデータのそれぞれの最大確率テーマを決定することと、
各クラスタリングにおける前記最大確率テーマの数を決定することと、
クラスタリングのうちの数が最も大きい前記最大確率テーマをクラスタリング後のテーマとすることと、
を含むことを特徴とする請求項１５に記載の装置。
前記タグ決定ユニットは、前記テーマと複数の前記セマンティック独立メンバーとのマッピング確率に基づいて、クラスタリング後のテーマに対応する確率値が最も高い所定数のセマンティック独立メンバーを決定して、前記クラスタリング後のテーマのタグとする、
ことを特徴とする請求項１６に記載の装置。
前記タグ決定ユニットは、
異なるクラスタリング後のテーマのタグが同じタグを含む場合、前記異なるクラスタリング後のテーマにおける前記同じタグの確率値を比較し、確率値が最大となるタグを、前記確率値が最大となるタグが属する前記クラスタリング後のテーマのタグとして保持し、
確率値が最大であるタグが属する前記クラスタリング後のテーマを除いたテーマに対しては、前記クラスタリング後のテーマのタグとして、前記同じタグの確率値よりも確率値が低いセマンティック独立メンバーを用いる、
ことを特徴とする請求項１７に記載の装置。
命令を格納するコンピュータ読み取り可能な記憶媒体であって、
前記命令がプロセッサによって実行される場合、前記プロセッサは、請求項１～９のいずれかに記載の方法を実行するように構成されている、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。