JP7168334B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7168334B2
JP7168334B2 JP2018051910A JP2018051910A JP7168334B2 JP 7168334 B2 JP7168334 B2 JP 7168334B2 JP 2018051910 A JP2018051910 A JP 2018051910A JP 2018051910 A JP2018051910 A JP 2018051910A JP 7168334 B2 JP7168334 B2 JP 7168334B2
Authority
JP
Japan
Prior art keywords
word
vector
relation
words
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018051910A
Other languages
English (en)
Other versions
JP2019164577A (ja
Inventor
偉昌 陳
晃平 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018051910A priority Critical patent/JP7168334B2/ja
Publication of JP2019164577A publication Critical patent/JP2019164577A/ja
Application granted granted Critical
Publication of JP7168334B2 publication Critical patent/JP7168334B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、検索エンジンを用いて検索を行う際、複数のキーワードを含むクエリが入力された場合、入力されたクエリに基づいて、クエリに含まれる複数のキーワードを組み合わせたサブクエリを生成する技術が知られている(特許文献1参照)。また、この技術では、サブクエリを除外する方法として、キーワード組合せ手段で生成された各組合せに含まれるキーワードの共起確率を取得する方法と、取得された共起確率が所定の値よりも低い組合せのサブクエリを除外する手段とを含む方法を開示している。
特開2010-33197号公報
従来の技術では、共起確率は、2以上のキーワードが同一文書又はウェブサイト中で使用される割合を表す。従って、従来の技術では、同一文書内に現れないクエリ間では、共起確率が低いと判定され、サブクエリは除外されることになる。このため、類義語を抽出するという分野に適用することが難しいという問題がある。
本発明は、このような事情を考慮してなされたものであり、より広範に類義語を抽出することができる情報処理装置、情報処理方法及びプログラムを提供することを目的の一つとする。
本発明の一態様は、処理対象となる複数のワードを取得する取得部と、前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルとに基づいて、前記第一ワードと前記第二ワードが類義語の関係にあるか否かを判定する判定部と、を備える情報処理装置である。
本発明の一態様によれば、より広範に類義語を抽出することができる。
実施形態に係る情報処理装置30の構成および使用環境の一例を示す図である。 辞書データ214が持つ類義語の一例を示す図である。 ワードベクトルとリレーションベクトルとの関係を示す図である。 品詞重みScorePOSiについて説明するための図である。 位置重みWpositionの一例を示す図である。 情報処理装置30による処理の流れの一例を示すフローチャートである。
以下、図面を参照し、本発明の情報処理装置、情報処理方法及びプログラムの実施形態について説明する。
[構成]
図1は、実施形態に係る情報処理装置30の構成および使用環境の一例を示す図である。図示する環境では、端末装置10、サービスサーバ20及び情報処理装置30は、ネットワークNWを介して互いに通信する。図1に示す例では、端末装置10の数は、N(Nは、1以上の整数)個である。
端末装置10-1~10-N、サービスサーバ20及び情報処理装置30は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、セルラー網などを含む。
なお、本明細書では、端末装置10-1~10-Nにおいて、共通の事項を説明する場合など、個々の端末装置10-1~10-Nを区別しない場合には、単に端末装置10と呼ぶ。
端末装置10は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ等である。端末装置10では、ブラウザやアプリケーションプログラムなどのUA(User Agent)が起動し、サービスサーバから受信したコンテンツを表示する。
サービスサーバ20は、ユーザーにより操作される端末装置10からのリクエストに対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置と通信を行って各種情報の受け渡しを行ってアプリページを提供するアプリケーションサーバ装置等である。サービスサーバ20は、少なくとも検索窓を含むコンテンツを端末装置10に提供する。
サービスサーバ20は、検索実行部200及び記憶部210を備える。検索実行部200は、コンテンツ内で検索窓に対して入力されたクエリを端末装置10から取得し、ネットワークNWを介した検索を行う。この際に、検索実行部200は、辞書データ214を使用し、入力されたクエリの類義語も使用して検索を行う。
記憶部210は、クエリログ212、および辞書データ214を格納する。サービスサーバ20は、クエリログ212を情報処理装置30に提供する。
図2は、実施形態に係る辞書データ214が持つ類義語の一例を示すデータ構成図である。辞書データ214は、図示するような基準で定められた類義語ペアテーブルを持つ。類義語ペアテーブルには、類義語の属性名及びペアが対応づけて登録されている。類義語の属性名は、類義語の種類を分類した情報である。図示する例では、類義語の属性名は、略語、表記ゆれ、部分一致、同インテント、別名及び誤字の6種類となっている。
図1の説明に戻る。記憶部210は、複数のエンティティと、エンティティ間の関係を示すプロパティとが登録されたナレッジベースを格納してもよい。ナレッジベースとは、事物に関する情報および事物間の意味的関係に関する情報をグラフとして記述したデータベースである。ナレッジベースにおける事物とは、例えば、「人間」、「機械」、「建物」、「組織」、「美」、「学問」、「旅行」といった抽象的な概念と、例えば特定の人間、特定の建物、特定の組織等の、それらの個体(以下「インスタンス」という。)を含む。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。この結果、プロパティは、エンティティ間の関係を表す情報となる。例えば、プロパティは、「~を体の構成要素としてもつ」という性質や、「~に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ自体は必ずしもプロパティの意味を表している必要はないが、以下の説明では簡略化のためにプロパティの意味を表すプロパティ名が与えられていることとする。
ナレッジベースの基本的な単位は、エンティティ間をプロパティで接続した3つの情報の組(以下、「トリプレット」という。)である。例として、[エンティティ「日本」、プロパティ「首都」、エンティティ「東京」]というトリプレットを用いて説明する。ナレッジベースでは、このようなトリプレットから、「日本の首都は東京である」という意味情報を取得することができる。
ナレッジベースを用いることで、エンティティに関する情報やエンティティ間の関係が明確に表現され、各種の機械処理が可能になる。そして、サービスサーバ20は、辞書データ214を使用することで、エンティティの類義語が入力された場合であっても、正確にエンティティを特定することができる。なお、ナレッジベースを格納するサーバは、サービスサーバ20とは別のサーバであってもよい。
情報処理装置30は、例えば、取得部300、ワードベクトル生成部310、代表リレーションベクトル取得部320、判定部330、重み付与部340、類義語登録部350及び類義語記憶部360を備える。
これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
取得部300は、例えばサービスサーバ20から、クエリログ212と辞書データ214を取得する。取得部300は、取得した各データをワードベクトル生成部310、判定部330、重み付与部340及び類義語登録部350へ送る。
ワードベクトル生成部310は、取得部300から受け取ったクエリログ212内に含まれるワードと、辞書データ214に含まれるワードとをベクトル化する。なお、ワードの元データとしてクエリログ212を取得するのはあくまで一例であり、大量のワードを取得することができれば他の手法が採用されてもよい。
ワードベクトル生成部310は、例えば、クエリログ212が英文であればスペースで区切られたものをワードとして取得し、和文であれば形態素解析を行ってクエリをワードに分割する。この際に、助詞などを除外する処理を行ってもよい。次に、ワードベクトル生成部310は、W2V(Word2Vec)等の手法を用いて、クエリログ212のクエリに含まれるワードと、辞書データ214に含まれるワードとをそれぞれ分散表現化したワードベクトルを生成する。
代表リレーションベクトル取得部320は、代表リレーションベクトルを取得する。例えば、代表リレーションベクトル取得部320は、辞書データ214に登録されているワードのペア、すなわち互いに類義語の関係にあることが既知のワードのペアの一部または全部について、ワードベクトルの差分(リレーションベクトル)を生成する。そして、リレーションベクトルを所定数(例えば4)でクラスタリングし、それぞれのクラスタの例えば重心となるベクトルを、代表リレーションベクトルとして導出する。このクラスタは、例えば、図2に示す類義語の「属性」に相当するものとなることが想定される。代表リレーションベクトル取得部320は、辞書データの更新処理を行うたびに代表リレーションベクトルを計算してもよいし、既に計算済の代表リレーションベクトルを利用してもよい。
図3は、ワードベクトルとリレーションベクトルとの関係を示す図である。Q1Aは、第1ワードから得られたワードベクトルであり、Q1Bは、第1ワードと類義語の関係にある第2ワードのワードベクトルであり、R1は、それらの差分を示すリレーションベクトルである。
また、Q2Aは、第3ワードから得られたワードベクトルであり、Q1Bは、第3ワードと類義語の関係にある第4ワードのワードベクトルであり、R2は、それらの差分を示すリレーションベクトルである。そして、R3は、代表リレーションベクトルである。第1ワードと第2ワードの関係(類義語の属性)、および第3ワードと第4ワードの関係(類義語の属性)が同じものであり、更に、それらが類義語として典型的な関係にあるのであれば、リレーションベクトルR1およびR2は、代表リレーションベクトルR3に近いものとなることが想定される。実施形態の情報処理装置では、このような原理に基づいて、以下に示す処理を実行する。
図1の説明に戻る。判定部330は、ワードベクトル生成部310により生成されたワードベクトルから、二つのワードベクトルを網羅的に抽出する。以下、この二つのワードベクトルを第一ワードベクトル、第二ワードベクトルと称する。そして、判定部330は、少なくとも、第一ワードベクトル、第二ワードベクトル、および代表リレーションベクトルに基づいて、第一ワードベクトルと第二ワードベクトルの類似度を算出し、第一ワード及び第二ワードのペアが類義語であるか否かを判定する。
判定部330は、例えば、以下に説明する複数の素性をそれぞれ導出し、素性に基づいてSVM(Support Vector Machine)や機械学習を行うことで、第一ワード及び第二ワードのペアが類義語であるか否かを判定する。例えば、本実施形態では、コサイン類似度と、レーベンシュタイン距離と、圧縮率と、共有接頭語と、包含される単語と、検索頻度率と、重み付き部分類似度をSVMの素性として用いる。また、類似度の判定は、SVMや機械学習を用いるのではなく、素性の加重和などを求めてスコアとして判定するものであってもよい。
[素性1]
素性の一つとして、判定部330は、コサイン類似度を算出する。まず、判定部330は、式(1)に基づいて、第1類似度を導出する。式中、V_queryは、第一ワードベクトルを表す。V_candidateは、第二ワードベクトルを表す。V_centroidは、代表リレーションベクトルのうち選択された一つを表す。「*」は、ベクトルの積を表す。式(1)に示すSim1は、図3に示す関係を、どの程度満たしているかを示す指標値である。
Figure 0007168334000001
次に、判定部330は、式(2)に基づいて、第一ワードベクトル及び第二ワードベクトルのコサイン類似度を算出する。
Figure 0007168334000002
判定部330は、式(3)に基づいて、Sim1及びSim2の加重和を求め、素性1とする。αは0~1の定数である。
Figure 0007168334000003
SVMは、Simを素性として動作するため、Simが大きい場合に類義語であると判定される可能性が高くなる。このため、判定部330は、算出した値が大きい場合に類義語である可能性が高いと判定する。また、Simは、Sim1とSim2の積であるため、Sim1が大きければ類義語と判定する可能性が高くなる。なお、Sim1は、SVMの素性の一部として用いられてもよいし、専ら算出されたSim1に基づいて判定部330が類義語の類義語である可能性を判定してもよい。
[素性2]
素性2について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、レーベンシュタイン距離を用いる。レーベンシュタイン距離は、二つの文字列がどの程度異なっているかを距離で示す素性である。具体的には、1文字の挿入、削除及び置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。また、これらの操作には別のコストを割り振ることが可能である。また、第一ワード及び第二ワードそのものだけでなく、これらにルビを振った後の読み方についてのレーベンシュタイン距離を素性の一部としてもよい。
[素性3]
素性3について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、圧縮率を導出する。
[素性4]
素性4について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、共有接頭辞を導出する。共有接頭語は、文字列の先頭がどの程度異なっているかを示す素性である。
[素性5]
素性5について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、互いに包含される単語をカウントする。包含される単語は、第一ワード又は第二ワードが他方のワード内に文字列が完全に包含されている単語である。
[素性6]
素性6について説明する。判定部330は、素性の一つとして、第一ワード及び第二ワードのペアに対して、検索頻度率を導出する。検索頻度率は、第一ワード及び第二ワードを用いて、検索が行われた回数に応じた重みである。
[素性7]
素性7について説明する。素性の一つとして、重み付与部340は、重み付き部分類似度Scoreを導出する。重み付与部340は、第一ワードと第二ワードをそれぞれ品詞に分解し、式(4)に示すように、品詞重みScorePOSiと、操作種類重みWoperationと、位置重みWpositionとに基づいて、重み付き類似度Scoreを導出する。式中、nは一致させるために必要な操作(削除、挿入、入れ替え)の回数である。重み付き類似度Scoreは、ゼロに小さい方が、類似している可能性が高いことを示すものである。
Figure 0007168334000004
品詞重みScorePOSiは、操作の対象となった品詞について、品詞の種別に応じて付与される値である。例えば、名詞であれば5、動詞であれば4、形容詞であれば4、副詞であれば3、その他であれば1が、品詞重みScorePOSiとして付与される。図4は、品詞重みScorePOSiについて説明するための図である。図4では、例として、第一ワードを「Aよりも大変なB」、第二ワードを「Aよりも」とする。
重み付与部340は、第一ワード及び第二ワードをそれぞれ形態素解析して品詞に分解する。形態素解析の結果として、第一ワード及び第二ワードには、「A」に名詞、「より」にその他、…のように、分解された単語毎に対応する品詞の種別が付与される。重み付与部340は、第一ワードと第二ワードを一致させるための操作の対象となった品詞に対して、品詞重みScorePOSiを付与する。図4の例では、「大変」「な」「B」が相違するため、それぞれに付与される品詞重みScorePOSiは、「4」「1」「5」となる。
図5は、位置重みWpositionの一例を示す図である。重み付与部340は、第一ワード及び第二ワードの各品詞について、1番目から順に、当該位置の品詞が一致していない場合に、位置重みWpositionを付与する。図5では例として、順序重みは、1品詞目を「-0.7」、2品詞目を「-0.6」、3品詞目を「-0.3」、4品詞目を「-0.1」、5品詞目以降を「0」とする。図4の例において、重み付与部340は、「大変」「な」「B」のそれぞれが位置重みWpositionの対象となるが、5文字目以降であるために位置重みWpositionは、ゼロとなる。
また、操作種類Woperationは、例として、削除がある場合を0.5、挿入がある場合を0.3、入れ替えがある場合を0.2とする。なお、削除と挿入は表裏の関係にあるため、素性7に関しては、第一ワードから見た第二ワードの類似性と、第二ワードから見た第一ワードの類似性は異なるものとなる。
例えば、図4では、第一ワードと第二ワードを比較した場合、第二ワードでは、「大変なB」という文字列が削除されている。重み付与部340は、第一ワードの「大変」「な」「B」の文字列に対し、操作種類Woperationを付与する。この場合、3つの品詞が削除されているため、削除が3回行われたとみなし、操作種類Woperationは、「0.5」「0.5」「0.5」となる。
これらの結果、図4の例における重み付き部分類似度Scoreは、(4×(0.5-0.1))+(1×0.5)+(5×0.5)=4.6となる。
これらの重みを用いて、重み付与部340は、式(4)に基づいて、素性の一つとして、重み付き類似度Scoreを算出する。
判定部330は、素性1から素性7をの一部または全部を、SVMなどのパターン認識モデルを使用する際の素性として使用する。SVMは、これら複数の素性の一部または全部、あるいはそれらを組み合わせて処理した結果を要素とする特徴ベクトルを、ある特徴空間に分布させ、その特徴空間において各特徴ベクトルを正例または負例に分類する超平面(特徴空間の次元数から1低下した次元を有する空間)を導出する。また、本実施形態で算出する素性は、SVMだけでなく、ディープラーニングやロジスティック回帰などの学習に用いてもよい。
類義語登録部350は、判定部330の判定結果に基づいて、単語を類義語として類義語記憶部360に登録する。
類義語記憶部360は、類義語登録部350から受け取った類義語のデータを記憶する。情報処理装置30は、類義語記憶部360により記憶された類義語のデータをサービスサーバ20に送信する。サービスサーバ20では、類義語のデータを辞書データ214に追加することで、辞書データ214の更新(バージョンアップ)を行うことができる。
図6は、情報処理装置30による処理の流れの一例を示すフローチャートである。まず、取得部300は、コンテンツ内に入力された入力クエリのログであるクエリログ212を取得する。(S100)。また、取得部300は、予め定められた基準単語を集めた単語データである辞書データ214を取得する(S102)。
ワードベクトル生成部310は、ステップS100及びS102で取得したクエリログ212及び辞書データ214に基づいて、第一ワード及び第二ワードからそれぞれのワードベクトルを生成する(S104)。
次に、代表リレーションベクトル取得部320は、代表リレーションベクトルを取得する(S106)。判定部330は、第一ワード及び第二ワードから算出したワードベクトル、代表リレーションベクトル取得部320が取得した代表リレーションベクトル、その他の情報に基づいて、各素性を計算する(S108)。そして、判定部330は、SVMなどによって第一ワードと第二ワードの類似度を判定する(S110)。
[変形例]
式(1)では、第一ベクトルを示すクエリベクトルと代表リレーションベクトルの差分と、第二ベクトルを示す候補ベクトルとを乗算している。このとき、クエリベクトルと代表リレーションベクトルの差は、候補ベクトルを用いて算出すると、クエリベクトルと候補ベクトルの差分からリレーションベクトルを得ることができる。このため、算出したリレーションベクトルと、代表リレーションベクトルとの類似度を求めればよいため、以下の式(5)が成り立つ。つまり、式(1)は、式(5)として表すこともできる。
Figure 0007168334000005
以上説明した実施形態によれば、処理対象となる複数のワードを取得する取得部300と、複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルとに基づいて、第一ワードと第二ワードが類義語の関係にあるか否かを判定する判定部330と、を備えることにより、より広範に類義語を抽出することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10…端末装置
20…サービスサーバ
30…情報処理装置
200…検索実行部
210…記憶部
212…クエリログ
214…辞書データ
300…取得部
310…ワードベクトル生成部
320…代表リレーションベクトル取得部
330…判定部
340…重み付与部
350…類義語登録部
360…類義語記憶部

Claims (9)

  1. 処理対象となる複数のワードを取得する取得部と、
    前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定する判定部と、を備え、
    前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
    情報処理装置。
  2. 前記判定部は、前記第一ワードベクトルと前記代表リレーションベクトルとの差分に、前記第二ワードベクトルを乗算した値が大きいほど、前記第一ワードと前記第二ワードが類義語の関係にあると判定する、
    請求項1記載の情報処理装置。
  3. 前記判定部は、更に、前記第一ワードベクトルと前記第二ワードベクトルを乗算した値に基づいて、前記第一ワードと前記第二ワードが類義語の関係にあるか否かを判定する、 請求項1又は2に記載の情報処理装置。
  4. 前記判定部は、前記第一ワードベクトルと前記代表リレーションベクトルとの差分に、前記第二ワードベクトルを乗算した値と、前記第一ワードベクトルと前記第二ワードベクトルを乗算した値との加重和が大きいほど、前記第一ワードと前記第二ワードが類義語の関係にあると判定する、
    請求項3項記載の情報処理装置。
  5. 前記判定部は、更に、第一ワードと第二ワードを構成する文字を、順序と合わせて一致させるために行う挿入操作、削除操作、又は入れ替え操作の対象となる品詞のそれぞれにおける、品詞種別、操作量、および位置に基づいて、前記第一ワードと前記第二ワードが類義語の関係にあるか否かを判定する、
    請求項1から4のうちいずれか1項記載の情報処理装置。
  6. 前記第一ワード及び前記第二ワードに基づいて計算された、前記第一ワード及び前記第二ワードの類似度を表す値を用いた機械学習を行って、判定対象となる第一ワードと第二ワードが類義語の関係にあるか否かを判定する、
    請求項1から5のうちいずれか1項記載の情報処理装置。
  7. 前記判定部により、前記第一ワード及び前記第二ワードが類義語であると判定された場合、前記第一ワード及び前記第二ワードのペアを辞書データに登録する類義語登録部を更に備える、
    請求項1から6のうちいずれか1項記載の情報処理装置。
  8. コンピュータが、
    処理対象となる複数のワードを取得し、
    前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定し、
    前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
    情報処理方法。
  9. コンピュータに、
    処理対象となる複数のワードを取得させ、
    前記複数のワードに含まれる第一ワードおよび第二ワードをそれぞれベクトル化した第一ワードベクトルおよび第二ワードベクトルと、互いに類義語の関係にあることが既知の二つのワードのワードベクトル間の差分であるリレーションベクトルを代表する一以上の代表リレーションベクトルのうち一つの代表リレーションベクトルとに基づいて計算された指標値が大きいほど、前記一つの代表リレーションベクトルとの関係において前記第一ワードと前記第二ワードが類義語の関係にあると判定させ、
    前記一以上の代表リレーションベクトルは、前記リレーションベクトルを設定した所定数のクラスタにクラスタリングすることによって得られたクラスタの重心ベクトルである、
    プログラム。
JP2018051910A 2018-03-20 2018-03-20 情報処理装置、情報処理方法及びプログラム Active JP7168334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018051910A JP7168334B2 (ja) 2018-03-20 2018-03-20 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018051910A JP7168334B2 (ja) 2018-03-20 2018-03-20 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019164577A JP2019164577A (ja) 2019-09-26
JP7168334B2 true JP7168334B2 (ja) 2022-11-09

Family

ID=68064411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018051910A Active JP7168334B2 (ja) 2018-03-20 2018-03-20 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7168334B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021240686A1 (ja) 2020-05-27 2021-12-02 日本電信電話株式会社 処理装置、処理方法および処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243230A (ja) 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 類似性判別方法
JP2011118526A (ja) 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2013016011A (ja) 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2013109597A (ja) 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法
JP2014006620A (ja) 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
US20140249799A1 (en) 2013-03-04 2014-09-04 Microsoft Corporation Relational similarity measurement

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243230A (ja) 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 類似性判別方法
JP2011118526A (ja) 2009-12-01 2011-06-16 Hitachi Ltd 単語意味関係抽出装置
JP2013016011A (ja) 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2013109597A (ja) 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法
JP2014006620A (ja) 2012-06-22 2014-01-16 Yahoo Japan Corp 同義語推定装置、同義語推定方法および同義語推定プログラム
US20140249799A1 (en) 2013-03-04 2014-09-04 Microsoft Corporation Relational similarity measurement

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
齋藤邦子,外3名,誤字脱字や伏字を許容する近似辞書照合技術,言語処理学会第17回年次大会発表論文集,言語処理学会,2011年03月,p.1143~1146

Also Published As

Publication number Publication date
JP2019164577A (ja) 2019-09-26

Similar Documents

Publication Publication Date Title
US20200184275A1 (en) Method and system for generating and correcting classification models
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
CN108319627B (zh) 关键词提取方法以及关键词提取装置
TWI512502B (zh) 用於產生習慣語言模式之方法及系統及相關之電腦程式產品
JP5284990B2 (ja) キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8090724B1 (en) Document analysis and multi-word term detector
US9183285B1 (en) Data clustering system and methods
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2005122533A (ja) 質問応答システムおよび質問応答処理方法
CN111400493A (zh) 基于槽位相似度的文本匹配方法、装置、设备及存储介质
JP2010225135A (ja) 多義性解消方法とそのシステム
CN112633000B (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
JP2021111367A (ja) Api評価のための自動パラメータ値解決
JP2011118689A (ja) 検索方法及びシステム
CN111797245B (zh) 基于知识图谱模型的信息匹配方法及相关装置
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN116821299A (zh) 智能问答方法、智能问答装置、设备及存储介质
US20170124090A1 (en) Method of discovering and exploring feature knowledge
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP7168334B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
JP2010026773A (ja) 地理的特徴情報抽出方法およびシステム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220805

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220819

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221027

R150 Certificate of patent or registration of utility model

Ref document number: 7168334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350