JP5957048B2 - 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム - Google Patents

曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム Download PDF

Info

Publication number
JP5957048B2
JP5957048B2 JP2014166695A JP2014166695A JP5957048B2 JP 5957048 B2 JP5957048 B2 JP 5957048B2 JP 2014166695 A JP2014166695 A JP 2014166695A JP 2014166695 A JP2014166695 A JP 2014166695A JP 5957048 B2 JP5957048 B2 JP 5957048B2
Authority
JP
Japan
Prior art keywords
message
target entity
user
keyword
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014166695A
Other languages
English (en)
Other versions
JP2016045504A (ja
Inventor
洋平 伊川
洋平 伊川
明子 鈴木
明子 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2014166695A priority Critical patent/JP5957048B2/ja
Priority to US14/820,995 priority patent/US9483462B2/en
Priority to US14/954,636 priority patent/US9720904B2/en
Publication of JP2016045504A publication Critical patent/JP2016045504A/ja
Application granted granted Critical
Publication of JP5957048B2 publication Critical patent/JP5957048B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分析対象のトピックに関連する単語又は単語列(以下、「エンティティ」という)の曖昧性を解消するための教師データを自動生成する技術に関する。
ある都市の主要な場所(例えば、観光スポット)や、イベント(例えば、モーターショー)に関するユーザーの声を分析することは、都市やイベントに対する評判や要求を把握する上で、地方自治体やイベント主催者にとって重要である。近年分析のために収集するユーザの声として、ソーシャルメディアの利用が検討されている。ソーシャルメディア、特にマイクロブログは通常のブログと比較してリアルタイム性が高いという特徴を持つ。そのため、ユーザーがイベント会場や観光スポットなどその場で感じたことがよりダイレクトにメッセージに反映されることが期待される。
分析対象のトピック(例えば、都市やイベント)に関連したメッセージをソーシャルメディアから収集するには、あらかじめその分析対象のトピックに関連するエンティティの集合を定義しておき、集合に含まれるエンティティを1以上含むメッセージを抽出すればよい。しかし、エンティティに曖昧性がある場合、上記の方法で収集したメッセージには分析対象のトピックとは関係のないメッセージが含まれる可能性がある。そのため、エンティティの曖昧性解消を行い、分析トピックと関係のないメッセージを除去する必要がある。
従来の語義曖昧性解消アルゴリズムは、多くがタグ付きコーパスを用いた教師あり学習に基づく(例えば非特許文献4を参照)。タグ付きコーパス、即ち教師データとは、上記の例では各エンティティに対して、分析対象のトピックかどうかの二値のラベルが付与されたメッセージ集合である。しかしながら、日々多様な話題が生み出されるソーシャルメディアにおいて、人手で教師データを作成するのは現実的ではない。教師データを自動獲得して曖昧性解消を行う手法が必要とされている。
そのような教師データを自動獲得する技術を開示する従来技術として、非特許文献1及び2が存在する。これらの文献は、企業のウェブサイトやウィキペディアを利用することで教師データを獲得し、曖昧性のある企業名に対して曖昧性解消を行う技術を開示する。
また、非特許文献3は、ウィキペディアで記事を執筆しているユーザに対して興味モデルを構築することにより、そのユーザがソーシャルメディアで発信したメッセージに含まれるエンティティの曖昧性を解消する技術を開示する。
また特許文献1は、検索語を含む検索要求と、検索目的に合致する分野の選択をユーザから受けると、分野別共起語DBを参照して、共起語を1または複数追加して文書検索を実行する技術を開示する。
また特許文献2は、検索キーワードと共に同じ文書に出現する形態素を共起語として特定するにあたり、所定期間内に取得された形態素を共起語として抽出する技術を開示する。
また特許文献3は、複数の文書から、デフォルトトピックタグを含む文書を抽出し、抽出された文書における単語の出現頻度を算出し、該出現頻度を用いて、デフォルトトピックタグを含む文書以外の文書から、トピックに関連する文書を抽出する技術を開示する。
しかしながら非特許文献1〜3の技術は、ウィキペディアなどの外部知識を用いる技術であるため、外部知識の充実度合いに大きく依存するという問題がある。最も充実度が高い知識源として期待されるウィキペディア であっても、一般に知られていないようなエンティティについての情報はカバーしきれていないのが現状であり、ソーシャルメディアの話題の多様性に適応するのが難しいケースが存在する。
また、特許文献1の技術は、活用実績のある、または活用可能と判断した文書を登録し、登録した文書から共起語を抽出するが、抽出した共起語が曖昧性を解消する教師データとして有効に機能するには、文書の登録の際にその分野を一緒に登録することが必須となる。これは人手を要する作業でありコストがかかる。また、活用実績の有るような文書では、一般に知られていないようなエンティティについての情報はカバーしきれないという問題もある。
また、特許文献2の技術は、検索キーワードと共に同じ文書に出現する形態素を共起語として特定する。しかしながら、検索キーワードが文書内で意図する意味で使用されているとは限らないため、同一文書内に出現する形態素を共起語として抽出しても、抽出した形態素が検索キーワードの曖昧性を解消する教師データとして機能することは保証されない。
また特許文献3の技術は、トピックを示すデフォルトトピックタグを含む文書における単語の出現頻度を用いてトピックに関連する文書を抽出する。しかしながら、例えば文書に含まれるデフォルトトピックタグが1つの場合、その文書がトピックを示す文書であるとは限らない。文書に含まれる唯一のデフォルトトピックタグが曖昧性を有する場合はなおさらである。従って、トピックを示すデフォルトトピックタグを含む文書において出現頻度の高い単語を、曖昧性を解消する教師データとして利用することはできない。
特開2003−22275号公報 特開2014−002653号公報 特開2014−032536号公報
D. Spina, et al., "Discovering Filter Keywords for Company Name Disambiguation in Twitter." Expert Systems with Applications40.12 (2013): 4986-5003 Z. Miklos, et al., "Entity-based classificationof twitter messages." International Journal of Computer Science & Applications9.EPFL-ARTICLE-174746 (2012): 88-115. E. L. Murnane, et al., "RESLVE:leveraging user interest to improve entity disambiguation on short text." Proceedings of the 22nd international conference on World Wide Webcompanion. International World Wide Web Conferences Steering Committee, 2013. A. Davis,et al., " Named entity disambiguation in streaming data." Proceedingsof the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1. Association for Computational Linguistics, 2012.
本発明は、上記従来技術における問題点に鑑みてなされたものであり、ソーシャルメディアなどのように日々多様な話題が生み出されるメディアから発信されるメッセージに対しても適用可能であり、外部知識を必要としない、エンティティの曖昧性を解消するための教師データを自動生成する生成方法、生成システム、及び生成プログラムを提供することを目的とする。
本発明は、上記従来技術の課題を解決するために以下の特徴を有する、エンティティの曖昧性を解消する教師データの生成方法を提供する。本発明の教師データの生成方法は、(a)コンピュータが、前記エンティティの集合に含まれる任意のエンティティを少なくとも1つ含んで発信されるメッセージを取得するステップと、(b)前記コンピュータが、取得したメッセージを該メッセージの発信者であるユーザ毎にまとめて、ユーザ毎のメッセージ集合を取得するステップと、(c)前記コンピュータが、前記ユーザ毎のメッセージ集合の中から、前記エンティティの集合に含まれる互いに異なる前記エンティティを第1閾値(1より大きい正の整数)以上含むメッセージ集合を特定し、該メッセージ集合のユーザをホットユーザとして識別するステップと、(d)前記コンピュータが、前記エンティティの集合に含まれるエンティティのうち曖昧性を解消すべきエンティティ(以下、「対象エンティティ」という)の指示を受け付けるステップと、(e)前記コンピュータが、ステップ(a)で取得したメッセージのうち前記対象エンティティを含むメッセージに含まれる各キーワードについて、前記ホットユーザのメッセージ集合における前記キーワードと前記対象エンティティとの共起しやすさを求めるステップと、(f)前記コンピュータが、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさに基づいて、前記対象エンティティに対する教師データを決定するステップとを含む。
好ましくは、上記ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、前記対象エンティティ及び前記キーワードを含むメッセージを発信したユーザの総数に対する、前記対象エンティティ及び前記キーワードを含むメッセージを発信した前記ホットユーザの人数の割合を、前記対象エンティティを含むメッセージを発信したユーザの総数に対する、前記対象エンティティを含むメッセージを発信した前記ホットユーザの人数の割合で割った値を算出するステップを含む。これに代えて、上記ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、対象エンティティについて言及したユーザが前記キーワードに言及する事象と、対象エンティティについて言及したユーザがホットユーザである事象についての自己相互情報量を算出するステップを含んでもよい。
より好ましくは、上記ステップ(f)において、前記コンピュータは、前記各キーワードについて算出した前記スコアと第2閾値とを比較することにより、前記各キーワードを前記対象エンティティに対する正例又は負例の教師データとするか否かを決定する。
また好ましくは、上記ステップ(f)において、前記コンピュータは、ステップ(a)で取得した前記対象エンティティを含む各メッセージについて、該メッセージに含まれる前記各キーワードの前記スコアを足し合わせた合計値が、第3閾値よりも大きい場合に該メッセージを前記対象エンティティに対する正例の教師データと決定し、前記合計値が第4閾値よりも小さい場合に、前記メッセージを前記対象エンティティに対する負例の教師データと決定する。
より好ましくは、前記合計値の算出において、前記コンピュータは、キーワードごとの前記スコアに対し、該キーワードと前記対象エンティティとの同時出現頻度に応じた重み付けを行う。
更に好ましくは、前記コンピュータは、前記キーワードと前記対象エンティティとの前記同時出現頻度として、前記キーワードと前記対象エンティティとを含むメッセージを発信したユーザの人数を用いる。
また好ましくは、上記ステップ(b)において、前記コンピュータが、前記取得したメッセージを更に期間毎にまとめて、ユーザ及び期間毎のメッセージ集合を取得するステップと、ステップ(c)において、前記コンピュータが、前記ユーザ及び期間毎のメッセージ集合の中から、前記エンティティの集合に含まれる互いに異なるエンティティを第5閾値(1より大きい整数)以上含むメッセージを特定し、該メッセージのユーザを該メッセージの期間におけるホットユーザとして識別するステップとを含む。
更に好ましくは、上記ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、前記対象エンティティ及び前記キーワードを含むメッセージを所定期間内において発信したユーザの総数に対する、前記対象エンティティ及び前記キーワードを含むメッセージを発信した前記所定期間内に含まれる全ての期間の前記ホットユーザの人数の割合を、前記対象エンティティを含むメッセージを前記所定期間内において発信したユーザの総数に対する、前記対象エンティティを含むメッセージを発信した前記所定期間内に含まれる全ての期間の前記ホットユーザの人数の割合で割った値を算出するステップを含む。これに代えて、ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、所定期間内において対象エンティティについて言及したユーザがキーワードに言及する事象と、前記所定期間内において対象エンティティについて言及したユーザがホットユーザーである事象についての自己相互情報量を算出するステップを含んでもよい。
上記では、対象エンティティの曖昧性を解消する教師データの生成方法として本発明を説明した。しかし本発明は、そのような教師データの生成方法の各ステップをコンピュータに実行させる教師データ生成プログラム、及び該教師データ生成プログラムをコンピュータにインストールして実現される教師データの生成システムとして把握することもできる。
上述した構成の曖昧性を解消する教師データの生成方法によれば、分析対象のトピックについて熱心にメッセージを発信するユーザがホットユーザとして特定され、ホットユーザが発信したメッセージの集合においてエンティティとキーワードの共起しやすさが算出される。そして算出された共起しやすさに基づいて、エンティティの曖昧性を解消する教師データが決定される。このように本発明は、ホットユーザが発信したメッセージの集合を利用して教師データを生成するので、外部知識を必要としない上に、一般にはまだ知られていないようなエンティティについての情報もカバーし得る。本発明のその他の効果については、各実施の形態の記載から理解される。
本実施形態に係る教師データ生成システムを実現するのに好適な情報処理装置のハードウェア構成の一例を示す図である。 本実施形態に係る教師データ生成システムの機能ブロック図の一例を示す図である。 図3(a)は、あるエンティティとキーワードの共起しやすさを表す P/N スコアの算出に必要な値の意味を説明する図である。図3(b)は、あるエンティティとキーワードの共起しやすさを表す P/Nスコアの算出に必要な値の意味を説明する別の図である。 本実施形態に係る教師データ生成処理の流れの一例を示すフローチャートある。 図4に示すフローチャートのステップ408の処理の流れの一例を示すフローチャートある。 分析対象のトピックとして東京モーターショー2013を用いた場合の、キーワードごとのP/N スコアの一例を示す表である。
以下、本発明を実施するための形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
図1は、本発明を実施するためのコンピュータ100の例示的なハードウェア構成を示す。 コンピュータ100は、CPU102とメイン・メモリ104とを備えており、これらはバス106に接続されている。CPU102は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものである。当該CPU102は例えば、インテル社のCore(商標)iシリーズ、Core(商標)2シリーズ、Atom(商標)シリーズ、Xeon(登録商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのPower(商標)シリーズでありうる。
バス106には、ディスプレイ・コントローラ108を介して、ディスプレイ110、例えば液晶ディスプレイ(LCD)が接続されうる。また、液晶ディスプレイ(LCD)は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであてもよい。ディスプレイ110は、コンピュータ100上で動作中のソフトウェア、例えば本実施態様に従うコンピュータ・プログラムが稼働することによって表示される情報、例えば教師データを、適当なグラフィック・インタフェースで表示するために使用されうる。
バス106には任意的に、例えばSATA又はIDEコントローラ112を介して、記憶装置114、例えばハードディスクドライブと、ドライブ116、例えばCD、DVD又はBDドライブが接続されうる。
バス106には、周辺装置コントローラ118を介して、例えばキーボード・マウス・コントローラ又はUSBバスを介して、任意的に、キーボード120及びマウス122が接続されうる。
記憶装置114には、オペレーティング・システム、例えばWindows(登録商標)OS、UNIX(登録商標)、MacOS(登録商標)など、及び、本施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ104にロード可能なように記憶されうる。
記憶装置114は、コンピュータ100内に内蔵されていてもよく、当該コンピュータ100がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該コンピュータ100がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。
ドライブ116は、必要に応じて、CD−ROM、DVD−ROM又はBD117からコンピュータ・プログラム、例えばオペレーティング・システム又はアプリケーションを記憶装置114にインストールするために使用されうる。なお、コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。
通信インタフェース126は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース126は、通信コントローラ124を介してバス106に接続され、コンピュータ100を通信回線128に有線又は無線接続する役割を担い、コンピュータ100のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線LAN接続規格に基づく有線LAN環境、又は無線LAN接続規格に基づく無線LAN環境、例えばIEEE802.11a/b/g/nなどのWi−Fi無線LAN環境、若しくは携帯電話網環境(例えば、3G、又は4G(LTEを含む)環境)でありうる。
コンピュータ100は、通信回線128を介して他のコンピュータからのデータを受信し、記憶装置114上に格納しうる。
以上の説明により、コンピュータ100は、通常のパーソナルコンピュータ、ワークステーション、メインフレームなどの情報処理装置、又は、これらの組み合わせによって実現されることが容易に理解されるであろう。なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ100は、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。
図2は、本実施形態に係る教師データ生成システム200の機能ブロック図の一例を示す。教師データ生成システム200は、分析対象のトピックに対するエンティティの集合を入力として、分析対象のトピックについて熱心にメッセージを発信するユーザを見つけ出し、該ユーザの発信するメッセージの集合において、対象とするエンティティと共起しやすい/共起しにくいキーワードを特定することにより、対象とするエンティティに対する教師データを自動獲得する。そのような教師データ生成システム200は、エンティティ集合格納部202と、メッセージ取得部204と、メッセージ格納部206と、分類部208と、ホットユーザ識別部210と、指示受付部212と、スコア算出部214と、教師データ決定部216とを含む。エンティティ集合格納部202とメッセージ格納部206とは、物理的に同一の記憶装置であってもよく、或いは複数の記憶装置であってもよい。以下各構成要素について説明する。
エンティティ集合格納部202は、分析対象のトピックに関連する単語又は単語列であるエンティティの集合を格納する。分析対象のトピックが例えば「東京モーターショー2013」であるとすると、エンティティの集合には、イベントのウェブサイトやガイドブックを参考に、出展企業名や出展車名をエンティティとして設定してよい。また、分析対象のトピックが例えば「京都」であるとすると、エンティティの集合には、ガイドブックを参考に、清水寺や金閣寺、鴨川といった観光名所をエンティティとして設定してよい。エンティティの集合は人手で作成してよく、或いは、既存の検索クエリ拡張手法などを利用して作成してもよい。以下では説明を簡単にするため、分析対象のトピックに対するエンティティ集合を記号E、エンティティ集合Eの要素であるエンティティを記号e(e∈E)で表す。
メッセージ取得部204は、エンティティ集合格納部202からエンティティ集合Eを読み出し、エンティティ集合E内の任意のエンティティeを少なくとも1つ含んでユーザより発信されるメッセージを取得する。好ましくは、メッセージ取得部206は、エンティティ集合E内の任意のエンティティeを少なくとも1つ含み、かつ、所定の期間内にユーザにより発信されたメッセージを取得する。メッセージ取得部204が取得するメッセージは、マイクロブログなどソーシャルメディアにより発信されるリアルタイム性の高いメッセージが好ましいが、これに限定されず、通常のブログの記事など他のユーザ発信情報であってもよい。
メッセージ取得部204は、メッセージを、各サービスにおいて提供されるAPIを利用して取得してよく、又は、サービス提供者から直接入手してもよい。メッセージ取得部204は、更にウェブクローラーによって適切なアクセス権を有するメッセージを取得してもよい。メッセージは、メッセージの発信者を識別するユーザ情報、メッセージの発信時刻を示す時刻情報を含むメタデータを付加情報として含む。メタデータが存在せず、ユーザ情報がメッセージテキスト内に所定の書式に従って含まれる場合、メッセージ取得部204はメッセージテキストから所定の書式に基づいて文字列マッチングによりユーザ情報を抽出してよい。メッセージ取得部204は、取得したメッセージをメッセージ格納部206に格納する。
分類部208は、メッセージ格納部206からメッセージを読み出し、読み出したメッセージをメタデータに基づきユーザ毎にまとめて、ユーザ毎のメッセージ集合を生成する。好ましくは分類部208は、各ユーザのメッセージの集合をメタデータに基づき更に期間毎にまとめる。そして分類部208は、各メッセージについて形態素解析を行い、メッセージに含まれるエンティティeの集合と、メッセージに含まれる任意の単語又は単語列であるキーワードの集合とを作成する。以下では説明を簡単にするため、メッセージ取得部204により取得されたメッセージを記号m=(um,tm, Em, Wm)で表す。各記号の意味は以下の通りである。
U: メッセージ取得部204により収集されたメッセージを発信したユーザの集合
Di: 収集期間D1, D2, …, Dn (Di=[ti, ti+δ), ti+1=ti+δ)、但しδは期間の長さを表すパラメータ
um: メッセージ m を発信したユーザー、um∈U
tm: メッセージ m を発信した時刻、tm∈Di
Em: メッセージ m に含まれるエンティティ集合、Em⊆E
Wm: メッセージ m に含まれるキーワード集合
分類部208によりまとめられたメッセージmは再びメッセージ格納部206に格納される。
ホットユーザ識別部210は、メッセージ格納部206に格納される各ユーザuのメッセージ集合について、ユーザuが期間Diに発信したメッセージ集合に含まれるエンティティeの集合E(u, Di) を求める。そしてホットユーザ識別部210は、互いに異なるエンティティeを閾値θ(θは1より大きい正の整数)以上含むE(u, Di)を特定し、特定したE(u, Di)のユーザuをホットユーザとして識別する。従って、期間Diにおけるホットユーザとは、期間Diにおいて、θ以上のエンティティeについて言及したユーザであり、分析対象のトピックについて熱心にメッセージを発信するユーザである。以下では期間Diにおける分析対象のトピックのホットユーザを記号Uhot(Di)を用いて表す。Uhot(Di)= {u∈U | |E(u, Di)| ≧θ}である。ホットユーザ識別部210により識別されたホットユーザの情報は、後述するスコア算出部214に渡される。
指示受付部212は、ユーザから入力装置(例えば、図1のキーボード120やマウス122)を介して、または記憶装置(例えば、図1のHDD114、117)から読み出すことにより、エンティティ集合Eに含まれるエンティティeのうち曖昧性を解消すべきエンティティ(以下、「対象エンティティeo」という)の指示を受け付ける。対象エンティティeoの指示は、通信インタフェース(例えば、図1の通信インタフェース126)を介してリモート・コンピュータから受け取ってもよい。指示受付部212により受け付けられた対象エンティティeoの情報は、後述するスコア算出部214に渡される。
スコア算出部214は、ホットユーザが発信したメッセージにおいて、対象エンティティeoと各キーワードwの共起しやすさを表すP/Nスコア、PNscore(eo,w)を算出する。ここで各キーワードwは、メッセージ取得部204により取得されたメッセージのうち、対象エンティティeoを含むメッセージに含まれる任意の単語又は単語列である。このようなスコアを算出するのは次の理由による。即ち、分析対象のトピックに強い関心のあるホットユーザが発信するメッセージにおいて出現する対象エンティティeoは、分析対象のトピックの文脈で使用されていることが期待される。そのため、ホットユーザが発信したメッセージにおいて対象エンティティeoと共起しやすいキーワードwは、対象エンティティeoの曖昧性を解消する正の教師データとして利用できる。逆に言えば、そのような対象エンティティeoと共起しにくいキーワードwは、対象エンティティeoの曖昧性を解消する負の教師データとして利用できる。そこで、本発明では、対象エンティティeo に対する正の教師データ及び負の教師データとしての利用可能性を判別する指標として、キーワードwごとのP/Nスコア算出する。以下、PNscore(eo,w)の算出方法を説明する。
スコア算出部214はまず、期間Diにおいて、対象エンティティeoを含むメッセージを発信しているユーザー集合U(Di, eo)とホットユーザー集合Uhot(Di,eo)とをそれぞれ以下のように算出する。
・U(Di, eo) = {u∈U |∃m(u, tm,Em, Wm), tm∈Di∧eo∈Em} − (1)
・Uhot(Di, eo) = {u∈Uhot(Di)|∃m(u, tm, Em, Wm), tm∈Di∧eo∈Em} −(2)
スコア算出部214は、上記(2)のホットユーザー集合Uhot(Di,eo)の総数をメッセージの収集期間に含まれる全期間について足し合わせたものを、上記(1)のユーザー集合U(Di, eo)の総数を上記収集期間に含まれる全期間について足し合わせたもので割ることにより、全期間において対象エンティティeo を含むメッセージを発信したユーザの総数に対するホットユーザの総数の割合ratiohot(eo)を算出する。
・ratiohot(eo)= ΣDi |Uhot(Di, eo)| /ΣDi |U(Di,eo)| − (3)
スコア算出部214はまた、期間Diにおいて、対象エンティティeoを含み、かつ、キーワードwを含むメッセージを発信しているユーザー集合U(Di, eo,w)とホットユーザー集合Uhot (Di, eo, w) とをそれぞれ以下のように算出する。
・U(Di, eo, w) = {u∈U |∃m(u, tm,Em, Wm), tm∈Di∧eo∈Em∧w∈Wm }− (4)
・Uhot (Di, eo, w) = {u∈Uhot (Di)|∃m(u, tm, Em, Wm), tm∈Di∧eo∈Em∧w∈Wm }− (5)
スコア算出部214は、上記(5)のホットユーザー集合Uhot (Di,eo, w)の総数をメッセージの収集期間に含まれる全期間について足し合わせたものを、上記(4)のユーザー集合U(Di, eo,w)の総数を上記収集期間に含まれる全期間について足し合わせたもので割ることにより、全期間において対象エンティティeo を含み、かつ、キーワードwを含むメッセージを発信したユーザの総数に対するホットユーザの総数の割合ratiohot(eo,w)を算出する。
・ratiohot(eo, w) = ΣDi|Uhot(Di, eo, w)|/ ΣDi|U(Di,eo, w)|− (6)
最終的にスコア算出部214は、上記(3)のratiohot(eo)と(6)のratiohot(eo, w)を用いて、ホットユーザーのメッセージ集合における、対象エンティティeoとキーワード w の共起しやすさを表すスコアPNscore(eo,w)を以下のように算出する。
・ PNscore(eo,w) = ratiohot(eo, w)/ ratiohot(eo) − (7)
このようにして算出されるP/Nスコアは、ホットユーザが発信したメッセージにおいてキーワードwが対象エンティティeoと共起しやすい場合に1よりも大きい値を示し、ホットユーザが発信したメッセージにおいてキーワードwが対象エンティティeoと共起しにくい場合に1よりも小さい値を示す。スコア算出部214により算出されたキーワードwごとのP/Nスコアは後述する教師データ決定部216に渡される。
また、P/NスコアはPMI(自己相互情報量)をベースにしたスコアを採用することもできる。対象エンティティeoについて言及したユーザがキーワードwに言及する事象をx、対象エンティティeoについて言及したユーザーがホットユーザである事象をyとすると、P/Nスコアを次式のように定義することも可能である。
・PNscore(eo, w) = PMI(x, y) = log( Pr(x,y) / Pr(x) Pr(y) ) − (8)
ここで、
・Pr(x) =ΣDi|U(Di, eo, w)| / ΣDi|U(Di, eo)| − (9)
・Pr(y) =ΣDi |Uhot(Di, eo)|/ΣDi |U(Di,eo)| − (10)
・Pr(x,y)= ΣDi|Uhot(Di, eo, w)|/ ΣDi|U(Di,eo)| − (11)
である。このようにして算出されるP/Nスコアは、ホットユーザが発信したメッセージにおいてキーワードwが対象エンティティeoと共起しやすい場合に0よりも大きい値を示し、ホットユーザが発信したメッセージにおいてキーワードwが対象エンティティeoと共起しにくい場合に0よりも小さい値を示す。
ここで図3(a)、(b)を参照して、P/Nスコアを具体的に説明する。図3(a)、(b)に示す例は、分析対象のトピックを「東京モーターショー2013」とし、曖昧性を解消すべき対象エンティティeoを単語「Jaguar」とする。単語「Jaguar」は、ネコ科の哺乳類に関する文脈で用いられたり、車のブランド名に関する文脈で用いられるなど、複数の意味で用いられる。ここでは、分析対象のトピックが「東京モーターショー2013」であることから、車のブランド名に関する文脈で用いられる単語「Jaguar」と共起しやすい単語については、P/Nスコアは高い値を示し、共起しにくい単語についてはP/Nスコアは低い値を示すことが期待される。
図3(a)は、単語「Jaguar」を含むメッセージを発信したユーザの集合U(eo)と、単語「Jaguar」と単語「animal」を含むメッセージを発信したユーザの集合U(eo,w)と、分析対象のトピック「東京モーターショー2013」についてのホットユーザの集合Uhot(eo)の包含関係の一例を示す図である。図3(a)に示されるように、ホットユーザの集合Uhot(eo)の中で、単語「Jaguar」と単語「animal」を含むメッセージを発信したユーザはごく僅かである(領域300を参照)。従って以下に示す式(12)により表されるPNscore(eo,w)の値は1よりも小さくなり、また、式(8)により表されるPNscore(eo, w)の値も0よりも小さくなり、ホットユーザが発信するメッセージにおいて、単語「animal」は単語「Jaguar」と共起しにくい単語であることが分かる。
Figure 0005957048

なお、式(12)では、説明を簡単にするため期間のパラメータを省いている。式(12)により表されるP/Nスコアが値1よりも小さいことから、また、式(8)により表されるP/Nスコアが値0よりも小さいことから、単語「animal」は、単語「Jaguar」に対して負の教師データとして利用できることが分かる。
図3(b)は、単語「Jaguar」を含むメッセージを発信したユーザの集合U(eo)と、単語「Jaguar」と単語「coupe」を含むメッセージを発信したユーザの集合U(eo,w)と、分析対象のトピック「東京モーターショー2013」についてのホットユーザの集合Uhot(eo)の包含関係の一例を示す図である。図3(b)に示されるように、ホットユーザの多くが、単語「Jaguar」と単語「coupe」を含むメッセージを発信している(領域302を参照)。従って上式(12)により表されるPNscore(eo,w)の値は1よりも大きく、また、上式(8)により表されるPNscore(eo, w)の値は0よりも大きく、ホットユーザが発信するメッセージにおいて、単語「coupe」は単語「Jaguar」と共起しやすい単語であることが分かる。P/Nスコアが大きいことから、単語「coupe」は、単語「Jaguar」に対して正の教師データとして利用できることが分かる。
教師データ決定部216は、スコア算出部214により算出されたP/Nスコアに基づいて、対象エンティティeoに対する教師データを決定する。より具体的には、教師データ決定部216は、各キーワードwについて算出したP/Nスコアが、上式(7)を採用した場合は値1、上式(8)を採用した場合は値0よりも大きい場合に、該キーワードwを対象エンティティeoに対する正例の教師データと決定してよい。また、教師データ決定部216は、各キーワードwについて算出したP/Nスコアが、上式(7)を採用した場合は値1、上式(8)を採用した場合は値0よりも小さい場合に、該キーワードwを対象エンティティeoに対する負例の教師データと決定してよい。
上記に代えて教師データ決定部216は、メッセージ取得部204により取得された対象エンティティeoを含む各メッセージについて、正例及び負例の教師データを決定してもよい。より具体的には、教師データ決定部216は、上記メッセージに含まれる各キーワードwのP/Nスコアを足し合わせた合計値が、閾値τpよりも大きい場合に該メッセージを対象エンティティeoに対する正例の教師データと決定してよい。同様に教師データ決定部216は、上記合計値が閾値τnよりも小さい場合に、上記メッセージを対象エンティティeoに対する負例の教師データと決定してよい。
教師データ決定部216は更に、各メッセージについて各キーワードwのP/Nスコアを足し合わせた合計値を算出する際に、次式(13)に示すように、キーワードwごとのP/Nスコアに対し、該キーワードwと対象エンティティeoとの同時出現頻度に応じた重み付けを行ってよい。
Figure 0005957048

キーワードwと対象エンティティeoとの同時出現頻度としては、次式(14)に示すように、キーワードwと対象エンティティeoとを含むメッセージを発信したユーザの人数を用いてよい。
Figure 0005957048

教師データ決定部216により決定された教師データの情報は、対象エンティティeoの曖昧性を解消するために利用される。対象エンティティeoの曖昧性解消は、既知の教師あり文書分類の枠組み、例えば、ナイーブベイズ分類器やサポートベクタマシーンなど、を用いて行ってよい。これら技術は本発明の要旨ではなく公知技術であるため、本明細書において詳細な説明はしない。
また、教師データ決定部216により決定された教師データの情報そのものを、対象エンティティeoの曖昧性解消結果として用いることもできる。正例の教師データを対象トピックに関連するエンティティとして、負例の教師データを対象トピックに関連しないエンティティとして、対象エンティティeoの曖昧性解消結果として用いてもよい。
次に図4を参照して、本実施形態に係る教師データ生成システム200による教師データ生成処理の流れの一例を説明する。教師データ生成処理はステップ400で開始し、メッセージ取得部204は、エンティティ集合格納部202に格納される分析対象のトピックを示すエンティティの集合Eを参照して、エンティティの集合E内の任意のエンティティeを少なくとも1つ含む、所定の期間内に発信されたメッセージを取得し、メッセージ格納部206に格納する。
続いて分類部208は、メッセージと共に取得されたメタデータに基づいて、メッセージ取得部204により取得されたメッセージを、ユーザu毎、また、期間Di毎のメッセージに分類する(ステップ402)。続いてホットユーザ識別部210は、分類部208により分類されたユーザu毎かつ期間Di毎のメッセージの集合について、該集合内のメッセージに含まれるエンティティの集合E(u, Di)を求め、含まれるエンティティの数|E(u, Di)|が閾値θ以上であるメッセージ集合のユーザuを、期間Diにおけるホットユーザとして識別する(ステップ404)。
続いて指示受付部212は、ユーザから対象エンティティeoの指示を受け付ける(ステップ406)。続いてスコア算出部214は、対象エンティティeoを含むメッセージに含まれる各キーワードwについて、P/Nスコアを算出する(ステップ408)。スコア算出部214による処理の詳細は、図5を参照して後述する。最後に教師データ決定部216は、スコア算出部214により算出されたキーワードwごとのP/Nスコアに基づいて、対象エンティティeoに対する正例及び負例の教師データを決定する(ステップ410)。そして処理は終了する。
次に図5を参照して、スコア算出部214によるスコア算出処理の流れの一例を説明する。スコア算出処理はステップ500で開始し、スコア算出部214は、期間Diにおいて、対象エンティティeoを含むメッセージを発信するユーザの集合U(Di, eo)と、同じく、期間Diにおいて、対象エンティティeoを含むメッセージを発信するホットユーザの集合Uhot(Di, eo)とを算出する。
続いてスコア算出部214は、期間Diにおいて、対象エンティティeoとP/Nスコアを算出するキーワードwとを含むメッセージを発信するユーザの集合U(Di, eo,w)と、同じく、期間Diにおいて、上記キーワードwと対象エンティティeoを含むメッセージを発信するホットユーザの集合Uhot (Di,eo, w)とを算出する(ステップ502)。
続いてスコア算出部214は、対象とする全期間における対象エンティティeoを含むメッセージを発信したユーザの総数に対する、上記全期間における対象エンティティeoを含むメッセージを発信したホットユーザの総数の割合ratiohot(eo)を算出する(ステップ504)。続いてスコア算出部214は、対象とする全期間における対象エンティティeo とP/Nスコアを算出するキーワードwとを含むメッセージを発信したユーザの総数に対する、対象とする全期間における上記キーワードwと対象エンティティeoとを含むメッセージを発信したホットユーザの総数の割合ratiohot(eo, w)を算出する(ステップ506)。
最後にスコア算出部214は、ステップ506で求めた値ratiohot(eo, w)を、ステップ504で求めた値ratiohot(eo)で割って、キーワードwについてのP/Nスコア(ratiohot(eo,w)/ratiohot(eo))を得る(ステップ508)。そして処理は終了する。
次に図6を参照して、本発明が提案するP/Nスコアの評価実験について述べる。図6を参照して説明する評価実験の内容は以下の通りである。
・ 分析対象のトピック:東京モーターショー2013
・ エンティティ集合E:イベントのウェブサイトやガイドブックを参考に、147 の出展企業名や出展車名を設定
・ 対象としたソーシャルメディア:Twitter
・ データ収集期間: 2013/11/22〜2013/12/01 (10日間、イベント開催期間と同じ)
・ 提案手法のパラメータ設定
期間の長さδ=24時間
ホットユーザー判定のための閾値θ=3
なお、P/Nスコアを算出するにあたり、収集したデータに対して以下の条件でノイズを除去を行った。
・ 日本語でないツイート
・ リツイート
・ 外部 URL を含むツイート
・ ボットユーザ
ここで、外部URLを含むツイートを除去したのは、広告を除外するためである。ただし、写真共有サービスや位置情報サービスへの URL を含むメッセージは、ユーザ体験が記述されることが多いことから除外対象外とした。また、ボットユーザの識別は、過去に2回以上、全く同じ内容のメッセージを発信しているユーザをボットユーザと定義して行った。
図6に示す表は、対象エンティティ「Jaguar」に対するキーワードの例とそのP/Nスコア(上式(7)により算出)である。表の右端のフィールドには、実際のメッセージにおける対象エンティティの意味を記載している。図6に示す表から、P/Nスコアが1より高い値を有するキーワードは、東京モーターショーの文脈で使用されており、従って、対象エンティティ「Jaguar」に対して正例の教師データとして利用できることが分かる。一方、P/Nスコアが1より小さい値を有するキーワードは、音楽や動物などの東京モーターショーとは異なる文脈で使用されており、従って、対象エンティティ「Jaguar」に対して負例の教師データとして利用できることが分かる。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更又は改良を加えることが可能であることが当業者に明らかである。従って、そのような変更又は改良を加えた形態も当然に本発明の技術的範囲に含まれる。
なお、特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り任意の順序で実現しうることに留意すべきである。また、前の処理の出力を後の処理で用いる場合でも、前の処理と後の処理の間に他の処理が入ることは可能である場合があること、又は間に他の処理が入るように記載されていても前の処理を後の処理の直前に行うよう変更することも可能である場合があることも留意されたい。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」、「続いて、」等を用いて説明したとしても、この順で実施することが必須であることを必ずしも意味するとは限らない。

Claims (12)

  1. 分析対象のトピックに関連する単語又は単語列(以下、「エンティティ」という)の曖昧性を解消する教師データの生成方法であって、
    (a)コンピュータが、前記エンティティの集合に含まれる任意のエンティティを少なくとも1つ含んで発信されるメッセージを取得するステップと、
    (b)前記コンピュータが、取得したメッセージを該メッセージの発信者であるユーザ毎にまとめて、ユーザ毎のメッセージ集合を取得するステップと、
    (c)前記コンピュータが、前記ユーザ毎のメッセージ集合の中から、前記エンティティの集合に含まれる互いに異なるエンティティを第1閾値(1より大きい正の整数)以上含むメッセージ集合を特定し、該メッセージ集合のユーザをホットユーザとして識別するステップと、
    (d)前記コンピュータが、前記エンティティの集合に含まれるエンティティのうち曖昧性を解消すべきエンティティ(以下、「対象エンティティ」という)の指示を受け付けるステップと、
    (e)前記コンピュータが、ステップ(a)で取得したメッセージのうち前記対象エンティティを含むメッセージに含まれる各キーワードについて、前記ホットユーザのメッセージ集合における前記キーワードと前記対象エンティティとの共起しやすさを求めるステップと、
    (f)前記コンピュータが、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさに基づいて、前記対象エンティティに対する教師データを決定するステップと、
    を含む方法。
  2. ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、前記対象エンティティ及び前記キーワードを含むメッセージを発信したユーザの総数に対する、前記対象エンティティ及び前記キーワードを含むメッセージを発信した前記ホットユーザの人数の割合を、前記対象エンティティを含むメッセージを発信したユーザの総数に対する、前記対象エンティティを含むメッセージを発信した前記ホットユーザの人数の割合で割った値を算出するステップを含む、請求項1に記載の方法。
  3. ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、対象エンティティについて言及したユーザが前記キーワードに言及する事象と、対象エンティティについて言及したユーザがホットユーザである事象についての自己相互情報量を算出するステップを含む、請求項1に記載の方法。
  4. ステップ(f)において、前記コンピュータは、前記各キーワードについて算出した前記スコアと第2閾値とを比較することにより、前記各キーワードを前記対象エンティティに対する正例又は負例の教師データとするか否かを決定する、請求項2又は3に記載の方法。
  5. ステップ(f)において、前記コンピュータは、ステップ(a)で取得した前記対象エンティティを含む各メッセージについて、該メッセージに含まれる前記各キーワードの前記スコアを足し合わせた合計値が、第3閾値よりも大きい場合に該メッセージを前記対象エンティティに対する正例の教師データと決定し、前記合計値が第4閾値よりも小さい場合に、前記メッセージを前記対象エンティティに対する負例の教師データと決定する、請求項2又は3に記載の方法。
  6. 前記合計値の算出において、前記コンピュータは、キーワードごとの前記スコアに対し、該キーワードと前記対象エンティティとの同時出現頻度に応じた重み付けを行う、請求項5に記載の方法。
  7. 前記コンピュータは、前記キーワードと前記対象エンティティとの前記同時出現頻度として、前記キーワードと前記対象エンティティとを含むメッセージを発信したユーザの人数を用いる、請求項6に記載の方法。
  8. ステップ(b)において、前記コンピュータが、前記取得したメッセージを更に期間毎にまとめて、ユーザ及び期間毎のメッセージ集合を取得するステップと、ステップ(c)において、前記コンピュータが、前記ユーザ及び期間毎のメッセージ集合の中から、前記エンティティの集合に含まれる互いに異なるエンティティを第5閾値(1より大きい整数)以上含むメッセージを特定し、該メッセージのユーザを該メッセージの期間におけるホットユーザとして識別するステップとを含む、請求項1に記載の方法。
  9. ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、前記対象エンティティ及び前記キーワードを含むメッセージを所定期間内において発信したユーザの総数に対する、前記対象エンティティ及び前記キーワードを含むメッセージを発信した前記所定期間内に含まれる全ての期間の前記ホットユーザの人数の割合を、前記対象エンティティを含むメッセージを前記所定期間内において発信したユーザの総数に対する、前記対象エンティティを含むメッセージを発信した前記所定期間内に含まれる全ての期間の前記ホットユーザの人数の割合で割った値を算出するステップを含む、請求項8に記載の方法。
  10. ステップ(e)は、前記ホットユーザのメッセージ集合における前記各キーワードと前記対象エンティティとの共起しやすさを示すスコアとして、前記コンピュータが、所定期間内において対象エンティティについて言及したユーザがキーワードに言及する事象と、前記所定期間内において対象エンティティについて言及したユーザがホットユーザーである事象についての自己相互情報量を算出するステップを含む、請求項8に記載の方法。
  11. 前記コンピュータに、請求項1乃至10のいずれかに1項に記載の方法の各ステップを実行させるための教師データ生成プログラム。
  12. 請求項1乃至10のいずれかに1項に記載の方法の各ステップを実行するように適合された手段を備える、教師データ生成システム。
JP2014166695A 2014-08-19 2014-08-19 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム Expired - Fee Related JP5957048B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014166695A JP5957048B2 (ja) 2014-08-19 2014-08-19 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
US14/820,995 US9483462B2 (en) 2014-08-19 2015-08-07 Generating training data for disambiguation
US14/954,636 US9720904B2 (en) 2014-08-19 2015-11-30 Generating training data for disambiguation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014166695A JP5957048B2 (ja) 2014-08-19 2014-08-19 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2016045504A JP2016045504A (ja) 2016-04-04
JP5957048B2 true JP5957048B2 (ja) 2016-07-27

Family

ID=55348809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014166695A Expired - Fee Related JP5957048B2 (ja) 2014-08-19 2014-08-19 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム

Country Status (2)

Country Link
US (2) US9483462B2 (ja)
JP (1) JP5957048B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133735B2 (en) * 2016-02-29 2018-11-20 Rovi Guides, Inc. Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
US10104025B2 (en) * 2016-05-23 2018-10-16 Oath Inc. Virtual chat rooms
CN106407180B (zh) * 2016-08-30 2021-01-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
US10558754B2 (en) * 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
US10114815B2 (en) * 2016-10-25 2018-10-30 International Business Machines Corporation Core points associations sentiment analysis in large documents
KR101910581B1 (ko) * 2017-06-16 2018-10-22 라인 가부시키가이샤 사용자 대화 활동성 및 대화 상황 정보를 활용한 대화방 정렬 방법 및 그 시스템
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
RU2731658C2 (ru) 2018-06-21 2020-09-07 Общество С Ограниченной Ответственностью "Яндекс" Способ и система выбора для ранжирования поисковых результатов с помощью алгоритма машинного обучения
RU2733481C2 (ru) 2018-12-13 2020-10-01 Общество С Ограниченной Ответственностью "Яндекс" Способ и система генерирования признака для ранжирования документа
RU2744029C1 (ru) * 2018-12-29 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Система и способ формирования обучающего набора для алгоритма машинного обучения
US11862315B2 (en) 2020-12-16 2024-01-02 Express Scripts Strategic Development, Inc. System and method for natural language processing
US11776672B1 (en) 2020-12-16 2023-10-03 Express Scripts Strategic Development, Inc. System and method for dynamically scoring data objects
US11423067B1 (en) 2020-12-16 2022-08-23 Express Scripts Strategic Development, Inc. System and method for identifying data object combinations
CN114666291A (zh) * 2022-03-24 2022-06-24 维沃移动通信有限公司 消息发送方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4888677B2 (ja) 2001-07-06 2012-02-29 独立行政法人情報通信研究機構 文書検索システム
US20050091320A1 (en) * 2003-10-09 2005-04-28 Kirsch Steven T. Method and system for categorizing and processing e-mails
JP2009123015A (ja) * 2007-11-15 2009-06-04 Bbmedia Inc ブランドランク評価システムおよび方法
JP4921520B2 (ja) * 2009-05-26 2012-04-25 ヤフー株式会社 コミュニケーションサーバ、コミュニケーションシステム、及びコミュニケーション方法
JP2011059886A (ja) * 2009-09-08 2011-03-24 Paradigm Shift Inc 口コミ情報管理システム、口コミ情報管理方法、および口コミ情報管理プログラム
JP5903915B2 (ja) * 2012-02-07 2016-04-13 大日本印刷株式会社 サーバ装置、プログラム及び通信システム
CN104428767B (zh) * 2012-02-22 2018-02-06 谷歌公司 用于识别相关实体的方法、***和装置
JP5964149B2 (ja) 2012-06-20 2016-08-03 株式会社Nttドコモ 共起語を特定する装置およびプログラム
US8577671B1 (en) * 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
JP5389234B1 (ja) 2012-08-03 2014-01-15 株式会社Nttドコモ 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
JP6047365B2 (ja) * 2012-10-19 2016-12-21 Kddi株式会社 検索装置、検索プログラムおよび検索方法
US9336300B2 (en) * 2014-01-17 2016-05-10 Facebook, Inc. Client-side search templates for online social networks

Also Published As

Publication number Publication date
US20160055845A1 (en) 2016-02-25
US9483462B2 (en) 2016-11-01
US9720904B2 (en) 2017-08-01
JP2016045504A (ja) 2016-04-04
US20160085740A1 (en) 2016-03-24

Similar Documents

Publication Publication Date Title
JP5957048B2 (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
CN107679211B (zh) 用于推送信息的方法和装置
JP6515624B2 (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
Efron Information search and retrieval in microblogs
US10395179B2 (en) Methods and systems of venue inference for social messages
US9201928B2 (en) Assessing quality of reviews based on online reviewer generated content
TWI408560B (zh) 用以在一電腦網路中推薦使用者其可能感興趣的項目或人物的方法、系統及其裝置
US10606658B2 (en) Approach to recommending mashups
WO2017121076A1 (zh) 信息推送方法和装置
US20150032653A1 (en) Method and system to determine a member profile associated with a reference in a publication
US9386107B1 (en) Analyzing distributed group discussions
KR20160149978A (ko) 검색 엔진 및 그의 구현 방법
US20150149539A1 (en) Trending Data Demographics
CN112771564A (zh) 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎
US11468136B2 (en) Item inventory locating from search queries
US20160012019A1 (en) Group tagging of documents
JP2011248831A (ja) 情報処理装置および方法、並びに、プログラム
CN110287405B (zh) 情感分析的方法、装置和存储介质
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
JP2010128917A (ja) 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
US20170177673A1 (en) Guidelines for content publishing in a social network
KR102151322B1 (ko) 정보 푸시 방법 및 장치
US20150180818A1 (en) Interface for Product Reviews Identified in Online Reviewer Generated Content
CN111026849A (zh) 数据处理方法和装置
JP2014142738A (ja) 管理方法、管理装置および管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160112

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160122

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160617

R150 Certificate of patent or registration of utility model

Ref document number: 5957048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees