JP7096222B2 - リスク評価装置、リスク評価方法及びリスク評価プログラム - Google Patents

リスク評価装置、リスク評価方法及びリスク評価プログラム Download PDF

Info

Publication number
JP7096222B2
JP7096222B2 JP2019178329A JP2019178329A JP7096222B2 JP 7096222 B2 JP7096222 B2 JP 7096222B2 JP 2019178329 A JP2019178329 A JP 2019178329A JP 2019178329 A JP2019178329 A JP 2019178329A JP 7096222 B2 JP7096222 B2 JP 7096222B2
Authority
JP
Japan
Prior art keywords
risk
search
risk assessment
document data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019178329A
Other languages
English (en)
Other versions
JP2021056698A (ja
Inventor
知明 三本
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2019178329A priority Critical patent/JP7096222B2/ja
Publication of JP2021056698A publication Critical patent/JP2021056698A/ja
Application granted granted Critical
Publication of JP7096222B2 publication Critical patent/JP7096222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書データを公開する際のリスクを評価する方法に関する。
従来、データセットの匿名化技術として、k-匿名化等の様々な手法が提案されている。ところが、これらの手法は、一般の文書データを対象とするものではなかった。文書データの匿名化に関しては、非特許文献1及び2のように、文書中の単語の出現回数等から情報量を算出することで、リスクを評価する手法が提案されている。
David Snchez, and Montserrat Batet, "C-sanitized: A privacy model for document redaction and sanitization", Journal of the Association for Information Science and Technology, 148-163, 2016, Wiley Online Library. Venkatesan T. Chakaravarthy, Himanshu Gupta, Prasan Roy, and Mukesh K. Mohania, "Efficient Techniques for Document Sanitization", Proceedings of the 17th ACM conerence on Information and knowledge management, 843-852, 2008.
従来の手法では、文書データに含まれる個人の病名、又は政治・宗教に関する思想等、センシティブな情報が秘匿されているかという観点でリスク評価が実施されている。
しかしながら、例えば学校の事故レポートのように、文書データ自体に個人と紐づけられたセンシティブな情報が含まれていない場合であっても、この文書データに関連する個人情報及び追加情報が入手され紐付けされる可能性があった。したがって、文書データのみから十分にリスクを評価することは難しかった。
本発明は、文書データを公開する際のリスクを適切に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。
本発明に係るリスク評価装置は、文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備える。
前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行ってもよい。
前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得してもよい。
前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価してもよい。
前記リスク評価装置は、前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整してもよい。
前記リスク評価装置は、前記文書データの話題性を示す指標を取得する指標取得部を備え、前記評価部は、前記指標に応じて、前記文書リスクの評価を調整してもよい。
前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得してもよい。
前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行ってもよい。
前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価してもよい。
前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示してもよい。
本発明に係るリスク評価方法は、文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行する。
本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。
本発明によれば、文書データを公開する際のリスクを適切に評価できる。
本実施形態において想定される攻撃を例示する図である。 本実施形態におけるリスク評価装置の機能構成を示す図である。 本実施形態におけるリスク評価方法を示すフローチャートである。
以下、本発明の実施形態の一例について説明する。
本実施形態におけるリスク評価方法では、攻撃者が一般的な検索能力を保有することを想定し、Web検索による攻撃に対する文書データのリスクが評価される。
図1は、本実施形態において想定される攻撃を例示する図である。
攻撃者は、文書データからキーワードを抽出し、これらのキーワードを用いてWeb検索を行う。その後、攻撃者は、検索結果から文書データに関する情報、特に個人を特定し、特定した情報(例えば、「△△君」)と文書データに含まれるセンシティブな情報(例えば、「給付金1500万円」)との紐付けを試みる。
本実施形態のリスク評価方法を実施する装置(コンピュータ)は、このようなWeb検索をシミュレーションすることで、文書データに関連する情報が攻撃者に発見されるリスクを定量的に評価する。
図2は、本実施形態におけるリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、リスク評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群をリスク評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスク評価プログラム)、パラメータ、及びこのプログラムが処理対象とする文書データを含む文書データセット等を記憶する。
制御部10は、形態素解析部11と、情報量算出部12と、検索部13と、抽出部14と、指標取得部15と、評価部16とを備える。
制御部10は、これらの機能部により、文書データから関連情報を検索されるリスクを評価することで、文書データの匿名化を促す。
形態素解析部11は、対象の文書データに対して形態素解析を行い、単語に分割する。さらに、形態素解析部11は、得られた単語のうち、リスクとなりうる特定の品詞(例えば、名詞、動詞等)のものを抽出する。
情報量算出部12は、形態素解析部11により抽出された単語それぞれの情報量を算出する。
単語xの情報量I(x)は、例えば、I(x)=-logP(x)で表現できる。なお、P(x)は、単語xの出現確率を表し、xの出現回数を全単語数で割ることで求められる。あるいは、情報量I(x)は、文書データセットDを用いて、TF-IDF等の指標により算出されてもよい。
検索部13は、算出された情報量の高い所定数(n個)の単語のうち、指定された最大数(m個)までの単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する。
なお、組み合わせの数は、Σ)通りとなり、n及びmの指定によっては全通りの検索の回数が膨大となる。このため、検索の回数に上限を設ける、あるいは、一度の検索に用いる単語(キーワード)の数を最大数mまで変動させるのではなく所定数に固定させてもよい。
検索部13は、単語の組み合わせのパターンを変えて、例えば指定された回数のWeb検索を行い、それぞれの検索結果の上位(例えば10件ずつ)を取得する。
抽出部14は、検索部13により取得された検索結果から、所定の条件を満たす固有名詞を抽出する。
例えば、文書データが事故レポート等の場合、固有名詞は、被害者の名前が相当し、攻撃者により文書データと紐づけられることで個人に関するセンシティブな情報が知られることとなる。
指標取得部15は、文書データの話題性を示す指標を取得し、評価部16へ提供する。
話題性は、例えば、事故による怪我の程度等であり、関連情報の多さ、すなわち検索されやすさを示す。この指標は、文書データに予め手動で付与されていてもよいし、既存の言語処理の手法を用いて文書データの内容に応じて付与されてもよい。
例えば、指標取得部15は、文書データの内容を、機械学習により所定の区分(例えば、重症又は軽傷、あるいは、死亡事故又は非死亡事故)のいずれかに分類し、この区分に対応付けられた指標を取得する。
評価部16は、検索部13により取得された検索結果の全体に対して、文書データから抽出された所定数(n個)の単語に含まれ、かつ、検索に用いた組み合わせに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
具体的には、例えば、評価部16は、検索部13により取得された検索結果のうち、一致度合いが閾値を超える、すなわち検索キーワードに用いなかった単語と同一又は類似の単語が所定以上含まれる検索結果(記事)の割合に基づいて評価してよい。
また、評価部16は、指標取得部15から得られた指標に応じて、リスクの評価を調整する。すなわち、文書データの話題性が高い場合、関連情報が検索される可能性も高いため、リスクが高く評価される。
さらに、評価部16は、抽出部14により被害者の個人名等の固有名詞が抽出された場合に、リスクを高く調整する。
評価部16は、さらに、Web検索を行った単語の組み合わせ毎にリスクを評価し、これらのリスクを統合することにより、単語毎の個別リスクを評価してもよい。例えば、単語の一致度合いが閾値を超える検索結果が所定以上得られた際の検索キーワードに含まれる単語は、記載されることにリスクがあると判断される。さらに、異なる組み合わせでも同様にリスクが高いと判断される単語については、より高いリスクがあると評価される。
得られた単語毎の評価は、ユーザに提示されて個別リスクの高い単語の匿名化が促される。あるいは、所定以上の個別リスクのある単語が自動で汎化されることで匿名化されてもよいし、汎化候補が提示されてもよい。
さらに、評価部16は、個別リスクの高い単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量(低下量)をユーザに提示してもよい。
なお、汎化の対象は、個別リスクが所定以上の単語全てであってもよいが、評価部16は、個別リスクが上位の単語を優先して、順に文書データのリスクの変化量と共にユーザに提示してもよい。
図3は、本実施形態におけるリスク評価方法を示すフローチャートである。
ここでは、文書データから抽出する検索キーワードの候補となる単語の数n、検索キーワードとして用いる単語数m、Web検索の実行回数i、検索結果の取得数j、及び文書データの話題性(センシティビティ)を示す指標εがパラメータとして入力されているものとする。なお、指標εは、前述のように文書データの意味解析により算出されてもよい。
ステップS1において、形態素解析部11は、対象の文書データに対して形態素解析を行い、名詞及び動詞等の特定の品詞の単語を、攻撃者により検索キーワードとされる可能性が高い単語として抽出する。
ステップS2において、情報量算出部12は、ステップS1で抽出された単語それぞれの情報量を、出現頻度に基づく指標により算出する。
ステップS3において、検索部13は、ステップS2で算出された情報量が高いn個の単語を抽出し、この中からm個の単語をランダムに選択してWeb検索をk回実行する。そして、検索部13は、Web検索の度に上位からj個の検索結果を、全部でi×j個の検索結果を得る。
ステップS4において、評価部16は、ステップS3で得られたi×j個の検索結果から、検索キーワードに使われなかったn-m個の単語と同一の又は類似した単語が含まれる割合が所定以上の関連文書を選別する。そして、評価部16は、検索結果全体に対して選別された関連文書の割合に応じたリスクの評価値を算出する。
ステップS5において、抽出部14は、ステップS4で選別された関連文書の中に、被害者の名前等、特定の条件を満たす固有名詞が存在するか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS7に移る。
ステップS6において、評価部16は、ステップS4で算出された評価値を調整し、リスクを高く評価する。なお、評価部16は、ステップS5において該当の固有名詞が存在する関連文書の割合に応じて評価値の上げ幅又は上げ率を調整してもよい。
ステップS7において、評価部16は、文書データの話題性を示す指標εに基づいて、評価値を調整し、話題性の高い文書データほど、リスクを高く評価する。
本実施形態によれば、リスク評価装置1は、文書データに含まれる情報量の高い所定数の単語のうち、指定された所定数の単語の組み合わせを検索キーワードとしてWeb検索を行い、検索結果の上位から所定数を取得する。リスク評価装置1は、検索結果に対して、所定数の単語に含まれ、かつ、検索キーワードに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
これにより、リスク評価装置1は、文書データを公開する際に、実際の攻撃をシミュレーションすることで、文書データに関連する個人及び追加情報等が攻撃者に入手されるリスクを定量的に適切に評価することができる。
リスク評価装置1は、指定された最大数までの単語の組み合わせによりWeb検索を行うことにより、攻撃者による検索キーワードの選択数を複数シミュレーションでき、文書データのリスクを適切に評価できる。
リスク評価装置1は、検索キーワードの組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する。
これにより、リスク評価装置1は、複数の検索パターンをシミュレーションすることで、様々な観点の検索結果を取得でき、関連情報が入手されるリスクを、より適切に評価できる。
リスク評価装置1は、検索結果のうち、検索キーワード以外の単語の一致度合いが閾値を超える割合に基づいてリスクを評価する。
これにより、リスク評価装置1は、文書データと紐付けられる関連情報を効率的に判別し、リスクを適切に評価できる。
リスク評価装置1は、検索結果から、所定の条件を満たす固有名詞が抽出された場合に、リスクを高く調整する。
これにより、リスク評価装置1は、攻撃者により文書データと個人名又は学校名等の固有名詞とが紐付けられる可能性を判定し、適切にリスクを評価できる。
リスクを評価装置1は、文書データの話題性を示す指標に応じて、リスクの評価を調整する。
例えば文書データが事故レポートの場合、事故の程度によって記事の数が異なるため、重大事故で話題性が高い場合には、低い情報量の単語からでも容易に当該事故の記事が検索されることから、リスクを評価装置1は、関連情報の紐付けのリスクを現実に則して適切に評価できる。
また、リスクを評価装置1は、文書データの内容を、機械学習により所定の区分のいずれかに分類し、これらの区分に対応付けられた指標を取得することで、事前に判別されない指標を適切に付与してリスクを適切に評価できる。
リスク評価装置1は、単語の組み合わせ毎にリスクを評価し、評価結果を統合することにより、単語毎の個別リスクを評価する。
これにより、リスク評価装置1は、文書データに含まれる個別リスクの高い単語を提示して公開前に匿名化を促す、又は自動的に汎化することで、文書データのリスクを低減させることができる。
さらに、リスク評価装置1は、個別リスクが所定以上の単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量を提示する。
これにより、リスク評価装置1は、どのような汎化で文書データのリスクがどれだけ低下するかを示し、ユーザに文書データの匿名化を適切なレベルで実施させることができる。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
前述の実施形態では、評価対象の文書データに含まれる単語によりWeb検索を行ったが、実際には、検索結果に含まれる単語による再検索が行われることも考えられる。
したがって、リスク評価装置1は、リスク評価のために検索された関連文書からも同様に単語の情報量を算出し、所定以上の情報量の単語が含まれる場合、これらの単語を含む検索キーワードにより再度Web検索を行ってもよい。
これにより、攻撃者の検索行動をより忠実にシミュレーションできるため、リスクのより適切な評価が期待できる。
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 リスク評価装置
10 制御部
11 形態素解析部
12 情報量算出部
13 検索部
14 抽出部
15 指標取得部
16 評価部
20 記憶部

Claims (12)

  1. 文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、
    前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、
    前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備えるリスク評価装置。
  2. 前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行う請求項1に記載のリスク評価装置。
  3. 前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する請求項1又は請求項2に記載のリスク評価装置。
  4. 前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価する請求項1から請求項3のいずれかに記載のリスク評価装置。
  5. 前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、
    前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整する請求項1から請求項4のいずれかに記載のリスク評価装置。
  6. 前記文書データの話題性を示す指標を取得する指標取得部を備え、
    前記評価部は、前記指標に応じて、前記文書リスクの評価を調整する請求項1から請求項5のいずれかに記載のリスク評価装置。
  7. 前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得する請求項6に記載のリスク評価装置。
  8. 前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、
    前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行う請求項1から請求項7のいずれかに記載のリスク評価装置。
  9. 前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価する請求項1から請求項8に記載のリスク評価装置。
  10. 前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示する請求項9に記載のリスク評価装置。
  11. 文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、
    前記情報量の上位から所定数の単語のうち、複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、
    前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行するリスク評価方法。
  12. 請求項1から請求項10のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。
JP2019178329A 2019-09-30 2019-09-30 リスク評価装置、リスク評価方法及びリスク評価プログラム Active JP7096222B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019178329A JP7096222B2 (ja) 2019-09-30 2019-09-30 リスク評価装置、リスク評価方法及びリスク評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019178329A JP7096222B2 (ja) 2019-09-30 2019-09-30 リスク評価装置、リスク評価方法及びリスク評価プログラム

Publications (2)

Publication Number Publication Date
JP2021056698A JP2021056698A (ja) 2021-04-08
JP7096222B2 true JP7096222B2 (ja) 2022-07-05

Family

ID=75270775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019178329A Active JP7096222B2 (ja) 2019-09-30 2019-09-30 リスク評価装置、リスク評価方法及びリスク評価プログラム

Country Status (1)

Country Link
JP (1) JP7096222B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243205A (ja) 2007-03-28 2008-10-09 Palo Alto Research Center Inc 文書からの望ましくない推論を検知するための方法及びシステム
JP2011095905A (ja) 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243205A (ja) 2007-03-28 2008-10-09 Palo Alto Research Center Inc 文書からの望ましくない推論を検知するための方法及びシステム
JP2011095905A (ja) 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三本 知明,ドキュメントにおけるプライバシとリスク評価ツールの試作,電子情報通信学会技術研究報告 Vol.119 No.144,日本,2019年07月16日,113~118

Also Published As

Publication number Publication date
JP2021056698A (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
US10289618B2 (en) Third party search applications for a search system
US10592837B2 (en) Identifying security risks via analysis of multi-level analytical records
CN107862022B (zh) 文化资源推荐***
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
EP2866421A1 (en) Method and apparatus for identifying a same user in multiple social networks
JP6403382B2 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
US10860565B2 (en) Database update and analytics system
US8700592B2 (en) Shopping search engines
Wang et al. Multiple imputation for sharing precise geographies in public use data
CN113574522A (zh) 搜索中的富体验的选择性呈现
KR20180086084A (ko) 인공 지능 기술을 적용한 기계 학습 기반의 입력 특허 집합과 관계성 높은 특허 집합을 생성하는 방법 및 장치
JP7198408B2 (ja) 商標情報処理装置及び方法、並びにプログラム
CN110019642A (zh) 一种相似文本检测方法及装置
Campos et al. Gte: A distributional second-order co-occurrence approach to improve the identification of top relevant dates in web snippets
McCreadie et al. University of Glasgow at TREC 2014: Experiments with Terrier in Contextual Suggestion, Temporal Summarisation and Web Tracks.
JP2016218512A (ja) 情報処理装置及び情報処理プログラム
Choudhary et al. Role of ranking algorithms for information retrieval
Natukunda et al. Unsupervised title and abstract screening for systematic review: a retrospective case-study using topic modelling methodology
JP7096222B2 (ja) リスク評価装置、リスク評価方法及びリスク評価プログラム
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、***及相关装置
Khan et al. Fake news detection of South African COVID-19 related tweets using machine learning
JP2012104051A (ja) 文書インデックス作成装置
WO2019019711A1 (zh) 行为模式数据的发布方法、装置、终端设备及介质
KR20230049486A (ko) 정치성향 분석 장치 및 이를 이용한 서비스 제공 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150