JP7404694B2 - 関連性評価方法、関連性評価装置、プログラム - Google Patents

関連性評価方法、関連性評価装置、プログラム Download PDF

Info

Publication number
JP7404694B2
JP7404694B2 JP2019138655A JP2019138655A JP7404694B2 JP 7404694 B2 JP7404694 B2 JP 7404694B2 JP 2019138655 A JP2019138655 A JP 2019138655A JP 2019138655 A JP2019138655 A JP 2019138655A JP 7404694 B2 JP7404694 B2 JP 7404694B2
Authority
JP
Japan
Prior art keywords
score
word
users
ranking
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019138655A
Other languages
English (en)
Other versions
JP2021022193A (ja
Inventor
有 杉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019138655A priority Critical patent/JP7404694B2/ja
Publication of JP2021022193A publication Critical patent/JP2021022193A/ja
Application granted granted Critical
Publication of JP7404694B2 publication Critical patent/JP7404694B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、関連性評価方法、関連性評価装置、プログラムに関する。
企業のような組織、団体などにおいて、特定の技術、分野、製品、プロジェクトなどに関係している人を効率的に検索することなどを実現するため、人と単語との関連性を算出・評価することがある。
このような関連性を算出する際に用いる技術として、例えば、特許文献1がある。特許文献1には、収集部と、単語抽出部と、関連スコア算出部と、を有する関連スコア算出システムが記載されている。特許文献1によると、単語抽出部は、収集部が端末装置から収集した操作ログに記述されているファイル名から単語を抽出する。また、関連スコア算出部は、操作ログに基づいて、ユーザと単語との関連の強さを表す関連スコアを算出する。さらに、特許文献1には、関連スコアの算出方法として、一人のユーザに対し一つの単語ごとに関連性を数値化する第1の方法と、単語を使う人の分布が似ている別の単語とも関連があるとして単語同士の関連度も加味した関連性を数値化する第2の方法と、の2つの方法が記載されている。
特開2019-86940号公報
特許文献1に記載されている第2の方法で関連性を数値化した場合、例えば、「スマホ」という単語を使う人は「スマートフォン」という単語とも関連性があると判断されるなど、類語や表記ゆれなどに強くなることが期待される。しかしながら、第2の方法の場合、例えば、ユーザAが「B」という単語をよく使っており、ユーザ全体において「A」という単語を使う者が「B」という単語もよく使う傾向があった場合、仮にユーザAが「A」という単語を使っていなくても、ユーザAは「A」との関連スコアも高くなることがあった。
このように、類語や表記ゆれなどに強くなる第2の方法を用いると、実際には使っていない単語に対する関連スコアが高くなるおそれがある、という課題が生じていた。このような課題は、使用者が少ない、専門性の高い単語でより顕著に発生していた。
そこで、本発明の目的は、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが難しい、という課題を解決する関連性評価方法、関連性評価装置、プログラムを提供することにある。
かかる目的を達成するため本発明の一形態である関連性評価方法は、
情報処理装置が、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出し、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出し、
算出した第1スコアと第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う
という構成をとる。
また、本発明の他の形態である関連性評価装置は、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出する第2スコア算出部と、
算出した第1スコアと第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を有する
という構成をとる。
また、本発明の他の形態であるプログラムは、
情報処理装置に、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出する第2スコア算出部と、
算出した第1スコアと第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を実現するためのプログラムである。
本発明は、以上のように構成されることにより、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが難しい、という課題を解決する関連性評価方法、関連性評価装置、プログラムを提供することが可能となる。
本発明の第1の実施形態における関連性評価装置の構成の一例を示すブロック図である。 図1で示す参照時間情報の一例を示す図である。 図1で示す第1スコア情報の一例を示す図である。 図1で示す第1テーブルの一例を示す図である。 図1で示す第2テーブルの一例を示す図である。 図1で示す第2スコア情報の一例を示す図である。 図1で示すランキング情報に含まれるランキングテーブルの一例を示す図である。 図1で示すランキング情報に含まれるランキングテーブルの他の一例を示す図である。 第1スコア算出部が行う処理の一例を説明するための図である。 第2テーブル生成部が行う処理の一例を説明するための図である。 関連性評価装置の動作の一例を示すフローチャートである。 ランキングテーブルを生成する処理の一例を示すフローチャートである。 関連性評価装置が検索を行う際の動作の一例を示すフローチャートである。 本発明の第2の実施形態における関連性評価装置の構成の一例を示すブロック図である。
[第1の実施形態]
本発明の第1の実施形態を図1から図13までを参照して説明する。図1は、関連性評価装置100の構成の一例を示すブロック図である。図2は、参照時間情報111の一例を示す図である。図3は、第1スコア情報112の一例を示す図である。図4は、第1テーブル113の一例を示す図である。図5は、第2テーブル114の一例を示す図である。図6は、第2スコア情報115の一例を示す図である。図7、図8は、ランキング情報116に含まれるランキングテーブルの一例を示す図である。図9は、第1スコア算出部120が行う処理の一例を説明するための図である。図10は、第2テーブル生成部140が行う処理の一例を説明するための図である。図11から図13は、関連性評価装置100の動作の一例を示すフローチャートである。
本発明の第1の実施形態では、ある人はある単語を使う時間が多いなどの人と単語との関連性の強さを数値化してランキング形式で表示することにより、人と単語との関連性の強さを評価する関連性評価装置100について説明する。後述するように、関連性評価装置100は、各ユーザに対して単語ごとの関連性を数値化した第1スコアと、単語を使う人の分布が似ている別の単語とも関連があるとして単語間の関連度を第1スコアに加味した第2スコアと、を算出する。そして、関連性評価装置100は、算出した第1スコアと、第2スコアと、単語を使用したことがあるユーザの数などの単語の使用状況と、に基づいて、ランキングを生成する。
関連性評価装置100は、上述した第1スコアや第2スコアを算出してランキングを生成することにより、人と単語との関連性の強さを評価する情報処理装置である。また、関連性評価装置100は、生成したランキングを用いた検索を行うことが出来るよう構成されている。
図1は、関連性評価装置100の構成の一例を示している。図1を参照すると、関連性評価装置100は、例えば、記憶部110と、第1スコア算出部120と、第1テーブル生成部130と、第2テーブル生成部140と、第2スコア算出部150と、ランキング生成部160と、キーワード受付部170と、検索部180と、出力部190と、を有している。
例えば、関連性評価装置100は、CPU(Central Processing Unit)などの演算装置を有している。例えば、関連性評価装置100は、記憶部110などの記憶装置が記憶するプログラムを演算装置が実行することで、上述した各処理部を実現する。
記憶部110は、ハードディスクやメモリなどの記憶装置である。記憶部110で記憶される主な情報としては、例えば、参照時間情報111と、第1スコア情報112と、第1テーブル113と、第2テーブル114と、第2スコア情報115と、ランキング情報116と、がある。また、記憶部110には、外部装置や記憶媒体などから予め読み込まれたプログラムを記憶することが出来る。
参照時間情報111は、ユーザと単語の組ごとに、ユーザが単語を参照していた時間である参照時間を示す情報である。参照時間情報111は、例えば、ファイルの操作ログやスケジュール情報などに基づいて予め生成され記憶部110に格納されている。単語の参照時間としては、例えば、ある単語をファイル名に含むファイルを開いていたユーザの操作時間、キーボードのタイプ数、ある単語を件名に含むスケジュール情報の開始から終了までの時間、などがある。単語の参照時間は、上記例示した以外のものであっても構わない。
図2は、参照時間情報111の一例を示している。図2で示すように、参照時間情報111では、例えば、ユーザ名と、単語と、参照時間と、が対応づけられている。例えば、図2の1行目は、ユーザ名「Aさん」の単語「働き」の参照時間が「30」であることを示している。
第1スコア情報112は、各ユーザに対して単語ごとの関連性を数値化した第1スコアを示す情報である。つまり、第1スコア情報112には、ユーザと単語との関連の高さを示す第1スコアが含まれている。第1スコア情報112が示す第1スコアは、後述する第1スコア算出部120により、参照時間情報111に基づいて算出される。
図3は、第1スコア情報112の一例を示している。図3で示すように、第1スコア情報112では、例えば、ユーザ名と、単語と、第1スコアと、が対応づけられている。例えば、図3の1行目は、ユーザ名「Aさん」の単語「サービス」の第1スコアが「0」であることを示している。
なお、第1スコア情報112が示す第1スコアは、ユーザによる単語の参照時間が0である場合対応するスコアの値が0となり、参照時間が長いほどスコアの値が高くなる、という特徴を有している。また、第1スコアは、ユーザ全体が使っている単語ほどスコアの値が低くなり、特定のユーザにのみ使われている単語はスコアの値が高くなる、という特徴を有している。以上の特徴のため、第1スコアは、ユーザが単語をよく使っている、特定のユーザのみが単語を使っているなど、ユーザと単語との関連性が高いと評価される場合に値が高くなるスコアである、ということが出来る。
第1テーブル113は、第1スコア情報112に基づいて、各ユーザを行、各単語を列に当てはめることで生成したテーブルである。第1テーブル113は、後述する第1テーブル生成部130により生成される。
図4は、第1テーブル113の一例を示している。例えば、図4の1行目は、ユーザ名「Aさん」の、単語「サービス」の第1スコアが「0」、単語「休暇」の第1スコアが「0」、単語「休暇表」の第1スコアが「0」、……、というように、ユーザ名「Aさん」の各単語に対する第1スコアを示している。
第2テーブル114は、単語間の関連度を示すテーブルである。第2テーブル114は、後述する第2テーブル生成部140により第1スコア情報112や第1テーブル113が示す第1スコアに基づいて生成される。
図5は、第2テーブル114を示している。例えば、図4の1行目は、単語「会議」と単語「会議」の関連度が「1」、単語「会議」と単語「働き」の関連度が「-0.65578」、単語「会議」と単語「働き方」の関連度が「-0.65578」、……、というように、単語「会議」と他の単語との関連度を示している。
なお、第2テーブル114が示す単語間の関連度は、第1スコアの分布が似ているなど使用のされ方が類似している単語について値が大きくなる指標である。例えば、単語xと単語yの間の関連度の場合、単語xと単語yを両方とも使う人が多い、又は、単語xと単語yを両方とも使わない人が多いなど、使用のされ方が類似しているほど、値が大きくなる。例えば、単語スマホと単語スマートフォンについて、使われ方が類似して値が大きくなることなどが想定される。
第2スコア情報115は、単語を使う人の分布が似ている別の単語とも関連があるとして単語間の関連度を第1スコアに加味した第2スコアを示す情報である。第2スコア情報115が示す第2スコアは、後述する第2スコア算出部150により、第1スコア情報112または第1テーブル113が示す第1スコアと第2テーブル114が示す単語間の関連度とに基づいて算出される。
図6は、第2スコア情報115の一例を示している。図6で示すように、第2スコア情報115では、ユーザ名と、単語と、第2スコアと、が対応づけられている。例えば、図6の1行目は、ユーザ名「Aさん」の単語「サービス」の第1スコアが「0.145650」であることを示している。
なお、第2スコア情報115が示す第2スコアは、上述したように、第1スコアと単語間の関連度とに基づいて算出する。そのため、第2スコアを用いると、例えば、後述する検索を行う際に、検索キーワードとして指定した単語との関連度が高い別の単語との関連が高いユーザのユーザ名も上位に検索することが可能となる。つまり、第2スコア情報115が示す第2スコアは、第1スコアよりも類語や表記ゆれなどに強くなる値である、ということが出来る。
ランキング情報116は、単語に対する人の関連性の高さを単語ごとにランキング形式で示している。図7、図8で示すように、ランキング情報116には、第1の形式、または、第2の形式により生成されたランキングテーブルが単語ごとに含まれている。ランキング情報116に含まれるランキングテーブルは、後述するランキング生成部160により生成される。また、ランキングテーブルを図7で示す第1の形式と図8で示す第2の形式のいずれを用いて生成するかは、後述するランキング生成部160により単語ごとに判断される。
図7で示す第1の形式によるランキングテーブルは、後述するように、ユーザを特定する情報を第2スコアの降順で並び替えた結果として生成される。図7で示すように、第1の形式によるランキングテーブルの場合、第2スコアの値が高いほど順位が上がっており、第1スコアは考慮されていない。例えば、図7の2行目では、順位「2」位のユーザとして、第2スコア「0.043959」、第1スコア「0」である「Bさん」が対応づけられている。
一方、図8で示す第2の形式によるランキングテーブルは、ユーザを特定する情報を、第1スコアの降順で並び替えた後、第1スコアが0であるユーザを第2スコアの降順で並び変えた結果として生成される。図8で示すように、第2の形式によるランキングテーブルの場合、第1スコアの値が高いほど順位が上がっており、第2スコアの値は第1スコアの値が0の場合のみ影響している。例えば、図8の2行目では、順位「2」位のユーザとして、第2スコア「0.024045」、第1スコア「0.003854」である「Cさん」が対応づけられている。
なお、ランキングテーブルに含まれるユーザを特定する情報には、例えば、ユーザ名が含まれる。ユーザを特定する情報には、第1スコア、第2スコアを含んでも構わないし、そのほかの各種情報を含んでも構わない。
第1スコア算出部120は、参照時間情報111に基づいて、各ユーザに対して単語ごとに、ユーザと単語との関連性を数値化した第1スコアを算出する。そして、第1スコア算出部120は、算出した第1スコアを第1スコア情報112として記憶部110に格納する。
例えば、第1スコア算出部120は、図9で示すTF-IDFを算出することで、ユーザと単語間の関連性を示す第1スコアを算出する。ここで、TF-IDFとは、文書中に含まれる単語の重要性を評価する手法である。第1スコア算出部120は、各ユーザが使用した単語を文章とみなして図9で示す計算式にあてはめることで、第1スコアとしてTF-IDFを算出する。第1スコア算出部120による算出の手順は、以下の通りとなる。
まず、第1スコア算出部120は、参照時間情報111を参照して、ユーザごとに全ての単語の参照時間を合計することで、あるユーザにおける全ての単語の参照時間の合計を示す第1総参照時間を算出する。また、第1スコア算出部120は、単語ごとに全てのユーザの参照時間を合計することで、ある単語における全てのユーザの参照時間の合計を示す第2総参照時間を算出する。
また、第1スコア算出部120は、あるユーザにおけるある単語の参照時間を第1総参照時間で割ることでTFを算出するとともに、あるユーザにおけるある単語の参照時間を第2総参照時間で割ることでIDFを算出する。そして、第1スコア算出部120は、算出したTFとIDFを掛けることで、あるユーザ、ある単語におけるTF-IDFを算出する。
例えば、第1スコア算出部120は、上述した処理をユーザと単語の組み合わせごとに行うことで、各ユーザ、各単語のTF-IDF(つまり、第1スコア)を算出する。そして、第1スコア算出部120は、算出した結果を、第1スコア情報112として記憶部110に格納する。なお、あるユーザのある単語の参照時間が0である場合、TFとIDFの値がともに0となる。そのため、あるユーザ、ある単語の第1スコアの値も0となることになる。
第1テーブル生成部130は、第1スコア情報112に基づいて第1テーブル113を生成する。例えば、第1テーブル生成部130は、第1スコア情報112に含まれる各ユーザを行、各単語を列に当てはめることで、第1テーブル113を生成する。そして、第1テーブル生成部130は、生成した第1テーブル113を記憶部110に格納する。
第2テーブル生成部140は、第1スコア情報112または第1テーブル113が示す第1スコアに基づいて、単語間の関連度を示す第2テーブル114を生成する。そして、第2テーブル生成部140は、生成した第2テーブル114を記憶部110に格納する。
例えば、第2テーブル生成部140は、図9で示す関連度rを求める計算式を用いることで、単語間の関連度を算出する。ここで、図9で示す式は、全ユーザの数をn人とし、対象の単語から2つの単語xとyを選んだとすると、両者の単語のn人分の第1スコアの共分散(Sxy)と、それぞれの単語のn人分の第1スコアの標準偏差(Sx、Sy)から単語間の関連度を算出するものである。
なお、xiは、単語xにおけるi番目の第1スコアであり、yiは、単語yにおけるi番目の第1スコアである。また、図10で示す計算式中の下記数1は、xの第1スコアの平均値であり、図10で示す計算式中の下記数2は、yの第1スコアの平均値である。
なお、図10で示す関連度rは、使用のされかたが類似している単語について、値が大きくなる指標である。つまり、単語間の関連度は、単語xと単語yを両方とも使う人が多い、あるいは、単語xと単語yを両方とも使わない人が多い場合、値が大きくなる。例えば、「スマホ」と「スマートフォン」については、使われ方が類似し、値も大きくなることが考えられる。
第2テーブル生成部140は、上述した計算式により各単語間の関連度を算出する。そして、第2テーブル生成部140は、各単語間の関連度が対象行列の形になるよう、各単語同士の組み合わせによる第2テーブル114を作成する。なお、自身との単語間の関連度については1とする。
第2スコア算出部150は、第1スコア情報112または第1テーブル113が示す第1スコアと、第2テーブル114が示す単語間の関連度と、に基づいて、単語間の関連度を第1スコアに加味した第2スコアを算出する。そして、第2スコア算出部150は、算出した第2スコアを第2スコア情報115として記憶部110に格納する。
例えば、第2スコア算出部150は、下記式を用いることで第2スコアを算出する。
ユーザαと単語Xとの関連スコア
=Σ(単語Xとある単語との単語間の関連度×ある単語へのユーザAの第1スコア)
具体的には、例えば、図4で示す第1テーブル113と図5で示す第2テーブル114とを用いてユーザ名「Aさん」と単語「サービス」との第2スコアを算出する場合、第2スコア算出部150は、下記のような計算を行うことで第2スコアを算出する。つまり、第2スコア算出部150は、(「サービス」と「会議」との関連度×「Aさん」の「会議」の第1スコア)+(「サービス」と「働き」との関連度×「Aさん」の「働き」の第1スコア)+(「サービス」と「働き方」との関連度×「Aさん」の「働き方」の第1スコア)+(「サービス」と「抑制」との関連度×「Aさん」の「抑制」の第1スコア)+(「サービス」と「改革」との関連度×「Aさん」の「改革」の第1スコア)+(「サービス」と「残業」との関連度×「Aさん」の「残業」の第1スコア)+(「サービス」と「残業抑制」との関連度×「Aさん」の「残業抑制」の第1スコア)+(「サービス」と「サービス」との関連度×「Aさん」の「サービス」の第1スコア)+(「サービス」と「休暇」との関連度×「Aさん」の「休暇」の第1スコア)+(「サービス」と「休暇表」との関連度×「Aさん」の「休暇表」の第1スコア)=(-0.46217×0)+(0.941227×0.063492)+(0.941227×0.063492)+(-0.40357×0.027778)+(0.941227×0.063492)+(-0.40357×0.027778)+(-0.40357×0.027778)+(1×0)+(1×0)+(1×0)=0.145650を算出する。
ランキング生成部160は、第1スコア情報112と第2スコア情報115とに基づいて、単語に対する人の関連性の高さを示すランキングテーブルを単語ごとに生成する。ランキング生成部160が生成するランキングテーブルは、図7で示すような第1の形式と図8で示すような第2の形式のうちのいずれかとなる。そして、ランキング生成部160は、生成したランキングテーブルをランキング情報116として記憶部110に格納する。
例えば、ランキング生成部160は、対象の単語について、第1スコアを算出したユーザのうち第1スコアが0でないユーザの数を計測する。つまり、ランキング生成部160は、単語を使用したことがあるユーザの数を計測する。
計測したユーザの数が予め定められた閾値以上である場合、ランキング生成部160は、ユーザを特定する情報を第2スコアの降順で並び替えることで、第1の形式によるランキングテーブルを生成する。一方、計測したユーザの数が閾値未満である場合、ランキング生成部160は、ユーザを特定する情報を、第1スコアの降順で並び替えた後、第1スコアが0であるユーザを第2スコアの降順で並び変えることで、第2の形式によるランキングテーブルを生成する。このように、ランキング生成部160は、計測したユーザの数に応じて、異なる形式でユーザを特定する情報の並び替えを行う。また、第1の形式では第2のスコアに基づく並び替えを行い、第2の形式では第1スコア及び第2スコアに基づく並び替えを行うことになる。
なお、上述した閾値は任意の値で構わない。また、閾値は予め定められた固定値以外であっても構わない。例えば、閾値は、全体人数のn%などというような割合で示すものであっても構わない。また、閾値は、ユーザからのフィードバックなどによりで動的に変化させる値であっても構わない。
このように、ランキング生成部160は、単語を使用したことがあるユーザの数などの単語の使用状況に基づいて、第1の形式と第2の形式のどちらのランキングテーブルを生成するか決定する。そして、ランキング生成部160は、決定した形式でランキングテーブルを生成する。
なお、ランキング生成部160は、上述したようなランキングテーブルの生成を、参照時間情報111などに含まれる各単語に対して実施する。そのため、ランキング情報116には、各単語に対するランキングテーブルが第1の形式または第2の形式のいずれかの形式で含まれている。
キーワード受付部170は、検索者から検索キーワードを受け付ける。例えば、キーワード受付部170は、検索キーワードとして、単語を受け付ける。
検索部180は、検索キーワードに応じた検索を実行する。例えば、検索部180は、検索キーワードが示す単語のランキングテーブルをランキング情報116から検索する。
出力部190は、検索部180による検索結果であるランキングテーブルを出力する。出力部190による出力は、例えば、画面表示部に対する表示や外部装置に対する送信などがある。
キーワード受付部170と検索部180と出力部190とによる検索の実現例としては、例えば、キーワード受付部4が検索者の使用する外部装置から、通信ネットワークを介して、検索キーワードを受け付ける。そして、出力部190は、検索者の使用する外部装置に対して検索結果を出力する。このような形式が考えられる。検索は、関連性評価装置100が有するキーボードなどにより検索キーワードを受け付け、関連性評価装置100が有する画面表示部に表示するよう行われても構わない。また、キーワード受付部170は、例えば、与えられた文章から単語を抽出して、抽出した単語を検索キーワードとして受け付けるよう構成しても構わない。つまり、キーワード受付部170は、必ずしも検索者から直接検索キーワードの入力を受け付けるよう構成しなくても構わない。なお、本実施形態においては、キーワード受付部170が文章から単語を抽出する際の処理の内容については、特に限定しない。キーワード受付部170は、既知の技術を用いて文章から単語を抽出するよう構成することが出来る。
以上が、関連性評価装置100の構成の一例である。続いて、図11から図13までを参照して、関連性評価装置100の動作の一例について説明する。
まず、図11を参照して、ランキングテーブルを生成してランキング情報116として格納する際の関連性評価装置100の動作の一例について説明する。
図11を参照すると、関連性評価装置100の第1スコア算出部120は、参照時間情報111に基づいて、各ユーザに対して単語ごとに、ユーザと単語との関連性を数値化した第1スコアを算出する(ステップS101)。例えば、第1スコア算出部120は、図8で示すTF-IDFを算出することで第1スコアを算出する。
第1テーブル生成部130は、第1スコア情報112に基づいて、第1テーブル113を生成する(ステップS102)。
第2テーブル生成部140は、第1テーブル113に基づいて、単語間の関連度を示す第2テーブル114を生成する(ステップS103)。例えば、第2テーブル生成部140は、図9で示す計算式を計算することで、単語間の関連度を算出する。そして、第2テーブル生成部140は、生成した各単語間の関連度をテーブル形式で表現することで、第2テーブル114を生成する。
第2スコア算出部150は、第1スコア情報112または第1テーブル113が示す第1スコアと、第2テーブル114が示す単語間の関連度と、に基づいて、単語間の関連度を第1スコアに加味した第2スコアを算出する(ステップS104)。例えば、第2スコア算出部150は、単語Xとある単語との単語間の関連度×ある単語へのユーザAの第1スコアを、各単語について算出して和をとることで、第2スコアを算出する。
ランキング生成部160は、第1スコア情報112と第2スコア情報115とに基づいて、単語に対する人の関連性の高さを示すランキングテーブルを単語ごとに生成する(ステップS105)。ランキング生成部160が第1の形式と第2の形式のいずれでランキングテーブルを生成するかは、例えば、単語の使用状況に基づいて決定される。
以上が、ランキングテーブルを生成してランキング情報116として格納する際の関連性評価装置100の動作の一例である。続いて、図12を参照して、ステップS105のランキング生成処理についてより詳細に説明する。
図12を参照すると、ランキング生成部160は、対象の単語について、第1スコアが0でないユーザの数を計測する(ステップS201)。
計測したユーザの数が予め定められた閾値以上である場合(ステップS202、Yes)、ランキング生成部160は、ユーザを特定する情報を第2スコアの降順で並び替える(ステップS203)。これにより、ランキング生成部160は、第1の形式によるランキングテーブルを生成する。
一方、計測したユーザの数が予め定められた閾値未満である場合(ステップS202、No)、ランキング生成部160は、ユーザを特定する情報を第1スコアの降順で並び替える(ステップS204)。また、ランキング生成部160は、第1スコアが0であるユーザを第2スコアの降順で並び変える(ステップS205)。これにより、ランキング生成部160は、第2の形式によるランキングを生成する。
以上が、図11のステップS105で示したランキング生成処理の一例である。続いて、図13を参照して、検索処理を行う際の関連性評価装置100の動作の一例について説明する。
図13を参照すると、キーワード受付部170は、検索者から検索キーワードを受け付ける(ステップS301)。例えば、キーワード受付部170は、検索キーワードとして、単語を受け付ける。
検索部180は、検索キーワードに応じた検索を実行する(ステップS302)。例えば、検索部180は、検索キーワードが示す単語のランキングテーブルをランキング情報116から検索する。
出力部190は、検索部180による検索結果であるランキングテーブルを出力する(ステップS303)。出力部190による出力は、例えば、画面表示部に対する表示や外部装置に対する送信などがある。
以上が、検索処理を行う際の関連性評価装置100の動作の一例である。
このように、関連性評価装置100は、第1スコアを算出する第1スコア算出部120と、第2スコアを算出する第2スコア算出部150と、ランキング生成部160と、を有している。このような構成により、ランキング生成部160は、単語の使用状況などに応じて、第2スコアに基づく並び替えを行う第1の形式と、第1スコア及び第2スコアに基づく並び替えを行う第2の形式と、のいずれの形式でランキングテーブルを生成するか決定することが出来る。これにより、第2スコアを用いた並び替えにより表記ゆれなどに対応しつつ、専門性の高い単語など単語の使用者が少ない場合に実際の使用者を上位にランキングさせることが可能となる。つまり、上記構成によると、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが可能となる。
なお、本実施形態においては、関連性評価装置100が1台の情報処理装置により構成される場合について例示した。しかしながら、関連性評価装置100は、例えば、ネットワークを介して接続された複数台の情報処理装置により構成されても構わない。例えば、関連性評価装置100は、記憶部110と第1スコア算出部120と第1テーブル生成部130と第2テーブル生成部140と第2スコア算出部150とランキング生成部160とを有する情報処理装置と、キーワード受付部170と検索部180と出力部190とを有する情報処理装置と、から構成されても構わない。
また、本実施形態においては、ランキング情報116にランキングテーブルが予め生成されて格納されている場合について例示した。しかしながら、ランキングテーブルは、例えば、検索部180による検索が行われる際に生成されるように構成しても構わない。このように、ランキングテーブルの生成時期は本実施形態で例示した場合に限定されない。
また、本実施形態においては、第1スコアが0でないユーザの数を計測した結果に基づいて、いずれの形式でランキングテーブルを生成するか決定する場合について例示した。しかしながら、ランキングテーブル生成部160は、上記例示した以外の方法により、第1の形式と第2の形式のいずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。例えば、ランキング生成部160は、第1スコアが所定の基準閾値以上のユーザの数に基づいて、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。換言すると、ランキング生成部160は、第1スコアが所定の基準閾値以上であるユーザの数が予め定められた閾値以上である場合に、第1の形式によるランキングテーブルを生成するよう構成することが出来る。また、ランキング生成部160は、例えば、第1の形式によるランキングテーブルを生成した際に所定順位以上に存在する、第1スコアが所定の基準閾値未満のユーザの数などに基づいて、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。また、ランキング生成部160は、第2スコアの状況などを加味して、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。なお、上記基準閾値は任意の値で構わない。
また、第2テーブル生成部140による単語間の関連度を算出する処理は、単語数によっては計算量が多くなる。そのため、使用率に使用率閾値を設けるなどの方法により、関連度を算出する単語の数に制限を設けるよう構成しても構わない。
[第2の実施形態]
次に、図14を参照して、本発明の第2の実施形態について説明する。第2の実施形態では、関連性評価装置20の構成の概要について説明する。
図14は、関連性評価装置20の構成の一例を示している。図13を参照すると、関連性評価装置20は、第1スコア算出部21と、第2スコア算出部22と、並び替え処理部23と、を有している。
例えば、関連性評価装置20は、CPUなどの演算装置と記憶装置とを有している。例えば、関連性評価装置20は、記憶装置に格納されたプログラムを演算装置が実行することで、上記各処理部を実現する。
第1スコア算出部21は、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する。
第2スコア算出部22は、第1スコア算出部が算出した第1スコアと単語間の関連度とに基づいて、第2スコアを算出する。
並び替え処理部23は、第1スコア算出部21が算出した第1スコアと、第2スコア算出部22が算出した第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う。
このように、関連性評価装置20は、第1スコア算出部21と第2スコア算出部22と並び替え処理部23とを有している。このような構成により並び替え処理部23は、第1スコア算出部21が算出した第1スコアと、第2スコア算出部22が算出した第2スコアとに基づいて、ユーザを特定する情報の並び替えを行うことが出来る。その結果、並び替え処理部23は、例えば、第2スコアに基づく並び替えを行うか、第1スコア及び第2スコアに基づく並び替えを行うか、などを決定することが可能となる。これにより、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが可能となる。
また、上述した関連性評価装置20は、当該関連性評価装置20に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、情報処理装置に、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部21と、第1スコアと単語間の関連度とに基づいて、第2スコアを算出する第2スコア算出部と、算出した第1スコアと第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、を実現するためのプログラムである。
また、上述した関連性評価装置20により実行される関連性評価方法は、情報処理装置が、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出し、前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出し、算出した第1スコアと第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う、という方法である。
上述した構成を有する、プログラム、又は、関連性評価方法、の発明であっても、上記関連性評価装置20と同様の作用・効果を有するために、上述した本発明の目的を達成することが出来る。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における関連性評価装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
情報処理装置が、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出し、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出し、
算出した前記第1スコアと前記第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う
関連性評価方法。
(付記2)
付記1に記載の関連性評価方法であって、
単語の使用状況に基づいて並び替えを行う形式を決定し、
決定した形式による並び替えを行う
関連性評価方法。
(付記3)
付記2に記載の関連性評価方法であって、
前記第1スコアを算出したユーザのうち前記第1スコアの値が所定の基準閾値以上であるユーザの数に基づいて、単語の使用状況を判断する
関連性評価方法。
(付記4)
付記1から付記3までのいずれか1項に記載の関連性評価方法であって、
前記第2スコアに基づく並び替えを行う第1の形式と、前記第1スコア及び前記第2スコアに基づく並び替えを行う第2の形式と、のうちのいずれかの形式による並び替えを行う
関連性評価方法。
(付記5)
付記4に記載の関連性評価方法であって、
前記第1の形式では、ユーザを特定する情報を前記第2スコアの降順で並び替える
関連性評価方法。
(付記6)
付記4または付記5に記載の関連性評価方法であって、
前記第2の形式では、ユーザを特定する情報を前記第1スコアの降順で並び替えた後、前記第1スコアの値が0であるユーザのユーザを特定する情報を前記第2スコアの降順で並び替える
関連性評価方法。
(付記7)
付記1から付記6までのいずれか1項に記載の関連性評価方法であって、
検索キーワードに基づいて並び替えた結果を検索し、検索の結果を出力する
関連性評価方法。
(付記8)
付記1から付記7までのいずれか1項に記載の関連性評価方法であって、
単語間の関連度を前記第1スコアに基づいて算出する
関連性評価方法。
(付記9)
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出する第2スコア算出部と、
算出した前記第1スコアと前記第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を有する
関連性評価装置。
(付記10)
情報処理装置に、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
前記第1スコアと単語間の関連度とに基づいて、第2スコアを算出する第2スコア算出部と、
算出した前記第1スコアと前記第2スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を実現するためのプログラム。
なお、上記各実施形態及び付記において記載したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されていたりする。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。
100 関連性評価装置
110 記憶部
111 参照時間情報
112 第1スコア情報
113 第1テーブル
114 第2テーブル
115 第2スコア情報
116 ランキング情報
120 第1スコア算出部
130 第1テーブル生成部
140 第2テーブル生成部
150 第2スコア算出部
160 ランキング生成部
170 キーワード受付部
180 検索部
190 出力部
20 関連性評価装置
21 第1スコア算出部
22 第2スコア算出部
23 並び替え処理部

Claims (4)

  1. 情報処理装置が、
    単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第1スコアを算出し、
    前記第1スコアと単語間の関連度とに基づいて、単語間の関連度を前記第1スコアに加味した第2スコアを算出し、
    算出した前記第1スコアと前記第2スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成し、
    前記ランキングを生成する際、ランキング生成対象の単語について、前記第1スコアを算出したユーザのうち前記第1スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第2スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第1スコアの降順でユーザを特定する情報の並び替えを行った後、前記第1スコアが0であるユーザを前記第2スコアの降順で並び替えることで前記ランキングを生成する
    関連性評価方法。
  2. 請求項1に記載の関連性評価方法であって、
    取得した検索キーワードに基づいて並び替えた結果である前記ランキングを検索し、検索の結果を出力する
    関連性評価方法。
  3. 単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
    前記第1スコアと単語間の関連度とに基づいて、単語間の関連度を前記第1スコアに加味した第2スコアを算出する第2スコア算出部と、
    算出した前記第1スコアと前記第2スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成する並び替え処理部と、
    を有し、
    前記並び替え処理部は、前記ランキングを生成する際、ランキング生成対象の単語について、前記第1スコアを算出したユーザのうち前記第1スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第2スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第1スコアの降順でユーザを特定する情報の並び替えを行った後、前記第1スコアが0であるユーザを前記第2スコアの降順で並び替えることで前記ランキングを生成する
    関連性評価装置。
  4. 情報処理装置に、
    単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第1スコアを算出する第1スコア算出部と、
    前記第1スコアと単語間の関連度とに基づいて、単語間の関連度を前記第1スコアに加味した第2スコアを算出する第2スコア算出部と、
    算出した前記第1スコアと前記第2スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成する並び替え処理部と、
    を実現させ、
    前記並び替え処理部は、前記ランキングを生成する際、ランキング生成対象の単語について、前記第1スコアを算出したユーザのうち前記第1スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第2スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第1スコアの降順でユーザを特定する情報の並び替えを行った後、前記第1スコアが0であるユーザを前記第2スコアの降順で並び替えることで前記ランキングを生成する
    プログラム。
JP2019138655A 2019-07-29 2019-07-29 関連性評価方法、関連性評価装置、プログラム Active JP7404694B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019138655A JP7404694B2 (ja) 2019-07-29 2019-07-29 関連性評価方法、関連性評価装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019138655A JP7404694B2 (ja) 2019-07-29 2019-07-29 関連性評価方法、関連性評価装置、プログラム

Publications (2)

Publication Number Publication Date
JP2021022193A JP2021022193A (ja) 2021-02-18
JP7404694B2 true JP7404694B2 (ja) 2023-12-26

Family

ID=74573482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019138655A Active JP7404694B2 (ja) 2019-07-29 2019-07-29 関連性評価方法、関連性評価装置、プログラム

Country Status (1)

Country Link
JP (1) JP7404694B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086940A (ja) 2017-11-06 2019-06-06 日本電気株式会社 関連スコア算出システム、方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086940A (ja) 2017-11-06 2019-06-06 日本電気株式会社 関連スコア算出システム、方法およびプログラム

Also Published As

Publication number Publication date
JP2021022193A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
Habibi et al. Keyword extraction and clustering for document recommendation in conversations
US9558264B2 (en) Identifying and displaying relationships between candidate answers
JP5662961B2 (ja) レビュー処理方法およびシステム
US10360225B1 (en) Query suggestions based on entity collections of one or more past queries
US9547690B2 (en) Query rewriting using session information
US9002843B2 (en) System and method for extraction of off-topic part from conversation
KR100898456B1 (ko) 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템
CN105917364B (zh) 对问答论坛中讨论话题的排名
CN105488021B (zh) 一种生成多文档摘要的方法和装置
JP2017518578A (ja) クエリー曖昧性除去のための文脈に応じたコンテンツ取得ルールの学習と使用
JP2012533818A (ja) 単語の重みに基づいた検索結果の順位付け
US8612532B2 (en) System and method for optimizing response handling time and customer satisfaction scores
US9390141B2 (en) Systems and methods for determining application installation likelihood based on probabilistic combination of subordinate methods
KR101505546B1 (ko) 텍스트 마이닝을 이용한 키워드 도출 방법
CN112733042A (zh) 推荐信息的生成方法、相关装置及计算机程序产品
JP7375861B2 (ja) 関連スコア算出システム、方法およびプログラム
JP6442918B2 (ja) 専門家検索装置、専門家検索方法および専門家検索プログラム
US10073891B2 (en) Forensic system, forensic method, and forensic program
US8301619B2 (en) System and method for generating queries
Louis A Bayesian Method to incorporate background knowledge during automatic text summarization
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
JP2017097488A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
JP7404694B2 (ja) 関連性評価方法、関連性評価装置、プログラム
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R151 Written notification of patent or utility model registration

Ref document number: 7404694

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151