JP7404694B2

JP7404694B2 - 関連性評価方法、関連性評価装置、プログラム

Info

Publication number: JP7404694B2
Application number: JP2019138655A
Authority: JP
Inventors: 有杉崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2023-12-26
Anticipated expiration: 2039-07-29
Also published as: JP2021022193A

Description

本発明は、関連性評価方法、関連性評価装置、プログラムに関する。

企業のような組織、団体などにおいて、特定の技術、分野、製品、プロジェクトなどに関係している人を効率的に検索することなどを実現するため、人と単語との関連性を算出・評価することがある。

このような関連性を算出する際に用いる技術として、例えば、特許文献１がある。特許文献１には、収集部と、単語抽出部と、関連スコア算出部と、を有する関連スコア算出システムが記載されている。特許文献１によると、単語抽出部は、収集部が端末装置から収集した操作ログに記述されているファイル名から単語を抽出する。また、関連スコア算出部は、操作ログに基づいて、ユーザと単語との関連の強さを表す関連スコアを算出する。さらに、特許文献１には、関連スコアの算出方法として、一人のユーザに対し一つの単語ごとに関連性を数値化する第１の方法と、単語を使う人の分布が似ている別の単語とも関連があるとして単語同士の関連度も加味した関連性を数値化する第２の方法と、の２つの方法が記載されている。

特開２０１９－８６９４０号公報

特許文献１に記載されている第２の方法で関連性を数値化した場合、例えば、「スマホ」という単語を使う人は「スマートフォン」という単語とも関連性があると判断されるなど、類語や表記ゆれなどに強くなることが期待される。しかしながら、第２の方法の場合、例えば、ユーザＡが「Ｂ」という単語をよく使っており、ユーザ全体において「Ａ」という単語を使う者が「Ｂ」という単語もよく使う傾向があった場合、仮にユーザＡが「Ａ」という単語を使っていなくても、ユーザＡは「Ａ」との関連スコアも高くなることがあった。

このように、類語や表記ゆれなどに強くなる第２の方法を用いると、実際には使っていない単語に対する関連スコアが高くなるおそれがある、という課題が生じていた。このような課題は、使用者が少ない、専門性の高い単語でより顕著に発生していた。

そこで、本発明の目的は、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが難しい、という課題を解決する関連性評価方法、関連性評価装置、プログラムを提供することにある。

かかる目的を達成するため本発明の一形態である関連性評価方法は、
情報処理装置が、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出し、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出し、
算出した第１スコアと第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う
という構成をとる。

また、本発明の他の形態である関連性評価装置は、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出する第２スコア算出部と、
算出した第１スコアと第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を有する
という構成をとる。

また、本発明の他の形態であるプログラムは、
情報処理装置に、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出する第２スコア算出部と、
算出した第１スコアと第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を実現するためのプログラムである。

本発明は、以上のように構成されることにより、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが難しい、という課題を解決する関連性評価方法、関連性評価装置、プログラムを提供することが可能となる。

本発明の第１の実施形態における関連性評価装置の構成の一例を示すブロック図である。図１で示す参照時間情報の一例を示す図である。図１で示す第１スコア情報の一例を示す図である。図１で示す第１テーブルの一例を示す図である。図１で示す第２テーブルの一例を示す図である。図１で示す第２スコア情報の一例を示す図である。図１で示すランキング情報に含まれるランキングテーブルの一例を示す図である。図１で示すランキング情報に含まれるランキングテーブルの他の一例を示す図である。第１スコア算出部が行う処理の一例を説明するための図である。第２テーブル生成部が行う処理の一例を説明するための図である。関連性評価装置の動作の一例を示すフローチャートである。ランキングテーブルを生成する処理の一例を示すフローチャートである。関連性評価装置が検索を行う際の動作の一例を示すフローチャートである。本発明の第２の実施形態における関連性評価装置の構成の一例を示すブロック図である。

［第１の実施形態］
本発明の第１の実施形態を図１から図１３までを参照して説明する。図１は、関連性評価装置１００の構成の一例を示すブロック図である。図２は、参照時間情報１１１の一例を示す図である。図３は、第１スコア情報１１２の一例を示す図である。図４は、第１テーブル１１３の一例を示す図である。図５は、第２テーブル１１４の一例を示す図である。図６は、第２スコア情報１１５の一例を示す図である。図７、図８は、ランキング情報116に含まれるランキングテーブルの一例を示す図である。図９は、第１スコア算出部１２０が行う処理の一例を説明するための図である。図１０は、第２テーブル生成部１４０が行う処理の一例を説明するための図である。図１１から図１３は、関連性評価装置１００の動作の一例を示すフローチャートである。

本発明の第１の実施形態では、ある人はある単語を使う時間が多いなどの人と単語との関連性の強さを数値化してランキング形式で表示することにより、人と単語との関連性の強さを評価する関連性評価装置１００について説明する。後述するように、関連性評価装置１００は、各ユーザに対して単語ごとの関連性を数値化した第１スコアと、単語を使う人の分布が似ている別の単語とも関連があるとして単語間の関連度を第１スコアに加味した第２スコアと、を算出する。そして、関連性評価装置１００は、算出した第１スコアと、第２スコアと、単語を使用したことがあるユーザの数などの単語の使用状況と、に基づいて、ランキングを生成する。

関連性評価装置１００は、上述した第１スコアや第２スコアを算出してランキングを生成することにより、人と単語との関連性の強さを評価する情報処理装置である。また、関連性評価装置１００は、生成したランキングを用いた検索を行うことが出来るよう構成されている。

図１は、関連性評価装置１００の構成の一例を示している。図１を参照すると、関連性評価装置１００は、例えば、記憶部１１０と、第１スコア算出部１２０と、第１テーブル生成部１３０と、第２テーブル生成部１４０と、第２スコア算出部１５０と、ランキング生成部１６０と、キーワード受付部１７０と、検索部１８０と、出力部１９０と、を有している。

例えば、関連性評価装置１００は、ＣＰＵ（Central Processing Unit）などの演算装置を有している。例えば、関連性評価装置１００は、記憶部１１０などの記憶装置が記憶するプログラムを演算装置が実行することで、上述した各処理部を実現する。

記憶部１１０は、ハードディスクやメモリなどの記憶装置である。記憶部１１０で記憶される主な情報としては、例えば、参照時間情報１１１と、第１スコア情報１１２と、第１テーブル１１３と、第２テーブル１１４と、第２スコア情報１１５と、ランキング情報１１６と、がある。また、記憶部１１０には、外部装置や記憶媒体などから予め読み込まれたプログラムを記憶することが出来る。

参照時間情報１１１は、ユーザと単語の組ごとに、ユーザが単語を参照していた時間である参照時間を示す情報である。参照時間情報１１１は、例えば、ファイルの操作ログやスケジュール情報などに基づいて予め生成され記憶部１１０に格納されている。単語の参照時間としては、例えば、ある単語をファイル名に含むファイルを開いていたユーザの操作時間、キーボードのタイプ数、ある単語を件名に含むスケジュール情報の開始から終了までの時間、などがある。単語の参照時間は、上記例示した以外のものであっても構わない。

図２は、参照時間情報１１１の一例を示している。図２で示すように、参照時間情報１１１では、例えば、ユーザ名と、単語と、参照時間と、が対応づけられている。例えば、図２の１行目は、ユーザ名「Ａさん」の単語「働き」の参照時間が「３０」であることを示している。

第１スコア情報１１２は、各ユーザに対して単語ごとの関連性を数値化した第１スコアを示す情報である。つまり、第１スコア情報１１２には、ユーザと単語との関連の高さを示す第１スコアが含まれている。第１スコア情報１１２が示す第１スコアは、後述する第１スコア算出部１２０により、参照時間情報１１１に基づいて算出される。

図３は、第１スコア情報１１２の一例を示している。図３で示すように、第１スコア情報１１２では、例えば、ユーザ名と、単語と、第１スコアと、が対応づけられている。例えば、図３の１行目は、ユーザ名「Ａさん」の単語「サービス」の第１スコアが「０」であることを示している。

なお、第１スコア情報１１２が示す第１スコアは、ユーザによる単語の参照時間が０である場合対応するスコアの値が０となり、参照時間が長いほどスコアの値が高くなる、という特徴を有している。また、第１スコアは、ユーザ全体が使っている単語ほどスコアの値が低くなり、特定のユーザにのみ使われている単語はスコアの値が高くなる、という特徴を有している。以上の特徴のため、第１スコアは、ユーザが単語をよく使っている、特定のユーザのみが単語を使っているなど、ユーザと単語との関連性が高いと評価される場合に値が高くなるスコアである、ということが出来る。

第１テーブル１１３は、第１スコア情報１１２に基づいて、各ユーザを行、各単語を列に当てはめることで生成したテーブルである。第１テーブル１１３は、後述する第１テーブル生成部１３０により生成される。

図４は、第１テーブル１１３の一例を示している。例えば、図４の１行目は、ユーザ名「Ａさん」の、単語「サービス」の第１スコアが「０」、単語「休暇」の第１スコアが「０」、単語「休暇表」の第１スコアが「０」、……、というように、ユーザ名「Ａさん」の各単語に対する第１スコアを示している。

第２テーブル１１４は、単語間の関連度を示すテーブルである。第２テーブル１１４は、後述する第２テーブル生成部１４０により第１スコア情報１１２や第１テーブル113が示す第１スコアに基づいて生成される。

図５は、第２テーブル１１４を示している。例えば、図４の１行目は、単語「会議」と単語「会議」の関連度が「１」、単語「会議」と単語「働き」の関連度が「－０．６５５７８」、単語「会議」と単語「働き方」の関連度が「－０．６５５７８」、……、というように、単語「会議」と他の単語との関連度を示している。

なお、第２テーブル１１４が示す単語間の関連度は、第１スコアの分布が似ているなど使用のされ方が類似している単語について値が大きくなる指標である。例えば、単語ｘと単語ｙの間の関連度の場合、単語ｘと単語ｙを両方とも使う人が多い、又は、単語ｘと単語ｙを両方とも使わない人が多いなど、使用のされ方が類似しているほど、値が大きくなる。例えば、単語スマホと単語スマートフォンについて、使われ方が類似して値が大きくなることなどが想定される。

第２スコア情報１１５は、単語を使う人の分布が似ている別の単語とも関連があるとして単語間の関連度を第１スコアに加味した第２スコアを示す情報である。第２スコア情報１１５が示す第２スコアは、後述する第２スコア算出部１５０により、第１スコア情報１１２または第１テーブル１１３が示す第１スコアと第２テーブル１１４が示す単語間の関連度とに基づいて算出される。

図６は、第２スコア情報１１５の一例を示している。図６で示すように、第２スコア情報１１５では、ユーザ名と、単語と、第２スコアと、が対応づけられている。例えば、図６の１行目は、ユーザ名「Ａさん」の単語「サービス」の第１スコアが「０．１４５６５０」であることを示している。

なお、第２スコア情報１１５が示す第２スコアは、上述したように、第１スコアと単語間の関連度とに基づいて算出する。そのため、第２スコアを用いると、例えば、後述する検索を行う際に、検索キーワードとして指定した単語との関連度が高い別の単語との関連が高いユーザのユーザ名も上位に検索することが可能となる。つまり、第２スコア情報１１５が示す第２スコアは、第１スコアよりも類語や表記ゆれなどに強くなる値である、ということが出来る。

ランキング情報１１６は、単語に対する人の関連性の高さを単語ごとにランキング形式で示している。図７、図８で示すように、ランキング情報１１６には、第１の形式、または、第２の形式により生成されたランキングテーブルが単語ごとに含まれている。ランキング情報１１６に含まれるランキングテーブルは、後述するランキング生成部１６０により生成される。また、ランキングテーブルを図７で示す第１の形式と図８で示す第２の形式のいずれを用いて生成するかは、後述するランキング生成部１６０により単語ごとに判断される。

図７で示す第１の形式によるランキングテーブルは、後述するように、ユーザを特定する情報を第２スコアの降順で並び替えた結果として生成される。図７で示すように、第１の形式によるランキングテーブルの場合、第２スコアの値が高いほど順位が上がっており、第１スコアは考慮されていない。例えば、図７の２行目では、順位「２」位のユーザとして、第２スコア「０．０４３９５９」、第１スコア「０」である「Ｂさん」が対応づけられている。

一方、図８で示す第２の形式によるランキングテーブルは、ユーザを特定する情報を、第１スコアの降順で並び替えた後、第１スコアが０であるユーザを第２スコアの降順で並び変えた結果として生成される。図８で示すように、第２の形式によるランキングテーブルの場合、第１スコアの値が高いほど順位が上がっており、第２スコアの値は第１スコアの値が０の場合のみ影響している。例えば、図８の２行目では、順位「２」位のユーザとして、第２スコア「０．０２４０４５」、第１スコア「０．００３８５４」である「Ｃさん」が対応づけられている。

なお、ランキングテーブルに含まれるユーザを特定する情報には、例えば、ユーザ名が含まれる。ユーザを特定する情報には、第１スコア、第２スコアを含んでも構わないし、そのほかの各種情報を含んでも構わない。

第１スコア算出部１２０は、参照時間情報１１１に基づいて、各ユーザに対して単語ごとに、ユーザと単語との関連性を数値化した第１スコアを算出する。そして、第１スコア算出部１２０は、算出した第１スコアを第１スコア情報１１２として記憶部１１０に格納する。

例えば、第１スコア算出部１２０は、図９で示すTF-IDFを算出することで、ユーザと単語間の関連性を示す第１スコアを算出する。ここで、TF-IDFとは、文書中に含まれる単語の重要性を評価する手法である。第１スコア算出部１２０は、各ユーザが使用した単語を文章とみなして図９で示す計算式にあてはめることで、第１スコアとしてTF-IDFを算出する。第１スコア算出部１２０による算出の手順は、以下の通りとなる。

まず、第１スコア算出部１２０は、参照時間情報１１１を参照して、ユーザごとに全ての単語の参照時間を合計することで、あるユーザにおける全ての単語の参照時間の合計を示す第１総参照時間を算出する。また、第１スコア算出部１２０は、単語ごとに全てのユーザの参照時間を合計することで、ある単語における全てのユーザの参照時間の合計を示す第２総参照時間を算出する。

また、第１スコア算出部１２０は、あるユーザにおけるある単語の参照時間を第１総参照時間で割ることでTFを算出するとともに、あるユーザにおけるある単語の参照時間を第２総参照時間で割ることでIDFを算出する。そして、第１スコア算出部１２０は、算出したTFとIDFを掛けることで、あるユーザ、ある単語におけるTF-IDFを算出する。

例えば、第１スコア算出部１２０は、上述した処理をユーザと単語の組み合わせごとに行うことで、各ユーザ、各単語のTF-IDF（つまり、第１スコア）を算出する。そして、第１スコア算出部１２０は、算出した結果を、第１スコア情報１１２として記憶部１１０に格納する。なお、あるユーザのある単語の参照時間が０である場合、TFとIDFの値がともに０となる。そのため、あるユーザ、ある単語の第１スコアの値も０となることになる。

第１テーブル生成部１３０は、第１スコア情報１１２に基づいて第１テーブル１１３を生成する。例えば、第１テーブル生成部１３０は、第１スコア情報１１２に含まれる各ユーザを行、各単語を列に当てはめることで、第１テーブル１１３を生成する。そして、第１テーブル生成部１３０は、生成した第１テーブル１１３を記憶部１１０に格納する。

第２テーブル生成部１４０は、第１スコア情報１１２または第１テーブル１１３が示す第１スコアに基づいて、単語間の関連度を示す第２テーブル１１４を生成する。そして、第２テーブル生成部１４０は、生成した第２テーブル１１４を記憶部１１０に格納する。

例えば、第２テーブル生成部１４０は、図９で示す関連度ｒを求める計算式を用いることで、単語間の関連度を算出する。ここで、図９で示す式は、全ユーザの数をn人とし、対象の単語から２つの単語xとyを選んだとすると、両者の単語のn人分の第１スコアの共分散（Sxy）と、それぞれの単語のn人分の第１スコアの標準偏差（Sx、Sy）から単語間の関連度を算出するものである。

なお、xiは、単語xにおけるi番目の第１スコアであり、yiは、単語yにおけるi番目の第１スコアである。また、図１０で示す計算式中の下記数１は、xの第１スコアの平均値であり、図１０で示す計算式中の下記数２は、yの第１スコアの平均値である。

なお、図１０で示す関連度ｒは、使用のされかたが類似している単語について、値が大きくなる指標である。つまり、単語間の関連度は、単語xと単語yを両方とも使う人が多い、あるいは、単語xと単語yを両方とも使わない人が多い場合、値が大きくなる。例えば、「スマホ」と「スマートフォン」については、使われ方が類似し、値も大きくなることが考えられる。

第２テーブル生成部１４０は、上述した計算式により各単語間の関連度を算出する。そして、第２テーブル生成部１４０は、各単語間の関連度が対象行列の形になるよう、各単語同士の組み合わせによる第２テーブル１１４を作成する。なお、自身との単語間の関連度については１とする。

第２スコア算出部１５０は、第１スコア情報１１２または第１テーブル１１３が示す第１スコアと、第２テーブル１１４が示す単語間の関連度と、に基づいて、単語間の関連度を第１スコアに加味した第２スコアを算出する。そして、第２スコア算出部１５０は、算出した第２スコアを第２スコア情報１１５として記憶部１１０に格納する。

例えば、第２スコア算出部１５０は、下記式を用いることで第２スコアを算出する。
ユーザαと単語Ｘとの関連スコア
＝Σ（単語Ｘとある単語との単語間の関連度×ある単語へのユーザＡの第１スコア）

具体的には、例えば、図４で示す第１テーブル１１３と図５で示す第２テーブル１１４とを用いてユーザ名「Ａさん」と単語「サービス」との第２スコアを算出する場合、第２スコア算出部１５０は、下記のような計算を行うことで第２スコアを算出する。つまり、第２スコア算出部１５０は、（「サービス」と「会議」との関連度×「Ａさん」の「会議」の第１スコア）＋（「サービス」と「働き」との関連度×「Ａさん」の「働き」の第１スコア）＋（「サービス」と「働き方」との関連度×「Ａさん」の「働き方」の第１スコア）＋（「サービス」と「抑制」との関連度×「Ａさん」の「抑制」の第１スコア）＋（「サービス」と「改革」との関連度×「Ａさん」の「改革」の第１スコア）＋（「サービス」と「残業」との関連度×「Ａさん」の「残業」の第１スコア）＋（「サービス」と「残業抑制」との関連度×「Ａさん」の「残業抑制」の第１スコア）＋（「サービス」と「サービス」との関連度×「Ａさん」の「サービス」の第１スコア）＋（「サービス」と「休暇」との関連度×「Ａさん」の「休暇」の第１スコア）＋（「サービス」と「休暇表」との関連度×「Ａさん」の「休暇表」の第１スコア）＝（－0.46217×0）＋（0.941227×0.063492）＋（0.941227×0.063492）＋（－0.40357×0.027778）＋（0.941227×0.063492）＋（－0.40357×0.027778）＋（－0.40357×0.027778）＋（1×0）＋（1×0）＋（1×0）=0.145650を算出する。

ランキング生成部１６０は、第１スコア情報１１２と第２スコア情報１１５とに基づいて、単語に対する人の関連性の高さを示すランキングテーブルを単語ごとに生成する。ランキング生成部１６０が生成するランキングテーブルは、図７で示すような第１の形式と図８で示すような第２の形式のうちのいずれかとなる。そして、ランキング生成部１６０は、生成したランキングテーブルをランキング情報１１６として記憶部１１０に格納する。

例えば、ランキング生成部１６０は、対象の単語について、第１スコアを算出したユーザのうち第１スコアが０でないユーザの数を計測する。つまり、ランキング生成部１６０は、単語を使用したことがあるユーザの数を計測する。

計測したユーザの数が予め定められた閾値以上である場合、ランキング生成部１６０は、ユーザを特定する情報を第２スコアの降順で並び替えることで、第１の形式によるランキングテーブルを生成する。一方、計測したユーザの数が閾値未満である場合、ランキング生成部１６０は、ユーザを特定する情報を、第１スコアの降順で並び替えた後、第１スコアが０であるユーザを第２スコアの降順で並び変えることで、第２の形式によるランキングテーブルを生成する。このように、ランキング生成部１６０は、計測したユーザの数に応じて、異なる形式でユーザを特定する情報の並び替えを行う。また、第１の形式では第２のスコアに基づく並び替えを行い、第２の形式では第１スコア及び第２スコアに基づく並び替えを行うことになる。

なお、上述した閾値は任意の値で構わない。また、閾値は予め定められた固定値以外であっても構わない。例えば、閾値は、全体人数のn%などというような割合で示すものであっても構わない。また、閾値は、ユーザからのフィードバックなどによりで動的に変化させる値であっても構わない。

このように、ランキング生成部１６０は、単語を使用したことがあるユーザの数などの単語の使用状況に基づいて、第１の形式と第２の形式のどちらのランキングテーブルを生成するか決定する。そして、ランキング生成部１６０は、決定した形式でランキングテーブルを生成する。

なお、ランキング生成部１６０は、上述したようなランキングテーブルの生成を、参照時間情報１１１などに含まれる各単語に対して実施する。そのため、ランキング情報１１６には、各単語に対するランキングテーブルが第１の形式または第２の形式のいずれかの形式で含まれている。

キーワード受付部１７０は、検索者から検索キーワードを受け付ける。例えば、キーワード受付部１７０は、検索キーワードとして、単語を受け付ける。

検索部１８０は、検索キーワードに応じた検索を実行する。例えば、検索部１８０は、検索キーワードが示す単語のランキングテーブルをランキング情報１１６から検索する。

出力部１９０は、検索部１８０による検索結果であるランキングテーブルを出力する。出力部１９０による出力は、例えば、画面表示部に対する表示や外部装置に対する送信などがある。

キーワード受付部１７０と検索部１８０と出力部１９０とによる検索の実現例としては、例えば、キーワード受付部４が検索者の使用する外部装置から、通信ネットワークを介して、検索キーワードを受け付ける。そして、出力部１９０は、検索者の使用する外部装置に対して検索結果を出力する。このような形式が考えられる。検索は、関連性評価装置１００が有するキーボードなどにより検索キーワードを受け付け、関連性評価装置１００が有する画面表示部に表示するよう行われても構わない。また、キーワード受付部１７０は、例えば、与えられた文章から単語を抽出して、抽出した単語を検索キーワードとして受け付けるよう構成しても構わない。つまり、キーワード受付部１７０は、必ずしも検索者から直接検索キーワードの入力を受け付けるよう構成しなくても構わない。なお、本実施形態においては、キーワード受付部１７０が文章から単語を抽出する際の処理の内容については、特に限定しない。キーワード受付部１７０は、既知の技術を用いて文章から単語を抽出するよう構成することが出来る。

以上が、関連性評価装置１００の構成の一例である。続いて、図１１から図１３までを参照して、関連性評価装置１００の動作の一例について説明する。

まず、図１１を参照して、ランキングテーブルを生成してランキング情報１１６として格納する際の関連性評価装置１００の動作の一例について説明する。

図１１を参照すると、関連性評価装置１００の第１スコア算出部１２０は、参照時間情報１１１に基づいて、各ユーザに対して単語ごとに、ユーザと単語との関連性を数値化した第１スコアを算出する（ステップＳ１０１）。例えば、第１スコア算出部１２０は、図８で示すTF-IDFを算出することで第１スコアを算出する。

第１テーブル生成部１３０は、第１スコア情報１１２に基づいて、第１テーブル１１３を生成する（ステップＳ１０２）。

第２テーブル生成部１４０は、第１テーブル１１３に基づいて、単語間の関連度を示す第２テーブル１１４を生成する（ステップＳ１０３）。例えば、第２テーブル生成部１４０は、図９で示す計算式を計算することで、単語間の関連度を算出する。そして、第２テーブル生成部１４０は、生成した各単語間の関連度をテーブル形式で表現することで、第２テーブル１１４を生成する。

第２スコア算出部１５０は、第１スコア情報１１２または第１テーブル１１３が示す第１スコアと、第２テーブル１１４が示す単語間の関連度と、に基づいて、単語間の関連度を第１スコアに加味した第２スコアを算出する（ステップＳ１０４）。例えば、第２スコア算出部１５０は、単語Ｘとある単語との単語間の関連度×ある単語へのユーザＡの第１スコアを、各単語について算出して和をとることで、第２スコアを算出する。

ランキング生成部１６０は、第１スコア情報１１２と第２スコア情報１１５とに基づいて、単語に対する人の関連性の高さを示すランキングテーブルを単語ごとに生成する（ステップＳ１０５）。ランキング生成部１６０が第１の形式と第２の形式のいずれでランキングテーブルを生成するかは、例えば、単語の使用状況に基づいて決定される。

以上が、ランキングテーブルを生成してランキング情報１１６として格納する際の関連性評価装置１００の動作の一例である。続いて、図１２を参照して、ステップＳ１０５のランキング生成処理についてより詳細に説明する。

図１２を参照すると、ランキング生成部１６０は、対象の単語について、第１スコアが０でないユーザの数を計測する（ステップＳ２０１）。

計測したユーザの数が予め定められた閾値以上である場合（ステップＳ２０２、Ｙｅｓ）、ランキング生成部１６０は、ユーザを特定する情報を第２スコアの降順で並び替える（ステップＳ２０３）。これにより、ランキング生成部１６０は、第１の形式によるランキングテーブルを生成する。

一方、計測したユーザの数が予め定められた閾値未満である場合（ステップＳ２０２、Ｎｏ）、ランキング生成部１６０は、ユーザを特定する情報を第１スコアの降順で並び替える（ステップＳ２０４）。また、ランキング生成部１６０は、第１スコアが０であるユーザを第２スコアの降順で並び変える（ステップＳ２０５）。これにより、ランキング生成部１６０は、第２の形式によるランキングを生成する。

以上が、図１１のステップＳ１０５で示したランキング生成処理の一例である。続いて、図１３を参照して、検索処理を行う際の関連性評価装置１００の動作の一例について説明する。

図１３を参照すると、キーワード受付部１７０は、検索者から検索キーワードを受け付ける（ステップＳ３０１）。例えば、キーワード受付部１７０は、検索キーワードとして、単語を受け付ける。

検索部１８０は、検索キーワードに応じた検索を実行する（ステップＳ３０２）。例えば、検索部１８０は、検索キーワードが示す単語のランキングテーブルをランキング情報１１６から検索する。

出力部１９０は、検索部１８０による検索結果であるランキングテーブルを出力する（ステップＳ３０３）。出力部１９０による出力は、例えば、画面表示部に対する表示や外部装置に対する送信などがある。

以上が、検索処理を行う際の関連性評価装置１００の動作の一例である。

このように、関連性評価装置１００は、第１スコアを算出する第１スコア算出部１２０と、第２スコアを算出する第２スコア算出部１５０と、ランキング生成部１６０と、を有している。このような構成により、ランキング生成部１６０は、単語の使用状況などに応じて、第２スコアに基づく並び替えを行う第１の形式と、第１スコア及び第２スコアに基づく並び替えを行う第２の形式と、のいずれの形式でランキングテーブルを生成するか決定することが出来る。これにより、第２スコアを用いた並び替えにより表記ゆれなどに対応しつつ、専門性の高い単語など単語の使用者が少ない場合に実際の使用者を上位にランキングさせることが可能となる。つまり、上記構成によると、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが可能となる。

なお、本実施形態においては、関連性評価装置１００が１台の情報処理装置により構成される場合について例示した。しかしながら、関連性評価装置１００は、例えば、ネットワークを介して接続された複数台の情報処理装置により構成されても構わない。例えば、関連性評価装置１００は、記憶部１１０と第１スコア算出部１２０と第１テーブル生成部１３０と第２テーブル生成部１４０と第２スコア算出部１５０とランキング生成部１６０とを有する情報処理装置と、キーワード受付部１７０と検索部１８０と出力部１９０とを有する情報処理装置と、から構成されても構わない。

また、本実施形態においては、ランキング情報１１６にランキングテーブルが予め生成されて格納されている場合について例示した。しかしながら、ランキングテーブルは、例えば、検索部１８０による検索が行われる際に生成されるように構成しても構わない。このように、ランキングテーブルの生成時期は本実施形態で例示した場合に限定されない。

また、本実施形態においては、第１スコアが０でないユーザの数を計測した結果に基づいて、いずれの形式でランキングテーブルを生成するか決定する場合について例示した。しかしながら、ランキングテーブル生成部１６０は、上記例示した以外の方法により、第１の形式と第２の形式のいずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。例えば、ランキング生成部１６０は、第１スコアが所定の基準閾値以上のユーザの数に基づいて、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。換言すると、ランキング生成部１６０は、第１スコアが所定の基準閾値以上であるユーザの数が予め定められた閾値以上である場合に、第１の形式によるランキングテーブルを生成するよう構成することが出来る。また、ランキング生成部１６０は、例えば、第１の形式によるランキングテーブルを生成した際に所定順位以上に存在する、第１スコアが所定の基準閾値未満のユーザの数などに基づいて、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。また、ランキング生成部１６０は、第２スコアの状況などを加味して、いずれの形式でランキングテーブルを生成するか決定するよう構成しても構わない。なお、上記基準閾値は任意の値で構わない。

また、第２テーブル生成部１４０による単語間の関連度を算出する処理は、単語数によっては計算量が多くなる。そのため、使用率に使用率閾値を設けるなどの方法により、関連度を算出する単語の数に制限を設けるよう構成しても構わない。

［第２の実施形態］
次に、図１４を参照して、本発明の第２の実施形態について説明する。第２の実施形態では、関連性評価装置２０の構成の概要について説明する。

図１４は、関連性評価装置２０の構成の一例を示している。図１３を参照すると、関連性評価装置２０は、第１スコア算出部２１と、第２スコア算出部２２と、並び替え処理部２３と、を有している。

例えば、関連性評価装置２０は、ＣＰＵなどの演算装置と記憶装置とを有している。例えば、関連性評価装置２０は、記憶装置に格納されたプログラムを演算装置が実行することで、上記各処理部を実現する。

第１スコア算出部２１は、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する。

第２スコア算出部２２は、第１スコア算出部が算出した第１スコアと単語間の関連度とに基づいて、第２スコアを算出する。

並び替え処理部２３は、第１スコア算出部２１が算出した第１スコアと、第２スコア算出部２２が算出した第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う。

このように、関連性評価装置２０は、第１スコア算出部２１と第２スコア算出部２２と並び替え処理部２３とを有している。このような構成により並び替え処理部２３は、第１スコア算出部２１が算出した第１スコアと、第２スコア算出部２２が算出した第２スコアとに基づいて、ユーザを特定する情報の並び替えを行うことが出来る。その結果、並び替え処理部２３は、例えば、第２スコアに基づく並び替えを行うか、第１スコア及び第２スコアに基づく並び替えを行うか、などを決定することが可能となる。これにより、類語や表記ゆれなどに強くしつつ、実際には使っていない単語に対する関連スコアが高くなる影響を抑制することが可能となる。

また、上述した関連性評価装置２０は、当該関連性評価装置２０に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、情報処理装置に、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部２１と、第１スコアと単語間の関連度とに基づいて、第２スコアを算出する第２スコア算出部と、算出した第１スコアと第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、を実現するためのプログラムである。

また、上述した関連性評価装置２０により実行される関連性評価方法は、情報処理装置が、単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出し、前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出し、算出した第１スコアと第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う、という方法である。

上述した構成を有する、プログラム、又は、関連性評価方法、の発明であっても、上記関連性評価装置２０と同様の作用・効果を有するために、上述した本発明の目的を達成することが出来る。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における関連性評価装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
情報処理装置が、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出し、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出し、
算出した前記第１スコアと前記第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う
関連性評価方法。
（付記２）
付記１に記載の関連性評価方法であって、
単語の使用状況に基づいて並び替えを行う形式を決定し、
決定した形式による並び替えを行う
関連性評価方法。
（付記３）
付記２に記載の関連性評価方法であって、
前記第１スコアを算出したユーザのうち前記第１スコアの値が所定の基準閾値以上であるユーザの数に基づいて、単語の使用状況を判断する
関連性評価方法。
（付記４）
付記１から付記３までのいずれか１項に記載の関連性評価方法であって、
前記第２スコアに基づく並び替えを行う第１の形式と、前記第１スコア及び前記第２スコアに基づく並び替えを行う第２の形式と、のうちのいずれかの形式による並び替えを行う
関連性評価方法。
（付記５）
付記４に記載の関連性評価方法であって、
前記第１の形式では、ユーザを特定する情報を前記第２スコアの降順で並び替える
関連性評価方法。
（付記６）
付記４または付記５に記載の関連性評価方法であって、
前記第２の形式では、ユーザを特定する情報を前記第１スコアの降順で並び替えた後、前記第１スコアの値が０であるユーザのユーザを特定する情報を前記第２スコアの降順で並び替える
関連性評価方法。
（付記７）
付記１から付記６までのいずれか１項に記載の関連性評価方法であって、
検索キーワードに基づいて並び替えた結果を検索し、検索の結果を出力する
関連性評価方法。
（付記８）
付記１から付記７までのいずれか１項に記載の関連性評価方法であって、
単語間の関連度を前記第１スコアに基づいて算出する
関連性評価方法。
（付記９）
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出する第２スコア算出部と、
算出した前記第１スコアと前記第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を有する
関連性評価装置。
（付記１０）
情報処理装置に、
単語の参照時間を示す情報に基づいて、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、第２スコアを算出する第２スコア算出部と、
算出した前記第１スコアと前記第２スコアとに基づいて、ユーザを特定する情報の並び替えを行う並び替え処理部と、
を実現するためのプログラム。

なお、上記各実施形態及び付記において記載したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されていたりする。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることが出来る。

１００関連性評価装置
１１０記憶部
１１１参照時間情報
１１２第１スコア情報
１１３第１テーブル
１１４第２テーブル
１１５第２スコア情報
１１６ランキング情報
１２０第１スコア算出部
１３０第１テーブル生成部
１４０第２テーブル生成部
１５０第２スコア算出部
１６０ランキング生成部
１７０キーワード受付部
１８０検索部
１９０出力部
２０関連性評価装置
２１第１スコア算出部
２２第２スコア算出部
２３並び替え処理部

Claims

情報処理装置が、
単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第１スコアを算出し、
前記第１スコアと単語間の関連度とに基づいて、単語間の関連度を前記第１スコアに加味した第２スコアを算出し、
算出した前記第１スコアと前記第２スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成し、
前記ランキングを生成する際、ランキング生成対象の単語について、前記第１スコアを算出したユーザのうち前記第１スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第２スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第１スコアの降順でユーザを特定する情報の並び替えを行った後、前記第１スコアが０であるユーザを前記第２スコアの降順で並び替えることで前記ランキングを生成する
関連性評価方法。
請求項１に記載の関連性評価方法であって、
取得した検索キーワードに基づいて並び替えた結果である前記ランキングを検索し、検索の結果を出力する
関連性評価方法。
単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、単語間の関連度を前記第１スコアに加味した第２スコアを算出する第２スコア算出部と、
算出した前記第１スコアと前記第２スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成する並び替え処理部と、
を有し、
前記並び替え処理部は、前記ランキングを生成する際、ランキング生成対象の単語について、前記第１スコアを算出したユーザのうち前記第１スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第２スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第１スコアの降順でユーザを特定する情報の並び替えを行った後、前記第１スコアが０であるユーザを前記第２スコアの降順で並び替えることで前記ランキングを生成する
関連性評価装置。
情報処理装置に、
単語の参照時間を示す情報に基づいて、ユーザにおける単語の参照時間に応じた値であり、ユーザと単語との関連の高さを示す第１スコアを算出する第１スコア算出部と、
前記第１スコアと単語間の関連度とに基づいて、単語間の関連度を前記第１スコアに加味した第２スコアを算出する第２スコア算出部と、
算出した前記第１スコアと前記第２スコアと単語の使用状況とに基づいて、ユーザを特定する情報の並び替えを行うことで、人と単語との関連性の強さを示し、検索対象となるランキングを生成する並び替え処理部と、
を実現させ、
前記並び替え処理部は、前記ランキングを生成する際、ランキング生成対象の単語について、前記第１スコアを算出したユーザのうち前記第１スコアが基準値以上であるユーザの数を計測し、計測したユーザの数が閾値以上である場合、前記第２スコアの降順でユーザを特定する情報の並び替えを行うことで前記ランキングを生成し、計測したユーザの数が閾値未満である場合、前記第１スコアの降順でユーザを特定する情報の並び替えを行った後、前記第１スコアが０であるユーザを前記第２スコアの降順で並び替えることで前記ランキングを生成する
プログラム。