JP5642037B2

JP5642037B2 - 検索装置、検索方法およびプログラム

Info

Publication number: JP5642037B2
Application number: JP2011208051A
Authority: JP
Inventors: 西山　修; 修西山; 信宏下郡; 朋男池田; 上野　晃嗣; 晃嗣上野; 鈴木　博和; 博和鈴木; 学永尾
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-09-22
Filing date: 2011-09-22
Publication date: 2014-12-17
Anticipated expiration: 2031-09-22
Also published as: JP2013069170A; US20130080174A1

Description

本発明の実施形態は、検索装置、検索方法およびプログラムに関する。

従来、音声データをテキスト化する書き起こし作業の効率化を図るための様々な技術が知られている。例えば発音を正確に聞き取ることができずに表記（綴り）が不明な語句については、当該語句の推定された発音（読み）を示す情報を用いて、類似する発音を有する語句を検索する技術が知られている。例えばユーザーが入力した音素記号列を所定の規則に従って補正して補正音素記号列を生成し、綴りと音素記号列とが対応付けられた複数の組が記憶された綴りテーブルから、生成した補正音素記号列と一致又は類似する音素記号列を検索することで、当該補正音素記号列の綴りを検索する技術が知られている。

しかしながら、従来の技術では、発音の類似度のみに基づいて語句の検索が行われるので、書き起こされるテキストの内容とは無関係な語句も検索結果として表示されることがある。

特開２００６−３０９４６９号公報

本発明が解決しようとする課題は、書き起こされるテキストの内容と無関係な語句が検索結果として表示されることを防止可能な検索装置、検索方法およびプログラムを提供することである。

実施形態の検索装置は、テキスト入力部と第１抽出部と検索部と第２抽出部と取得部と選択部とを備える。テキスト入力部は、ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力する。第１抽出部は、テキストに含まれる未知語情報以外の語句のうち、未知語に関連する語句を示す関連語を抽出する。検索部は、関連語を含む文書を示す関連文書を検索する。第２抽出部は、関連文書に含まれる複数の語句から、未知語の候補を示す候補語を抽出する。取得部は、ユーザーにより推定された、未知語の発音を示す読み情報を取得する。選択部は、候補語のうち、その発音が読み情報と類似する候補語を選択する。

実施形態の検索方法は、テキスト入力ステップと第１抽出ステップと検索ステップと第２抽出ステップと取得ステップと選択ステップとを備える。テキスト入力ステップは、プロセッサが、ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力する。第１抽出ステップは、プロセッサが、テキストに含まれる未知語情報以外の語句のうち、未知語に関連する語句を示す関連語を抽出する。検索ステップは、プロセッサが、関連語を含む文書を示す関連文書を検索する。第２抽出ステップは、プロセッサが、関連文書に含まれる複数の語句から、未知語の候補を示す候補語を抽出する。取得ステップは、プロセッサが、ユーザーにより推定された未知語の発音を示す読み情報を取得する。選択ステップは、プロセッサが、候補語のうち、その発音が読み情報と類似する候補語を選択する。

実施形態のプログラムは、テキスト入力ステップと第１抽出ステップと検索ステップと第２抽出ステップと取得ステップと選択ステップとをコンピュータに実行させるためのプログラムである。テキスト入力ステップは、ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力する。第１抽出ステップは、テキストに含まれる未知語情報以外の語句のうち、未知語に関連する語句を示す関連語を抽出する。検索ステップは、関連語を含む文書を示す関連文書を検索する。第２抽出ステップは、関連文書に含まれる複数の語句から、未知語の候補を示す候補語を抽出する。取得ステップは、ユーザーにより推定された、未知語の発音を示す読み情報を取得する。選択ステップは、候補語のうち、その発音が読み情報と類似する候補語を選択する。

実施形態に係る検索装置の概略構成例を示すブロック図。実施形態の検索装置による処理動作の一例を示すフローチャート。実施形態の候補語抽出処理の一例を示すフローチャート。実施形態の選択処理の一例を示すフローチャート。実施形態のスコアの算出結果の一例を示す図。変形例に係る検索装置の概略構成例を示すブロック図。

以下、添付図面を参照しながら、本発明に係る検索装置、検索方法およびプログラムの実施の形態を詳細に説明する。なお、以下の実施形態では、検索装置として、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するＰＣ（Personal Computer）を例に挙げて説明するが、これに限定されるものではない。以下の実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。

図１は、本実施形態の検索装置１００の概略構成例を示すブロック図である。図１に示すように、検索装置１００は、テキスト入力部１０と、第１抽出部２０と、検索部３０と、第２抽出部４０と、推定部５０と、読み情報入力部６０と、取得部７０と、選択部８０と、表示部９０とを含む。

テキスト入力部１０は、ユーザーが書き起こせなかった語句（単語や句を含む概念）である未知語であることを示す未知語情報を含むテキストを入力する。本実施形態では、テキスト入力部１０は、ユーザーによるキーボード操作に応じてテキストを作成する機能を有し、作成したテキストを入力する。なお、これに限らず、例えばユーザーの操作に応じてテキストを作成する機能を有するテキスト作成部がテキスト入力部１０とは別に設けられてもよい。この場合、テキスト入力部１０は、テキスト作成部で作成されたテキストを受け取り、その受け取ったテキストを入力することができる。

書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキストを作成するが、例えば発音を正確に聞き取ることができず、表記（綴り）が不明な語句については、未知語であることを示す未知語情報を入力する。本実施形態では、語句ではない記号「●」を未知語情報として採用しているが、これに限らず、未知語情報は、ユーザーが書き起こせなかった語句（未知語）であることを示す情報であればよく、その種類は任意である。

第１抽出部２０は、テキスト入力部１０で入力されたテキストに含まれる未知語情報以外の語句のうち、未知語に関連する語句を示す関連語を抽出する。より具体的には、第１抽出部２０は、テキスト入力部１０で入力されたテキストに対して、形態素解析などの言語処理技術を施すことで、当該テキストに含まれる未知語情報以外の語句を抽出する。この抽出された語句は、ユーザーが書き起こすことができた語句（可聴語）であると捉えることができる。そして、第１抽出部２０は、そのようにして抽出した可聴語のうち、未知語情報の前後に隣接する複数の語句を関連語として抽出する。一例として、本実施形態では、第１抽出部２０は、抽出した可聴語のうち、未知語情報の前後に隣接する２つの語句を関連語として抽出する。なお、関連語の抽出方法はこれに限られるものではない。

検索部３０は、関連語を含む文書を示す関連文書を検索する。例えば検索部３０は、第１抽出部２０で抽出された関連語をクエリとして、検索装置１００の内部に設けられた不図示の文書データベースや、ＷＷＷ（World Wide Web）などで公開されている文書データなどから公知の検索技術を利用して、関連文書を検索することができる。そして、検索部３０は、検索結果として得られた所定数の関連文書を収集（取得）する。

第２抽出部４０は、検索部３０により収集された関連文書に含まれる複数の語句から、未知語の候補を示す候補語を抽出する。より具体的には以下のとおりである。本実施形態では、第２抽出部４０は、検索部３０で検索された関連文書に対して、形態素解析などの言語処理技術を施すことで、当該関連文書に含まれる複数の語句を抽出する。そして、抽出した複数の語句のうち、前述の可聴語と一致する語句以外の語句を候補語として抽出する。

推定部５０は、第２抽出部４０で抽出された候補語の発音（読み）を示す情報（「候補語読み情報」と呼ぶ）を推定する。一例として、本実施形態では、推定部５０は、音声合成などで利用されている公知の発音推定技術などを利用して、第２抽出部４０で抽出された候補語の表記（綴り）からそれぞれの候補語読み情報を推定することができる。推定部５０で推定された候補語読み情報は選択部８０に渡される。

読み情報入力部６０は、未知語の推定された発音を示す読み情報を入力する。本実施形態では、ユーザーは、自身が推定した未知語の発音を示す文字列を入力するためのキーボード操作を行う。そして、読み情報入力部６０は、ユーザーによるキーボード操作に応じて文字列を生成し、その生成した文字列を読み情報として入力する。

取得部７０は、読み情報を取得する。本実施形態では、取得部７０は、読み情報入力部６０により入力された読み情報を取得する。取得部７０で取得された読み情報は選択部８０に渡される。

選択部８０は、第２抽出部４０で抽出された候補語のうち、その発音が、取得部７０で取得された読み情報と類似する候補語を選択する。より具体的には以下のとおりである。本実施形態では、選択部８０は、取得部７０で取得された読み情報と、推定部５０で推定された各候補語の候補語読み情報とを比較する。そして、選択部８０は、候補語ごとに、候補語読み情報と、取得部７０で取得された読み情報との類似度を算出する。類似度の算出方法は任意であり、公知の様々な技術を利用可能である。例えばモーラ単位での編集距離を利用する方法であってもよいし、単音単位での聴覚的類似度や構音様式の類似度などに基づいた距離計算を行う方法であってもよい。そして、選択部８０は、第２抽出部４０で抽出された候補語のうち、上述の類似度が高い候補語を所定数だけ選択する。

表示部９０は、選択部８０で選択された候補語を表示する。詳細な図示は省略するが、本実施形態の検索装置１００は、各種の情報を表示する表示装置を備えている。表示装置は、例えば液晶パネルなどで構成され得る。そして、表示部９０は、選択部８０で選択された候補語を表示するように表示装置を制御する。

図２は、本実施形態の検索装置１００による処理動作の一例を示すフローチャートである。図２に示すように、テキスト入力部１０により未知語情報（この例では「●」）を含むテキストが入力された場合（ステップＳ１の結果：ＹＥＳ）、検索装置１００は、候補語を抽出する候補語抽出処理を実行する（ステップＳ２）。より具体的には以下のとおりである。図３は、候補語抽出処理の一例を示すフローチャートである。図３に示すように、まず第１抽出部２０は、テキスト入力部１０で入力されたテキストに対して、形態素解析などの言語処理技術を施すことで、当該テキストに含まれる未知語情報以外の語句（可聴語）を抽出する（ステップＳ１１）。次に、第１抽出部２０は、ステップＳ１１で抽出した可聴語のうち、未知語情報の前後に隣接する２つの語句を関連語として抽出する（ステップＳ１２）。

次に、検索部３０は、関連語を含む文書を示す関連文書を検索する（ステップＳ１３）。次に、第２抽出部４０は、ステップＳ１３で検索された関連文書に含まれる複数の語句から、候補語を抽出する（ステップＳ１４）。前述したように、本実施形態では、第２抽出部４０は、ステップＳ１３で検索された関連文書に対して、形態素解析などの言語処理技術を施すことで、当該関連文書に含まれる複数の語句を抽出し、その抽出した語句のうち、可聴語と一致する語句以外の語句を候補語として抽出する。以上が候補語抽出処理の内容である。

再び図２に戻って説明を続ける。前述の候補語抽出処理の後（ステップＳ２の後）、推定部５０は、ステップＳ２で抽出された複数の候補語の各々の候補語読み情報を推定する（ステップＳ３）。次に、取得部７０は、読み情報入力部６０により入力された読み情報を取得する（ステップＳ４）。次に、選択部８０は、表示対象の候補語を選択する選択処理を実行する（ステップＳ５）。より具体的には以下のとおりである。

図４は、選択部８０が実行する選択処理の一例を示すフローチャートである。図４に示すように、まず選択部８０は、ステップＳ４で取得された読み情報と、ステップＳ３で推定された各候補語の候補語読み情報とを比較し、候補語ごとに、当該候補語の候補語読み情報と、ステップＳ４で取得された読み情報との類似度を算出する（ステップＳ２１）。次に、選択部８０は、ステップＳ２で抽出された候補語のうち、ステップＳ２１で算出された類似度が高い候補語を所定数だけ選択する（ステップＳ２２）。以上が選択処理の内容である。

再び図２に戻って説明を続ける。前述の選択処理の後（ステップＳ５の後）、表示部９０は、ステップＳ４で選択された候補語を表示するように表示装置を制御する（ステップＳ６）。例えば、この表示内容を見たユーザーが、何れかの候補語を選択することにより、入力されたテキストにおける未知語情報の部分を、選択された候補語に置き換えることもできる。これにより、書き起こし作業の作業効率を向上させることができる。

いま、具体例として、「先程も申し上げました通り、そのような教育法、●などの規定の中に、」というテキストがテキスト入力部１０によって入力され、「しじゅづつがっこうほう」という読み情報（未知語の推定された読みを示す文字列）が読み情報入力部６０によって入力される場合を想定する。この場合、ユーザーは、テキストの中の「●」で記述された部分の発音（読み）を「しじゅづつがっこうほう」と推定しており、検索装置１００は、この「●」の部分の語句の候補語を検索する。

まず、テキスト入力部１０により「先程も申し上げました通り、そのような教育法、●などの規定の中に、」というテキストが入力された場合（図２のステップＳ１の結果：）ＹＥＳ）、前述の候補語抽出処理が実行される（図２のステップＳ２）。この例では、第１抽出部２０は、入力された「先程も申し上げました通り、そのような教育法、●などの規定の中に、」というテキストに対して、形態素解析などの言語処理技術を施すことで、当該テキストに含まれる「先程」、「申し上げました」、「通り」、「教育法」、「規定」、「中」を可聴語として抽出する（図３のステップＳ１１）。そして、第１抽出部２０は、抽出した可聴語のうち、未知語情報である「●」に隣接する２つの語句「教育法」、「規定」を関連語として抽出する（図３のステップＳ１２）。次に、検索部３０は、関連語として抽出された「教育法」、「規定」をクエリとして公知のＷｅｂ検索エンジンなどを利用して、関連文書を検索する（図３のステップＳ１３）。そして、その検索結果として得られた所定数の関連文書を収集する。

次に、第２抽出部４０は、検索部３０により収集された関連文書のテキスト部分に対して、形態素解析などの言語処理技術を施すことで、当該関連文書に含まれる「学校教育法施行規則」、「昭和」、「学校」、「教育法」、「規定」、「校地」、「幼稚園」、「教員」、「私立学校法」などの複数の語句を抽出する。そして、第２抽出部４０は、その抽出した語句のうち、可聴語（「先程」、「申し上げました」、「通り」、「教育法」、「規定」、「中」）と一致する語句以外の語句（「学校教育法施行規則」、「昭和」、「学校」、「校地」、「幼稚園」、「教員」、「私立学校法」などの語句）を候補語として抽出する（図３のステップＳ１４）。

次に、推定部５０は、抽出された候補語に対して、音声合成技術などで利用されている公知の発音推定処理を適用して、それぞれの候補語読み情報を推定する（図２のステップＳ３）。この例では、候補語「学校教育法施行規則」の候補語読み情報として「がっこうきょういくほうしこうきそく」が推定される。同様に、候補語「昭和」の候補語読み情報として「しょうわ」が推定される。同様に、候補語「学校」の候補語読み情報として「がっこう」が推定される。同様に、候補語「校地」の候補語読み情報として「こうち」が推定される。同様に、候補語「幼稚園」の候補語読み情報として「ようちえん」が推定される。同様に、候補語「教員」の候補語読み情報として「きょういん」が推定される。同様に、候補語「私立学校法」の候補語読み情報として「しりつがっこうほう」が推定される。

次に、取得部７０は、読み情報入力部６０により入力された読み情報「しじゅづつがっこうほう」を取得する（図２のステップＳ４）。そして、選択部８０は、取得部７０で取得された読み情報「しじゅづつがっこうほう」と、推定部５０で推定された各候補語の候補語読み情報「がっこうきょういくほうしこうきそく」、「しょうわ」、「がっこう」、「こうち」、「ようちえん」、「きょういん」、「しりつがっこうほう」の各々との類似度を算出する（図４のステップＳ２１）。この例では、読み情報と候補語読み情報との編集距離をモーラ単位で算出することにより類似度を求める。例えば置換コストを２、削除・挿入コストを１として、読み情報「しじゅづつがっこうほう」と各候補語読み情報との類似度を示すスコアを計算した場合、候補語読み情報「がっこうきょういくほうしこうきそく」のスコアは１６、候補語読み情報「しょうわ」のスコアは１１、候補語読み情報「がっこう」のスコアは７、候補語読み情報「こうち」のスコアは１０、候補語読み情報「ようちえん」のスコアは１４、候補語読み情報「きょういん」のスコアは１４、「しりつがっこうほう」のスコアは４と算出される。なお、この例では、スコアの値が小さいほど、候補読み情報が示す発音は、読み情報が示す発音に近い（類似度が高い）ことを示す。

次に、選択部８０は、候補語のうち、スコアの値が小さい（つまりは類似度が高い）所定数の候補語を選択する（図４のステップＳ２２）。この例では、図５に示すように、スコアの値が小さい順に、４個の候補語「私立学校法（しりつがっこうほう）」、「学校（がっこう）」、「校地（こうち）」、「学校教育法（がっこうきょういくほう）」が選択される。次に、表示部９０は、選択部８０で選択された４つの候補語の各々の表記（綴り）と発音（読み）を示す候補語読み情報との組を、スコアの小さい順に表示するように表示装置を制御する（図２のステップＳ６）。

以上に説明したように、本実施形態では、入力されたテキストに含まれる未知語情報以外の語句のうち当該未知語情報と関連する語句（関連語）を含む関連文書から、未知語の候補を示す候補語が抽出されるので、未知語とは無関係であって発音だけが近いような語句が候補語として表示されることを防止できる。上述の具体例を例に挙げると、例えば読み情報「しじゅづつがっこうほう」との類似度を示すスコアの値が「７」の「手術（しゅじゅつ）」、スコアの値が「１１」の「手術教育（しゅじゅつきょういく）」などといった、未知語の関連分野である「学校」や「教育」などとは全く無関係であって発音だけが近いような語句が検索結果として表示されることを防止できる。

なお、本発明の実施形態に係る検索装置は、例えば汎用のコンピュータ装置（例えばＰＣ）を基本ハードウェアとして用いることでも実現可能である。すなわち、上述のテキスト入力部１０、第１抽出部２０、検索部３０、第２抽出部４０、推定部５０、読み情報入力部６０、取得部７０、選択部８０および表示部９０の各々は、上記のコンピュータ装置に搭載されたＣＰＵがＲＯＭなどに格納されたプログラムを実行することにより実現することができる。なお、これに限らず、例えばテキスト入力部１０、第１抽出部２０、検索部３０、第２抽出部４０、推定部５０、読み情報入力部６０、取得部７０、選択部８０および表示部９０のうちの少なくとも一部がハードウェア回路で構成されてもよい。

また、検索装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、当該プログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、言語処理技術や発音推定技術を用いるために利用する各種データファイルが必要であれば、それらを保持する記憶媒体は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどを適宜利用して実現することができる。

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、例えば上記実施形態に示される全構成要素（テキスト入力部１０、第１抽出部２０、検索部３０、第２抽出部４０、推定部５０、読み情報入力部６０、取得部７０、選択部８０および表示部９０）から、表示部９０を除いた構成を、本発明に係る検索装置として捉えることもできる。要するに、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。

以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
（１）変形例１
上述の実施形態では、取得部７０は、読み情報入力部６０により入力された読み情報を取得しているが、これに限らず、取得部７０による読み情報の取得方法は任意である。例えばテキスト入力部１０により入力されるテキストに含まれる未知語情報は、読み情報を含んで構成され、取得部７０は、テキスト入力部１０により入力されたテキストに含まれる未知語情報から読み情報を抽出して取得することもできる。この場合、図６に示すように、読み情報入力部６０は不要となる。

例えば未知語情報は、読み情報を示す文字列と、当該文字列の前後に付される特定の記号とから構成されてもよい。例えば前述の具体例において、テキストに含まれる未知語情報は、●の代わりに、＜しじゅづつがっこうほう＞と表すこともできる。つまり、「先程も申し上げました通り、そのような教育法、＜しじゅづつがっこうほう＞などの規定の中に、」というテキストがテキスト入力部１０により入力され、取得部７０は、テキストに含まれる未知語情報＜しじゅづつがっこうほう＞から、読み情報である「しじゅづつがっこうほう」を取得することができる。

（２）変形例２
上述の実施形態では、第１抽出部２０は、抽出した可聴語のうち、未知語情報の前後に隣接する複数（例えば２つ）の語句を関連語として抽出しているが、これに限らず、例えば第１抽出部２０は、入力されたテキストに含まれる未知語情報以外の語句（可聴語）のうち、出現頻度の高い語句を関連語として抽出することもできる。例えば、出現頻度が所定の順位以上、或いは、出現頻度が所定の数値以上となる可聴語を関連語として抽出することもできる。要するに、第１抽出部２０は、可聴語のうち、未知語に関連する語句を関連語として抽出するものであればよい。

（３）変形例３
上述の具体例では、選択部８０は、表音文字を平仮名としてモーラ単位で算出した編集距離を発音の類似度としているが、各モーラを音素記号や単音記号に置換して各記号単位での編集距離を算出して発音の類似度を求めてもよい。さらに、表音文字（音素記号、単音記号など）の間の発音の類似度などを記述した表を参照して発音の類似度を算出することもできる。

（４）変形例４
上述の実施形態では、検索部３０は、第１抽出部２０で抽出された関連語をクエリとして、検索装置１００の内部に設けられた不図示の文書データベースや、ＷＷＷ（World Wide Web）などで公開されている文書データなどから公知の検索技術を利用して、関連文書を検索しているが、これに限らず、関連文書の検索方法は任意である。例えば検索装置１００内に専用の文書ファイルを記憶した関連文書記憶部を備えた上で、第１抽出部２０で抽出された関連語を含む文書（関連文書）を検索することもできる。

（５）変形例５
上述の実施形態では、第２抽出部４０は、関連文書に含まれる複数の語句のうち、可聴語と一致する語句については候補語から除外しているが、これに限らず、例えば関連文書に含まれる複数の語句のうち、可聴語と一致する語句を候補語から除外せずに、関連文書に含まれる複数の語句の各々を候補語として抽出することもできる。ただし、上述の実施形態のように、関連文書に含まれる複数の語句のうち可聴語と一致する語句については候補語から除外する構成の方が、関連文書に含まれる複数の語句の各々を候補語として抽出する構成に比べて、候補語を絞り込むことができる。

（６）変形例６
上述の実施形態では、検索装置１００に入力されるテキストの言語（書き起こし作業の対象となる言語）は日本語であるが、これに限らず、入力されるテキストの言語の種類は任意である。例えば入力されるテキストの言語は英語であってもよいし、中国語であってもよい。入力されるテキストの言語が英語であっても中国語であっても、検索装置は、日本語と同一の構成となる。

１０テキスト入力部
２０第１抽出部
３０検索部
４０第２抽出部
５０推定部
６０読み情報入力部
７０取得部
８０選択部
９０表示部
１００検索装置

Claims

ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力部と、
前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第１抽出部と、
前記関連語を含む文書を示す関連文書を検索する検索部と、
前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第２抽出部と、
前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得部と、
前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択部と、を備える、
検索装置。
前記第２抽出部は、前記関連文書に含まれる複数の語句のうち、前記テキストに含まれる前記未知語情報以外の語句と一致する語句については前記候補語から除外する、
請求項１の検索装置。
前記読み情報を入力する読み情報入力部をさらに備え、
前記取得部は、前記読み情報入力部で入力された前記読み情報を取得する、
請求項１の検索装置。
前記未知語情報は前記読み情報を含んで構成され、
前記取得部は、前記テキストに含まれる前記未知語情報から前記読み情報を抽出して取得する、
請求項１の検索装置。
前記第１抽出部は、前記テキストに含まれる前記未知語情報以外の語句のうち、出現頻度の高い語句を関連語として抽出する、
請求項１の検索装置。
前記第１抽出部は、前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語情報の前後に隣接する複数の語句を前記関連語として抽出する、
請求項１の検索装置。
前記選択部で選択された前記候補語を表示する表示部をさらに備える、
請求項１の検索装置。
前記未知語情報は記号である、
請求項１の検索装置。
プロセッサが、ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力ステップと、
プロセッサが、前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第１抽出ステップと、
プロセッサが、前記関連語を含む文書を示す関連文書を検索する検索ステップと、
プロセッサが、前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第２抽出ステップと、
プロセッサが、前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得ステップと、
プロセッサが、前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択ステップと、を備える、
検索方法。
ユーザーが書き起こせなかった語句である未知語であることを示す未知語情報を含むテキストを入力するテキスト入力ステップと、
前記テキストに含まれる前記未知語情報以外の語句のうち、前記未知語に関連する語句を示す関連語を抽出する第１抽出ステップと、
前記関連語を含む文書を示す関連文書を検索する検索ステップと、
前記関連文書に含まれる複数の語句から、前記未知語の候補を示す候補語を抽出する第２抽出ステップと、
前記ユーザーにより推定された、前記未知語の発音を示す読み情報を取得する取得ステップと、
前記候補語のうち、その発音が前記読み情報と類似する前記候補語を選択する選択ステップと、をコンピュータに実行させるためのプログラム。