JP2005084422A - 音声認識検索装置 - Google Patents

音声認識検索装置 Download PDF

Info

Publication number
JP2005084422A
JP2005084422A JP2003317276A JP2003317276A JP2005084422A JP 2005084422 A JP2005084422 A JP 2005084422A JP 2003317276 A JP2003317276 A JP 2003317276A JP 2003317276 A JP2003317276 A JP 2003317276A JP 2005084422 A JP2005084422 A JP 2005084422A
Authority
JP
Japan
Prior art keywords
recognition
speech recognition
speech
target
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003317276A
Other languages
English (en)
Inventor
Kazuyoshi Yamada
一嘉 山田
Hideo Miyauchi
英夫 宮内
Yoshinori Watanabe
慶範 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2003317276A priority Critical patent/JP2005084422A/ja
Publication of JP2005084422A publication Critical patent/JP2005084422A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 音声認識対象の全体をユーザが発声しなくとも音声認識による検索が可能な音声認識検索装置を提供すること。
【解決手段】 車載オーディオ装置1は、データベース管理部3、音声認識辞書変換部5、音声認識辞書管理部7、音声入力部9、音声認識部11、及び認識結果通知部13を備えている。音声入力部9に楽曲名読み仮名における最初の文節が入力されると、その文節が音声認識対象となり、検索が実行される。
【選択図】 図5



Description

本発明は、例えば、楽曲名を発声することでその楽曲を検索することができる車載オーディオ装置等の音声認識検索装置に関する。
従来より、楽曲名や歌手名等の音声認識対象を音声入力すると、その音声データに基づいて、楽曲を検索する楽曲検索システムが知られている(特許文献1参照)。
この楽曲検索システムでは、ユーザが入力した音声データから、楽曲名や歌手名を検索語として認識する。そして、この検索語を用いて楽曲検索データベースを検索し、検索語と一致する楽曲をヒットレコードとして見いだす。見いだされたヒットレコードの楽曲名や歌手名は対話型インターフェースによりユーザに提示される。
特開2002−189483号公報
しかしながら、従来の楽曲検索システムにおいて、ユーザが楽曲名等の全てを記憶しておらず、楽曲名等の一部のみを発声した場合には、検索語も、楽曲名等の一部となる。
この場合は、検索語と、楽曲検索データベースに記憶されているデータとの一致率が低下し、検索を正しく行うことができないという問題があった。
本発明は以上の点に鑑みなされたものであり、音声認識対象の全体をユーザが発声しなくとも音声認識による検索が可能な音声認識検索装置を提供することを目的とする。
(1)請求項1の発明では、データベースに保持されている検索対象データが、2以上の区分データに区分されており、検索手段は、検索対象データにおける一部の区分データを音声認識対象とし、その音声認識対象と音声データとの符合に基づいて、検索対象データを検索することができる。
つまり、検索対象データの一部の区分データにのみ対応する音声データを入力した場合、検索対象データ全体を音声認識対象とすると、音声認識における一致率が低下し、正確な音声認識ができなくなってしまうが、本発明では、例えば、発音した音声データに対応する区分データを音声認識対象として、正確な音声認識を行うことができる。
(2)請求項2の発明では、検索対象データにおける区分は、文節の区切りに基づいて行われている。
そのため、ユーザが一部の文節のみに対応する音声データを発音した場合でも、その文節を音声認識対象として、検索を行うことができる。
・前記文節とは、て、に、を、は等の助詞により区切られる単位をいう。
(3)請求項3の発明では、検索対象データにおける区分は、特定の文字又は記号に基づいて行われている。
そのため、ユーザが、検索対象データのうち、特定の文字や記号により区切られた一部のみに対応する音声データを発音した場合でも、その一部を音声認識対象として、検索を行うことができる。
・前記特定の文字又は記号としては、例えば、「、」、「−」、「〜」等が挙げられる。
(4)請求項4の発明では、検索対象データにおける区分は、所定の文字数ごとに行われている。
そのため、ユーザが、検索対象データにおいて、所定の文字数ごとに区切られた区分の一部のみに対応する音声データを発音した場合でも、その一部を音声認識対象として、検索を行うことができる。
(5)請求項5の発明では、データベースが、検索対象データをツリー構造として登録した音声認識辞書を備えている。そのことにより、検索を迅速に行うことができる。
(6)請求項6の発明では、前記音声認識対象となる区分データは、前記音声データに対応する区分データである。
そのため、検索対象データのうちの、一部の区分データのみに対応する音声を入力した場合は、その一部の区分データを音声認識対象とし、検索を行う。このことにより、ユーザが検索対象データの全体に対応する音声を発音しなくとも、正確な音声認識を行い、検索を実行することができる。
また、ユーザが検索対象データ全体に対応する音声を入力した場合は、検索対象データ全体を音声認識対象とし、検索を行う。この場合は、音声認識対象が長くなるので、検索精度を向上させることができる。
(7)請求項7の発明では、検索対象データが楽曲名の読み仮名であるので、音声認識により楽曲名を検索することができる。
(8)請求項8の発明では、追加手段により、新たに追加された認識対象を特定の規則に基づいて区分けし、区分けした認識対象を前記音声認識辞書に追加することができ、また、抽出手段により、音声入力手段によって入力された音声と一致度の高い認識対象(区分けされた認識対象の一部、または区分けされる前の(全体の)認識対象)を抽出することができる。
そして、 取得手段により、抽出手段にて抽出した認識対象(区分けされた認識対象の一部、または区分けされる前の(全体の)認識対象)に基づき、認識対象候補を取得することができる。
従って、本発明では、入力された音声が、区分けされた認識対象の一部にのみ対応する場合でも、区分けされる前の(全体の)認識対象に対応する場合でも、正確な音声認識を行うことができる。
(9)請求項9の発明では、手動又は自動で認識対象を区分けすることを特徴とする。手動で認識対象を区分けする場合は、区分けのための特別な手段を用いる必要がない。また、自動で認識対象を区分けする場合は、迅速且つ容易に区分けを行うことができる。
(10)請求項10の発明では、前記特定の規則とは、文節ごと、特定の文字又は記号ごと、所定の文字数ごと、主題と副題との何れか又はそれらの組み合わせに区分けすることであることを特徴とする。
(11)請求項11の発明では、認識対象は所定の文字数ごとに認識対象単位として区分けされており、抽出手段によって、音声入力手段にてり入力された音声と一致度の高い認識対象単位を音声認識辞書から抽出することができる。
そして、取得手段によって、抽出手段にて抽出した認識対象単位を含む認識対象を認識対象候補として取得することができる。
従って、本発明では、所定の文字数ごとに区分けされた認識対象単位の一部にのみ対応する場合でも、正確な音声認識を行うことができる。
(12)請求項12の発明では、追加手段により、記憶手段に記憶される音声認識辞書に新たな認識対象を追加することができ、また、 追加手段によって追加された認識対象を所定の文字数ごとに区分けし、認識対象単位として記憶させることができる。
(13)請求項13の発明では、認識対象は、楽曲に関する名称情報であることを特徴とする。音声認識により、楽曲に関する名称情報を取得することができる。
以下に本発明の音声認識検索装置の形態の例(実施例)を説明する。以下の実施例1〜3では、音声認識検索装置として、曲名を検索語として楽曲を検索する車載オーディオ装置を例に挙げて説明する。
a)まず、本実施例1の車載オーディオ装置1の全体構成を図1を用いて説明する。
車載オーディオ装置1は、データベース管理部3、音声認識辞書変換部(追加手段)5、音声認識辞書管理部(記憶手段)7、音声入力部(音声データ入力手段、音声入力手段)9、音声認識部(検索手段、抽出手段、取得手段)11、及び認識結果通知部13を備えている。
データベース管理部3には、外部から、アルバム名、楽曲名、楽曲名の読み仮名、アーティスト名、アーティスト名の読み仮名等を含む楽曲データが入力される。この入力の手段としては、有線又は無線による通信、CD、DVD等のメディアからの入力がある。データベース管理部3は、入力された楽曲データから、音声認識に必要な楽曲に関する名称情報、つまり、楽曲名の読み仮名(検索対象データ、認識対象)を抽出し、後述する音声認識辞書変換部5に処理を依頼する。
音声認識辞書変換部(追加手段)5は、データベース管理部3から処理を依頼された、新たに追加された楽曲名の読み仮名(認識対象)を、文節ごとに(特定の規則に基づいて)区分けし、区分けされた楽曲名の読み仮名を音声認識辞書に追加する。この音声認識辞書は、音声認識辞書管理部(記憶手段)7に記憶され、楽曲名の読み仮名のデータ列より音声認識を行うためのツリー構造を有するものである。
音声認識辞書管理部(記憶手段)7は、音声認識辞書を記憶しておき、後述する音声認識部11に登録する。
音声入力部(音声データ入力手段、音声入力手段)9は、ユーザが音声入力した音声データを音声認識部11に通知する。
音声認識部(検索手段、抽出手段、取得手段)11は、音声入力部9から入力された音声データを用いて、音声認識辞書に対して検索を行い、音声認識率の高い楽曲名の候補(認識対象候補)を取得し、その音声認識率の高い楽曲名の候補を後述する認識結果通知部13へ通知する。
認識結果通知部13は、音声認識部11から通知された認識対象候補を表示する。ユーザは、図示しない選択手段により、表示された候補の中から、所望の楽曲名を選択することができる。ユーザが選択した楽曲は、図示しない演奏部により、演奏することができる。
また、表示された候補の中に所望の楽曲がない場合は、再度の音声入力及び音声認識の実行を選択できる。
b)次に、本実施例1の車載オーディオ装置1において、音声認識辞書変換部(追加手段)5により、音声認識辞書管理部(記憶手段)7に記憶された音声認識辞書に、新たな楽曲名の読み仮名(認識対象)を追加する処理について図2を用いて説明する。
ステップ100では、データベース管理部3が外部から取り込んだ楽曲データから、楽曲名の読み仮名と、楽曲のID(アルバム名、楽曲名、アーティスト名、アーティスト名の読み仮名)を抽出する。
ステップ110では、音声認識辞書変換部5が、楽曲名の読み仮名をツリー構造化し、音声認識辞書に追加する。
この音声認識辞書のツリー構造を図3に示す。この図3では、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲名の読み仮名が、ツリー構造としてを音声認識辞書に追加される。
また、音声認識辞書に追加される楽曲名の読み仮名は、音声認識辞書変換部5により、文節ごとに(特定の規則に従って)区分される。区分された個々の文節は、区分データに該当する。具体的には、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲名の読み仮名では、「アイノ○○ニ」、「ワガママニ」、「ボクハ」、「キミダケヲ」、「キズツケナイ」という様に区分されている。この文節ごとの区分は、例えば、人的判断により(手動で)行うこともできるし、文節を認識することができるソフトウェアを用いて(自動で)行うこともできる。
また、音声認識辞書変換部5は、新たに入力した楽曲名の読み仮名だけではなく、元々音声認識辞書に記憶されている楽曲名の読み仮名を文節ごとに区分けすることもできる。
ステップ120では、音声認識辞書を音声認識部11に登録する。
c)次に、本実施例1の車載オーディオ装置1において、音声認識部(検索手段、抽出手段、取得手段)が実行する音声認識処理について図4及び図5のフローチャートを用いて説明する。尚、ここでは、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲名を音声認識する場合を例に挙げて説明する。
ステップ200では、ユーザが楽曲名を発声した音声が、音声入力部9に入力され、音声データとなる。その音声データは、音声認識部11に送られる。
ステップ210では、音声認識部11が、音声入力部9から入力された音声データと一致度の高い楽曲名の候補(音声認識対象候補)を取得し、後述する認識結果通知部13へ通知する。
このステップ210における処理を、図5のフローチャートを用いて具体的に説明する。
ステップ300では、このステップ300を最初に実行する場合は、音声認識辞書に記録されている楽曲名の読み仮名における最初の文節と、音声データにおけるこの文節に対応する部分とで、音声認識の分析処理を行う。例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲の読み仮名については、その最初の文節である「アイノ○○ニ」と、音声データにおけるこの文節に対応する部分とで、音声認識の分析処理を行う。
また、後述するステップ320からこのステップ300に進んだ場合は、前回のステップ300にて音声認識の分析処理を行った文節の次の文節について、音声認識の分析処理を行う。尚、このステップ300における音声認識の分析処理は、公知の方法を用いることができる。
ステップ310では、直前のステップ300での音声認識における一致率が所定値以上であるか否かを判断する。YESの場合はステップ320に進み、NOの場合はステップ340に進む。
ステップ320では、次の文節に対応する音声入力があるか否かを判断する。例えば、直前のステップ310にて、「アイノ○○ニ」の文節の一致率を判断した場合は、次の文節である「ワガママニ」の文節に対応する音声入力があるが否かを判断する。
NOの場合はステップ330に進み、YESの場合はステップ300に進む。
ステップ330では、最初の文節から、現文節(最後に実行したステップ310にて一致率を判断した文節)までを音声認識対象として音声認識辞書から抽出する。
例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲の読み仮名の場合、前記ステップ300〜320にて、最初の文節である「アイノ○○ニ」のみについて、一致率が所定値以上と判断された場合は、この「アイノ○○ニ」の文節が音声認識対象として音声認識辞書から抽出される。
また、最初の文節と2番目の文節である「アイノ○○ニ」「ワガママニ」について、一致率が所定値以上と判断された場合は、この2文節が音声認識対象として抽出される。この後、図4のフローチャートに戻り、そのステップ220に進む。
一方、前記ステップ310にてNOと判断された場合はステップ340に進む。ステップ340では、最初の文節について前記ステップ310にてNOと判断された場合は、音声入力に対応する楽曲名がない旨を認識結果通知部13に表示する。また、2番目以降の文節について前記ステップ310にてNOと判断された場合は、その前の文節までを音声認識対象として音声認識辞書から抽出する。
この後、図4のフローチャートに戻り、そのステップ220に進む。
尚、図5に示す処理は、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲のみではなく、音声認識辞書に登録されている他の楽曲名の読み仮名についても同様に実行される。
ステップ220(図4)では、ステップ330またはステップ340(図5)において音声認識対象として抽出された文節を含む楽曲名が、認識対象候補として取得され、認識結果通知部13に表示される。
例えば、前記ステップ330またはステップ340にて、「アイノ○○ニ」の文節が音声認識対象として抽出された場合は、「アイノ○○ニ」の文節を含む楽曲名である「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」が、認識対象候補として取得され、認識結果通知部13に表示される。また、「アイノ○○ニ」を含む他の楽曲があれば、その楽曲も認識対象候補として取得され、認識結果通知部13に表示される。
また、最初の文節と2番目の文節である「アイノ○○ニ」「ワガママニ」がステップ330またはステップ340にて音声認識対象として抽出された場合は、「アイノ○○ニ」「ワガママニ」の文節を含む楽曲名である「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」が、認識対象候補として取得され、認識結果通知部13に表示される。また、「アイノ○○ニ」「ワガママニ」を含む他の楽曲があれば、その楽曲も認識対象候補として取得され、認識結果通知部13に表示される。
また、「アイノ○○ニ」「ワガママニ」「ボクハ」「キミダケヲ」「キズツケナイ」、つまり、区分けする前の(全体の)認識対象が音声認識対象として抽出された場合は、その区分けする前の(全体の)認識対象を含む楽曲名である「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」が、認識対象候補として取得され、認識結果通知部13に表示される。
一方、前記ステップ310にて最初の文節についてNOと判断され、前記ステップ340(図5)にて音声認識の対象がないと判断された場合は、音声入力に対応する楽曲名がない旨が認識結果通知部13に表示される。
d)次に、本実施例1の車載オーディオ装置1の奏する効果を説明する。
(i)本発明の車載オーディオ装置1では、長い楽曲名の一部の文節のみ(例えば最初の文節、または最初から2番目までの文節)を発音すれば、その楽曲名を検索することができる。
つまり、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」というような長い楽曲名のうち、最初の文節である「アイノ○○ニ」のみを発音しても、その文節が音声認識対象となり(図5におけるステップ300〜330)、その文節を含む楽曲が認識対象候補として取得され、認識結果通知部13に表示される(図4におけるステップ220)。
従って、ユーザが楽曲名の全てを記憶していない場合でも、音声認識による検索が可能である。
(ii)本発明の車載オーディオ装置1では、音声認識の対象の長さは、楽曲名の読み仮名においてユーザが発音した文節の数に応じて定まる。つまり、ユーザが1つの文節のみを発音した場合は、その文節が音声認識対象となり、複数の文節を発音した場合は、それらの文節が音声認識対象となる。
従って、ユーザが発音した文節が多ければ、音声認識対象が長くなるので、認識対象候補が少数に絞られ、音声認識の精度が向上する。
本実施例2の車載オーディオ装置1の構成及び作用は基本的には前記実施例1と同様である。ただし、本実施例2では、楽曲名の読み仮名の区分方法(認識対象を区分けする特定の規則)において異なる。つまり、本実施例2では、楽曲名の読み仮名を文節ごとに区分けするのではなく、主題と副題とに区分して(特定の規則に基づいて区分けし)、音声認識辞書に登録している。
例えば、「ケッセンハ○○ヨウビ(バージョンオブザダイナマイツ)」という楽曲名の読み仮名は、音声認識辞書変換部(追加手段)5により、主題である「ケッセンハ○○ヨウビ」と、副題である「バージョンオブザダイナマイツ」とに区分されて、音声認識辞書に登録されている。
主題と副題との区切りは、楽曲データにおいて、主題と副題との間に、「、」、「−」、「〜」等の特定の文字又は記号が存在する場合は、それらの文字や記号に基づいて(自動で)区分けすることができる。また、音声認識辞書を作成する際に、人的判断によって(手動で)区分することもできる。
本実施例2の車載オーディオ装置1は、ユーザが主題である「ケッセンハ○○ヨウビ」のみを発音した場合は、図4及び図5と同様の処理により、音声認識辞書に登録されている「ケッセンハ○○ヨウビ(バージョンオブザダイナマイツ)」のうちの、「ケッセンハ○○ヨウビ」の部分が音声認識対象として音声認識辞書から抽出され、その部分を含む楽曲名が認識対象候補として取得され、認識結果通知部13に表示される。
従って、ユーザが楽曲名の全てを記憶しておらず、主題のみを記憶している場合でも、音声認識による検索が可能である。
また、ユーザが主題と副題との両方を発音した場合は、それら全体が音声認識対象となる。この場合は、音声認識対象が長くなるので、認識対象候補が少数に絞られ、音声認識の精度を高くすることができる。
更に、本実施例2では、楽曲名の読み仮名を、特定の文字又は記号を基準として自動的に区分けすることができるので、音声認識辞書の作成が容易である。
本実施例3の車載オーディオ装置1の構成及び作用は基本的には前記実施例1と同様である。ただし、本実施例3では、音声認識辞書に新たな楽曲名の読み仮名(認識対象)を追加し、その楽曲名の読み仮名を区分けする方法において異なる。
つまり、本実施例3では、音声認識辞書変換部(認識対象を所定の文字数ごとに区分けし、認識対象単位として記憶させる手段、追加手段)5により、新たに追加される楽曲名の読み仮名を文節ごとに区分するのではなく、10文字の部分(区分データ、認識対象単位)ごとに区分して、音声認識辞書に登録している。
例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲名の読み仮名では、「アイノ○○ニワガママ」「ニボクハキミダケヲキ」「ズツケナイ」というように、10文字ごとに3つに区分されて、音声認識辞書に登録する。
楽曲名の読み仮名を10文字ごとに区分けすることは、図6に示す処理により行うことが出来る。
ステップ400では、読み仮名の残り文字数をカウントする。この残り文字数とは、ステップ400を最初に実行する場合には、読み仮名の全ての文字数である。また、このステップ400を実行するのが2回目以降である場合は、後述するステップ420にて設けた、最後の区切りよりも後の部分の文字数である。
ステップ410では、ステップ400にてカウントした残り文字数が10文字以上であるか否かを判断する。YESの場合はステップ420に進み、NOの場合は一旦本処理を終了する。
ステップ420では、読み仮名において、前の区切りから10文字目のところに新たな区切りを設ける。
例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という読み仮名において、ステップ420の処理を最初に行う場合には、先頭から10文字の部分である「アイノ○○ニワガママ」と、残りの部分である「ニボクハキミダケヲキズツケナイ」とに区分する。
また、ステップ420の処理を2回目に行う場合には、前回のステップ420の処理にて残りの部分とされた「ニボクハキミダケヲキズツケナイ」を、その先頭から10文字の部分である「ニボクハキミダケヲキ」と、残りの部分である「ズツケナイ」とに区分する。
尚、音声認識辞書変換部5は、新たに入力した楽曲名の読み仮名だけではなく、元々音声認識辞書に記憶されている楽曲名の読み仮名を10文字ごとに区分けすることもできる。
本実施例3の車載オーディオ装置1は、ユーザが最初の区分である「アイノ○○ニワガママ」のみを発音した場合は、音声認識辞書に登録されている「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」のうちの、「アイノ○○ニワガママ」の部分が音声認識対象となる音声認識単位として音声認識辞書から抽出され、この音声認識単位を含む楽曲名の読み仮名が認識対象候補として取得される。
従って、ユーザが楽曲名の全てを記憶しておらず、最初の10文字の区分のみを記憶している場合でも、音声認識による検索が可能である。
また、ユーザが読み仮名の全てを発音した場合は、それら全体が音声認識対象となる。この場合は、音声認識対象が長くなるので、認識対象候補が少数に絞られ、音声認識の精度を高くすることができる。
更に、本実施例3では、楽曲名の読み仮名を10文字ごとに自動的に区切ればよいので、区分において人的判断が不要であり、音声認識辞書の作成が容易である。
尚、本発明は前記実施例になんら限定されるものではなく、本発明を逸脱しない範囲において種々の態様で実施しうることはいうまでもない。
例えば、本発明の音声認識検索装置は、図書館や書店等において、書籍や雑誌のタイトルの音声入力に基づいて、その書籍や雑誌を検索するシステムや、地図において住所や施設名の音声入力に基づいて、その住所や施設を検索するシステムに用いることができる。
また、前記実施例3における区分は、10文字ごとの区分ではなく、他の文字数(例えば、5文字、15文字等)ごとに区分してもよい。
実施例の車載オーディオ装置の構成を示すブロック図である。 実施例における音声認識辞書の作成処理を示すフローチャートである。 実施例における音声認識辞書の構造を示す説明図である。 実施例における音声認識処理を示すフローチャートである。 実施例における音声認識処理を示すフローチャートである。 実施例において読み仮名を区分けする処理を示すフローチャートである。
符号の説明
1・・・車載オーディオ装置
3・・・データベース管理部
5・・・音声認識辞書変換部
7・・・音声認識辞書管理部
9・・・音声入力部
11・・・音声認識部
13・・・認識結果通知部

Claims (13)

  1. 音声データを入力する音声データ入力手段と、
    検索対象データを保持するデータベースと、
    前記データベースにおいて、前記音声データに対応する検索対象データを検索する検索手段と、を備えた音声認識検索装置であって、
    前記検索対象データは、2以上の区分データに区分されているとともに、
    前記検索手段は、前記検索対象データにおける一部の区分データを音声認識対象とすることを特徴とする音声認識検索装置。
  2. 前記区分は、前記検索対象データの文節の区切りに基づいて行われることを特徴とする請求項1記載の音声認識検索装置。
  3. 前記区分は、前記検索対象データに含まれる特定の文字又は記号に基づいて行われることを特徴とする請求項1記載の音声認識検索装置。
  4. 前記区分は、所定の文字数ごとに行われることを特徴とする請求項1記載の音声認識検索装置。
  5. 前記データベースは、前記検索対象データをツリー構造とした音声認識辞書を備えることを特徴とする請求項1〜4のいずれかに記載の音声認識検索装置。
  6. 前記音声認識対象となる区分データは、前記音声データに対応する前記区分データであることを特徴とする請求項1〜5のいずれかに記載の音声認識検索装置。
  7. 前記検索対象データは楽曲名の読み仮名であることを特徴とする請求項1〜6のいずれかに記載の音声認識検索装置。
  8. 音声を入力する音声入力手段を有し、前記音声入力手段によって入力された音声と一致度の高い認識対象に基づき認識対象候補を音声認識辞書より取得する音声認識装置において、
    新たに追加された認識対象を特定の規則に基づいて区分けし、区分けした認識対象を前記音声認識辞書に追加する追加手段と、
    前記音声入力手段によって入力された音声と一致度の高い認識対象を前記区分けされた認識対象を追加した後の音声認識辞書より抽出する抽出手段と、
    前記抽出手段により抽出した認識対象に基づき認識対象候補を取得する取得手段と
    を具備することを特徴とする音声認識装置。
  9. 手動又は自動で認識対象を区分けすることを特徴とする請求項8に記載の音声認識装置。
  10. 前記特定の規則とは、文節ごと、特定の文字又は記号ごと、所定の文字数ごと、主題と副題との何れか又はそれらの組み合わせに区分けすることであることを特徴とする請求項8又は9に記載の音声認識装置。
  11. 音声を入力する音声入力手段と、前記音声入力手段によって入力された音声に対して音声認識を行う際に使用する認識対象を格納する音声認識辞書を記憶する記憶手段とを具備する音声認識装置において、
    前記認識対象は所定の文字数ごとに認識対象単位として区分けされており、
    前記音声入力手段により入力される音声と一致度の高い前記認識対象単位を前記音声認識辞書より抽出する抽出手段と、
    前記抽出手段により抽出した認識対象単位を含む認識対象を認識対象候補として取得する取得手段と
    を具備することを特徴とする音声認識装置。
  12. 前記記憶手段に記憶される音声認識辞書に新たな認識対象を追加する追加手段と、
    前記追加手段によって追加された認識対象を所定の文字数ごとに区分けし、認識対象単位として記憶させる手段と
    を有することを特徴とする請求項11に記載の音声認識装置。
  13. 前記認識対象は、楽曲に関する名称情報であることを特徴とする請求項8乃至12の何れか1つに記載の音声認識装置。
JP2003317276A 2003-09-09 2003-09-09 音声認識検索装置 Pending JP2005084422A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003317276A JP2005084422A (ja) 2003-09-09 2003-09-09 音声認識検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003317276A JP2005084422A (ja) 2003-09-09 2003-09-09 音声認識検索装置

Publications (1)

Publication Number Publication Date
JP2005084422A true JP2005084422A (ja) 2005-03-31

Family

ID=34416914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003317276A Pending JP2005084422A (ja) 2003-09-09 2003-09-09 音声認識検索装置

Country Status (1)

Country Link
JP (1) JP2005084422A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259340A (ja) * 2008-04-17 2009-11-05 Kenwood Corp オーディオ装置、ファイル名付与方法及びプログラム
US8356032B2 (en) 2006-02-23 2013-01-15 Samsung Electronics Co., Ltd. Method, medium, and system retrieving a media file based on extracted partial keyword

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091492A (ja) * 2000-07-13 2002-03-27 National Institute Of Advanced Industrial & Technology 音声補完方法、装置および記録媒体
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356032B2 (en) 2006-02-23 2013-01-15 Samsung Electronics Co., Ltd. Method, medium, and system retrieving a media file based on extracted partial keyword
JP2009259340A (ja) * 2008-04-17 2009-11-05 Kenwood Corp オーディオ装置、ファイル名付与方法及びプログラム

Similar Documents

Publication Publication Date Title
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
EP1693829B1 (en) Voice-controlled data system
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US8106285B2 (en) Speech-driven selection of an audio file
JP3488174B2 (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
US10019514B2 (en) System and method for phonetic search over speech recordings
US20070193437A1 (en) Apparatus, method, and medium retrieving a highlighted section of audio data using song lyrics
CN111552777B (zh) 一种音频识别方法、装置、电子设备及存储介质
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US20130080163A1 (en) Information processing apparatus, information processing method and computer program product
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP2002278579A (ja) 音声データ検索装置
CN109635151A (zh) 建立音频检索索引的方法、装置及计算机设备
JP2005084422A (ja) 音声認識検索装置
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
JP2009204872A (ja) 音声認識用辞書生成システム
Choi et al. Spoken content-based audio navigation (SCAN)
JP2014126925A (ja) 情報検索装置および情報検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511