JP2005084422A - 音声認識検索装置 - Google Patents
音声認識検索装置 Download PDFInfo
- Publication number
- JP2005084422A JP2005084422A JP2003317276A JP2003317276A JP2005084422A JP 2005084422 A JP2005084422 A JP 2005084422A JP 2003317276 A JP2003317276 A JP 2003317276A JP 2003317276 A JP2003317276 A JP 2003317276A JP 2005084422 A JP2005084422 A JP 2005084422A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech recognition
- speech
- target
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 車載オーディオ装置1は、データベース管理部3、音声認識辞書変換部5、音声認識辞書管理部7、音声入力部9、音声認識部11、及び認識結果通知部13を備えている。音声入力部9に楽曲名読み仮名における最初の文節が入力されると、その文節が音声認識対象となり、検索が実行される。
【選択図】 図5
Description
この楽曲検索システムでは、ユーザが入力した音声データから、楽曲名や歌手名を検索語として認識する。そして、この検索語を用いて楽曲検索データベースを検索し、検索語と一致する楽曲をヒットレコードとして見いだす。見いだされたヒットレコードの楽曲名や歌手名は対話型インターフェースによりユーザに提示される。
この場合は、検索語と、楽曲検索データベースに記憶されているデータとの一致率が低下し、検索を正しく行うことができないという問題があった。
(2)請求項2の発明では、検索対象データにおける区分は、文節の区切りに基づいて行われている。
・前記文節とは、て、に、を、は等の助詞により区切られる単位をいう。
(3)請求項3の発明では、検索対象データにおける区分は、特定の文字又は記号に基づいて行われている。
(4)請求項4の発明では、検索対象データにおける区分は、所定の文字数ごとに行われている。
(5)請求項5の発明では、データベースが、検索対象データをツリー構造として登録した音声認識辞書を備えている。そのことにより、検索を迅速に行うことができる。
(6)請求項6の発明では、前記音声認識対象となる区分データは、前記音声データに対応する区分データである。
(7)請求項7の発明では、検索対象データが楽曲名の読み仮名であるので、音声認識により楽曲名を検索することができる。
(8)請求項8の発明では、追加手段により、新たに追加された認識対象を特定の規則に基づいて区分けし、区分けした認識対象を前記音声認識辞書に追加することができ、また、抽出手段により、音声入力手段によって入力された音声と一致度の高い認識対象(区分けされた認識対象の一部、または区分けされる前の(全体の)認識対象)を抽出することができる。
(9)請求項9の発明では、手動又は自動で認識対象を区分けすることを特徴とする。手動で認識対象を区分けする場合は、区分けのための特別な手段を用いる必要がない。また、自動で認識対象を区分けする場合は、迅速且つ容易に区分けを行うことができる。
(10)請求項10の発明では、前記特定の規則とは、文節ごと、特定の文字又は記号ごと、所定の文字数ごと、主題と副題との何れか又はそれらの組み合わせに区分けすることであることを特徴とする。
(11)請求項11の発明では、認識対象は所定の文字数ごとに認識対象単位として区分けされており、抽出手段によって、音声入力手段にてり入力された音声と一致度の高い認識対象単位を音声認識辞書から抽出することができる。
従って、本発明では、所定の文字数ごとに区分けされた認識対象単位の一部にのみ対応する場合でも、正確な音声認識を行うことができる。
(12)請求項12の発明では、追加手段により、記憶手段に記憶される音声認識辞書に新たな認識対象を追加することができ、また、 追加手段によって追加された認識対象を所定の文字数ごとに区分けし、認識対象単位として記憶させることができる。
(13)請求項13の発明では、認識対象は、楽曲に関する名称情報であることを特徴とする。音声認識により、楽曲に関する名称情報を取得することができる。
車載オーディオ装置1は、データベース管理部3、音声認識辞書変換部(追加手段)5、音声認識辞書管理部(記憶手段)7、音声入力部(音声データ入力手段、音声入力手段)9、音声認識部(検索手段、抽出手段、取得手段)11、及び認識結果通知部13を備えている。
音声入力部(音声データ入力手段、音声入力手段)9は、ユーザが音声入力した音声データを音声認識部11に通知する。
b)次に、本実施例1の車載オーディオ装置1において、音声認識辞書変換部(追加手段)5により、音声認識辞書管理部(記憶手段)7に記憶された音声認識辞書に、新たな楽曲名の読み仮名(認識対象)を追加する処理について図2を用いて説明する。
この音声認識辞書のツリー構造を図3に示す。この図3では、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲名の読み仮名が、ツリー構造としてを音声認識辞書に追加される。
ステップ120では、音声認識辞書を音声認識部11に登録する。
ステップ210では、音声認識部11が、音声入力部9から入力された音声データと一致度の高い楽曲名の候補(音声認識対象候補)を取得し、後述する認識結果通知部13へ通知する。
ステップ300では、このステップ300を最初に実行する場合は、音声認識辞書に記録されている楽曲名の読み仮名における最初の文節と、音声データにおけるこの文節に対応する部分とで、音声認識の分析処理を行う。例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲の読み仮名については、その最初の文節である「アイノ○○ニ」と、音声データにおけるこの文節に対応する部分とで、音声認識の分析処理を行う。
ステップ330では、最初の文節から、現文節(最後に実行したステップ310にて一致率を判断した文節)までを音声認識対象として音声認識辞書から抽出する。
尚、図5に示す処理は、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という楽曲のみではなく、音声認識辞書に登録されている他の楽曲名の読み仮名についても同様に実行される。
(i)本発明の車載オーディオ装置1では、長い楽曲名の一部の文節のみ(例えば最初の文節、または最初から2番目までの文節)を発音すれば、その楽曲名を検索することができる。
(ii)本発明の車載オーディオ装置1では、音声認識の対象の長さは、楽曲名の読み仮名においてユーザが発音した文節の数に応じて定まる。つまり、ユーザが1つの文節のみを発音した場合は、その文節が音声認識対象となり、複数の文節を発音した場合は、それらの文節が音声認識対象となる。
また、ユーザが主題と副題との両方を発音した場合は、それら全体が音声認識対象となる。この場合は、音声認識対象が長くなるので、認識対象候補が少数に絞られ、音声認識の精度を高くすることができる。
ステップ400では、読み仮名の残り文字数をカウントする。この残り文字数とは、ステップ400を最初に実行する場合には、読み仮名の全ての文字数である。また、このステップ400を実行するのが2回目以降である場合は、後述するステップ420にて設けた、最後の区切りよりも後の部分の文字数である。
例えば、「アイノ○○ニワガママニボクハキミダケヲキズツケナイ」という読み仮名において、ステップ420の処理を最初に行う場合には、先頭から10文字の部分である「アイノ○○ニワガママ」と、残りの部分である「ニボクハキミダケヲキズツケナイ」とに区分する。
また、ユーザが読み仮名の全てを発音した場合は、それら全体が音声認識対象となる。この場合は、音声認識対象が長くなるので、認識対象候補が少数に絞られ、音声認識の精度を高くすることができる。
尚、本発明は前記実施例になんら限定されるものではなく、本発明を逸脱しない範囲において種々の態様で実施しうることはいうまでもない。
3・・・データベース管理部
5・・・音声認識辞書変換部
7・・・音声認識辞書管理部
9・・・音声入力部
11・・・音声認識部
13・・・認識結果通知部
Claims (13)
- 音声データを入力する音声データ入力手段と、
検索対象データを保持するデータベースと、
前記データベースにおいて、前記音声データに対応する検索対象データを検索する検索手段と、を備えた音声認識検索装置であって、
前記検索対象データは、2以上の区分データに区分されているとともに、
前記検索手段は、前記検索対象データにおける一部の区分データを音声認識対象とすることを特徴とする音声認識検索装置。 - 前記区分は、前記検索対象データの文節の区切りに基づいて行われることを特徴とする請求項1記載の音声認識検索装置。
- 前記区分は、前記検索対象データに含まれる特定の文字又は記号に基づいて行われることを特徴とする請求項1記載の音声認識検索装置。
- 前記区分は、所定の文字数ごとに行われることを特徴とする請求項1記載の音声認識検索装置。
- 前記データベースは、前記検索対象データをツリー構造とした音声認識辞書を備えることを特徴とする請求項1〜4のいずれかに記載の音声認識検索装置。
- 前記音声認識対象となる区分データは、前記音声データに対応する前記区分データであることを特徴とする請求項1〜5のいずれかに記載の音声認識検索装置。
- 前記検索対象データは楽曲名の読み仮名であることを特徴とする請求項1〜6のいずれかに記載の音声認識検索装置。
- 音声を入力する音声入力手段を有し、前記音声入力手段によって入力された音声と一致度の高い認識対象に基づき認識対象候補を音声認識辞書より取得する音声認識装置において、
新たに追加された認識対象を特定の規則に基づいて区分けし、区分けした認識対象を前記音声認識辞書に追加する追加手段と、
前記音声入力手段によって入力された音声と一致度の高い認識対象を前記区分けされた認識対象を追加した後の音声認識辞書より抽出する抽出手段と、
前記抽出手段により抽出した認識対象に基づき認識対象候補を取得する取得手段と
を具備することを特徴とする音声認識装置。 - 手動又は自動で認識対象を区分けすることを特徴とする請求項8に記載の音声認識装置。
- 前記特定の規則とは、文節ごと、特定の文字又は記号ごと、所定の文字数ごと、主題と副題との何れか又はそれらの組み合わせに区分けすることであることを特徴とする請求項8又は9に記載の音声認識装置。
- 音声を入力する音声入力手段と、前記音声入力手段によって入力された音声に対して音声認識を行う際に使用する認識対象を格納する音声認識辞書を記憶する記憶手段とを具備する音声認識装置において、
前記認識対象は所定の文字数ごとに認識対象単位として区分けされており、
前記音声入力手段により入力される音声と一致度の高い前記認識対象単位を前記音声認識辞書より抽出する抽出手段と、
前記抽出手段により抽出した認識対象単位を含む認識対象を認識対象候補として取得する取得手段と
を具備することを特徴とする音声認識装置。 - 前記記憶手段に記憶される音声認識辞書に新たな認識対象を追加する追加手段と、
前記追加手段によって追加された認識対象を所定の文字数ごとに区分けし、認識対象単位として記憶させる手段と
を有することを特徴とする請求項11に記載の音声認識装置。 - 前記認識対象は、楽曲に関する名称情報であることを特徴とする請求項8乃至12の何れか1つに記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003317276A JP2005084422A (ja) | 2003-09-09 | 2003-09-09 | 音声認識検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003317276A JP2005084422A (ja) | 2003-09-09 | 2003-09-09 | 音声認識検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005084422A true JP2005084422A (ja) | 2005-03-31 |
Family
ID=34416914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003317276A Pending JP2005084422A (ja) | 2003-09-09 | 2003-09-09 | 音声認識検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005084422A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009259340A (ja) * | 2008-04-17 | 2009-11-05 | Kenwood Corp | オーディオ装置、ファイル名付与方法及びプログラム |
US8356032B2 (en) | 2006-02-23 | 2013-01-15 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091492A (ja) * | 2000-07-13 | 2002-03-27 | National Institute Of Advanced Industrial & Technology | 音声補完方法、装置および記録媒体 |
JP2003085197A (ja) * | 2000-10-13 | 2003-03-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力された複合名詞の検索装置、検索方法およびデータベース |
-
2003
- 2003-09-09 JP JP2003317276A patent/JP2005084422A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091492A (ja) * | 2000-07-13 | 2002-03-27 | National Institute Of Advanced Industrial & Technology | 音声補完方法、装置および記録媒体 |
JP2003085197A (ja) * | 2000-10-13 | 2003-03-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力された複合名詞の検索装置、検索方法およびデータベース |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8356032B2 (en) | 2006-02-23 | 2013-01-15 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
JP2009259340A (ja) * | 2008-04-17 | 2009-11-05 | Kenwood Corp | オーディオ装置、ファイル名付与方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100735820B1 (ko) | 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치 | |
US8117026B2 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
EP2477186B1 (en) | Information retrieving apparatus, information retrieving method and navigation system | |
EP1693829B1 (en) | Voice-controlled data system | |
KR100760301B1 (ko) | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US8106285B2 (en) | Speech-driven selection of an audio file | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
US20070193437A1 (en) | Apparatus, method, and medium retrieving a highlighted section of audio data using song lyrics | |
CN111552777B (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
JP2012194245A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8706484B2 (en) | Voice recognition dictionary generation apparatus and voice recognition dictionary generation method | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
US20130080163A1 (en) | Information processing apparatus, information processing method and computer program product | |
JP4697432B2 (ja) | 音楽再生装置、音楽再生方法及び音楽再生用プログラム | |
JP2002278579A (ja) | 音声データ検索装置 | |
CN109635151A (zh) | 建立音频检索索引的方法、装置及计算机设备 | |
JP2005084422A (ja) | 音声認識検索装置 | |
JP2011113426A (ja) | 辞書作成装置,辞書作成プログラムおよび辞書作成方法 | |
EP2058799B1 (en) | Method for preparing data for speech recognition and speech recognition system | |
JP2009204872A (ja) | 音声認識用辞書生成システム | |
Choi et al. | Spoken content-based audio navigation (SCAN) | |
JP2014126925A (ja) | 情報検索装置および情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060213 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091006 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |