JP7178890B2 - 音声認識システム、及び音声認識装置 - Google Patents
音声認識システム、及び音声認識装置 Download PDFInfo
- Publication number
- JP7178890B2 JP7178890B2 JP2018231738A JP2018231738A JP7178890B2 JP 7178890 B2 JP7178890 B2 JP 7178890B2 JP 2018231738 A JP2018231738 A JP 2018231738A JP 2018231738 A JP2018231738 A JP 2018231738A JP 7178890 B2 JP7178890 B2 JP 7178890B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- recognition
- data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1~図4を参照して、本実施形態における音声認識システム100の構成の一例について説明する。図1は、本実施形態における音声認識システム100の全体の構成を示す模式図である。
図2(a)は、音声認識装置1の構成の一例を示す模式図である。音声認識装置1として、Raspberry Pi(登録商標)等のシングルボードコンピュータが用いられるほか、例えばパーソナルコンピュータ(PC)等の電子機器が用いられてもよい。音声認識装置1は、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。
取得部11は、少なくとも1つの音声データを取得する。取得部11は、例えば収音装置2等を用いて収音した音声(音声信号)に対し、PCM(pulse code modulation)等のパルス変調したデータを、音声データとして取得する。取得部11は、収音装置2の種類に応じて、例えば複数の音声データを一度に取得してもよい。なお、音声信号をパルス変調する処理は、収音装置2等により行われるほか、例えば取得部11により行われてもよい。
抽出部12は、音素認識により、音声データに含まれる開始無音区間及び終了無音区間を抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。すなわち、抽出部12の基本的な機能は、音素認識技術を用いることにより実現することができる。
記憶部13は、各種データを保存部104に記憶させ、又は各種データを保存部104から取出す。記憶部13は、必要に応じて保存部104に記憶された各種データベースを取出す。
検出部14は、文字列データベースを参照し、認識対象データの有する音素の配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。
算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎の文字列情報に対する信頼度を、文法データベースを用いて算出する。信頼度の算出には、例えば文法データベースを参照したスタックデコーディングサーチが行われる。
選択部16は、信頼度に基づき、複数の候補データから評価データを選択する。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。例えば選択部16は、同じクラスID「3」における候補データ「つけて/3/0.990」、「弾いて/3/0.023」のうち、最も高い信頼度を有する候補データ「つけて/3/0.990」を評価データとして選択する。なお、選択部16は、例えば1つのクラスIDに対して複数の候補データを、評価データとして選択してもよい。この場合、後述する生成部17において、複数の候補データから1つ選択するようにしてもよい。
生成部17は、評価データに基づき、認識情報を生成する。生成部17は、例えば評価データをテキスト形式に変換し、認識情報として生成するほか、例えば評価データを音声データ形式や、制御装置3を制御するための制御データ形式に変換し、認識情報として生成してもよい。すなわち、認識情報は、制御装置3を制御するための情報(例えば車両の走行速度を制御するための情報)を含む。なお、評価データに基づくテキスト形式、音声データ形式、又は制御データ形式に変換する方法は、公知の技術を用いることができ、必要に応じて各データ形式を蓄積したデータベース等を用いてもよい。
出力部18は、認識情報を出力する。出力部18は、I/F105を介して制御装置3等に認識情報を出力する。出力部18は、例えばI/F107を介して出力部分109に認識情報を出力してもよい。出力部18は、認識情報のほか、例えばI/F105、I/F107を介して各種情報(データ)を制御装置3等に出力する。
反映部19は、認識情報を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させる。反映部19は、例えば認識情報に対して評価結果が悪い場合(すなわち、音声データに対して得られる認識情報が、利用者等の要求と乖離している場合)、閾値を変更させることで、認識情報の改善を図る。このとき、例えば公知の機械学習方法等を用いて、評価結果を閾値に反映させてもよい。
収音装置2は、公知のマイクに加え、例えばDSP(digital signal processor)を有してもよい。収音装置2がDSPを有する場合、収音装置2は、マイクによって収音した音声信号に対しPCM等のパルス変調したデータ(音声データ)を生成し、音声認識装置1に送信する。
制御装置3は、認識情報を音声認識装置1から受信して制御可能な装置を示す。制御装置3として、例えばLED等の照明装置が用いられるほか、例えば車載装置(例えば車両の走行速度を制御するため、ブレーキ系統に直結する装置)、表示言語を変更できる自動販売機、施錠装置、オーディオ機器、マッサージ機等が用いられる。制御装置3は、例えば音声認識装置1と直接接続されるほか、例えば公衆通信網4を介して接続されてもよい。
公衆通信網4は、音声認識装置1が通信回路を介して接続されるインターネット網等である。公衆通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、公衆通信網4は、有線通信網には限定されず、無線通信網等の公知の通信網で実現してもよい。
サーバ5には、上述した各種情報が記憶される。サーバ5には、例えば公衆通信網4を介して送られてきた各種情報が蓄積される。サーバ5には、例えば保存部104と同様の情報が記憶され、公衆通信網4を介して音声認識装置1と各種情報の送受信が行われてもよい。すなわち、音声認識装置1は、保存部104の代わりにサーバ5を用いてもよい。特に、サーバ5に上述した各データベースが保存され、音声認識装置1には、サーバ5に記憶された各データベースの少なくとも一部が保存されるようにしてもよい。この場合、サーバ5を用いて音声認識装置1に保存された各データベースを適宜更新することで、音声認識装置1における更新機能や蓄積するデータ容量を最小限に抑えることができる。このため、音声認識装置1を公衆通信網4に常時接続しない状態で利用することができ、更新が必要な場合のみ公衆通信網4に接続するように用いることができる。これにより、音声認識装置1の利用先を大幅に拡大させることができる。
ユーザ端末6は、例えば音声認識システム100の利用者等が保有する端末を示す。ユーザ端末6として、主に携帯電話(携帯端末)が用いられ、それ以外ではスマートフォン、タブレット型端末、ウェアラブル端末、パーソナルコンピュータ、IoT(Internet of Things)デバイス等の電子機器のほか、あらゆる電子機器で具現化されたものが用いられてもよい。ユーザ端末6は、例えば公衆通信網4を介して音声認識装置1と接続されるほか、例えば音声認識装置1と直接接続されてもよい。利用者等は、例えばユーザ端末6を介して音声認識装置1から認識情報を取得するほか、例えば収音装置2の代わりにユーザ端末6を用いて音声を収音させてもよい。
次に、本実施形態における音声認識システム100の動作の一例について説明する。図5(a)は、本実施形態における音声認識システム100の動作の一例を示すフローチャートである。
先ず、音声データを取得する(取得手段S110)。取得部11は、収音装置2等により収音された音声に基づき、音声データを取得する。取得部11は、例えば記憶部13を介して保存部104に音声データを保存する。
次に、認識対象データを抽出する(抽出手段S120)。抽出部12は、例えば記憶部13を介して保存部104から音声データを取出し、音声データに含まれる開始無音区間及び終了無音区間を、音素認識により抽出する。また、抽出部12は、開始無音区間と終了無音区間との間に挟まれた音素及び休止区間の配列を、音素認識により認識対象データとして抽出する。抽出部12は、例えば記憶部13を介して保存部104に認識対象データを保存する。なお、抽出部12は、一度に複数の音声データを取得してもよい。
次に、認識対象データに基づき、候補データを検出する(検出手段S130)。検出部14は、例えば記憶部13を介して保存部104から認識対象データを取出す。検出部14は、文字列データベースを参照し、認識対象データの有する配列に対応する音素情報を選択する。また、検出部14は、選択された音素情報に紐づく文字列情報及びクラスIDを候補データとして複数検出する。検出部14は、例えば記憶部13を介して保存部104に候補データを保存する。なお、認識対象データの有する配列は、例えば一対の休止区間の間における音素の配列を示し、一対の休止区間の間に他の休止区間が配列されてもよい。
次に、各候補データに対応する信頼度を算出する(算出手段S140)。算出部15は、例えば記憶部13を介して保存部104から候補データを取出す。算出部15は、文法データベースを参照し、複数の候補データを文法情報に基づき組み合わせたセンテンスを生成する。また、算出部15は、センテンスに含まれる候補データ毎に対応する信頼度を算出する。算出部15は、例えば記憶部13を介して保存部104に各候補データ及び信頼度を保存する。算出部15として、例えばJulius等の公知の音声認識エンジンが用いられることで、センテンスの生成及び信頼度の算出が実現されてもよい。
次に、信頼度に基づき、評価データを選択する(選択手段S150)。選択部16は、例えば記憶部13を介して保存部104から候補データ及び信頼度を取出す。選択部16は、例えば複数の候補データのうち、クラスID毎に最も高い信頼度が算出された候補データを、評価データとして選択する。選択部16は、例えば記憶部13を介して保存部104に評価データを保存する。
次に、評価データに基づき、認識情報を生成する(生成手段S160)。生成部17は、例えば記憶部13を介して保存部104から評価データを取出す。生成部17は、例えば上述した公知の技術を用いて評価データを任意のデータに変換し、認識情報として生成する。
その後、必要に応じて認識情報を出力する(出力手段S170)。出力部18は、I/F107を介して出力部分109に認識情報を表示するほか、例えばI/F105を介して制御装置3等を制御するための認識情報を出力する。
なお、例えば認識情報を評価した利用者等の評価結果を取得し、参照データベースの閾値に反映させてもよい(反映手段S180)。この場合、反映部19は、取得部11を介して利用者等が作成した評価結果を取得する。反映部19は、評価結果に含まれる評価値等に基づき、比較手段S162における比較の結果が改善(認識精度が向上)するように、閾値を変更する。
次に、本実施形態における音声認識システム100の第1変形例について説明する。上述した実施形態と、第1変形例との違いは、生成部17が更新部17cを有する点である。なお、上述した構成と同様の構成については、説明を省略する。
次に本実施形態における音声認識システム100の第1変形例について説明する。図7(a)は、第1変形例における更新手段S163の一例を示すフローチャートである。
次に本実施形態における音声認識システム100の第2変形例について説明する。上述した実施形態と、第2変形例との違いは、設定手段S190を備える点である。なお、上述した構成と同様の構成については、説明を省略する。
次に、本実施形態における取得手段S110の変形例について説明する。上述した実施形態と、本変形例との違いは、取得部11が条件情報を取得する点である。なお、上述した構成と同様の構成については、説明を省略する。
次に、本実施形態における文字列データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、類似文字列情報等が文字列データベースに記憶される点である。なお、上述した構成と同様の構成については、説明を省略する。
次に、本実施形態における参照データベースの変形例について説明する。上述した実施形態と、本変形例との違いは、参照データベースに記憶された情報の内容が異なる点である。なお、上述した構成と同様の構成については、説明を省略する。
間における連関度が記憶される。
2 :収音装置
3 :制御装置
4 :公衆通信網
5 :サーバ
6 :ユーザ端末
10 :筐体
11 :取得部
12 :抽出部
13 :記憶部
14 :検出部
15 :算出部
16 :選択部
17 :生成部
17a :指定部
17b :比較部
17c :更新部
18 :出力部
19 :反映部
100 :音声認識システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部分
109 :出力部分
110 :内部バス
S110 :取得手段
S120 :抽出手段
S130 :検出手段
S140 :算出手段
S150 :選択手段
S160 :生成手段
S161 :指定手段
S162 :比較手段
S163 :更新手段
S170 :出力手段
S180 :反映手段
S190 :設定手段
Claims (8)
- 収音装置を用いて利用者の音声を収音し、音声認識装置を用いて前記音声に対応する認識情報を生成する音声認識システムであって、
前記収音装置により収音された前記音声に基づき、音声データを取得する取得手段と、
音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出手段と、
予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出手段と、
予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出手段と、
前記信頼度に基づき、複数の前記候補データから評価データを選択する選択手段と、
前記評価データに基づき、前記認識情報を生成する生成手段と
を備えることを特徴とする音声認識システム。 - 前記抽出手段は、1つの前記音声データから複数の前記認識対象データを抽出し、
複数の前記認識対象データは、それぞれ異なる前記音素及び前記休止区間の前記配列を有すること
を特徴とする請求項1記載の音声認識システム。 - 前記算出手段は、前記センテンスを複数生成し、
複数の前記センテンスは、それぞれ前記候補データの種類及び組み合わせの少なくとも何れかが異なること
を特徴とする請求項1又は2記載の音声認識システム。 - 予め取得された前記文字列情報と、前記文字列情報を組み合わせた参照センテンスと、前記文字列情報毎に付与された閾値とが記憶された参照データベースをさらに備え、
前記生成手段は、
前記参照データベースを参照し、前記参照センテンスのうち、前記評価データに対応する第1参照センテンスを指定する指定手段と、
前記評価データに対応する前記信頼度と、前記第1参照センテンスに含まれる第1文字列情報に付与された第1閾値とを比較する比較手段と、
を有し、前記比較手段の比較結果に基づき、前記認識情報を生成すること
を特徴とする請求項1~3の何れか1項記載の音声認識システム。 - 前記認識情報に基づき、参照する前記文字列データベースの内容を選択する設定手段をさらに備えること
を特徴とする請求項1~4の何れか1項記載の音声認識システム。 - 前記設定手段は、選択された前記文字列データベースの内容に基づく報知情報を生成すること
を特徴とする請求項5記載の音声認識システム。 - 前記文字列データベースには、予め取得された類似文字列情報と、前記類似文字列情報に付与された類似クラスIDとが記憶されること
を特徴とする請求項1~6の何れか1項記載の音声認識システム。 - 収音装置を用いて利用者の音声を収音し、前記音声に対応する認識情報を生成する音声認識装置であって、
前記収音装置により収音された前記音声に基づき、音声データを取得する取得部と、
音素認識により、前記音声データに含まれる開始無音区間及び終了無音区間を抽出し、前記開始無音区間と前記終了無音区間との間に挟まれた音素及び休止区間の配列を、前記音素認識により認識対象データとして抽出する抽出部と、
予め取得された文字列情報と、前記文字列情報に紐づく音素情報と、前記文字列情報に付与されたクラスIDとが記憶された文字列データベースと、
前記文字列データベースを参照し、前記認識対象データの有する前記配列に対応する前記音素情報を選択し、選択された前記音素情報に紐づく前記文字列情報及び前記クラスIDを、候補データとして複数検出する検出部と、
予め取得された前記クラスIDの配列順序を示す文法情報が記憶された文法データベースと、
前記文法データベースを参照し、複数の前記候補データを前記文法情報に基づき組み合あわせたセンテンスを生成し、前記センテンスに含まれる前記候補データ毎の前記文字列情報に対する信頼度を、前記文法データベースを用いて算出する算出部と、
前記信頼度に基づき、複数の前記候補データから評価データを選択する選択部と、
前記評価データに基づき、前記認識情報を生成する生成部と
を備えることを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231738A JP7178890B2 (ja) | 2018-12-11 | 2018-12-11 | 音声認識システム、及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231738A JP7178890B2 (ja) | 2018-12-11 | 2018-12-11 | 音声認識システム、及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020095118A JP2020095118A (ja) | 2020-06-18 |
JP7178890B2 true JP7178890B2 (ja) | 2022-11-28 |
Family
ID=71084877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018231738A Active JP7178890B2 (ja) | 2018-12-11 | 2018-12-11 | 音声認識システム、及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7178890B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7195947B2 (ja) * | 2019-01-22 | 2022-12-26 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425165B2 (ja) * | 1992-09-22 | 2003-07-07 | 富士通株式会社 | 連続文音声認識装置 |
JP3526063B2 (ja) * | 1992-12-15 | 2004-05-10 | 株式会社リコー | 音声認識装置 |
JPH08248978A (ja) * | 1995-03-06 | 1996-09-27 | Fuji Xerox Co Ltd | 音声認識装置 |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
-
2018
- 2018-12-11 JP JP2018231738A patent/JP7178890B2/ja active Active
Non-Patent Citations (1)
Title |
---|
鈴木 良弥ほか,体系的な意味カテゴリーで記述された係り受け関係を利用する日本語文音声認識,電子情報通信学会論文誌,1993年11月,第J76-D-II巻,第11号,p.2264-2273 |
Also Published As
Publication number | Publication date |
---|---|
JP2020095118A (ja) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270685B2 (en) | Speech based user recognition | |
US9934777B1 (en) | Customized speech processing language models | |
US20200380987A1 (en) | User recognition for speech processing systems | |
US11657832B2 (en) | User presence detection | |
US10923111B1 (en) | Speech detection and speech recognition | |
JP6705008B2 (ja) | 話者照合方法及びシステム | |
US11361763B1 (en) | Detecting system-directed speech | |
US10943583B1 (en) | Creation of language models for speech recognition | |
US10121467B1 (en) | Automatic speech recognition incorporating word usage information | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
WO2021247205A1 (en) | Sentiment aware voice user interface | |
US10013974B1 (en) | Compact HCLG FST | |
WO2019244385A1 (ja) | 音声認識システム、及び音声認識装置 | |
CN113168832A (zh) | 交替响应生成 | |
JP6323947B2 (ja) | 音響イベント認識装置、及びプログラム | |
US11715472B2 (en) | Speech-processing system | |
US20230110205A1 (en) | Alternate natural language input generation | |
JP7178890B2 (ja) | 音声認識システム、及び音声認識装置 | |
US11688394B1 (en) | Entity language models for speech processing | |
US11978445B1 (en) | Confidence scoring for selecting tones and text of voice browsing conversations | |
JP7195947B2 (ja) | 音声認識システム、及び音声認識装置 | |
US11328713B1 (en) | On-device contextual understanding | |
WO2021061512A1 (en) | Multi-assistant natural language input processing | |
JP2020118804A (ja) | 音声認識装置、音声認識機能付き本、及び音声認識システム | |
JP2020118803A (ja) | 音声認識システム、及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211203 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221017 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |