JP2004012653A - 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム - Google Patents

音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム Download PDF

Info

Publication number
JP2004012653A
JP2004012653A JP2002163931A JP2002163931A JP2004012653A JP 2004012653 A JP2004012653 A JP 2004012653A JP 2002163931 A JP2002163931 A JP 2002163931A JP 2002163931 A JP2002163931 A JP 2002163931A JP 2004012653 A JP2004012653 A JP 2004012653A
Authority
JP
Japan
Prior art keywords
data
dictionary
server
voice
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002163931A
Other languages
English (en)
Inventor
Takashi Akiyama
秋山 貴
Norihiko Kumon
久門 紀彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002163931A priority Critical patent/JP2004012653A/ja
Publication of JP2004012653A publication Critical patent/JP2004012653A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】サーバとクライアントにより構成される音声認識システムにおいて問題とされる、サーバ側CPUの負荷上昇と、クライアントとサーバとの間のネットワーク帯域の負荷上昇とを解決する音声認識システムを提供する。
【解決手段】クライアントは入力された音声データに対して1次音声認識を試み、1次音声認識により音声認識できた場合はその音声認識結果をサーバに伝送し、音声認識できない場合はその音声データをサーバに伝送しサーバがその音声データに対して2次音声認識を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、サーバとクライアントから構成される音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラムに関する。
【0002】
【従来の技術】
従来、サーバとクライアントとにより構成される音声認識システムに関しては特開2001−142488号公報に記載されたものが知られている。音声入力をクライアントで行い、クライアントで得た音声データをサーバに送り、音声認識をサーバで行う音声認識システムである。また、クライアントで音声データの符号化を行うことにより、クライアントとサーバとの間のネットワーク帯域の負荷を抑えることを解決するサーバとクライアントとにより構成される音声認識システムに関しては特開2001−337695号公報に記載されたものが知られているが、何れも音声認識をサーバのみで行うことによりサーバ側CPUの負荷が上昇してしまうもので、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うものではない。
【0003】
【発明が解決しようとする課題】
このサーバとクライアントにより構成される音声認識システムにおいては、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことができることが要求されている。本発明はサーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことを可能にすることを目的とするサーバとクライアントで音声認識を行うシステムを提供することである。
【0004】
【課題を解決するための手段】
本発明の第1は、クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、前記音声データと1次音声認識のための辞書1に格納された複数の辞書データの夫々とを比較することにより1次音声認識を行い1次認識結果データを生成し、ここで、前記クライアントは、前記音声データと一致する辞書データが辞書1に格納されている場合、つまり、1次音声認識が可能な場合、前記1次認識結果データを前記サーバへ伝送し、前記サーバは、前記1次認識結果データを受信し、受信した前記1次音声結果データを前記音声認識システムの認識結果データとして得、一方、前記クライアントは、前記音声データと一致する辞書データが辞書1に格納されていない場合、つまり、1次音声認識が不可能な場合、前記音声データを前記サーバへ伝送し、前記サーバは、前記音声データを受信し、受信した前記音声データと2次音声認識のための辞書2に格納された複数の辞書データの夫々とを比較することにより2次音声認識を行い、2次認識結果データを生成し、前記2次認識結果データを前記音声認識システムの認識結果データとして得ることを備えたものである。
【0005】
この構成により、前記クライアントで1次音声認識が可能な場合、前記クライアントが前記サーバへ前記音声データを伝送する必要がなく前記1次認識結果データのみ伝送することにより前記クライアントと前記サーバとの間のネットワーク帯域の負荷を減少させるという効果と、前記サーバが2次音声認識を行う必要がないため前記サーバ側CPUの負荷を前記クライアント側CPUに分散させることにより前記サーバ側CPUの負荷を減少させる効果とをもたらすものである。
【0006】
本発明の第2は、前記サーバは、前記本発明の第1において前記クライアントで1次音声認識が不可能な場合、前記サーバで生成した2次認識結果データを前記クライアントへ伝送し、前記クライアントは、前記2次認識結果データを受信し、受信した前記2次認識結果データを1次音声認識のための前記辞書1に登録することを備えたものである。
【0007】
この構成により、前記本発明の第1において前記クライアントの1次音声認識で不可能とされていた音声認識に対応する辞書データを前記辞書1に格納することにより、前記本発明の第1と比較して前記クライアントで1次音声認識が可能であるケースが増大するため、前記本発明の第1と比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0008】
本発明の第3は、前記クライアントは、前記本発明の第2において前記2次認識結果データを1次音声認識のための前記辞書1に登録する際に、前記辞書1に辞書データを格納するためのスペースが有る場合、受信した前記2次認識結果データを前記辞書1に登録し、一方、前記辞書1に辞書データを格納するためのスペースが無い場合、前記辞書1に格納される複数のデータの夫々について1次音声認識において前記音声データとの比較に用いられた回数に対する前記音声データと一致した回数の割合、つまり、1次音声認識可能確率を格納する1次音声認識可能確率テーブルを参照し、前記1次音声認識可能確率が最も低いものに対応する辞書データを前記辞書1から削除した後に前記辞書1に受信した前記2次認識結果データを登録することを備えたものである。
【0009】
この構成により、前記本発明の第2において前記2次認識結果データを前記辞書1に登録する際に前記辞書1に辞書データを格納するためのスペースが無い場合には前記辞書1に格納された複数の辞書データのうち1次音声認識を可能とする確率が最も低い辞書データを削除することにより、前記辞書1に格納された複数の辞書データの何れかを無作為に削除する場合と比較して前記クライアントで1次音声認識が不可能であるケースが減少するため、前記本発明の第2のように1次音声認識を可能とする確率に応じて前記辞書1の辞書データを削除することを備えないものと比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0010】
本発明の第4は、前記クライアントは前記1次音声認識のための複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて前記辞書1に登録し、前記サーバは前記2次音声認識のため複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて前記辞書2に登録し、前記クライアントは音声が入力されるとこの入力音声に対する音声データを生成し、前記音声データを用いて音声識別を行うことにより話者の特定をし、話者が誰であるかを示す話者データを生成し、前記辞書1から前記話者データに対応する話者以外の話者と関連付けられた複数の辞書データ、つまり、前記話者に対応しない複数の辞書データを削除し、前記話者データを前記サーバへ伝送し、前記サーバは、前記話者データを受信し、前記辞書2に格納された複数のデータのうち受信した前記話者データに対応する話者と関連付けられた複数の辞書データ、つまり、前記話者に対応する複数の辞書データを前記クライアントに伝送し、前記クライアントは、前記話者に対応する複数の辞書データを受信し、受信した前記話者に対応する複数の辞書データを前記話者と関連付けて前記辞書1に登録することを備えたものである。
【0011】
この構成により、前記本発明の第1と比較して前記クライアントの前記辞書1に格納され複数の辞書データのうち音声を入力した話者の音声認識に適した辞書データが増大することにより、前記本発明の第1と比較して前記クライアントで1次音声認識が可能であるケースが増大するため、前記本発明の第1と比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0012】
本発明の第5は、前記クライアントは、前記1次音声認識のための複数の辞書データを、前記辞書1を構成する辞書領域1と辞書領域2に分けて登録し、前記クライアントと前記サーバとの間のデータ伝送量を監視し、前記クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、監視した前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値以上である場合、前記辞書1の前記辞書領域1と前記辞書領域2の何れかに格納された辞書データと前記音声データとを比較することにより1次音声認識を行い、一方、監視した前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値未満である場合、前記辞書1の前記辞書領域1に格納された辞書データと前記音声データとを比較することにより1次音声認識を行うことを備えたものである。
【0013】
この構成により、前記クライアントと前記サーバとの間のデータ伝送量に応じて1次音声認識で適用する前記辞書1の領域を制御することにより、前記クライアントと前記サーバとの間のデータ伝送量が多い場合は前記クライアントと前記サーバとの間のデータ伝送量が少ない場合と比較して1次音声認識が可能であるケースが増大するため、前記クライアントと前記サーバとの間のデータ伝送量が多い場合は前記クライアントと前記サーバとの間のデータ伝送量が少ない場合と比較して前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果をもたらすものである。
【0014】
本発明の第6は、前記クライアントは、前記1次音声認識のための複数の辞書データを前記辞書1を構成する辞書領域1と辞書領域2に分けて登録し、前記サーバ側CPUの使用率を監視し、前記クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、監視した前記サーバ側CPUの使用率の値が或る閾値以上である場合、前記辞書1の前記辞書領域1と前記辞書領域2の何れかに格納された辞書データと前記音声データとを比較することにより1次音声認識を行い、一方、監視した前記サーバ側CPUの使用率の値が或る閾値未満である場合、前記辞書1の前記辞書領域1に格納された辞書データと前記音声データとを比較することにより1次音声認識を行うことを備えたものである。
【0015】
この構成により、前記サーバ側CPUの使用率に応じて1次音声認識で適用する前記辞書1の領域を制御することにより、前記サーバ側CPUの使用率が高い場合は前記サーバ側CPUの使用率が低い場合と比較して1次音声認識が可能であるケースが増大するため、前記サーバ側CPUの使用率が高い場合は前記サーバ側CPUの使用率が低い場合と比較して前記サーバ側CPUの負荷を更に減少させる効果をもたらすものである。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態について、図1から図12を用いて説明する。
【0017】
(実施の形態1)
図1は実施の形態1における音声認識システムの構成図である。図1において、10はクライアント、20はサーバである。
【0018】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部である。
【0019】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0020】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0021】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16の夫々の動作を制御する。
【0022】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部である。
【0023】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。
【0024】
辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0025】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。制御部24は、サーバ20側のCPUを備え、21〜23の夫々の動作を制御する。
【0026】
図2に実施の形態1における音声認識システムで行われる処理手順のフローチャートを示す。図2に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0027】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0028】
(実施の形態2)
図3は実施の形態2における音声認識システムの構成図である。図3において、10はクライアント、20はサーバである。
【0029】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部である。
【0030】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。
【0031】
辞書1記憶部13は更に、受信部18で後述する2次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータを辞書1に記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0032】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0033】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18の夫々の動作を制御する。
【0034】
受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成する。
【0035】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0036】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0037】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0038】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23で2次音声認識を終了したことを示すフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0039】
図4に実施の形態2における音声認識システムで行われる処理手順のフローチャートを示す。図4に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0040】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS211へ移行する。S211において、サーバ20でクライアント10へ2次認識結果データを送信しS212へ移行する。S212において、クライアント10で2次認識結果データを受信しS213へ移行する。S213においてクライアント10で2次認識結果データを辞書1に記憶しS207へ移行する。S207において、処理を終了する。
【0041】
(実施の形態3)
図5は実施の形態3における音声認識システムの構成図である。図5において、10はクライアント、20はサーバである。
【0042】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、19は辞書1管理部である。
【0043】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。
【0044】
辞書1記憶部13は更に、受信部18で後述する2次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、辞書1における辞書データを記憶するためのスペースの有無を確認し、辞書1に辞書データを記憶するためのスペースが有る場合、受信部18で受信されたデータを辞書1に記憶し、一方、辞書1に辞書データを記憶するためのスペースが無い場合、辞書1管理部19で生成された削除アドレスデータに対応する辞書1の辞書データを削除し、受信部18で受信されたデータを辞書1に記憶する。
【0045】
1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0046】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。
【0047】
制御部17は、クライアント10側のCPUを備え、11〜16,18,19の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成する。
【0048】
辞書1管理部19は、1次音声認識部14における1次音声認識が行われる毎に、辞書1記憶部13の辞書1に記憶された複数の辞書データの夫々について、1次音声認識部14における1次音声認識を可能とした確率を記憶し、辞書1の複数の辞書データを管理する。辞書1管理部19は更に、1次音声認識における音声データとの比較に用いられた回数に対する音声データと一致した回数の割合、つまり、1次音声認識可能確率を算出し、辞書データの1次音声認識可能確率と辞書データの格納場所、つまり、辞書データのアドレスとを関連付けて1次音声認識可能確率テーブルに記憶する。辞書1管理部19は更に、1次音声認識可能確率テーブルを参照し、1次音声認識可能確率が最も低い辞書データのアドレスを示す削除アドレスデータを生成する。
【0049】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0050】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0051】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0052】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23でフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0053】
図6に実施の形態3における音声認識システムで行われる処理手順のフローチャートを示す。図6に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0054】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS211へ移行する。S211において、サーバ20でクライアント10へ2次認識結果データを送信しS212へ移行する。S212において、クライアント10で2次認識結果データを受信しS214へ移行する。S214において、クライアント10で辞書データを記憶するスペースが辞書1に有るかを確認し、辞書データを記憶するスペースが辞書1に有る場合、S213へ移行し、辞書データを記憶するスペースが辞書1に無い場合、S215へ移行する。S215において、クライアント10で辞書1から1次音声認識可能確率が最も低い辞書データを削除しS213へ移行する。S213においてクライアント10で2次認識結果データを辞書1に記憶しS207へ移行する。S207において、処理を終了する。
【0055】
(実施の形態4)
図7は実施の形態4における音声認識システムの構成図である。図7において、10はクライアント、20はサーバである。
【0056】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、30は音声識別部である。
【0057】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。音声識別部30は、音声分析部12で生成された音声データを用いて音声を入力した話者の特定を行う。音声識別部30は更に、話者を特定した場合、話者を特定したことを示すフラグと話者が誰であるかを示す話者データとを生成する。辞書1記憶部13は、辞書1に1次音声認識を行う際に用いる複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて記憶する。
【0058】
辞書1記憶部13は更に、音声識別部30で話者を特定したことを示すフラグが生成されたことを確認した場合、音声識別部30で生成された話者データに対応する話者以外の話者に関連付けられた辞書データを辞書1から削除し、受信部18で後述する話者データに対応する話者と関連付けられた辞書データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータをその辞書データを必要とする話者と関連付けて辞書1に記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0059】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0060】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択し、音声識別部30で話者を特定したことを示すフラグが生成されたことを確認した場合、音声識別部30で生成された話者データを選択する。
【0061】
送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,30の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成し、受信したデータが話者データに対応する話者と関連付けられた辞書データである場合、話者データに対応する話者と関連付けられた辞書データを受信したことを示すフラグを生成する。
【0062】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0063】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成し、受信したデータが話者データである場合、話者データを受信したことを示すフラグを生成する。辞書2記憶部22は、辞書2に2次音声認識を行う際に用いる複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0064】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0065】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23で2次音声認識を終了したことを示すフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択し、受信部21で話者データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信された話者データに対応する話者に関連付けられた辞書データを辞書2から選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0066】
図8に実施の形態4における音声認識システムで行われる処理手順のフローチャートを示す。図8に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS216へ移行する。S216において、クライアント10で音声識別を行い話者データを生成しS217へ移行する。S217において、クライアント10で辞書1から話者データに対応する話者以外の話者に関連付けられた辞書データを削除しS218へ移行する。S218において、クライアント10でサーバ20へ話者データを送信しS219へ移行する。S219において、サーバ20で話者データを受信しS220へ移行する。S220において、サーバ20でクライアント10へ辞書2の話者データに対応する話者に関連付けられた辞書データを送信しS221へ移行する。S221において、クライアント10で話者データに対応する話者に関連付けられた辞書データを受信しS222へ移行する。S222において、クライアント10で話者データに対応する話者に関連付けられた辞書データを辞書1に記憶しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0067】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0068】
(実施の形態5)
図9は実施の形態5における音声認識システムの構成図である。図9において、10はクライアント、20はサーバである。
【0069】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、31は伝送量監視部である。
【0070】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データを、辞書1を構成する辞書領域1と辞書領域2に分けて記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0071】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0072】
1次音声認識部14は更に、伝送量監視部31で後述するデータ伝送量が或る閾値以上であることを示すフラグが生成されたことを確認した場合、辞書1の辞書領域1と辞書領域2の何れかに記憶された辞書データと前記音声データとを比較することにより1次音声認識を行い、伝送量監視部31で後述するデータ伝送量が或る閾値未満であることを示すフラグが生成されたことを確認した場合辞書1の辞書領域1に記憶された辞書データと前記音声データとを比較することにより1次音声認識を行う。選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。
【0073】
選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,31の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。
【0074】
伝送量監視部31は、クライアント10とサーバ20との間のデータ伝送量を監視する。伝送量監視部31は更に、送信部16で送信されたデータ量と受信部18で受信されたデータ量との和、つまり、クライアント10とサーバ20との間のデータ伝送量を算出し、クライアント10とサーバ20との間のデータ伝送量が或る閾値以上である場合、クライアント10とサーバ20との間のデータ伝送量が或る閾値以上であることを示すフラグを生成し、クライアント10とサーバ20との間のデータ伝送量が或る閾値未満である場合、クライアント10とサーバ20との間のデータ伝送量が或る閾値未満であることを示すフラグを生成する。
【0075】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0076】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0077】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0078】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0079】
図10に実施の形態5における音声認識システムで行われる処理手順のフローチャートを示す。図10に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS223へ移行する。S223において、クライアント10とサーバ20との間のデータ伝送量は閾値以上であるかを確認し、クライアント10とサーバ20との間のデータ伝送量が閾値以上である場合、S224へ移行し、クライアント10とサーバ20との間のデータ伝送量が閾値未満である場合、S225へ移行する。S224において、クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行いS203へ移行する。S225において、クライアント10で辞書1の辞書領域1を用いて1次音声認識を行いS203へ移行する。
【0080】
S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0081】
(実施の形態6)
図11は実施の形態6における音声認識システムの構成図である。図11において、10はクライアント、20はサーバである。
【0082】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、32はサーバ監視部である。
【0083】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データを、辞書1を構成する辞書領域1と辞書領域2に分けて記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0084】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0085】
1次音声認識部14は更に、サーバ監視部32で後述するサーバ20側CPU使用率が或る閾値以上であることを示すフラグが生成されたことを確認した場合、辞書1の辞書領域1と辞書領域2の何れかに記憶された辞書データと前記音声データとを比較することにより1次音声認識を行い、伝送量監視部31で後述するサーバ20側CPU使用率が或る閾値未満であることを示すフラグが生成されたことを確認した場合辞書1の辞書領域1に記憶された辞書データと前記音声データとを比較することにより1次音声認識を行う。選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。
【0086】
選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,32の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータがサーバ20側CPU使用率データである場合、サーバ20側CPU使用率データを受信したことを示すフラグを生成する。
【0087】
サーバ監視部32は、サーバ20側のCPUの使用率を監視する。サーバ監視部32は更に、受信部18でサーバ20側CPU使用率データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータを用いてサーバ20側CPU使用率を算出し、サーバ20側CPU使用率が或る閾値以上である場合、サーバ20側CPU使用率が或る閾値以上であることを示すフラグを生成し、サーバ20側CPU使用率が或る閾値未満である場合、サーバ20側CPU使用率が或る閾値未満であることを示すフラグを生成する。
【0088】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0089】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0090】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。
【0091】
制御部24は更に、サーバ20側のCPUの使用率を算出し、サーバ20側のCPUの使用率を算出したことを示すフラグとサーバ20側のCPUの使用率を示すサーバ20側CPU使用率データとを生成する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、制御部24でサーバ20側のCPUの使用率を算出したことを示すフラグが生成されたことを確認した場合、制御部24で生成されたサーバ20側CPU使用率データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0092】
図12に実施の形態6における音声認識システムで行われる処理手順のフローチャートを示す。図12に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS226へ移行する。S226において、サーバ20側のCPUの使用率は閾値以上であるかを確認し、サーバ20側のCPUの使用率が閾値以上である場合、S224へ移行し、サーバ20側のCPUの使用率が閾値未満である場合、S225へ移行する。S224において、クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行いS203へ移行する。S225において、クライアント10で辞書1の辞書領域1を用いて1次音声認識を行いS203へ移行する。
【0093】
S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0094】
【発明の効果】
以上のように本発明によれば、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことを可能とすることができる。
【図面の簡単な説明】
【図1】実施の形態1における音声認識システムの構成を示す図
【図2】実施の形態1における音声認識システムで行われる処理手順のフローチャート
【図3】実施の形態2における音声認識システムの構成を示す図
【図4】実施の形態2における音声認識システムで行われる処理手順のフローチャート
【図5】実施の形態3における音声認識システムの構成を示す図
【図6】実施の形態3における音声認識システムで行われる処理手順のフローチャート
【図7】実施の形態4における音声認識システムの構成を示す図
【図8】実施の形態4における音声認識システムで行われる処理手順のフローチャート
【図9】実施の形態5における音声認識システムの構成を示す図
【図10】実施の形態5における音声認識システムで行われる処理手順のフローチャート
【図11】実施の形態6における音声認識システムの構成を示す図
【図12】実施の形態6における音声認識システムで行われる処理手順のフローチャート
【符号の説明】
10 クライアント
11 マイクロフオン
12 音声分析部
13 辞書1記憶部
14 1次音声認識部
15 選択部
16 送信部
17 制御部
18 受信部
19 辞書1管理部
20 サーバ
21 受信部
22 辞書2記憶部
23 2次音声認識部
24 制御部
25 選択部
26 送信部
30 音声識別部
31 伝送量監視部
32 サーバ監視部
S200 クライアント10に音声が入力されると処理を開始するステップ
S201 クライアント10で音声データを生成するステップ
S202 クライアント10で辞書1を用いて1次音声認識を行うステップ
S203 クライアント10で1次音声認識が可能であるかを確認するステップ
S204 クライアント10でサーバ20へ1次認識結果データを送信するステップ
S205 サーバ20で1次認識結果データを受信するステップ
S206 サーバ20で1次認識結果データを音声認識システムの認識結果データとして得るステップ
S207 処理を終了するステップ
S208 クライアント10でサーバ20へ音声データを送信するステップ
S209 サーバ20で音声データを受信するステップ
S210 サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得るステップ
S211 サーバ20でクライアント10へ2次認識結果データを送信するステップ
S212 クライアント10で2次認識結果データを受信するステップ
S213 クライアント10で2次認識結果データを辞書1に記憶するステップ
S214 クライアント10で辞書データを記憶するスペースが辞書1に有るかを確認するステップ
S215 クライアント10で辞書1から1次音声認識可能確率が最も低い辞書データを削除するステップ
S216 クライアント10で音声識別を行い話者データを生成するステップ
S217 クライアント10で辞書1から話者データに対応する話者以外の話者に関連付けられた辞書データを削除するステップ
S218 クライアント10でサーバ20へ話者データを送信するステップ
S219 サーバ20で話者データを受信するステップ
S220 サーバ20でクライアント10へ辞書2の話者データに対応する話者に関連付けられた辞書データを送信するステップ
S221 クライアント10で話者データに対応する話者に関連付けられた辞書データを受信するステップ
S222 クライアント10で話者データに対応する話者に関連付けられた辞書データを辞書1に記憶するステップ
S223 クライアント10とサーバ20との間のデータ伝送量は閾値以上であるかを確認するステップ
S224 クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行うステップ
S225 クライアント10で辞書1の辞書領域1を用いて1次音声認識を行うステップ
S226 サーバ20側のCPUの使用率は閾値以上であるかを確認するステップ

Claims (21)

  1. サーバとクライアントから構成される音声認識システムであって、
    前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段とを備え、
    前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段とを備えることを特徴とする音声認識システム。
  2. 前記クライアントは、前記第1の音声認識手段で1次音声認識が可能な場合、前記第1の選択手段で前記第1の音声認識手段で生成された1次認識結果データを選択し、前記第1の送信手段で前記1次認識結果データを前記サーバへ伝送することを特徴とする請求項1に記載の音声認識システム。
  3. 前記サーバは、前記第2の受信手段で受信されたデータが1次認識結果データである場合、前記第2の音声認識手段で2次音声認識を行わず、前記1次認識結果データを前記音声認識システムの認識結果データとして得ることを特徴とする請求項1又は請求項2の何れかに記載の音声認識システム。
  4. 前記サーバは更に、前記サーバで生成された複数のデータから前記クライアントへ伝送するデータを選択する第2の選択手段と、前記第2の選択手段で選択されたデータを前記クライアントへ送信する第2の送信手段とを備え、
    前記クライアントは更に、前記サーバが送信したデータを受信する第1の受信手段とを備えることを特徴とする請求項1に記載の音声認識システム。
  5. 前記クライアントは、前記第1の音声認識手段で1次音声認識が不可能な場合、前記第1の選択手段で前記音声分析手段で生成された音声データを選択し、前記第1の送信手段で前記音声データを前記サーバへ伝送し、
    前記サーバは、前記第2の受信手段で受信されたデータが音声データである場合、前記第2の音声認識手段で2次音声認識を行い2次認識結果データを生成し、前記2次認識結果データを前記音声認識システムの認識結果データとして得て、前記第2の選択手段で前記認識結果データを選択し、前記第2の送信手段で前記認識結果データを前記クライアントへ送信し、
    前記クライアントは、前記第1の受信手段で受信されたデータが前記認識結果データである場合、前記第1の記憶手段で前記認識結果データを前記第1の辞書に登録することを特徴とする請求項4に記載の音声認識システム。
  6. 前記クライアントは更に、前記第1の辞書に格納される複数の辞書データの夫々に対して、前記データと前記音声分析手段の音声データとが一致した確率である1次音声認識可能確率の算出と前記1次音声認識可能確率を第1の確率テーブルへの記憶とを行う第1の辞書管理手段を備えることを特徴とする請求項1又は請求項4の何れかに記載の音声認識システム。
  7. 前記クライアントは、前記第1の受信手段で受信されたデータが前記認識結果データである場合、前記第1の記憶手段は、前記第1の辞書に辞書データを格納するためのスペースが有る場合には前記第1の受信手段で受信されたデータを前記第1の辞書に登録し、前記第1の辞書に辞書データを格納するためのスペースが無い場合には前記第1の確率テーブルにおいて1次音声認識採用確率が最も低いとされるものに対応される辞書データを前記第1の辞書から削除し前記第1の受信手段で受信されたデータを前記第1の辞書に登録することを特徴とする請求項6に記載の音声認識システム。
  8. 前記クライアントは更に、前記音声データを用いて音声識別を行い話者の特定を行い話者が誰であるかを示す話者データを生成する音声識別手段を備え、前記第1の記憶手段は前記第1の辞書の複数のデータの夫々を話者と関連付けて記憶し、前記第2の記憶手段は前記第2の辞書の複数のデータの夫々を話者と関連付けて記憶することを特徴とする請求項1に記載の音声認識システム。
  9. 前記クライアントは、前記第1の記憶手段で前記音声識別手段が特定した話者以外の話者に関連付けられた複数の辞書データを削除し、前記第1の選択手段で前記音声識別手段で生成された前記話者データを選択し、前記第1の送信手段で前記話者データを前記サーバへ伝送し、
    前記サーバは、前記第2の受信手段で受信されたデータが話者データである場合、前記第2の選択手段で前記第2の辞書から前記第2の受信手段の話者データが示す話者に関連付けられた複数の辞書データの夫々を選択し、前記第2の送信手段で前記話者に関連付けられた複数の辞書データの夫々を送信し、
    前記クライアントは、前記第1の受信手段で受信されたデータが話者に関連付けられた辞書データである場合、前記第1の記憶手段で前記第1の辞書に話者に関連付けられた辞書データを話者と関連付けて記憶することを特徴とする請求項8に記載の音声認識システム。
  10. サーバとクライアントから構成される音声認識システムであって、
    前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データを格納する第1の辞書領域と第2の辞書領域とより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと第1の辞書の第1の辞書領域及び第2の辞書領域の何れかに格納された辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段と、前記サーバが送信したデータを受信する第1の受信手段と、前記クライアントと前記サーバとの間のデータ伝送量を監視する伝送量監視手段とを備え、
    前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段と、前記サーバで生成された複数のデータから前記クライアントへ伝送するデータを選択する第2の選択手段と、前記第2の選択手段で選択されたデータを前記クライアントへ送信する第2の送信手段とを備えることを特徴とする音声認識システム。
  11. 前記クライアントは、前記伝送量監視手段の前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値以上である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域と第2の辞書領域とに格納された辞書データを用いて1次音声認識を行い、前記伝送量監視手段の前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値未満である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域に格納された辞書データを用いて1次音声認識を行うことを特徴とする請求項10に記載の音声認識システム。
  12. 前記クライアントは、前記第1の音声認識手段で1次音声認識が可能な場合、前記第1の選択手段で前記第1の音声認識手段で生成された1次認識結果データを選択し、前記第1の送信手段で前記1次認識結果データを前記サーバへ伝送することを特徴とする請求項10又は請求項11に記載の音声認識システム。
  13. 前記サーバは、前記第2の受信手段で受信されたデータが1次認識結果データである場合、前記第2の音声認識手段で2次音声認識を行わず、前記1次認識結果データを前記音声認識システムの認識結果データとして得ることを特徴とする請求項10ないし請求項12の何れかに記載の音声認識システム。
  14. サーバとクライアントから構成される音声認識システムであって、
    前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データを格納する第1の辞書領域と第2の辞書領域とより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと第1の辞書の第1の辞書領域及び第2の辞書領域の何れかに格納された辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段と、前記サーバが送信したデータを受信する第1の受信手段と、前記サーバ側CPU使用率を監視するCPU監視手段とを備え、
    前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段と、前記サーバで生成された複数のデータから前記クライアントへ伝送するデータを選択する第2の選択手段と、前記第2の選択手段で選択されたデータを前記クライアントへ送信する第2の送信手段と、前記サーバ側CPUの使用率を算出しサーバ側CPU使用率データを生成するCPU使用率演算手段とを備えることを特徴とする音声認識システム。
  15. 前記サーバは、前記CPU使用率演算手段でサーバ側CPU使用率データが生成された場合、前記第2の選択手段で前記CPU使用率演算手段の前記サーバ側CPU使用率データを選択し、前記第2の送信手段で前記サーバ側CPU使用率データを前記クライアントへ伝送し、
    前記クライアントは、前記第1の受信手段で受信されたデータがサーバ側CPU使用率データである場合、前記CPU監視手段で前記サーバ側CPU使用率データを用いてサーバ側CPU使用率を算出し、前記サーバ側CPU使用率の値が或る閾値以上である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域と第2の辞書領域とに格納された辞書データを用いて1次音声認識を行い、前記サーバ側CPU使用率の値が或る閾値未満である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域に格納された辞書データを用いて1次音声認識を行うことを特徴とする請求項14に記載の音声認識システム。
  16. 前記クライアントは、前記第1の音声認識手段で1次音声認識が可能な場合、前記第1の選択手段で前記第1の音声認識手段で生成された1次認識結果データを選択し、前記第1の送信手段で前記1次認識結果データを前記サーバへ伝送することを特徴とする請求項14又は請求項15に記載の音声認識システム。
  17. 前記サーバは、前記第2の受信手段で受信されたデータが1次認識結果データである場合、前記第2の音声認識手段で2次音声認識を行わず、前記1次認識結果データを前記音声認識システムの認識結果データとして得ることを特徴とする請求項14ないし請求項16の何れかに記載の音声認識システム。
  18. サーバとクライアントから構成される音声認識システムで用いる音声認識クライアントであって、
    入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記クライアントで生成された複数のデータから前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段とを備える音声認識クライアント。
  19. サーバとクライアントから構成される音声認識システムで用いる音声認識サーバであって、
    前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段とを備える音声認識サーバ。
  20. サーバとクライアントから構成される音声認識システムで用いる音声認識クライアントプログラムであって、
    入力音声を分析して音声データを生成する音声分析工程と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶工程と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識工程と、前記クライアントで生成された複数のデータから前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択工程と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信工程とを備える音声認識クライアントプログラム。
  21. サーバとクライアントから構成される音声認識システムで用いる音声認識サーバプログラムであって、
    前記クライアントが送信したデータを受信する第2の受信工程と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶工程と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識工程とを備える音声認識サーバプログラム。
JP2002163931A 2002-06-05 2002-06-05 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム Pending JP2004012653A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002163931A JP2004012653A (ja) 2002-06-05 2002-06-05 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002163931A JP2004012653A (ja) 2002-06-05 2002-06-05 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム

Publications (1)

Publication Number Publication Date
JP2004012653A true JP2004012653A (ja) 2004-01-15

Family

ID=30432219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002163931A Pending JP2004012653A (ja) 2002-06-05 2002-06-05 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム

Country Status (1)

Country Link
JP (1) JP2004012653A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
JP2012501480A (ja) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク ハイブリッド型音声認識
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
WO2013027360A1 (ja) 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US9293137B2 (en) 2012-09-24 2016-03-22 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition
US10102845B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Interpreting nonstandard terms in language processing using text-based communications
JP2019115047A (ja) * 2013-04-19 2019-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America システムの制御方法、システム、及びプログラム
US10818283B2 (en) 2017-07-06 2020-10-27 Clarion Co., Ltd. Speech recognition system, terminal device, and dictionary management method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2009288630A (ja) * 2008-05-30 2009-12-10 Denso Corp 車両用音声認識システム
JP2012501480A (ja) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク ハイブリッド型音声認識
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JPWO2013027360A1 (ja) * 2011-08-19 2015-03-05 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP5613335B2 (ja) * 2011-08-19 2014-10-22 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
WO2013027360A1 (ja) 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
US9601107B2 (en) 2011-08-19 2017-03-21 Asahi Kasei Kabushiki Kaisha Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
US9293137B2 (en) 2012-09-24 2016-03-22 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition
US10102845B1 (en) * 2013-02-25 2018-10-16 Amazon Technologies, Inc. Interpreting nonstandard terms in language processing using text-based communications
JP2019115047A (ja) * 2013-04-19 2019-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America システムの制御方法、システム、及びプログラム
USRE48569E1 (en) 2013-04-19 2021-05-25 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
US10818283B2 (en) 2017-07-06 2020-10-27 Clarion Co., Ltd. Speech recognition system, terminal device, and dictionary management method

Similar Documents

Publication Publication Date Title
US7702917B2 (en) Data transfer using hyper-text transfer protocol (HTTP) query strings
CN109036425B (zh) 用于操作智能终端的方法和装置
JP2019139211A (ja) 音声ウェイクアップ方法及び装置
US10917404B2 (en) Authentication of packetized audio signals
US9807189B2 (en) Data transfer device and data transfer system using adaptive compression algorithm
CN109951546B (zh) 基于智能合约的事务请求处理方法、装置、设备和介质
KR20170012873A (ko) 음성 검증 방법, 장치 및 시스템
US8639662B2 (en) Methods and apparatus for content based notification using hierarchical groups
US6789082B2 (en) Method and apparatus to facilitate fast network management protocol replies in large tables
WO2020042884A1 (zh) 用于物联网设备间的数据传输方法、***和电子设备
CN113300854B (zh) 一种边缘节点能力扩展方法、***及扩展盒子
CN110795235B (zh) 一种移动web深度学习协作的方法及***
JP2004012653A (ja) 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
CN111638948B (zh) 多通道高可用的大数据实时决策***及决策方法
CN112039913A (zh) 一种服务端api调用方法、装置及存储介质
US11709900B2 (en) Automated web page accessing
CN110311962B (zh) 消息推送方法、***及计算机可读存储介质
CN110223694B (zh) 语音处理方法、***和装置
CN113630464B (zh) 分布式语音处理方法、***、设备及存储介质
CN111866544B (zh) 数据处理方法、装置、设备及计算机可读存储介质
JP5416135B2 (ja) フィンガープリント技術の実現方法、装置、及びシステム
CN112559847A (zh) 网络图中节点搜索方法、装置、电子设备和存储介质
CN104618324A (zh) 一种用于数据发送以及数据合法性检查的方法与装置
US20230146871A1 (en) Audio data processing method and apparatus, device, and storage medium
CN106713317A (zh) 流媒体文件的传输方法及装置