WO2019234952A1

WO2019234952A1 - 音声処理装置および翻訳装置

Info

Publication number: WO2019234952A1
Application number: PCT/JP2018/044735
Authority: WO
Inventors: 石川　智一
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2018-06-08
Filing date: 2018-12-05
Publication date: 2019-12-12
Also published as: CN112119455A; US20210082456A1; JP2019211737A

Abstract

音声処理装置（１）は、入力部（１０ａ，１０ｂ）と、処理部（２２）と、レベル検出部（２１）と、出力音声変換部（２４）と、出力部（１２）と、を備える。入力部（１０ａ，１０ｂ）は、音声を入力し、入力音声信号を生成する。処理部（２２）は、入力音声信号に基づき第１の出力音声信号を生成する。レベル検出部（２１）は、入力音声信号において信号レベルが所定レベルより大きい第１期間を検出する。出力音声変換部（２４）は、第１の出力音声信号において、第１期間に対応する第２期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第２の出力音声信号を生成する。出力部（１２）は、第２の出力音声信号に基づく音声を出力する。

Description

音声処理装置および翻訳装置

　本開示は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。

　特許文献１は、１つの言語による入力音声を、複数の言語による音声に翻訳することができるテレビシステムを開示している。テレビシステムは、入力音声信号を、音量、音調、および音色に分解する。テレビシステムは、分解した、音量、音調、および音色と融合させた、複数の言語による翻訳音声信号を出力する。

特開２０１４－２１４８５号公報

　過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。

　本開示の音声処理装置は、入力部と、処理部と、レベル検出部と、出力音声変換部と、出力部と、を備える。入力部は、音声を入力し、入力音声信号を生成する。処理部は、入力音声信号に基づき第１の出力音声信号を生成する。レベル検出部は、入力音声信号において信号レベルが所定レベルより大きい第１期間を検出する。出力音声変換部は、第１の出力音声信号において、第１期間に対応する第２期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第２の出力音声信号を生成する。出力部は、第２の出力音声信号に基づく音声を出力する。

　本開示によれば、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供することができる。

翻訳装置の外観を示す図翻訳システムの構成を示すブロック図翻訳装置に入力される適正レベルの入力音声データが示す音声信号の波形を示す図翻訳装置に入力される過大レベルの入力音声データが示す音声信号の波形を示す図実施の形態１に係る翻訳装置による翻訳処理を示すフローチャート実施の形態１に係る翻訳装置に入力される入力音声データが示す音声信号の波形を示す図実施の形態１に係る翻訳装置において入力音声データから生成された音声合成データが示す音声信号の波形を示す図実施の形態１に係る翻訳装置において音声合成データから生成された出力音声データが示す音声信号の波形を示す図実施の形態１に係る翻訳装置における、音声合成データから出力音声データを作成する処理を示すフローチャート音声合成データの出力レベルを増幅する処理を示す図実施の形態２に係る翻訳装置に入力される音声合成データが示す音声信号の波形を示す図実施の形態２に係る翻訳装置において入力音声データから生成された音声合成データが示す音声信号の波形を示す図実施の形態２に係る翻訳装置において音声合成データから生成された出力音声データが示す音声信号の波形を示す図実施の形態２に係る翻訳装置における、音声合成データから出力音声データを作成する処理を示すフローチャート実施の形態３に係る翻訳システムの構成を示すブロック図実施の形態３に係る翻訳装置における動作を示すフローチャート実施の形態４に係る翻訳装置において、ディスプレイに注意喚起メッセージが表示されている状態を示す図実施の形態４に係る翻訳装置の動作を示すフローチャート

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、発明者（ら）は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。以下の各実施の形態では、音声処理装置の実施の形態として、翻訳装置を説明する。

（実施の形態１）
１．構成
１－１．翻訳装置の概要
　図１は、実施の形態１に係る音声処理装置の一実施の形態である翻訳装置の外観を示す図である。図１に示す翻訳装置１は、第１の言語で話すホストと第２の言語で話すゲストとの間の会話を翻訳する装置である。翻訳装置１を介して、ホストおよびゲストは対面してそれぞれの言語で会話することができる。翻訳装置１は、第１の言語から第２の言語への翻訳と、第２の言語から第１の言語への翻訳とを行う。翻訳装置１は、翻訳結果を音声で出力する。ホストおよびゲストは、翻訳装置１から出力される音声により、発話している内容をお互いに把握することができる。例えば、第１の言語は日本語であり、第２の言語は英語である。

　翻訳装置１は、ゲスト側マイク１０ａと、ホスト側マイク１０ｂと、スピーカ１２と、ディスプレイ１４と、タッチパネル１５と、を備える。ゲスト側マイク１０ａおよびホスト側マイク１０ｂは、入力部の一例である。スピーカ１２は、出力部の一例である。

　ゲスト側マイク１０ａは、ゲストが発話した音声をデジタル音声信号である入力音声データに変換する。ホスト側マイク１０ｂは、ホストが発話した音声をデジタル音声信号である入力音声データに変換する。すなわち、ゲスト側マイク１０ａ及びホスト側マイク１０ｂは、音声処理装置１に音声データを入力する音声入力部として機能する。

　ディスプレイ１４は、ゲストまたはホストによる操作に基づいて、文字列や画像を表示する。ディスプレイ１４は、液晶ディスプレイまたは有機ＥＬディスプレイなどで構成される。

　タッチパネル１５は、ディスプレイ１４に重畳して配置されている。タッチパネル１５は、ゲストまたはホストによるタッチ操作を受け付けることができる。

　スピーカ１２は、音声を出力する装置であり、例えば、翻訳結果の内容を示す音声を出力する。

　図１において、翻訳装置１は、ディスプレイ１４に、ゲスト側の音声入力ボタン１４ａとホスト側の音声入力ボタン１４ｂとを表示している。翻訳装置１は、音声入力ボタン１４ａ，１４ｂの押下を、タッチパネル１５を介して検出する。

　翻訳装置１は、ゲストによる音声入力ボタン１４ａの押下を検出すると、ゲスト側マイク１０ａから入力音声データの取得を開始する。翻訳装置１は、入力音声データの取得中に音声入力ボタン１４ａの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置１は、例えば、英語から日本語への翻訳処理を行って、日本語の出力音声データを、スピーカ１２から出力する。

　また、翻訳装置１は、ホストによる音声入力ボタン１４ｂの押下を検出すると、ホスト側マイク１０ｂから入力音声データの取得を開始する。翻訳装置１は、入力音声データの取得中に音声入力ボタン１４ｂの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置１は、例えば、日本語から英語への翻訳処理を行って、英語の出力音声データを、スピーカ１２から出力する。なお、翻訳装置１は、ゲスト側マイク１０ａ及びホスト側マイク１０ｂからの入力音声データの音量レベルが所定の閾値以下になったことを検出することにより、自動的に入力音声データの取得を終了してもよい。

１－２．翻訳システムの構成
　図２は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図２に示す翻訳システムは、図１の翻訳装置１に加えて、音声認識サーバ３と、翻訳サーバ４と、音声合成サーバ５とをさらに備える。

　音声認識サーバ３は、翻訳装置１からネットワーク２を介して入力音声データを受信し、入力音声データを音声認識して文字列の音声認識データを生成するサーバである。

　翻訳サーバ４は、翻訳装置１からネットワーク２を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データを生成するサーバである。本実施の形態において、翻訳サーバ４は、日本語の文字列を英語の文字列に、あるいは英語の文字列を日本語の文字列に翻訳する。

　音声合成サーバ５は、翻訳装置１からネットワーク２を介して文字列の翻訳データを受信し、翻訳データを音声合成して音声合成データを生成するサーバである。

１－３．翻訳装置の内部構成
　翻訳装置１は、記憶部２３と、通信部１８と、制御部２０と、をさらに備える。

　記憶部２３は、フラッシュメモリ、ＳＳＤ（Solid State Device）および／またはハードディスク等で構成される。記憶部２３は翻訳装置１の各種機能を実現するために必要なプログラムおよびデータを記憶する。

　制御部２０は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵまたはＭＰＵ等を含み、翻訳装置１の全体動作を制御する。制御部２０は、記憶部２３に記憶された所定のプログラムおよびデータ等を読み込んで演算処理を実行することにより、種々の機能を実現する。例えば、制御部２０は、機能的な構成として、レベル検出部２１と、翻訳部２２と、出力音声変換部２４とを含む。制御部２０は、所定の機能を実現するように専用に設計された電子回路でもよい。すなわち、制御部２０は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＰ、ＦＰＧＡ、または、ＡＳＩＣ等、種々のプロセッサを含んでもよい。翻訳部２２は、処理部の一例である。

　レベル検出部２１は、ホストまたはゲストが入力した入力音声データの入力レベルが所定のしきい値を超えているか否かを検出する。

　翻訳部２２は、外部の音声認識サーバ３、翻訳サーバ４及び音声合成サーバ５と連携しながら翻訳処理を実施する。具体的には、翻訳部２２は、音声認識サーバ３、翻訳サーバ４及び音声合成サーバ５と連携して、マイク１０ａ、１０ｂを介して入力した音声データから、翻訳結果の内容を示す音声を生成するデータである音声合成データを生成する処理を行う。

　出力音声変換部２４は、音声合成サーバ５からネットワーク２を介して受信した音声合成データを、レベル検出部２１が検出した音声の入力レベルに基づいて、出力音声データに変換する。

　通信部１８は、制御部２０の制御によって、翻訳装置１からネットワーク２を介して外部のサーバに各種情報を送信したり、外部のサーバから各種情報を受信したりする。通信部１８は、３Ｇ、４Ｇ、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＬＡＮ等の所定の通信規格で通信を行う通信モジュールや通信回路で構成される。

２．本開示が解決しようとする課題
　以上のように構成される翻訳処理システムにおいて、ゲストまたはホストが過大な音量で翻訳装置１に音声を入力した場合に、音声処理システムは、入力された音声を適切に翻訳できない場合がある。以下にこれを説明する。

　図３Ａ、図３Ｂは、翻訳装置１に入力される音声データが示す音声信号の波形を示す図である。図３Ａは、適正な入力レベル、すなわち、所定の許容入力レベル以下のレベルの音声に対する音声データが示す音声信号の波形を示す。図３Ａの音声データでは、波形は飽和しておらず、歪んでいない。この場合、翻訳処理システムは音声データを正しく認識することができる。

　一方、図３Ｂは、過大な入力レベルで、すなわち、許容入力レベルを超えたレベルの音声が入力されたときに得られる音声データが示す音声信号の波形を示す。図３Ｂの音声データでは、波形が飽和して歪んでいるので、音声処理システムは本来の音声信号の波形を誤認識するおそれがある。

　上記の課題を鑑み、本開示は、ゲストまたはホストに対して、過大な音量で音声データを入力していることについて気づきを与えることができる音声処理装置を提供する。以下、本実施の形態に係る、翻訳装置１の動作について説明する。

３．動作
　翻訳装置１の動作について、図４～７を参照して説明する。図４は、本実施の形態に係る翻訳装置１による翻訳処理を示すフローチャートである。以下、図４を用いて、翻訳装置１による翻訳処理を説明する。

　最初に、翻訳装置１の制御部２０が、音声入力ボタン１４ａまたは音声入力ボタン１４ｂの押下を検出すると、発話者すなわちホストまたはゲストが発した音声の入力音声データをホスト側マイク１０ａまたはゲスト１０ｂを介して取得する（Ｓ１０１）。

　その後、制御部２０は入力音声データをネットワーク２を介して音声認識サーバ３に送信する。音声認識サーバ３は、ネットワーク２を介して入力音声データを受信し、入力音声データに基づき音声認識処理を行い、文字列の音声認識データに変換する（Ｓ１０２）。音声認識データはテキスト形式のデータである。翻訳装置１の制御部２０は、ネットワーク２を介して、音声認識サーバ３から音声認識データを受信し、受信した音声認識データを翻訳サーバ４に送信する。

　翻訳サーバ４は、ネットワーク２を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データに変換する（Ｓ１０３）。翻訳データはテキスト形式のデータである。翻訳装置１の制御部２０は、翻訳サーバ４からネットワーク２を介して翻訳データを受信し、受信した翻訳データを音声合成サーバ５に送信する。

　音声合成サーバ５は、ネットワーク２を介して翻訳データを受信し、翻訳データに基づき音声合成を行い音声合成データに変換する（Ｓ１０４）。音声合成データは音声を再生するためのデータである。翻訳装置１の制御部２０は、音声合成サーバ５からネットワーク２を介して音声合成データを受信する。

　その後、翻訳装置１の制御部２０は、音声合成データから出力音声データを生成する（Ｓ１０５）。特に、制御部２０は、入力された音声の入力レベルが過大であると判断したときに、その事実が発話者に伝わるように音声合成データを変調して出力音声データを生成する。このような出力音声データの作成処理の詳細については、後述する。

　最後に、翻訳装置１の制御部２０は、出力音声データを再生し、翻訳結果を示す音声をスピーカ１２から出力させる（Ｓ１０６）。

　以上のようにして、翻訳装置１は、第１言語で発話された音声の内容を第２言語に翻訳し、翻訳した結果を音声で出力する。

　以下、上記の翻訳処理における、音声合成データから出力音声データを作成する処理（図４のステップＳ１０５）の詳細を説明する。

　図５Ａ、図５Ｂ、図５Ｃは、翻訳装置１による音声処理を説明するための図である。図５Ａは、入力音声データが示す音声信号の波形を示す。図５Ｂは、図５Ａの入力音声データから変換された音声合成データが示す音声信号の波形を示す。図５Ｃは、図５Ｂの音声合成データから変換された出力音声データが示す音声信号の波形を示す。図６は、本実施の形態に係る、音声合成データから出力音声データを作成する処理を示すフローチャートである。

　図６において、最初に、制御部２０のレベル検出部２１は、入力音声データが示す音声の入力レベルが所定レベルを超える期間である過大期間（第１期間）と、入力音声の開始時点から各過大期間の開始時点までの経過とを検出する（Ｓ２０１）。図５Ａの例では、レベル検出部２１は、過大期間Ｔａ，Ｔｂ，Ｔｃと、各過大期間まで経過時間ｔａ，ｔｂ，ｔｃと、を検出する。

　次に、制御部２０の出力音声変換部２４は、音声合成データについて、入力音声データの過大期間に対応する増幅期間（第２期間）の出力レベルを増幅して、出力音声データを生成する（Ｓ２０２）。図５Ｂ、図５Ｃの例では、出力音声変換部２４は、図５Ｂの音声合成データにおいて、音声合成データが示す音声の開始時点から経過時間ｔａだけ経過した時点から過大期間Ｔａと等しい長さの増幅期間Ｔａｓの間、出力音声レベルが増幅されて、図５Ｃの出力音声データが作成される。同様に、図５Ｃの出力音声データでは、図５Ｂの音声合成データについて、音声合成データが示す音声の開始時点から経過時間ｔｂ、ｔｃだけ経過した時点から過大期間Ｔｂ、Ｔｃと等しい長さの増幅期間Ｔｂｓ、Ｔｃｓの間、その出力音声レベルが増幅されている。

　なお、音声合成データの出力レベルの増幅処理には既存の技術を用いることができる。例えば、公知のコンプレッサ処理技術を用いて実現することができる。図７は、公知のコンプレッサ処理を説明するための図である。図７に示すように、音声信号８０Ａにおいて信号レベルが所定レベルを超える部分をカットし、音声信号８０Ｂを生成する。音声信号８０Ｂでは、波形８１、８２の部分がカットされている。そして、振幅が大きい部分がカットされた音声信号８０Ｂを所定の増幅レベルまで増幅して、増幅した音声信号８０Ｃを生成する。このようにして、音声信号を増幅することができる。

　以上のように、本実施の形態の翻訳装置１は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク１０ｂまたは１０ａから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。

４．まとめ
　以上説明したように、翻訳装置１は、ゲスト側マイク１０ａと、ホスト側マイク１０ｂと、翻訳部２２と、レベル検出部２１と、出力音声変換部２４と、スピーカ１２と、を備える。ゲスト側マイク１０ａおよびホスト側マイク１０ｂは、第１の言語での発話内容を示す音声を入力し、入力音声信号を生成する。翻訳部２２は、入力音声信号が示す発話内容を第２の言語の発話内容に翻訳した結果を示す音声信号である第１の出力音声信号を生成する。レベル検出部２１は、入力音声信号において信号レベルが所定レベルより大きい過大期間を検出する。出力音声変換部２４は、第１の出力音声信号において、過大期間（第１期間）に対応する増幅期間（第２期間）の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第２の出力音声信号を生成する。スピーカ１２は、第２の出力音声信号に基づく音声を出力する。

　このとき、入力音声信号における過大期間の長さと、第２の出力音声信号における増幅期間の長さとが一致し、かつ、入力音声信号において、入力音声信号の開始時点から過大期間の開始時点までの長さと、第２の出力音声信号において、第２の出力音声信号の開始時点から増幅期間までの長さとが一致する。

　このことにより、本実施の形態の翻訳装置１は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク１０ｂまたは１０ａから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。

（実施の形態２）
　実施の形態１の翻訳装置１は、出力音声データにおいて、入力音声データの過大期間と同じ開始タイミングで同じ長さの増幅期間だけ音声レベルを増幅した。入力音声データと出力音声データとは全体の長さは必ずしも同じでない。このため、実施の形態１のような増幅方法では、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識することが難しい。そこで、本実施の形態では、入力音声の全体期間に対する過大期間の相対的な位置関係及び長さの割合と、出力音声の全体期間に対する増幅期間の相対的な位置関係及び長さの割合とが等しくなるように増幅期間を設定する。これにより、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識し易くすることができる。以下、本実施の形態の処理を具体的に説明する。なお、本実施の形態の翻訳システムのハードウェア構成は実施の形態１のものと同様である。

　図８Ａ、図８Ｂ、図８Ｃは、実施の形態２に係る翻訳装置１が処理する入力音声データと音声合成データと出力音声データとが示す音声信号の波形を示した図である。図９は、実施の形態２の翻訳装置１における出力音声データの生成処理を示すフローチャートである。

　図９において、最初に、翻訳装置１の制御部２０のレベル検出部２１は、入力音声データの継続時間を検出する（Ｓ３０１）。図８Ａの例では、制御部２０のレベル検出部２１は、入力音声データの継続時間Ｔを検出する。

　次に、レベル検出部２１は、入力音声データについて、入力レベルが所定レベルを超える過大期間と、各過大期間の開始時点までの経過時間とを検出する（Ｓ３０２）。図８Ａの例では、レベル検出部２１は、過大期間Ｔａ，Ｔｂ，Ｔｃと各過大期間の開始時点までの経過時間ｔａ，ｔｂ，ｔｃとが検出される。

　次に、レベル検出部２１は、音声合成データの継続時間を検出する（Ｓ３０３）。図８Ａの例では、レベル検出部２１は、音声合成データの継続時間Ｔ’が検出される。

　次に、制御部２０の出力音声変換部２４は、次式に基づいて、音声合成データについて、増幅期間Ｔａ’，Ｔｂ’，Ｔｃ’および各増幅期間までの経過時間ｔａ’，ｔｂ’，ｔｃ’を算出する（Ｓ３０４）。
Ｔａ’＝Ｔａ×Ｔ’／Ｔ
Ｔｂ’＝Ｔｂ×Ｔ’／Ｔ
Ｔｃ’＝Ｔｃ×Ｔ’／Ｔ
ｔａ’＝ｔａ×Ｔ’／Ｔ
ｔｂ’＝ｔｂ×Ｔ’／Ｔ
ｔｃ’＝ｔｃ×Ｔ’／Ｔ

　制御部２０の出力音声変換部２４は、音声合成データについて、増幅期間における音声出力レベルを増幅して、出力音声データを作成する（Ｓ３０５）。図８Ｃの例では、図８Ｂの音声合成データについて、出力音声の開始時点から時間ｔａ’経過後の増幅期間Ｔａ’の間、出力音声レベルが増幅される。同様に、図８Ｃの出力音声データでは、図８Ｂの音声合成データについて、音声合成データの開始時点から時間ｔｂ’経過後の増幅期間Ｔｂ’の間、音声合成データの開始時点から時間ｔｃ’経過後の増幅期間Ｔｃ’の間、出力音声レベルが増幅されている。

　以上のように制御することで、入力音声における過大期間と対応した、出力音声の増幅期間において出力レベルが増幅される。これにより、発話者は、入力音声全体におけるどの部分が入力レベルが過大であったのかを出力音声から認識することができる。

（実施の形態３）
　以下、本開示の別の実施の形態について説明する。音声処理装置１および音声処理システムの構成は、実施の形態１と同様である。

　実施の形態１の翻訳装置１は、翻訳後の音声合成データの一部を増幅してスピーカ１２から出力することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置１は、発話者が音声データを入力しているときに、過大な音量で音声データを入力している旨のメッセージをスピーカ１２から出力する。それにより、発話者に対して、過大な音量で音声データを入力していることについて気づきを与える。

　図１０は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図１０の翻訳装置１において、制御部２０は、図１の制御部２０と比較して、警告部２５をさらに備える。警告部２５は、発話者が音声データを入力しているときに、過大な音声で音声データを入力している旨のメッセージを、スピーカ１２を介して出力する。

　図１１は、本実施の形態に係る翻訳装置１の動作を示すフローチャートである。

　音声入力ボタン１４ａ，１４ｂの押下を検出すると、翻訳装置１の制御部２０は、発話者により入力された音声を、ゲスト側マイク１０ａまたはホスト側マイク１０ｂを介して入力する（Ｓ４０１）。

　このとき、音声入力ボタン１４ａが押下された場合、ゲスト側マイク１０ａから入力された音声の情報が翻訳装置１に入力される。音声入力ボタン１４ｂが押下された場合、ホスト側マイク１０ｂから入力された音声が翻訳装置１に入力される。

　制御部２０は、マイク１０ａまたは１０ｂから入力した音声の入力レベルを検出し（Ｓ４０２）、検出した入力レベルと所定のしきい値とを比較する（Ｓ４０３）。

　入力された音声の入力レベルが所定のしきい値を上回る場合（Ｓ４０３においてＮｏ）、制御部２０は、過大な音量で音声データ入力している旨の注意喚起メッセージを、スピーカ１２から出力する（Ｓ４０４）。

　一方、入力された音声の入力レベルが所定のしきい値以下である場合（Ｓ４０３においてＹｅｓ）、制御部２０は、音声入力の終了を指示する操作がなされたか否かを判断する（Ｓ４０５）。音声入力の終了を指示する操作とは、ゲスト側マイク１０ａから音声を取得しているときに、音声入力ボタン１４ａを押下する操作、または、ホスト側マイク１０ｂから音声を取得しているときに、音声入力ボタン１４ｂを押下する操作である。

　制御部２０は、音声入力の終了を指示する操作がなされたことを検出した場合（Ｓ４０５においてＹｅｓ）、本処理を終了する。音声入力の終了を指示する操作がなされたことを検出しない場合（Ｓ４０５においてＮｏ）、制御部２０は、Ｓ４０１に戻り、上記の処理を繰り返す。

　以上のように本実施の形態の翻訳装置１は、音声メッセージにより、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。

　なお、本実施の形態における注意喚起のための音声メッセージの出力に関する制御を実施の形態１、２の翻訳装置に適用してもよい。

（実施の形態４）
　以下、本開示の別の実施の形態について説明する。音声処理装置１および音声処理システムの構成は、実施の形態３と同様である。

　実施の形態３の翻訳装置１は、スピーカ１２から注意喚起メッセージを出力することによって、発話者に過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置１は、図１２に示すように、注意喚起メッセージをディスプレイ１４に表示することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与える。

　図１３は、本実施の形態に係る翻訳装置１の動作を示すフローチャートである。図１２において、本変形例に係る、音声処理装置１は、図１１のステップＳ４０３およびＳ４０４の処理に代えて、ステップＳ４０３ａ、Ｓ４０３ｂ、Ｓ４０４ａおよびＳ４０４ｂの処理を行う。

　翻訳装置１の制御部２０は、音声を入力し（Ｓ４０１）、入力した音声のレベルを検出した（Ｓ４０２）後、単位期間内の入力レベルがしきい値を超える回数をカウントする（Ｓ４０３ａ）。当該回数が所定回数以下であると判断した場合（Ｓ４０３ａにてＹｅｓ）、制御部２０は、ディスプレイ１４に注意喚起メッセージを表示しない（Ｓ４０４ａ）。

　一方、単位期間内の入力レベルがしきい値を超える回数が所定回数を上回ると判断した場合（Ｓ４０３ｂにてＮｏ）、制御部２０は、注意喚起メッセージをディスプレイ１４に表示する（Ｓ４０４ｂ）。ステップＳ４０４ａまたはＳ４０４ｂの後、音声入力が終了したかどうかの処理を行う（Ｓ４０５）。注意喚起メッセージとしては、例えば、図１３に記載のように、ディスプレイ１４に「マイクから離れてください！」というメッセージが表示される。

　以上のように本実施の形態の翻訳装置１は、注意喚起メッセージの表示により、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。

　なお、本実施の形態における注意喚起メッセージの表示に関する制御を上記の実施の形態の翻訳装置に適用してもよい。

（他の実施の形態）
　以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

　上記の実施の形態では、翻訳装置１は、ホスト用とゲスト用として２つのマイクを備えたが、ホスト用とゲスト用を兼用した１つのマイクのみを備えてもよい。

　実施の形態１の翻訳装置１は、音声合成データの出力レベルを増幅する処理において、音声合成データの音質や音量への影響が少ない、所定のレベルを超える部分をカットして、所定の増幅レベルまで増幅したが、これに限定されない。例えば、音声合成データの音質に影響を与える部分を除去してもよい。

　上記の実施の形態において、音声合成データが示す音声における過大期間を判定するための所定レベルは固定であったが、当該所定レベルを、入力音声データの入力レベルに応じて変化させてもよい。例えば、信号レベルが大きいほど、所定レベルを大きく設定する。これにより、信号レベルの急激な変化のときも過大期間として判定するという効果を奏することができる。

　上記の実施の形態では、翻訳装置１は、外部の音声認識サーバ３、翻訳サーバ４及び音声合成サーバ５と連携しながら翻訳処理を実施したが、各サーバの機能は必ずしもクラウド上に設ける必要はない。翻訳装置１は、音声認識サーバ３、翻訳サーバ４及び音声合成サーバ５の機能のうちの少なくとも１つを実装しても良い。

　実施の形態１、２では、音声合成データが示す音声信号の増幅期間の信号レベルを増幅したが、増幅期間における音声信号を増幅せずに歪ませても良い。

　上記の実施の形態では、第１の言語を日本語とし、第２の言語を英語としたが、第１の言語と第２の言語の組み合わせは、これに限定されない。第１の言語と第２の言語の組み合わせは、日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、スペイン語、フランス語、ミャンマー語等を含む複数の言語群の中から任意に選択された２つの言語を含むことができる。

　上記の実施の形態では、音声処理装置の一例として翻訳装置を示したが、本開示の音声処理装置は翻訳装置に限定されるものではない。上記の実施の形態に開示した技術思想は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。例えば、店舗やホテル等での利用が想定される対話型の会話装置に適用することができる。

　上記の実施の形態では、出力音声変換部（２４）は、第１の出力音声信号において、増幅期間（第２期間）の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第２の出力音声信号を生成したが、第２期間の信号を楽器の音、動物の鳴き声および音響機器のノイズ音など入力音声信号に基づかない音信号に変換してもよい。つまり、出力音声変換部（２４）は、第１の出力音声信号において、第２期間の信号を、他の期間の信号処理と異なる信号処理を行って第２の出力音声信号を生成すればよい。これにより、翻訳装置１は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　従って、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略等を行うことができる。

　本開示は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。

Claims

　音声を入力し、入力音声信号を生成する入力部と、
　前記入力音声信号に基づき第１の出力音声信号を生成する処理部と、
　前記入力音声信号において信号レベルが所定レベルより大きい第１期間を検出するレベル検出部と、
　前記第１の出力音声信号において、前記第１期間に対応する第２期間の信号を、他の期間の信号処理と異なる信号処理を行って第２の出力音声信号を生成する出力音声変換部と、
　前記第２の出力音声信号に基づく音声を出力する出力部と、
を備えた音声処理装置。
　前記出力音声変換部は、前記第１の出力音声信号において、前記第２期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第２の出力音声信号を生成する
請求項１に記載の音声処理装置。
　前記出力音声変換部は、前記第１の出力音声信号において、前記第２期間の信号を前記入力音声信号に基づかない音信号に変換して前記第２の出力音声信号を生成する
請求項１に記載の音声処理装置。
　前記入力音声信号における前記第１期間の長さと、前記第２の出力音声信号における前記第２期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第１期間の開始時点までの長さと、前記第２の出力音声信号において、前記第２の出力音声信号の開始時点から前記第２期間の開始時点までの長さとが一致する
請求項１から３のいずれかに記載の音声処理装置。
　前記入力音声信号における全体の長さに対する前記第１期間の長さの比率と、前記第２の出力音声信号における全体の長さに対する前記第２期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第１期間の相対的な位置と、前記第２の出力音声信号の全体期間における前記第２期間の相対的な位置とが一致する
請求項１から３のいずれかに記載の音声処理装置。
　前記レベル検出部が前記第１期間を検出すると、過大な音量で音声が入力している旨の音声メッセージを、前記出力部から出力させる、警告部をさらに備える、請求項１から５のいずれかに記載の音声処理装置。
　ディスプレイおよび警告部をさらに備え、
　前記レベル検出部はさらに、単位期間内の前記入力音声信号において信号レベルが所定レベルを超えた回数を求め、
　前記回数が所定回数を上回ると判断した場合、前記警告部は、入力部から離れて音声を入力すべき旨を、前記ディスプレイに、表示させる、
請求項１から５のいずれかに記載の音声処理装置。
　前記レベル検出部は、前記入力音声信号における信号レベルに応じて、前記所定レベルを変化させる、請求項１から７のいずれかに記載の音声処理装置。
　第１の言語での発話内容を示す音声を入力し、入力音声信号を生成する入力部と、
　前記入力音声信号が示す発話内容を第２の言語の発話内容に翻訳した結果を示す音声信号である第１の出力音声信号を生成する翻訳部と、
　前記入力音声信号において信号レベルが所定レベルより大きい第１期間を検出するレベル検出部と、
　前記第１の出力音声信号において、前記第１期間に対応する第２期間の信号を、他の期間の信号処理と異なる信号処理を行って第２の出力音声信号を生成する出力音声変換部と、
　前記第２の出力音声信号に基づく音声を出力する出力部と、
を備えた翻訳装置。
　前記出力音声変換部は、前記第１の出力音声信号において、前記第２期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第２の出力音声信号を生成する
請求項９に記載の翻訳装置。
　前記出力音声変換部は、前記第１の出力音声信号において、前記第２期間の信号を前記入力音声信号に基づかない音信号に変換して前記第２の出力音声信号を生成する
請求項１に記載の翻訳装置。
　前記入力音声信号における前記第１期間の長さと、前記第２の出力音声信号における前記第２期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第１期間の開始時点までの長さと、前記第２の出力音声信号において、前記第２の出力音声信号の開始時点から前記第２期間の開始時点までの長さとが一致する
請求項１０に記載の翻訳装置。
　前記入力音声信号における全体の長さに対する前記第１期間の長さの比率と、前記第２の出力音声信号における全体の長さに対する前記第２期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第１期間の相対的な位置と、前記第２の出力音声信号の全体期間における前記第２期間の相対的な位置とが一致する
請求項１０に記載の翻訳装置。