JP6238181B1

JP6238181B1 - 拡声装置およびその制御方法

Info

Publication number: JP6238181B1
Application number: JP2016196992A
Authority: JP
Inventors: 良彦竹井; 好男一柳; 明夫上杉; 功二森; 和之田中
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-10-05
Filing date: 2016-10-05
Publication date: 2017-11-29
Anticipated expiration: 2036-10-05
Also published as: JP2018060043A

Abstract

【課題】ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力できるようにする。【解決手段】ユーザが発話した音声を収音するマイク３と、マイクで収音した原音声を録音する録音部３１と、原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部２６と、原音声、原言語の合成音声および他言語の合成音声をスピーカから出力する音声出力部２７と、ユーザ設定情報に基づいて、原言語の音声として原音声と原言語の合成音声とのいずれかを出力するように制御する出力制御部３６と、を備える。【選択図】図３

Description

本発明は、ユーザが発話した音声を出力する拡声装置およびその制御方法に関するものである。

災害時などの避難の誘導、警備のための案内や誘導、業務の指示などに関するメッセージを多数の人物に同時に報知するため、ユーザが発話した音声を増幅して出力する拡声装置が使用されている。

一方、空港、駅、ホテル、観光地などでは外国人旅行者が多数滞在し、また、工場、倉庫、工事現場などでは外国人労働者が多数働いており、このように外国人が多数滞在する場所では、必要なメッセージを外国人に理解可能な外国語の音声で報知することが望まれる。

このような必要なメッセージを外国語の音声で報知することに関する技術として、従来、複数のメッセージの候補を予め登録しておき、その複数のメッセージの候補の中から適切なメッセージをユーザが選択することで、選択されたメッセージに対応する外国語の音声が出力されるようにした技術が知られている（特許文献１参照）。

特開２０１４−０４４３４９号公報

しかしながら、前記従来の技術では、予め登録されたメッセージの中から適切なものを選択して出力するものであるため、現場が想定外の状況で、登録されたメッセージの中に現場の状況に適したものがない場合には、役に立たないという問題があり、現場の状況に応じた適宜なメッセージを外国語の音声で出力することができる構成が望まれる。

また、ユーザが発話した音声を録音して、その音声を外国語の音声とともに繰り返し出力するようにするとよい。このとき、現場の状況などに応じて、録音した原音声をそのまま出力することが望ましい場合や、原音声の音声認識により取得した文字情報から生成した合成音声を出力することが望ましい場合がある。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には、原音声をそのまま出力することが望ましいが、通常時の案内では、違和感をなくすため、各言語の音声を合成音声で統一することが望ましい。

そこで、本発明は、現場の状況などに応じて、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる拡声装置およびその制御方法を提供することを主な目的とする。

本発明の拡声装置は、ユーザが発話した音声を出力する拡声装置であって、ユーザが発話した音声を収音するマイクと、前記マイクで収音した原音声を録音する録音部と、前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、を備える構成とする。

また、本発明の制御方法は、ユーザが発話した音声を出力する拡声装置の制御方法であって、ユーザが発話した音声をマイクで収音し、前記マイクで収音した原音声を録音し、原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力する構成とする。

本発明によれば、原言語の音声として、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とのいずれかを、現場の状況などに応じてユーザが適宜に切り換えて出力することができる。

本実施形態に係る拡声装置１の側面図拡声装置１の概略構成を示すブロック図制御部６で行われる処理の概略を示す説明図表示入力パネル９に表示される定型文表示画面を示す説明図表示入力パネル９に表示される出力音声設定画面を示す説明図表示入力パネル９に表示されるギャップ設定画面を示す説明図再生時の音声の出力状況を示す説明図拡声装置１の動作手順を示すフロー図音声出力（ＳＴ１１４）での動作手順を示すフロー図音声出力（ＳＴ１１４）での動作手順を示すフロー図音声出力（ＳＴ１１４）での動作手順を示すフロー図

前記課題を解決するためになされた第１の発明は、ユーザが発話した音声を出力する拡声装置であって、ユーザが発話した音声を収音するマイクと、前記マイクで収音した原音声を録音する録音部と、前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、を備える構成とする。

これによると、原言語の音声として、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とのいずれかを、現場の状況などに応じてユーザが適宜に切り換えて出力することができる。

また、第２の発明は、前記出力制御部は、前記合成音声を出力する場合に、ユーザ設定情報に基づいて、女性合成音声と男性合成音声とのいずれかを出力するように制御する構成とする。

これによると、現場の状況などに応じてユーザが適宜に性別を切り換えて合成音声を出力することができるため、ユーザの利便性を高めることができる。

また、第３の発明は、前記出力制御部は、前記原言語の音声に続けて、ユーザが指定した順番で複数の前記他言語の合成音声を出力するように制御する構成とする。

これによると、現場に滞在する外国人の割合などに応じて、他言語の合成音声を出力させる順番をユーザが指定することができるため、ユーザの利便性を高めることができる。

また、第４の発明は、前記音声出力部は、前記原言語の音声および前記他言語の音声を出力する際に、各言語の音声の間に、ユーザが指定した長さの無音期間を挿入する構成とする。

これによると、各言語の音声が聞き取りやすくなる。

また、第５の発明は、さらに、前記原音声の特徴情報を取得する音声解析部と、前記原音声および前記他言語の合成音声を出力する場合に、前記原音声と前記他言語の合成音声とで音声の特徴を一致させる処理を行う音声調整部と、を備える構成とする。

これによると、拡声装置から連続して出力される音声（原音声および多言語の合成音声）の特徴が共通化されるので、聴く人物に与える違和感を低減することができる。

また、第６の発明は、前記音声調整部は、前記原音声と前記他言語の合成音声とで、音声の性別、テンポ、音量および高さの少なくとも一つを一致させる構成とする。

また、第７の発明は、ユーザが発話した音声を出力する拡声装置の制御方法であって、ユーザが発話した音声をマイクで収音し、前記マイクで収音した原音声を録音し、原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力する構成とする。

これによると、第１の発明と同様に、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる。

以下、本発明の実施の形態を、図面を参照しながら説明する。

図１は、本実施形態に係る拡声装置１の側面図である。

この拡声装置１では、筐体２の内部に、マイク３と、音声切換部５と、制御部６と、アンプ７と、スピーカ８と、表示入力パネル９と、が収容されている。また、筐体２の下部には、ユーザが把持するグリップ１０が取り付けられている。筐体２におけるスピーカ８の前側には、円錐形状のホーン部１１が設けられている。なお、筐体２の内部には電池(図示せず)も収容されている。

マイク３は、ユーザが発話する音声を収音する。

制御部６は、マイク３で収音した原音声を録音する処理や、録音した原音声を文字情報に変換する処理（音声認識）や、原音声の文字情報（原文）と類似する定型文を探し出す処理（検索）や、定型文の文字情報から合成音声を生成する処理（音声合成）や、合成音声や原音声を再生する処理などを行う。

音声切換部５は、メガホンモード（第１の動作モード）での音声パス（音声の経路）と、翻訳モード（第２の動作モード）での音声パスとを切り換える。アンプ７は、音声切換部５から出力される音声を増幅する。スピーカ８は、アンプ７で増幅された音声を出力する。

メガホンモードでは、マイク３で収音した原音声をそのままアンプ７で増幅してスピーカ８で出力する。翻訳モードでは、マイク３で収音した原音声を制御部６に入力して、制御部６で生成した合成音声や原音声をアンプ７で増幅してスピーカ８で出力する。

筐体２の側面には、モード切換スイッチ１２が設けられている。このモード切換スイッチ１２は、メガホンモードと翻訳モードとを切り換えるものであり、モード切換スイッチ１２の操作に応じて、音声切換部５においてメガホンモードでの音声パスと翻訳モードでの音声パスとが切り換えられる。

表示入力パネル９（表示部、入力部）は、タッチパネルと液晶ディスプレイとを組み合わせた、いわゆるタッチパネルディスプレイで構成され、画面を上向きにした状態で、筐体２の上部に形成された凸部１８に収容されている。

凸部１８の側面には電源スイッチ１３が設けられている。

グリップ１０の手前側には、録音スイッチ１４と、音量調整スイッチ１５とが設けられている。グリップ１０の逆側には、出力スイッチ１６と、ロックスイッチ１７と、が設けられている。ユーザは、一方の手でグリップ１０を把持した状態で、その手の親指で録音スイッチを操作し、また、人差し指で出力スイッチを操作することができる。

録音スイッチ１４は、マイク３で収音した音声の録音を指示するものである。音量調整スイッチ１５は、スピーカ８から出力される音声の音量を調整するものである。

出力スイッチ１６は、メガホンモードでは、アンプ７を動作させる操作を行うものとなり、出力スイッチ１６を押下すると、マイク３で収音された原音声がアンプ７で増幅して出力される。一方、翻訳モードでは、出力スイッチ１６は、アンプ７を動作させるとともに音声の再生を制御部６に指示する操作を行うものとなり、出力スイッチ１６を押下すると、制御部６で音声が再生されて、その音声がアンプ７で増幅されて出力される。このとき、出力スイッチ１６を押下し続けることで、音声が繰返し再生される。

ロックスイッチ１７は、出力スイッチ１６を押下状態に保持するものである。これにより、出力スイッチ１６をユーザが押下し続けなくても音声の出力を継続させることができる。

なお、モード切換スイッチ１２はロッカースイッチであり、録音スイッチ１４および出力スイッチ１６は押ボタンスイッチであり、音量調整スイッチ１５はロータリースイッチである。

次に、拡声装置１の概略構成について説明する。図２は、拡声装置１の概略構成を示すブロック図である。図３は、制御部６で行われる処理の概略を示す説明図である。

モード切換スイッチ１２の信号が音声切換部５に入力される。この音声切換部５は、モード切換スイッチ１２の操作に応じて、メガホンモードでの音声パスと翻訳モードでの音声パスとを切り換えるものであり、入力切換部２１と、出力切換部２２と、を備えている。入力切換部２１では、マイク３から出力される音声を、出力切換部２２側および制御部６側のいずれかに出力する。出力切換部２２では、入力切換部２１および制御部６のいずれかから入力される音声をアンプ７側に出力する。

音声切換部５と制御部６との間にはレベル調整部２３が設けられている。このレベル調整部２３では、音声切換部５の入力切換部２１から出力される音声のレベルが調整される。

音量調整スイッチ１５の信号が音量調整部２４に入力される。この音量調整部２４は、音声切換部５とアンプ７との間に設けられている。この音量調整部２４では、音量調整スイッチ１５の操作に応じて、音声切換部５の出力切換部２２から出力される音声の音量が調整される。

出力スイッチ１６の信号がアンプ７に入力される。出力スイッチ１６は、アンプ７への給電を断続するスイッチとして機能し、メガホンモードにおいて出力スイッチ１６が押下されると、アンプ７が通電して音声出力状態となり、マイク３から入力される原音声がアンプ７で増幅されて出力される。一方、翻訳モードにおいて出力スイッチ１６が押下されると、アンプ７が通電して音声出力状態になるとともに、再生部３５で音声が再生されて、再生部３５から出力される音声がアンプ７で増幅されて出力される。

記憶部２５は、制御部６において、ユーザが発話する音声を録音した原音声や、原音声の音声認識により取得した原文や、定型文の文字情報から変換された合成音声を一時記憶する。また、記憶部２５は、定型文データベースを記憶する。この定型文データベースには、多数の定型文が登録されている。

また、記憶部２５は、表示入力パネル９に表示された設定画面上でユーザが入力した情報をユーザ設定情報として記憶する。本実施形態では、ユーザ設定情報として、原言語の音声として原音声を出力するか否かに関する情報や、合成音声の性別（女性または男性）に関する情報や、複数の他言語（英語、中国語など）の音声を出力する順番に関する情報が記憶される。

制御部６は、録音部３１と、音声認識部３２と、検索部３３と、音声合成部３４と、再生部３５と、出力制御部３６と、音声解析部３７と、音声調整部３８と、を備えている。この制御部６は、プロセッサで構成され、制御部６の各部は、記憶部２５に記憶されたプログラムを実行することで実現される。

なお、音声認識部３２、検索部３３、および音声合成部３４で合成音声取得部２６が構成される。また、再生部３５、アンプ７およびスピーカ８で音声出力部２７が構成される（図３参照）。

この制御部６には、モード切換スイッチ１２の信号、録音スイッチ１４の信号、および出力スイッチ１６の信号が入力される。

録音部３１は、レベル調整部２３から出力される原音声を録音する。この録音処理では、音声信号（アナログ信号）を音声データにＡ／Ｄ変換して記憶部２５に記憶させる。録音部３１では、録音スイッチ１４が押下されると、録音処理が開始され、録音スイッチ１４がリリースされると、録音処理を終了する。

音声認識部３２は、録音部３１で録音された原音声を文字情報に変換する音声認識を行い、この音声認識結果として、原文（原音声の文字情報）を取得する。この原文は記憶部２５に一時記憶される。

検索部３３は、定型文データベースに登録された原言語（例えば、日本語）の定型文の中から、原文と類似度が最も高い定型文を探し出す（図３参照）。

音声合成部３４は、原言語の定型文を定型文データベースから取得して、その原言語（例えば、日本語）の定型文の文字情報から音声合成により原言語の合成音声を生成する。他言語の定型文を定型文データベースから取得して、その他言語（例えば、英語、中国語など）の定型文の文字情報から音声合成により他言語の合成音声を生成する。この音声合成部３４で生成した合成音声は記憶部２５に一時記憶される。

出力制御部３６は、出力スイッチ１６が押下されると、音声の出力を開始し、出力スイッチ１６がリリースされると、音声の出力を停止するように制御する。このとき、出力制御部３６は、検索部３３で取得した原言語の定型文およびこれに対応する他言語の定型文の音声合成を音声合成部３４に指示し、さらに、音声合成部３４で生成した合成音声の再生を再生部３５に指示する（図３参照）。また、出力制御部３６は、ユーザ設定情報に基づいて、原言語の音声に続けて、ユーザが指定した順番で複数の他言語の合成音声を出力するように、音声合成部３４および再生部３５に指示する。

また、出力制御部３６は、ユーザ設定情報に基づいて、原言語の音声として原音声と原言語（例えば、日本語）の合成音声とのいずれかを出力するように制御する。ここで、原音声を出力する場合には、原音声を記憶部２５から取得して、原音声の再生を再生部３５に指示する（図３参照）。一方、原言語の合成音声を出力する場合には、原言語の定型文を記憶部２５から取得して、原言語の定型文の音声合成を音声合成部３４に指示し、さらに、音声合成部３４で生成した原言語の合成音声の再生を再生部３５に指示する（図３参照）。

なお、原音声を出力する場合には、マイク３で収音されたユーザの発話した音声(例えば、「こちらで物資を配ります。」)そのものが出力されるが、原言語の合成音声を出力する場合には、記憶部２５に記憶される原言語の定型文から、ユーザの発話した音声に類似度が最も高い定型文（例えば、「こちらで物資を配布しております。」）を取得し、この定型文の音声合成が出力されるので、ユーザが実際に発話した音声の内容と多少異なる可能性がある。

また、出力制御部３６は、合成音声を出力する場合に、ユーザ設定情報に基づいて、女性合成音声と男性合成音声とのいずれかを出力するように制御する。女性合成音声を出力する場合には、女性音声合成を生成するように音声合成部３４に指示し、男性合成音声を出力する場合には、男性合成音声を生成するように音声合成部３４に指示する。

再生部３５は、録音部３１で録音された原音声、および音声合成部３４で生成した合成音声を再生する。この再生処理では、原音声および合成音声のデータを音声信号（アナログ信号）にＤ／Ａ変換する処理が行われる。なお、原音声および合成音声は記憶部２５に一時記憶されており、出力スイッチ１６が押下されている状態では、原言語の音声（原音声または合成音声）および他言語の合成音声が所定の順番で連続して繰り返し再生される。

また、再生部３５は、原言語の音声（原音声または合成音声）および他言語の音声を出力する際に、各言語の音声の間に、ユーザが指定した長さのギャップ（無音期間）を挿入する。このギャップ（無音期間）も、ユーザの指定に基づいてユーザ設定情報として記憶しておき、出力制御部３６から再生部３５に通知させるようにするとよい。

音声解析部３７は、記憶部２５から原音声を取得して、原音声の特徴情報を取得する。本実施形態では、原音声の特徴情報として、性別（男声または女声）、テンポ（スピード）、音量、高さ（トーン）に関する情報を取得する。

音声調整部３８は、原音声と他言語の合成音声とを出力する場合に、原音声と合成音声との間で音声の特徴を一致させる処理を行う。本実施形態では、音声の特徴として、性別（男声または女声）、テンポ（スピード）、音量、高さ（トーン）の少なくともいずれかに関する調整を行う。

また、本実施形態では、合成音声を原音声に合わせるモードと、原音声を合成音声に合わせるモードとがあり、いずれかのモードをユーザが選択することができる。合成音声を原音声に合わせるモードでは、合成音声の性別、テンポ、音量および高さが原音声に一致するように、音声合成部３４において、原音声の特徴情報に基づいて合成音声を生成する。原音声を合成音声に合わせるモードでは、合成音声の初期設定で採用されている標準的なテンポ、音量、高さに原音声が一致するように、原音声を音声変換する。

このように原音声と合成音声とで音声の特徴を一致させるようにすると、拡声装置１から連続して出力される音声（原音声および合成音声）の特徴が共通化されるので、聴く人物に与える違和感を低減することができる。

次に、表示入力パネル９に表示される定型文表示画面について説明する。図４は、定型文表示画面を示す説明図である。

この定型文表示画面には、定型文表示部４１が設けられている。本実施形態では、検索部３３において、ユーザが発話した原音声の音声認識により生成される原文と類似度が最も高い定型文が検索され、ここで見つかった原言語（日本語）の定型文が、定型文表示部４１に表示される。

また、この定型文表示画面には、再生順序表示部４２が設けられている。この再生順序表示部４２には、ユーザ設定情報に基づいて、原言語（日本語）および他言語（英語、中国語、韓国語など）の再生順序が表示される。また、再生順序表示部４２には、国旗アイコン４３が設けられており、この国旗アイコン４３を操作することで、他言語の文字情報が定型文表示部４１に表示される。なお、ユーザによる再生順序の設定は設定画面（図示せず）で行われる。

この定型文表示画面が表示されている状態で出力スイッチ１６を押下すると、この定型文表示画面に表示された定型文に関する原言語の音声および他言語の音声が、再生順序表示部４２に表示された順序で出力される。

次に、表示入力パネル９に表示される出力音声設定画面について説明する。図５は、出力音声設定画面を示す説明図である。

この出力音声設定画面には、出力音声選択部５１が設けられている。この出力音声選択部５１には、２つのラジオボタン５２が設けられており、このラジオボタン５２の操作により、女性合成音声を出力するモードと、男性合成音声を出力するモードとのいずれかをユーザが選択することができる。また、出力音声選択部５１には、チェックボックス５３が設けられており、このチェックボックス５３の操作により、原言語（日本語）の音声において原音声を優先して出力するか否かをユーザが選択することができる。

また、この出力音声設定画面には、音声調整選択部５４が設けられている。この音声調整選択部５４には、チェックボックス５５が設けられており、このチェックボックス５５の操作により、音声調整を行うか否かをユーザが選択することができる。また、音声調整選択部５４には、２つのラジオボタン５６が設けられており、このラジオボタン５６の操作により、音声調整時に合成音声を原音声に合わせるか、原音声を合成音声に合わせるかをユーザが選択することができる。

また、この出力音声設定画面には、キャンセルボタン５７と、ＯＫボタン５８とが設けられている。キャンセルボタン５７を操作すると、出力音声選択部５１および音声調整選択部５４でユーザが選択した内容を破棄して、設定メニュー画面（図示せず）に戻る。ＯＫボタン５８を操作すると、出力音声選択部５１および音声調整選択部５４でユーザが選択した内容で記憶部２５のユーザ設定情報が更新されて、設定メニュー画面（図示せず）に戻る。

このように本実施形態では、原言語の音声として、ユーザが発話した音声を録音した原音声と、原音声に対応する定型文の文字情報から音声合成された合成音声とのいずれかをユーザが選択して出力することができる。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には、原音声を出力するように設定するとよい。また、通常時の案内では、違和感をなくすため、原言語の音声として合成音声を選択して、各言語の音声を合成音声で統一するとよい。

また、本実施形態では、合成音声の性別（男声または女声）をユーザが選択することができる。このため、使用状況に適した性別の合成音声を出力することができる。例えば、緊急時の避難誘導で緊迫感を出す必要がある場合には男性の声を選択するとよく、また、通常時の案内などの場合には女性の声を選択するとよい。

また、本実施形態では、音声調整を行うか否かをユーザが選択することができ、さらに、合成音声を原音声に合わせるか、原音声を合成音声に合わせるかをユーザが選択することができる。このため、使用状況に適した音声を出力することができる。例えば、原音声が早口である場合には、聞き取りやすいように、原音声のテンポを遅くしたり、また、逆に、緊急を要する場面では、緊迫感が損なわれないように、合成音声を原音声に合わせて合成音声のテンポを速くしたりすることができる。

次に、表示入力パネル９に表示されるギャップ設定画面について説明する。図６は、ギャップ設定画面を示す説明図である。

このギャップ設定画面には、複数のラジオボタン６１が設けられており、このラジオボタン６１の操作により、音声を出力する際に各言語の音声の間に挿入されるギャップ（無音期間）の長さ（ギャップ時間）をユーザが選択することができる。図６に示す例では、ラジオボタン６１が４つ設けられており、０．５秒、１．０秒、２．０秒および３．０秒のいずれかを選択することができる。

また、このギャップ設定画面には、キャンセルボタン６２と、ＯＫボタン６３とが設けられている。キャンセルボタン６２を操作すると、ユーザが選択した内容を破棄して、設定メニュー画面（図示せず）に戻る。ＯＫボタン６３を操作すると、ユーザが選択した内容で記憶部２５のユーザ設定情報が更新されて、設定メニュー画面（図示せず）に戻る。

次に、再生時の音声の出力状況について説明する。図７は、再生時の音声の出力状況を示す説明図である。

本実施形態では、原音声を優先して出力するか否か、および女性および男性のいずれの合成音声を出力するかをユーザが選択することができ、この情報がユーザ設定情報として記憶部２５に記憶され、音声を出力する際には、ユーザ設定情報に基づいて、必要な音声合成処理を行って、各言語の音声が順に出力される。なお、図７は、原言語として日本語、他言語として英語および中国語を選択した例である。

ここで、原音声を優先し、かつ、女性合成音声を出力するように設定されている場合には、図７（Ａ）に示すように、原音声（日本語）、英語の女性合成音声、中国語の女性合成音声が順に出力される。また、原音声を優先し、かつ、男性合成音声を出力するように設定されている場合には、図７（Ｂ）に示すように、原音声（日本語）、英語の男性合成音声、中国語の男性合成音声が順に出力される。

また、原音声を優先せず、かつ、女性合成音声を出力するように設定されている場合には、図７（Ｃ）に示すように、日本語の女性合成音声、英語の女性合成音声、中国語の女性合成音声が順に出力される。また、原音声を優先せず、かつ、男性合成音声を出力するように設定されている場合には、図７（Ｄ）に示すように、日本語の男性合成音声、英語の男性合成音声、中国語の男性合成音声が順に出力される。

また、各言語の音声を出力する際には、各言語の音声の間に、ユーザが指定した長さのギャップ（無音期間）が挿入される。このため、各言語の音声が聞き取りやすくなる。

次に、拡声装置１の動作について説明する。図８は、拡声装置１の動作手順を示すフロー図である。

拡声装置１では、まず、モード切換スイッチ１２が翻訳モードの状態でない、すなわち、メガホンモードの状態であれば（ＳＴ１０１でＮｏ）、音声切換部５が、マイク３で収音した原音声をそのまま出力する状態となり、ここで、出力スイッチ１６が押下されると（ＳＴ１０２でＹｅｓ）、アンプ７が音声出力状態となり、原音声の出力を開始する（ＳＴ１０３）。このとき、ユーザが発話した原音声がそのままアンプ７で増幅されてスピーカ８から出力される。そして、出力スイッチ１６が戻されると（ＳＴ１０４でＹｅｓ）、原音声の出力を停止する（ＳＴ１０５）。なお、出力スイッチ１６が押下されていない場合には（ＳＴ１０２でＮｏ）、特別な動作は行われない。

一方、モード切換スイッチ１２が翻訳モードの状態である場合には（ＳＴ１０１でＹｅｓ）、次に、制御部６において、録音スイッチ１４が押下されているか否かを判定する（ＳＴ１０６）。ここで、録音スイッチ１４が押下されている場合には（ＳＴ１０６でＹｅｓ）、録音部３１において、マイク３で収音した原音声を録音する処理を開始する（ＳＴ１０７）。このとき、バイブレーションや通知音で、録音が開始されたことをユーザに通知するようにしてもよい。そして、録音スイッチ１４が戻されると（ＳＴ１０８でＹｅｓ）、録音を停止する（ＳＴ１０９）。

次に、音声認識部３２において、録音した原音声を文字情報に変換する音声認識が行われる（ＳＴ１１０）。次に、検索部３３において、原文（原音声の文字情報）に最も類似する定型文を探し出す検索が行われる（ＳＴ１１１）。そして、検索部３３で見つかった定型文を表示する定型文表示画面（図４参照）を表示入力パネル９に表示する（ＳＴ１１２）。

次に、出力スイッチ１６が押下されているか否かを判定する（ＳＴ１１３）。ここで、出力スイッチ１６が押下されている場合には（ＳＴ１１３でＹｅｓ）、音声合成部３４において、定型文から合成音声を生成し、再生部３５において、合成音声を再生する処理が開始され、合成音声がスピーカ８から出力される（ＳＴ１１４）。このとき、再生部３５において、各言語の音声が順に繰り返し再生される。そして、出力スイッチ１６が戻されると（ＳＴ１１５でＹｅｓ）、音声の出力を停止する（ＳＴ１１６）。

次に、音声出力（ＳＴ１１４）での動作手順について説明する。図９、図１０および図１１は、音声出力（ＳＴ１１４）での動作手順を示すフロー図である。なお、ここでは、原言語として日本語、他言語を英語および中国語とした例を示す。

音声出力（ＳＴ１１４）では、まず、図９に示すように、制御部６において、ユーザ設定情報に基づいて、音声調整を行う設定であるか否かを判定する（ＳＴ２０１）。

ここで、音声調整を行う設定でない場合には（ＳＴ２０１でＮｏ）、次に、原音声を優先して出力する設定か否かを判定する（ＳＴ２０２）。ここで、原音声を優先して出力する設定である場合には（ＳＴ２０２でＹｅｓ）、次に、女性合成音声を出力する設定か否かを判定する（ＳＴ２０３）。

ここで、女性合成音声を出力する設定である場合には（ＳＴ２０３でＹｅｓ）、まず、記憶部２５から原音声を取得して、音声出力部２７において原音声を出力する（ＳＴ２０４）。ついで、ユーザが出力対象として指定した定型文の英語テキスト（英語の文字情報）を定型文データベースから取得して、音声合成部３４において英語テキストから女性合成音声を生成して、音声出力部２７において女性合成音声を出力する（ＳＴ２０５）。ついで、定型文データベースから中国語テキスト（中国語の文字情報）を取得して、その中国語テキストから女性合成音声を生成して出力する（ＳＴ２０６）。

一方、女性合成音声を出力する設定でない、すなわち、男性合成音声を出力する設定である場合には（ＳＴ２０３でＮｏ）、まず、記憶部２５から原音声を取得して、その原音声を出力する（ＳＴ２０７）。ついで、定型文データベースから英語テキストを取得して、その英語テキストから男性合成音声を生成して出力する（ＳＴ２０８）。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから男性合成音声を生成して出力する（ＳＴ２０９）。

また、原音声を優先して出力する設定でない場合には（ＳＴ２０２でＮｏ）、図１０に示すように、次に、女性合成音声を出力する設定か否かを判定する（ＳＴ２１０）。

ここで、女性合成音声を出力する設定である場合には（ＳＴ２１０でＹｅｓ）、まず、ユーザが出力対象として指定した定型文の日本語テキスト（日本語の文字情報）を定型文データベースから取得して、その日本語テキストから女性合成音声を生成して出力する（ＳＴ２１１）。ついで、定型文データベースから英語テキストを取得して、その英語テキストから女性合成音声を生成して出力する（ＳＴ２１２）。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから女性合成音声を生成して出力する（ＳＴ２１３）。

一方、女性合成音声を出力する設定でない、すなわち、男性合成音声を出力する設定である場合には（ＳＴ２１０でＮｏ）、まず、ユーザが出力対象として指定した定型文の日本語テキストを定型文データベースから取得して、その日本語テキストから男性合成音声を生成して出力する（ＳＴ２１４）。ついで、定型文データベースから英語テキストを取得して、その英語テキストから男性合成音声を生成して出力する（ＳＴ２１５）。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから男性合成音声を生成して出力する（ＳＴ２１６）。

また、図９に示したように、音声調整を行う設定である場合には（ＳＴ２０１でＹｅｓ）、図１１に示すように、次に、音声解析部３７において、原音声の特徴（性別、テンポ、音量および高さ）を検出する（ＳＴ２１７）。

次に、音声調整部３８において、ユーザ設定情報に基づいて、合成音声を原音声に合わせる設定であるか否かを判定する（ＳＴ２１８）。

ここで、合成音声を原音声に合わせる設定である場合には（ＳＴ２１８でＹｅｓ）、まず、記憶部２５から原音声を取得して、音声出力部２７において原音声を出力する（ＳＴ２１９）。ついで、定型文データベースから英語テキストを取得して、音声合成部３４において、原音声の性別、テンポ、音量および高さに合うように、英語テキストから合成音声を生成して、音声出力部２７において合成音声を出力する（ＳＴ２２０）。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから原音声の性別、テンポ、音量および高さに合うように合成音声を生成して、その合成音声を出力する（ＳＴ２２１）。

一方、合成音声を原音声に合わせる設定でない、すなわち、原音声を合成音声に合わせる設定である場合には（ＳＴ２１８でＮｏ）、記憶部２５から原音声情報を取得して、合成音声に関する初期設定で採用されている標準のテンポ、音量および高さになるように原音声を変換して、その原音声を出力する（ＳＴ２２２）。ついで、定型文データベースから英語テキストを取得して、その英語テキストから、原音声の性別で合成音声を生成して、その合成音声する出力する（ＳＴ２２３）。ついで、定型文データベースから中国語テキストを取得して、その中国語テキストから、原音声の性別で合成音声を生成して、その合成音声を出力する（ＳＴ２２４）。

なお、本実施形態では、原音声を合成音声に合わせる設定である場合に、性別以外の特徴（テンポ、音量および高さ）が、合成音声に関する初期設定で採用されている標準の音声生成条件に合うように原音声の音声調整を行うようにして、性別に関しては、原音声の性別で合成音声を生成するようにしたが、原音声の音声変換により、初期設定の性別（例えば女性）や、ユーザが指定した性別の音声に変換するようにしてもよい。この場合、他言語（英語、中国語）の合成音声も、初期設定の性別やユーザが指定した性別で生成するようにする。

また、音声の特徴を原音声と合成音声とで一致させるために、合成音声を原音声に合わせたり、原音声を合成音声に合わせたりするようにしたが、原音声および合成音声の双方を、所定の特徴の音声に合わせるようにしてもよい。

以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。

例えば、前記の実施形態では、ユーザが発話する音声の音声認識により取得した原文と類似度の高い原言語（日本語）の定型文を検索して、その原言語の定型文に対応する他言語の定型文を取得して、その他言語の定型文から他言語の合成音声を生成するようにしたが、翻訳エンジンを用いて原文を翻訳することで他言語の文章を取得して、その他言語の文章から他言語の合成音声を生成するようにしてもよい。

また、前記の実施形態では、合成音声取得（音声認識、検索、音声合成）、音声解析、および音声調整などの各処理を拡声装置１で行うようにしたが、拡声装置１から必要な情報（例えば原音声）をサーバ装置に送信して、サーバ装置において、前記の各処理の全てあるいは一部を行うようにしてもよい。また、前記の翻訳エンジンを用いた文字翻訳をサーバ装置に行わせるようにしてもよい。

本発明に係る拡声装置およびその制御方法は、現場の状況などに応じて、ユーザが発話した音声を録音した原音声と、その原音声から生成される原言語の合成音声とをユーザが適宜に切り替えて出力することができる効果を有し、ユーザが発話した音声を出力する拡声装置およびその制御方法などとして有用である。

１拡声装置
３マイク
６制御部
７アンプ
８スピーカ
１４録音スイッチ
１６出力スイッチ
２５記憶部
２６合成音声取得部
２７音声出力部
３１録音部
３２音声認識部
３３検索部
３４音声合成部
３５再生部
３６出力制御部
３７音声解析部
３８音声調整部

Claims

ユーザが発話した音声を出力する拡声装置であって、
ユーザが発話した音声を収音するマイクと、
前記マイクで収音した原音声を録音する録音部と、
前記原音声に対応する原言語の合成音声および他言語の合成音声を取得する合成音声取得部と、
前記原音声、前記原言語の合成音声および前記他言語の合成音声をスピーカから出力する音声出力部と、
ユーザ設定情報に基づいて、原言語の音声として前記原音声と前記原言語の合成音声とのいずれかを出力するように制御する出力制御部と、
を備えることを特徴とする拡声装置。
前記出力制御部は、前記合成音声を出力する場合に、ユーザ設定情報に基づいて、女性合成音声と男性合成音声とのいずれかを出力するように制御することを特徴とする請求項１に記載の拡声装置。
前記出力制御部は、前記原言語の音声に続けて、ユーザが指定した順番で複数の前記他言語の合成音声を出力するように制御することを特徴とする請求項１または請求項２に記載の拡声装置。
前記音声出力部は、前記原言語の音声および前記他言語の音声を出力する際に、各言語の音声の間に、ユーザが指定した長さの無音期間を挿入することを特徴とする請求項１から請求項３のいずれかに記載の拡声装置。
さらに、前記原音声の特徴情報を取得する音声解析部と、
前記原音声および前記他言語の合成音声を出力する場合に、前記原音声と前記他言語の合成音声とで音声の特徴を一致させる処理を行う音声調整部と、を備えることを特徴とする請求項１から請求項４のいずれかに記載の拡声装置。
前記音声調整部は、前記原音声と前記他言語の合成音声とで、音声の性別、テンポ、音量および高さの少なくとも一つを一致させることを特徴とする請求項５に記載の拡声装置。
ユーザが発話した音声を出力する拡声装置の制御方法であって、
ユーザが発話した音声をマイクで収音し、
前記マイクで収音した原音声を録音し、
原言語の音声として前記原音声が選択されている場合には、前記原音声をスピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力し、
前記原言語の音声として合成音声が選択されている場合には、前記原音声に対応する原言語の合成音声を取得して、その原言語の合成音声を前記スピーカから出力し、続いて、前記原音声に対応する他言語の合成音声を取得して、その他言語の合成音声を前記スピーカから出力することを特徴とする制御方法。