JP7485038B2 - 音声生成装置、音声生成方法及び音声生成プログラム - Google Patents

音声生成装置、音声生成方法及び音声生成プログラム Download PDF

Info

Publication number
JP7485038B2
JP7485038B2 JP2022531317A JP2022531317A JP7485038B2 JP 7485038 B2 JP7485038 B2 JP 7485038B2 JP 2022531317 A JP2022531317 A JP 2022531317A JP 2022531317 A JP2022531317 A JP 2022531317A JP 7485038 B2 JP7485038 B2 JP 7485038B2
Authority
JP
Japan
Prior art keywords
voice
user
unit
level
familiarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022531317A
Other languages
English (en)
Other versions
JPWO2021260844A1 (ja
Inventor
妙 佐藤
昭宏 千葉
真奈 笹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021260844A1 publication Critical patent/JPWO2021260844A1/ja
Application granted granted Critical
Publication of JP7485038B2 publication Critical patent/JP7485038B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M21/00Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Anesthesiology (AREA)
  • Psychology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Hematology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Traffic Control Systems (AREA)

Description

本実施形態は、音声生成装置、音声生成方法及び音声生成プログラムに関する。
人が眠気を全く感じずに日中を過ごすことは難しい。これは、人の脳機能がウルトラディアンリズムという短い周期での覚醒度の変動リズムを有しているためである。非特許文献1及び2では、睡眠は覚醒とは対極にある状態であると説明されている。そして、睡眠から興奮に至る覚醒の程度を表す指標が覚醒水準である。また、非特許文献2では、「眠気」は、中程度の覚醒水準よりも覚醒水準が低くなっている状態であると定義されている。在宅勤務といった遠隔環境での業務、遠隔授業等で、眠気を感じたとしても、なるべく短時間で覚醒水準を上昇させることが求められている。
吉尾 雅春,"覚醒水準", 理学療法ジャーナル, 37巻12号 北島 洋樹ら,"自動車運転時の眠気の予測手法についての研究:第1報, 眠気表情の評定法と眠気変動の予測に有効な指標について",日本機械学会論文集 C編,1997年63巻613号p. 3059-3066 石田龍也ら,"温度センサを用いた話者特定によるカクテルパーティ効果支援システムの提案とフィジビリティ検証実験", 第33回ファジィシステムシンポジウム講演論文集,p.373-376 久米拓弥ら,"車載装置を利用した漫然状態の検出および解消手法の開発", 自動車技術会論文集, 45巻3号p. 567-572
実施形態は、短時間でユーザの覚醒を促すための音声生成装置、音声生成方法及び音声生成プログラムを提供する。
実施形態に係る音声生成装置は、ユーザの睡眠から興奮に至るまでの覚醒の程度を表す第1の覚醒度を取得する取得部と、第1の覚醒度に基づき、ユーザが覚醒している状態であるか否かを判定する判定部と、ユーザが覚醒している状態でないとき、ユーザの覚醒を促す音声を複数の音声候補の中から選択する選択部と、選択された音声に基づき、ユーザに対して提示するための呼びかけ音声を生成する生成部とを具備し、前記複数の音声候補は、それぞれ、前記ユーザが対応する音声候補になじんでいる度合を表すなじみ度に関連づけられており、前記選択部は、前記なじみ度に応じて前記ユーザの覚醒を促す音声を選択する。
実施形態によれば、短時間でユーザの覚醒を促すための音声生成装置、音声生成方法及び音声生成プログラムが提供される。
図1は、実施形態に係る音声生成装置の一例のハードウェア構成を示す図である。 図2は、なじみ度DBの一例の構成を示す図である。 図3は、ユーザログDBの一例の構成を示す図である。 図4は、呼びかけ文DBの一例の構成を示す図である。 図5は、能動的行動DBの一例の構成を示す図である。 図6は、音声生成装置の機能ブロック図である。 図7は、音声生成装置による音声提示処理を示すフローチャートである。 図8は、能動的行動提示処理のフローチャートである。 図9は、覚醒度をx、所要時間をyとした選択関数を表すグラフである。
以下、図面を参照して実施形態を説明する。図1は、実施形態に係る音声生成装置の一例のハードウェア構成を示す図である。実施形態に係る音声生成装置1は、ユーザが眠気を有している状態等の覚醒の状態にないときに、ユーザの覚醒を促す呼びかけ音声を発する。
実施形態では、「覚醒度」に基づいてユーザが覚醒の状態にあるか否かが判定される。実施形態における覚醒度は、覚醒水準に対応した覚醒の程度を示す指標である。覚醒水準は、大脳の活動レベルに対応し、睡眠から興奮に至るまでの覚醒の程度を表している。覚醒水準は、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間等から計測される。実施形態における覚醒度は、これらの覚醒水準を計測するための、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の何れか又はそれらの組み合わせで算出される。覚醒度は、例えば睡眠状態から興奮状態に向かうに従って大きくなる値である。覚醒度は、連続的な数値でもよいし、Level 1, Level 2,…といった離散値であってもよい。また、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の各値の組み合わせによって覚醒度が算出される場合において、それらの組み合わせ方は、特に限定されない。例えばこれらの値を単純に合算する、重みづけ加算する等が組み合わせ方として用いられ得る。
音声生成装置1は、プロセッサ2と、ROM3と、RAM4と、ストレージ5と、マイクロホン(マイク)6と、スピーカ7と、カメラ8と、入力装置9と、ディスプレイ10と、通信モジュール11とを有する。音声生成装置1は、例えばパーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった各種の端末である。これに限らず、音声生成装置1は、ユーザによって利用される各種の装置に搭載され得る。なお、音声生成装置1は、図1で示したすべての構成を有している必要はない。例えば、マイク6、スピーカ7、カメラ8、ディスプレイ10は、音声生成装置1と別体の装置であってもよい。
プロセッサ2は、CPU等の音声生成装置1の全体的な動作を制御する制御回路である。プロセッサ2は、CPUである必要はなく、ASIC、FPGA、GPU等であってもよい。プロセッサ2は、単一のCPU等で構成されている必要はなく、複数のCPU等で構成されていてもよい。
ROM3は、フラッシュメモリ等の不揮発性のメモリである。ROM3には、例えば音声生成装置1の起動プログラムが記憶されている。RAM4は、SDRAM等の揮発性のメモリである。RAM4は、音声生成装置1における各種処理のための作業用のメモリとして使用され得る。
ストレージ5は、フラッシュメモリ、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)といったストレージである。ストレージ5には、音声生成装置1で利用される各種のプログラムが記憶される。ストレージ5には、なじみ度データベース(DB)、ユーザログデータベース(DB)52と、音声合成パラメータデータベース(DB)53と、呼びかけ文データベース(DB)54と、能動的行動データベース(DB)55とが記憶されてもよい。これらのデータベースについては後で詳しく説明する。
マイク6は、入力された音声を電気信号である音声信号に変換するデバイスである。マイク6で得られた音声信号は、例えばRAM4又はストレージ5に記憶され得る。例えば、呼びかけ音声を合成するための音声合成パラメータは、マイク6を介して入力された音声より取得され得る。
スピーカ7は、入力された音声信号に基づいて音声を出力するデバイスである。
カメラ8は、ユーザを撮像し、ユーザの画像を取得する。カメラ8で得られたユーザの画像は、例えばRAM4又はストレージ5に記憶され得る。ユーザの画像は、例えば、覚醒度の取得のため又は呼びかけ音声に対するユーザの反応を取得するために用いられる。
入力装置9は、ボタン、スイッチ、キーボード、マウスといった機械式の入力装置、タッチセンサを用いたソフトウェア式の入力装置である。入力装置9は、ユーザからの各種の入力を受け付ける。そして、入力装置9は、ユーザの入力に応じた信号をプロセッサ2に出力する。
ディスプレイ10は、例えば液晶ディスプレイ、有機ELディスプレイといったディスプレイである。ディスプレイ10は、各種の画像を表示する。
通信モジュール11は、音声生成装置1が通信を実施するための装置である。通信モジュール11は、例えば音声生成装置1の外部に設けられたサーバと通信する。通信モジュール11による通信の方式は特に限定されない。通信モジュール11は、無線で通信を実施してもよいし、有線で通信を実施してもよい。
次に、なじみ度データベース(DB)51、ユーザログデータベース(DB)52、音声合成パラメータデータベース(DB)53、呼びかけ文データベース(DB)54、能動的行動データベース(DB)55について説明する。
図2は、なじみ度DB51の一例の構成を示す図である。なじみ度DB51は、ユーザの「なじみ度」を記録したデータベースである。なじみ度DB51は、例えばユーザIDと、音声ラベルと、なじみ対象と、なじみ度と、反応あり数と、提示回数と、覚醒度変化平均値とを関連付けて記録している。
「ユーザID」は、音声生成装置1のユーザ毎に付けられたIDである。ユーザIDには、ユーザ名等のユーザの属性情報が対応付けられていてよい。
「音声ラベル」は、呼びかけ音声の候補のそれぞれに一意に付けられたラベルである。音声ラベルには、任意のラベルが用いられ得る。例えば、音声ラベルに、なじみ対象の名前が用いられてもよい。
「なじみ対象」は、ユーザが日頃会話する人又はユーザがよく耳にする音声を発生する対象である。なじみ対象は、必ずしも人でなくてもよい。
「なじみ度」は、対応するなじみ対象の音声に対するユーザのなじみの度合いである。なじみ度は、SNS等によるなじみ対象とのコミュニケーション頻度、なじみ対象との日常の会話頻度、なじみ対象から日常的に耳にする頻度等から算出され得る。例えば、SNS等によるなじみ対象とのコミュニケーション頻度、なじみ対象との日常の会話頻度、なじみ対象から日常的に耳にする頻度が多いほど、なじみ度の値は大きくなる。ここで、なじみ度は、ユーザによる自己申告によって取得されてもよい。
「反応あり数」は、対応する音声ラベルに基づいて生成された呼びかけ音声に対してユーザが反応した回数である。提示回数は、対応する音声ラベルに基づいて生成された呼びかけ音声をユーザに対して提示した回数である。反応あり数を提示回数で割ることにより、反応確率が算出され得る。反応確率は、対応する音声ラベルに基づいて生成される呼びかけ音声に対してユーザが反応する確率である。
「覚醒度変化平均値」は、対応する音声ラベルに基づいて生成された呼びかけ音声に対するユーザの覚醒度変化量の平均値である。覚醒度変化量については後で説明する。
図3は、ユーザログDB52の一例の構成を示す図である。ユーザログDB52は、ユーザによる音声生成装置1の利用に係るログを記録したデータベースである。ユーザログDB52は、例えばログ発生日時と、ユーザIDと、音声ラベルと、なじみ対象と、反応有無と、覚醒度と、新覚醒度と、覚醒度変化量とを関連付けて記録している。ユーザIDと、音声ラベルと、なじみ対象は、なじみ度DB51と同じものである。
「ログ発生日時」は、ユーザによる音声生成装置1の利用があった日時である。ログ発生日時は、例えばユーザに対する呼びかけ音声の提示がされる毎に記録される。
「反応有無」は、ユーザに対して呼びかけ音声が提示された後のユーザの反応の有無の情報である。ユーザの反応があったときには、「あり」が記録される。ユーザの反応がなかったときには、「なし」が記録される。
「覚醒度」は、音声生成装置1による呼びかけ音声の提示前に取得された覚醒度である。
「新覚醒度」は、ユーザの反応があった後で新たに取得された覚醒度である。新覚醒度は、ユーザの反応がなかったときには記録されない。
「覚醒度変化量」は、ユーザの反応の前後での覚醒度の変化を表す量である。例えば、覚醒度変化量は、例えば新覚醒度と覚醒度との差から得られる。覚醒度変化量は、新覚醒度と覚醒度との比等であってもよい。覚醒度変化量は、ユーザの反応がなかったときには記録されない。
音声合成パラメータDB53は、音声合成パラメータを記録したデータベースである。音声合成パラメータは、ユーザのなじみ対象の音声を合成するために用いられるデータである。例えば、音声合成パラメータは、事前にマイク6を介して収音された音声のデータから抽出される特徴量のデータであってよい。あるいは、他のシステムによって取得又は定義された音声合成パラメータを事前に記録しておいてもよい。ここで、音声合成パラメータは、音声ラベルと対応付けられている。
図4は、呼びかけ文DB54の一例の構成を示す図である。呼びかけ文DB54は、ユーザの覚醒を促すための各種の呼びかけ文のテンプレートデータを記録したデータベースである。呼びかけ文は特に限定されない。ただし、呼びかけ文は、ユーザの名前を用いた呼びかけを含んでいることが望ましい。これは、後で説明するカクテルパーティ効果を高めるためである。
図5は、能動的行動DB55の一例の構成を示す図である。能動的行動DB55は、ユーザに提示可能な能動的行動の情報をリスト形式で記録したデータベースである。例えば、能動的行動DB55は、IDと、行動内容と、所要時間と、制約事項とを対応付けて記録している。
「ID」は、能動的行動のそれぞれに付けられたIDである。ここで、能動的行動は、ユーザの覚醒を促すために、ユーザに能動的に行わせる行動のことである。
「行動内容」は、能動的行動の具体的な内容である。行動内容は、例えばテキストデータとして記録されてよい。
「所要時間」は、対応する能動的行動を行うために必要な時間である。ここで、図5では、所要時間は秒単位で記録されるとしている。所要時間は、必ずしも秒単位で記録される必要はない。
「制約事項」は、対応する能動的行動を行うために必要な条件である。例えば、図5に示す「スペース要」は、対応する能動的行動を行うのに、若干のスペースが必要であることを意味している。制約事項は、例えばテキストデータとして記録されていてもよいし、予め登録されている複数の制約事項の中から選択されてもよい。
ここで、なじみ度DB51、ユーザログDB52、音声合成パラメータDB53、呼びかけ文DB54、能動的行動DB55は、必ずしもストレージ5に記憶されている必要はない。例えば、なじみ度DB51、ユーザログDB52、音声合成パラメータDB53、呼びかけ文DB54、能動的行動DB55は、音声生成装置1とは別体のサーバに記憶されていてもよい。この場合、音声生成装置1は、通信モジュール11を用いてサーバにアクセスし、必要な情報を取得する。
図6は、音声生成装置1の機能ブロック図である。図6に示すように、音声生成装置1は、取得部21と、判定部22と、選択部23と、生成部24と、提示部25とを有している。取得部21と、判定部22と、選択部23と、生成部24と、提示部25の動作は、例えばストレージ5に記憶されているプログラムをプロセッサ2が実行することによって実現される。判定部22と、選択部23と、生成部24と、提示部25とは、プロセッサ2とは別のハードウェアによって実現されてもよい。
取得部21は、ユーザの覚醒度を取得する。また、取得部21は、呼びかけ音声に対するユーザの反応を取得する。前述したように、覚醒度は、眼球運動、瞬目活動、皮膚電気活動、刺激への反応時間の何れか又はそれらの組み合わせで算出される。ここで、覚醒度を算出するための、眼球運動、瞬目活動、刺激への反応時間は、例えばカメラ8で取得されるユーザの画像から測定され得る。また、刺激への反応時間は、マイク6で取得される音声信号から測定されてもよい。また、皮膚電気活動は、例えばユーザの腕に装着されるセンサによって測定され得る。また、ユーザの反応は、呼びかけ音声の提示後に音のする方向をユーザが見たか否かを例えばカメラ8で取得される画像から測定することによって取得され得る。取得部21は、音声生成装置1の外部で算出された覚醒度又はユーザの反応を通信によって取得するように構成されていてもよい。
判定部22は、取得部21で取得された覚醒度に基づき、ユーザが覚醒している状態であるか否かを判定する。そして、判定部22は、ユーザが覚醒している状態であると判定したときに、選択部23の受信部231に対して音声ラベルの選択依頼を送信する。ここで、判定部22は、覚醒度を予め定められた閾値と比較することで判定を実施する。閾値は、ユーザが覚醒している状態であるかどうかを判定するための覚醒度の閾値であり、例えばストレージ5に記憶される。また、判定部22は、取得部21で取得されたユーザの反応の情報に基づき、ユーザの反応の有無を判定する。
選択部23は、ユーザが覚醒している状態でないと判定されたときに、ユーザの覚醒を促すための候補となる音声の音声ラベルを選択する。選択部23は、受信部231と、音声ラベル選択部232と、送信部233とを有している。
受信部231は、判定部22から音声ラベルの選択依頼を受信する。
音声ラベル選択部232は、なじみ度DB51を参照して音声ラベルを選択する。人は、自分になじみがある声や単語を耳にすると、急に聞こえるようになったと感じるという特性を有する。このような特性は、カクテルパーティ効果と呼ばれている。例えば、ユーザにとってなじみがある声がしたり、自分の名前を呼ばれたりしたときに、ハッとするという体験は多くの人がしたことがある。これもカクテルパーティ効果によるものである。実施形態ではカクテルパーティ効果を利用してユーザにとってなじみのある声で呼びかけることにより、ユーザの覚醒度の上昇を促す。音声ラベル選択部232は、よりユーザが知覚しやすい、即ちよりなじみのある音声をなじみ度に基づいて選択する。
送信部233は、音声ラベル選択部232で選択された音声ラベルの情報を生成部24に送信する。
生成部24は、送信部233から受け取った音声ラベルに基づき、ユーザの覚醒を促すための呼びかけ音声を生成する。生成部24は、送信部233から受け取った音声ラベルと対応した音声合成パラメータを音声合成パラメータDB53から取得する。そして、生成部24は、呼びかけ文DB54に記録されている呼びかけ文のデータと音声合成パラメータとに基づき、呼びかけ音声を生成する。
提示部25は、生成部24で生成された呼びかけ音声をユーザに提示する。例えば、提示部25は、生成部24で生成された呼びかけ音声を、スピーカ7を利用して再生する。
次に、音声生成装置1の動作について説明する。図7は、音声生成装置1による音声提示処理を示すフローチャートである。図7の処理は、定期的に行われてよい。
ステップS1において、取得部21は、ユーザの覚醒度を取得する。取得部21は、取得した覚醒度を判定部22に出力する。また、取得部21は、取得した覚醒度を呼びかけ音声の提示後のユーザからの反応の取得のタイミングまで保持しておく。
ステップS2において、判定部22は、取得部21で取得された覚醒度が閾値以下であるか否かを判定する。ステップS2において、覚醒度が閾値を超えていると判定されたとき、すなわちユーザが覚醒の状態にあるときには、図7の処理は終了する。ステップS2において、覚醒度が閾値以下であると判定されたとき、すなわちユーザが眠気を有しているといった覚醒の状態にないときには、処理はステップS3に移行する。
ステップS3において、判定部22は、選択部23に対して音声ラベルの選択依頼を送信する。音声ラベルの選択依頼が受信部231で受信されると、音声ラベル選択部232は、ユーザログDB52を参照して、ユーザによる音声生成装置1の利用回数が0回であるか否かを判定する。利用回数は、例えばユーザログDB52に記録されているログ発生日時の数から算出され得る。ステップS3において、ユーザによる音声生成装置1の利用回数が0回であると判定されたときには、処理はステップS4に移行する。ステップS3において、ユーザによる音声生成装置1の利用回数が0回でないと判定されたときには、処理はステップS6に移行する。
ステップS4において、音声ラベル選択部232は、候補となるすべての音声ラベルに対応したなじみ度Cをなじみ度DB51から取得する。ここで、Cは、音声ラベルLi(i=1,2,…)のなじみ度である。
ステップS5において、音声ラベル選択部232は、取得したなじみ度の中の、最大のなじみ度に対応した音声ラベルを選択する。つまり、音声ラベル選択部232は、以下の条件式(1)に従って音声ラベルを選択する。その後、処理はステップS8に移行する。
maxC 式(1)
ステップS6において、音声ラベル選択部232は、候補となるすべての音声ラベルに対応したなじみ度C、反応確率R、覚醒度変化平均値Aをなじみ度DB51から取得する。ここで、Cは、音声ラベルLiのなじみ度である。Rは、音声ラベルLiの反応確率である。Aは、音声ラベルLiの覚醒度変化平均値である。利用回数が0回でないときには、反応確率及び覚醒度変化平均値が取得される。したがって、利用回数が0回でないときには、これらの反応確率及び覚醒度変化平均値も利用して音声ラベルの選択が行われる。
ステップS7において、音声ラベル選択部232は、取得したなじみ度、反応確率、覚醒度変化平均値の中で、これらの重みづけ加算値が最大となるなじみ度、反応確率、覚醒度変化平均値の組み合わせに対応した音声ラベルを選択する。つまり、音声ラベル選択部232は、以下の条件式(2)に従って音声ラベルを選択する。その後、処理はステップS8に移行する。
max(w+w+w) 式(2)
ここで、式(2)のw、w、wは、それぞれ、C、R、Aの重みである。これらのw、w、wは、予め規定されていてよい。また、w、w、wは、適宜に変更されてもよい。例えば、利用回数が少ないうちは、w、w、wは等しい値に設定され、その後、なじみ度、反応確率、覚醒度変化平均値の何れかを重視したほうがよければ、それに応じて重みが変更されてよい。
ステップS8において、送信部233は、音声ラベル選択部232で選択された音声ラベルを示す情報を、生成部24に送信する。生成部24は、音声合成パラメータDB53から、受信した音声ラベルに対応した音声合成パラメータを取得する。そして、生成部24は、呼びかけ文DB54からランダムに選択した呼びかけ文のデータと音声合成パラメータとに基づき、呼びかけ音声を生成する。呼びかけ音声の生成は、音声合成パラメータを用いた音声合成処理によって行われ得る。その後、処理はステップS9に移行する。
ステップS9において、提示部25は、生成部24において生成された呼びかけ音声を、スピーカ7を利用してユーザに提示する。
ステップS10において、取得部21は、ユーザの反応を取得する。そして、取得部21は、ユーザの反応の情報を判定部22に出力する。
ステップS11において、判定部22は、ユーザの反応があったか否かを判定する。ステップS11において、ユーザの反応がなかったと判定されたときには、処理はステップS12に移行する。ステップS11において、ユーザの反応があったと判定されたときには、処理はステップS13に移行する。
ステップS12において、判定部22は、選択部23に対してユーザの反応がなかった旨の情報を送信する。ユーザの反応がなかった旨の情報が受信部231で受信されると、音声ラベル選択部232は、次の候補の音声ラベルを選択する。音声ラベル選択部232は、式(1)に基づいて音声ラベルを選択したときには、次に大きな値のなじみ度Cに対応した音声ラベルを選択する。また、音声ラベル選択部232は、式(2)に基づいて音声ラベルを選択したときには、次に大きな重みづけ加算値に対応した音声ラベルを選択する。また、判定部22は、取得部21に対してユーザの反応がなかった旨の情報を送信する。これを受けて、取得部21は、反応なしの情報をログ発生日時、音声ラベル、なじみ対象、なじみ度と対応付けてユーザログDB52に登録する。その後、処理はステップS8に戻る。この場合、再度の呼びかけ音声の提示が行われる。なお、ステップS12において、すべての候補の音声ラベルが選択されたときには、図7の処理が終了されてもよい。
ステップS13において、判定部22は、取得部21に対して新覚醒度の取得を要求する。これを受けて、取得部21は、新覚醒度を取得する。新覚醒度の取得は、覚醒度の取得と同様に行われてよい。
ステップS14において、取得部21は、覚醒度変化量diff(新覚醒度,覚醒度)を算出する。前述したように、覚醒度変化量は、例えば新覚醒度と覚醒度の差から算出され得る。
ステップS15において、取得部21は、なじみ度DB51から覚醒度変化平均値を取得する。そして、取得部21は、新たに算出した覚醒度変化量と先に取得した覚醒度変化平均値とを用いて覚醒度変化平均値を更新する。また、取得部21は、反応ありの情報、覚醒度、新覚醒度、覚醒度変化量をログ発生日時、音声ラベル、なじみ対象、なじみ度と対応付けてユーザログDB52に登録する。
ステップS16において、判定部22は、取得部21から新覚醒度を取得する。そして、判定部22は、新覚醒度が閾値以下であるか否かを判定する。ステップS16における閾値は、ステップS2における閾値と同じであってもよいし、異なっていてもよい。ステップS16において、新覚醒度が閾値以下でないと判定されたときには、図7の処理は終了する。ステップS16において、新覚醒度が閾値以下であると判定されたとき、処理はステップS17に移行する。なお、ステップS16の判定とステップS17の処理はステップS15の処理と並行して行われてもよい。
ステップS17において、判定部22は、生成部24に対して能動的行動提示処理を要求する。これを受けて、生成部24は、能動的行動提示処理を実施する。能動的行動提示処理の後、図7の処理は終了する。
図8は、能動的行動提示処理のフローチャートである。ステップS21において、生成部24は、能動的行動DB55を参照して、ユーザが利用可能な能動的行動のリストを取得する。なお、現在のユーザの状態が制約事項と合致していない能動的行動についてのリストは取得する必要はない。例えば、能動的行動に必要なスペースを確保できないときには、制約事項としてスペースを要する能動的行動の情報は取得されなくてよい。
ステップS22において、生成部24は、選択関数を算出する。選択関数は、能動的行動を選択するための関数である。以下、選択関数の算出の仕方の例を説明する。
生成部24は、取得した能動的行動のリストに含まれる所要時間とユーザログDB52に記録されている覚醒度とから、所要時間max、所要時間min、覚醒度max、覚醒度minを取得する。ここで、所要時間max、所要時間minは、それぞれ、取得した能動的行動の所要時間のうちの最大値、最小値である。また、覚醒度max、覚醒度minは、それぞれ、取得した覚醒度のうちの最大値、最小値である。ここで、取得される覚醒度は、対応するユーザの覚醒度だけであってもよい。または、すべてのユーザの覚醒度が人一般の覚醒度として取得されてもよい。
所要時間max、所要時間min、覚醒度max、覚醒度minの取得後、生成部24は、(覚醒度max,所要時間min)と(覚醒度min,所要時間max)の2点を通る一次関数y=f(x)を選択関数として算出する。図9は、覚醒度をx、所要時間をyとした選択関数を表すグラフである。
ここで、図8の説明に戻る。ステップS23において、生成部24は、選択関数に基づき、新覚醒度に合致した能動的行動を抽出する。例えば、生成部24は、現在の新覚醒度を選択関数に対する入力として現在のユーザの覚醒に要する所要時間を求める。そして、生成部24は、取得した能動的行動のリストから、現在のユーザの覚醒に要する所要時間に最も近い能動的行動を抽出する。
ステップS25において、生成部24は、能動的行動を提案する呼びかけ音声を生成する。呼びかけ音声の生成は、音声合成パラメータを用いた音声合成処理によって行われ得る。この時に用いられる音声合成パラメータは、直前のステップS8における呼びかけ音声の合成に用いられた音声合成パラメータであってよい。直前の音声合成に用いられた音声合成パラメータは、ユーザの反応があった呼びかけ音声の生成に用いられた音声合成パラメータである。したがって、直前のステップS8における呼びかけ音声の合成に用いられた音声合成パラメータが用いられることにより、能動的行動を提案する呼びかけ音声に対するユーザの反応も期待される。
ステップS26において、提示部25は、生成部24において生成された呼びかけ音声を、スピーカ7を利用してユーザに提示する。その後、図8の処理は図7の処理に戻る。なお、能動的行動を提案する呼びかけ音声をユーザに対して提示する際に、例えばその能動的行動を表す画像をディスプレイ10に表示させてもよい。
以上説明したように実施形態によれば、ユーザが覚醒していない状態であると判定されたときには、ユーザにとってなじみのある音声を用いてユーザに対する呼びかけが行われる。このため、ユーザが眠気を有している状態等であっても、カクテルパーティ効果によってユーザが呼びかけ音声を聞くことが期待される。したがって、短時間での覚醒度の向上が見込まれる。
また、実施形態によれば、ユーザによる2回目以降の音声生成装置の利用時には、なじみ度に加えて、ユーザの反応と、覚醒度変化量とを考慮してユーザによってなじみのある音声の選択が行われる。したがって、2回目以降の音声生成装置の利用時には1回目よりも短時間での覚醒度の向上が見込まれる。
さらに、実施形態によれば、呼びかけの後でもユーザが覚醒していないと判定されたときには、所要時間が多少必要でも覚醒度が向上できると見込まれる能動的行動を提案するための呼びかけがユーザに対してなされる。これにより、ユーザは行動の機会を得ることができ、結果として短時間での覚醒度の向上が見込まれる。さらに、能動的行動を提案するための呼びかけ音声もユーザにとってなじみのある音声で行われることにより、カクテルパーティ効果によってユーザに呼びかけ音声を聞かせることができる効果も得られる。
[変形例]
実施形態の変形例を説明する。実施形態では、呼びかけ音声に用いられる呼びかけ文は、呼びかけ文DB54に記録されているテンプレートの中からランダムに選択される。このテンプレートは、適宜に変更され得る。例えば、ユーザの日常会話等を収集しておくことにより、日常会話等で頻出する、ユーザの注意をひきやすい単語が含められるようなテンプレートの変更がされてもよい。
また、実施形態では、音声ラベル選択部232は、取得したなじみ度の中の、最大のなじみ度に対応した音声ラベル又は取得したなじみ度、反応確率、覚醒度変化平均値の中で、これらの重みづけ加算値が最大となるなじみ度、反応確率、覚醒度変化平均値の組み合わせに対応した音声ラベルを選択する。これに限らず、音声ラベル選択部232は、取得したなじみ度の中の、大きさの上位の複数のなじみ度に対応した複数の音声ラベル又は取得したなじみ度、反応確率、覚醒度変化平均値の中で、これらの重みづけ加算値の大きさの上位の複数のなじみ度、反応確率、覚醒度変化平均値の組み合わせに対応した複数の音声ラベルを呼びかけ音声の候補の音声ラベルとして抽出してもよい。そして、音声ラベル選択部232は、抽出した候補の音声ラベルのうちの1つをランダムサンプリングによって選択してもよい。これにより、同じ音声ラベルの呼びかけ音声が頻繁に提示されることによる、ユーザの慣れや飽きが抑制される。これにより、長期に音声生成装置1が利用される場合であっても、呼びかけ音声に対するユーザの反応が期待され易くなり、結果としてユーザの覚醒度の上昇が見込まれる。
また、実施形態において呼びかけ音声が生成されるときに、覚醒度に応じた音量等の変更が併せて行われてもよい。
また、実施形態では、能動的行動は、覚醒度と所要時間との関係によって抽出されるとしている。これに対し、所要時間に代えて、又は所要時間とともに能動的行動に対するユーザの興味の程度、体への刺激の強さ等が能動的行動の抽出に用いられてもよい。
また、上述した実施形態による各処理は、コンピュータであるプロセッサに実行させることができるプログラムとして記憶させておくこともできる。この他、磁気ディスク、光ディスク、半導体メモリ等の外部記憶装置の記憶媒体に格納して配布することができる。そして、プロセッサは、この外部記憶装置の記憶媒体に記憶されたプログラムを読み込み、この読み込んだプログラムによって動作が制御されることにより、上述した処理を実行することができる。
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
1…音声生成装置
2…プロセッサ
3…ROM
4…RAM
5…ストレージ
6…マイクロホン(マイク)
7…スピーカ
8…カメラ
9…入力装置
10…ディスプレイ
11…通信モジュール
21…取得部
22…判定部
23…選択部
24…生成部
25…提示部
51…なじみ度データベース(DB)
52…ユーザログデータベース(DB)
53…音声合成パラメータデータベース(DB)
54…呼びかけ文データベース(DB)
55…能動的行動データベース(DB)
231…受信部
232…音声ラベル選択部
233…送信部

Claims (7)

  1. ユーザの睡眠から興奮に至るまでの覚醒の程度を表す第1の覚醒度を取得する取得部と、
    前記第1の覚醒度に基づき、前記ユーザが覚醒している状態であるか否かを判定する判定部と、
    前記ユーザが覚醒している状態でないとき、前記ユーザの覚醒を促す音声を複数の音声候補の中から選択する選択部と、
    選択された音声に基づき、前記ユーザに対して提示するための第1の呼びかけ音声を生成する生成部と、
    を具備し、
    前記複数の音声候補は、それぞれ、前記ユーザが対応する音声候補になじんでいる度合を表すなじみ度に関連づけられており、
    前記選択部は、前記なじみ度に応じて前記ユーザの覚醒を促す音声を選択する
    音声生成装置。
  2. 前記複数の音声候補は、それぞれ、提示された第1の呼びかけ音声に対する前記ユーザの反応と、提示された第1の呼びかけ音声に対する前記ユーザの覚醒度の変化を表す変化量とにさらに関連づけられており、
    前記選択部は、前記反応と前記変化量とにさらに応じて前記ユーザの覚醒を促す音声を選択する請求項1に記載の音声生成装置。
  3. 前記取得部は、提示された第1の呼びかけ音声に対して前記ユーザの反応があった後の第2の覚醒度を取得し、
    前記判定部は、前記第2の覚醒度に基づき、前記ユーザが覚醒している状態であるか否かを再度判定し、
    前記生成部は、前記ユーザが覚醒している状態でないとき、前記ユーザの覚醒を促すための能動的行動を前記ユーザに促すための第2の呼びかけ音声を生成する、
    請求項1又は2に記載の音声生成装置。
  4. 前記生成部は、前記選択部で選択された音声に基づき、前記第2の呼びかけ音声を生成する請求項3に記載の音声生成装置。
  5. 前記第1の覚醒度は、前記ユーザの眼球運動、前記ユーザの瞬目活動、前記ユーザの皮膚電気活動、前記ユーザの刺激への反応時間の何れか又はそれらの組み合わせで算出される請求項1乃至4の何れか1項に記載の音声生成装置。
  6. 取得部により、ユーザの睡眠から興奮に至るまでの覚醒の程度を表す第1の覚醒度を取得することと、
    判定部により、前記第1の覚醒度に基づき、前記ユーザが覚醒している状態であるか否かを判定することと、
    選択部により、前記ユーザが覚醒している状態でないとき、前記ユーザの覚醒を促す音声を複数の音声候補の中から選択することと、
    生成部により、選択された音声に基づき、前記ユーザに対して提示するための第1の呼びかけ音声を生成することと、
    を具備し、
    前記複数の音声候補は、それぞれ、前記ユーザが対応する音声候補になじんでいる度合を表すなじみ度に関連づけられており、
    前記選択部により、前記なじみ度に応じて前記ユーザの覚醒を促す音声を選択する
    音声生成方法。
  7. プロセッサを、請求項1乃至5の何れか1項に記載の音声生成装置の前記取得部と、前記判定部と、前記選択部と、前記生成部として機能させるための音声生成プログラム。
JP2022531317A 2020-06-24 2020-06-24 音声生成装置、音声生成方法及び音声生成プログラム Active JP7485038B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024818 WO2021260844A1 (ja) 2020-06-24 2020-06-24 音声生成装置、音声生成方法及び音声生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2021260844A1 JPWO2021260844A1 (ja) 2021-12-30
JP7485038B2 true JP7485038B2 (ja) 2024-05-16

Family

ID=79282107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531317A Active JP7485038B2 (ja) 2020-06-24 2020-06-24 音声生成装置、音声生成方法及び音声生成プログラム

Country Status (2)

Country Link
JP (1) JP7485038B2 (ja)
WO (1) WO2021260844A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170210A (ja) 2007-01-10 2008-07-24 Pioneer Electronic Corp ナビゲーション装置、その方法、そのプログラム及びその記録媒体
JP2016192127A (ja) 2015-03-31 2016-11-10 パイオニア株式会社 楽曲情報更新装置
JP2019124977A (ja) 2018-01-11 2019-07-25 トヨタ自動車株式会社 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008170210A (ja) 2007-01-10 2008-07-24 Pioneer Electronic Corp ナビゲーション装置、その方法、そのプログラム及びその記録媒体
JP2016192127A (ja) 2015-03-31 2016-11-10 パイオニア株式会社 楽曲情報更新装置
JP2019124977A (ja) 2018-01-11 2019-07-25 トヨタ自動車株式会社 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大見拓寛,"安全な自動車運転を支援するビジョン技術と交通システム 運転者の居眠り状態評価の画像センサ",画像ラボ,2015年02月10日,Vol.26, No,2,pp.64-69

Also Published As

Publication number Publication date
JPWO2021260844A1 (ja) 2021-12-30
WO2021260844A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
US11120477B2 (en) System and method for personalized preference optimization
US10523614B2 (en) Conversation agent
US9672472B2 (en) System and method for managing behavior change applications for mobile users
WO2017033697A1 (ja) 生活習慣管理支援装置および生活習慣管理支援方法
JP6508938B2 (ja) 情報処理装置、行動支援方法及びプログラム
CN110753514A (zh) 基于隐式采集的计算机交互的睡眠监测
US20210106290A1 (en) Systems and methods for the determination of arousal states, calibrated communication signals and monitoring arousal states
CN115298743A (zh) 用于改进睡眠的用户行为推荐
WO2019132772A1 (en) Method and system for monitoring emotions
US10102769B2 (en) Device, system and method for providing feedback to a user relating to a behavior of the user
KR102141804B1 (ko) 불면증 중재 서비스 제공 방법 및 그 장치
JP7485038B2 (ja) 音声生成装置、音声生成方法及び音声生成プログラム
US9811992B1 (en) Caregiver monitoring system
CN113598721B (zh) 可穿戴终端及其核心体温监测方法和计算机可读存储介质
JP2022138233A (ja) コンテンツリコメンデーションシステム、コンテンツリコメンデーション方法、コンテンツライブラリ、コンテンツライブラリの生成方法及びターゲットインプットユーザインタフェース
WO2020209349A1 (ja) 要介護者支援システム及び要介護者の支援方法
JP7416244B2 (ja) 音声生成装置、音声生成方法及び音声生成プログラム
CN108922595A (zh) 心灵陪伴方法、装置、机器人及计算机存储介质
WO2018172410A1 (en) Method and apparatus for sending a message to a subject
JP7416245B2 (ja) 学習装置、学習方法及び学習プログラム
JP7300929B2 (ja) 認知機能促進支援システム、学習システム、推定システム、及び認知機能促進支援方法
JP6713324B2 (ja) イベント発生報知システム及びイベント発生報知用プログラム
US11291394B2 (en) System and method for predicting lucidity level
JP7344423B1 (ja) ヘルスケアシステムおよびその方法
JP6963669B1 (ja) ソリューション提供システム及び携帯端末

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221031

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20230208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7485038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150