JP6044490B2 - 情報処理装置、話速データ生成方法、及びプログラム - Google Patents
情報処理装置、話速データ生成方法、及びプログラム Download PDFInfo
- Publication number
- JP6044490B2 JP6044490B2 JP2013179785A JP2013179785A JP6044490B2 JP 6044490 B2 JP6044490 B2 JP 6044490B2 JP 2013179785 A JP2013179785 A JP 2013179785A JP 2013179785 A JP2013179785 A JP 2013179785A JP 6044490 B2 JP6044490 B2 JP 6044490B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- speech
- data
- familiarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
この映像に合わせて合成音声を出力する装置として、合成音声の発声時間長を番組放送時間に一致させるように当該音声の伸縮率を決定し、その決定した伸縮率に基づいて合成音声における話速を変換する話速調整装置(即ち、情報処理装置)が提案されている(特許文献1参照)。
そして、発声時間が伸縮される際に発声時間が短縮されると、文章中に含まれる単語は、聴き取りにくくなる可能性がある。このため、発声時間が短縮された単語を聞いた人物は、発声の内容全体を理解することが困難となるという課題があった。
そこで、本発明は、合成音声において、発声の内容が理解しやすくなるように話速を調整可能とすることを目的とする。
しかも、本発明の情報処理装置においては、利用者が過去に視聴した映像に対応するテキストデータを解析して親密度情報を更新している。
したがって、本発明の情報処理装置によれば、利用者ごとの単語の認識状態に合わせた親密度情報を用いることができ、利用者にとって、より適切な話速データを生成できる。
なお、ここで言う発声時間は、発声に要する時間を表すものであり、速度(話速)を含むものである。
本発明の情報処理装置によれば、日本語の重要単語に対する発声時間が長くなるように話速データを生成することができる。
音声にて出力される情報においては、名詞及び動詞が大きな重みを有する。
このような情報処理装置によれば、名詞及び動詞の少なくとも一方に対する発声時間が長くなるように話速データを生成することができる。
また、本発明における更新手段は、履歴解析手段にて特定した単語が出現した回数の増加に応じて、単語が出現したタイミングでの親密度が高くなるように、親密度情報において当該単語と対応付けられた親密度を更新しても良い。
そして、本発明においては、話速決定手段にて生成された話速データに基づいて、音声合成手段が、各単語を構成する各音素の発声時間が話速データによって表された発声時間となるように音声合成して出力しても良い。
なお、本発明のテキストデータのそれぞれには、当該テキストデータによって表された文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれていても良い。
ところで、本発明は、話速データを生成する話速データ生成方法としてなされていても良い。
また、本発明は、コンピュータが実行するプログラムとしてなされていても良い。
〈コンテンツ視聴システム〉
図1に示すコンテンツ視聴システム1は、予め用意されたコンテンツを利用者が視聴するシステムであり、情報処理サーバ10と、少なくとも一つの情報処理装置30とを備えている。
〈情報処理サーバ〉
情報処理サーバ10は、各種データが格納されるサーバであり、通信部12と、制御部14と、記憶部22とを備えている。
制御部14は、ROM16と、RAM18と、CPU20とを少なくとも有した周知のコンピュータを中心に構成され、通信部12や記憶部22を制御する。
ここで言うコンテンツとは、少なくとも画像(映像)と音声とが時間軸に沿って出力される制作物である。この制作物の一例として、映画やテレビ番組が考えられる。
セリフ音声データSDは、映像データIMによって表される映像に合わせて出力される音声データである。このセリフ音声データSDは、例えば、映像に合わせて発せられるセリフやナレーションである。本実施形態におけるセリフ音声データSDは、映像におけるセリフやナレーションごとに用意されていても良いし、映像における時間軸に沿って予め規定された単位区間ごとに用意されていても良い。
音源データSVは、音声パラメータとタグデータとを音源ごとに対応付けたデータである。音声パラメータは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を少なくとも備えている。
また、利用者履歴データHDは、コンテンツ視聴システム1の利用者が視聴したコンテンツの履歴を表すデータである。図1中の符号“L”は、利用者履歴データHDそれぞれを識別する符号である。
〈情報処理装置〉
情報処理装置30は、通信部31と、入力受付部32と、表示部33と、音入力部34と、音出力部35と、記憶部36と、制御部40とを備えている。
〈話速データ生成処理〉
情報処理装置30の制御部40が実行する話速データ生成処理は、起動指令が入力されると起動される。
このうち、形態素mo(k)は、セリフテキストデータCDによって表されるテキストに含まれる各形態素moである。符号“k”は、テキストに含まれる形態素moそれぞれを識別するインデックス番号であり、セリフテキストデータCDにおける時間軸に沿って順に割り当てられる。
その後、本話速データ生成処理を終了する。そして、時間軸に沿って次の映像データIMが出力されるタイミングに合わせて、話速データ生成処理を起動し、その映像データIMの時間軸に沿った次のセリフテキストデータTDを取得する(S110)。その後、S120〜S220を実行する。
〈親密度更新処理〉
情報処理サーバ10の制御部14が実行する親密度更新処理について説明する。
この親密度更新処理では、起動されると、図5に示すように、まず、制御部14が、情報処理装置30の入力受付部32を介して入力された利用者IDを取得する(S310)。
つまり、本実施形態の親密度更新処理においては、制御部14は、利用者が視聴したコンテンツを通して出現回数が多い形態素mo(単語)ほど親密度が高くなるように、記憶部22に格納されている単語親密度データDDを更新する。
[実施形態の効果]
以上説明したように、本実施形態の話速データ生成処理では、親密度が低い単語ほど、全読み上げ時間に占める当該単語の読み上げ時間の割合が長くなるように、話速データを生成している。
換言すれば、情報処理装置30においては、合成音声において、発声の内容を理解しやすくなるように、読み上げ速度(即ち、話速)を調整できる。
また、本実施形態の話速データ生成処理では、一つのセリフテキストデータCDによって表される情報全体を読み上げるために必要な時間長が、要発声時間に維持されるように正規化したデータを話速データとして生成している。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
また、上記実施形態では、話速データ生成処理を情報処理装置30の制御部40が実行していたが、話速データ生成処理を実行する装置は、情報処理装置30に限るものではなく、情報処理サーバ10であっても良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
Claims (8)
- 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手段と、
前記テキスト取得手段にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手段と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手段にて特定された各単語に対応する親密度を取得する親密度取得手段と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手段で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手段と、
利用者を識別する利用者識別情報を取得する識別情報取得手段と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手段で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手段と、
前記履歴取得手段で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手段と、
前記履歴解析手段で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手段と
を備えることを特徴とする情報処理装置。 - 前記解析手段で特定した単語の中から、重要度が高い品詞として予め規定された重要品詞に対応する単語である重要単語を特定する単語特定手段を備え、
前記話速決定手段は、
前記単語特定手段で特定された重要単語に含まれる母音の発声時間が長くなるように、前記話速データを生成する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記単語特定手段は、
名詞、及び動詞の少なくとも一方を前記重要品詞とし、前記重要品詞それぞれに対応する単語を前記重要単語として特定する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記更新手段は、
前記履歴解析手段にて特定した単語が出現した回数の増加に応じて、前記単語が出現したタイミングでの前記親密度が高くなるように、前記親密度情報において当該単語と対応付けられた親密度を更新する
ことを特徴とする請求項1から請求項3までのいずれか一項に記載の情報処理装置。 - 前記話速決定手段にて生成された話速データに基づいて、各単語を構成する各音素の発声時間が前記話速データによって表された発声時間となるように音声合成して出力する音声合成手段を備える
ことを特徴とする請求項1から請求項4までのいずれか一項に記載の情報処理装置。 - 前記テキストデータのそれぞれには、当該テキストデータによって表された前記文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれ、
前記話速決定手段は、
前記テキストデータによって表される情報全体の発声時間が前記要発声時間に維持されるように正規化したデータを、前記話速データとして生成する
ことを特徴とする請求項1から請求項5までのいずれか一項に記載の情報処理装置。 - 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得過程と、
前記テキスト取得過程にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析過程と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析過程にて特定された各単語に対応する親密度を取得する親密度取得過程と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得過程で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定過程と、
利用者を識別する利用者識別情報を取得する識別情報取得過程と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得過程で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得過程と、
前記履歴取得過程で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析過程と、
前記履歴解析過程で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新過程と
を備えることを特徴とする話速データ生成方法。 - 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手順と、
前記テキスト取得手順にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手順と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手順にて特定された各単語に対応する親密度を取得する親密度取得手順と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手順で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手順と、
利用者を識別する利用者識別情報を取得する識別情報取得手順と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手順で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手順と、
前記履歴取得手順で取得した視聴情報によって表される各映像に対応するテキストデー
タを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手順と、
前記履歴解析手順で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手順とを
コンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013179785A JP6044490B2 (ja) | 2013-08-30 | 2013-08-30 | 情報処理装置、話速データ生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013179785A JP6044490B2 (ja) | 2013-08-30 | 2013-08-30 | 情報処理装置、話速データ生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015049311A JP2015049311A (ja) | 2015-03-16 |
JP6044490B2 true JP6044490B2 (ja) | 2016-12-14 |
Family
ID=52699399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013179785A Active JP6044490B2 (ja) | 2013-08-30 | 2013-08-30 | 情報処理装置、話速データ生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6044490B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10157607B2 (en) | 2016-10-20 | 2018-12-18 | International Business Machines Corporation | Real time speech output speed adjustment |
CN108922540B (zh) * | 2018-07-27 | 2023-01-24 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08297499A (ja) * | 1995-04-26 | 1996-11-12 | Matsushita Electric Ind Co Ltd | 音声速度変換制御装置および音声速度変換制御方法 |
JP3854713B2 (ja) * | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP2005070430A (ja) * | 2003-08-25 | 2005-03-17 | Alpine Electronics Inc | 音声出力装置および方法 |
WO2009013875A1 (ja) * | 2007-07-24 | 2009-01-29 | Panasonic Corporation | 文字情報提示装置 |
JP2011102910A (ja) * | 2009-11-11 | 2011-05-26 | Nippon Telegr & Teleph Corp <Ntt> | 聴覚特性を反映した音声読み上げ方法、その装置及びプログラム |
JP5802139B2 (ja) * | 2012-01-20 | 2015-10-28 | 日本放送協会 | 音声処理装置及びプログラム |
-
2013
- 2013-08-30 JP JP2013179785A patent/JP6044490B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015049311A (ja) | 2015-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
CN105788589B (zh) | 一种音频数据的处理方法及装置 | |
JP3599549B2 (ja) | 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法 | |
JP2008517315A (ja) | メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法 | |
JP2006501509A (ja) | 個人適応音声セグメントを備える音声合成装置 | |
CN108242238B (zh) | 一种音频文件生成方法及装置、终端设备 | |
JP2008070564A (ja) | 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法 | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及*** | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
JP6111802B2 (ja) | 音声対話装置及び対話制御方法 | |
JP2015169698A (ja) | 音声検索装置、音声検索方法及びプログラム | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP2009251199A (ja) | 音声合成装置、方法及びプログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP2010156738A (ja) | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP6044490B2 (ja) | 情報処理装置、話速データ生成方法、及びプログラム | |
CN110992984B (zh) | 音频处理方法及装置、存储介质 | |
JP2007187799A (ja) | 音声対話装置および音声対話方法 | |
JP5819147B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2010117528A (ja) | 声質変化判定装置、声質変化判定方法、声質変化判定プログラム | |
JP2008116643A (ja) | 音声生成装置 | |
US11563708B1 (en) | Message grouping | |
JP2011170622A (ja) | コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム | |
US11582174B1 (en) | Messaging content data storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161031 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6044490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |