JP6044490B2 - 情報処理装置、話速データ生成方法、及びプログラム - Google Patents

情報処理装置、話速データ生成方法、及びプログラム Download PDF

Info

Publication number
JP6044490B2
JP6044490B2 JP2013179785A JP2013179785A JP6044490B2 JP 6044490 B2 JP6044490 B2 JP 6044490B2 JP 2013179785 A JP2013179785 A JP 2013179785A JP 2013179785 A JP2013179785 A JP 2013179785A JP 6044490 B2 JP6044490 B2 JP 6044490B2
Authority
JP
Japan
Prior art keywords
word
information
speech
data
familiarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013179785A
Other languages
English (en)
Other versions
JP2015049311A (ja
Inventor
典昭 阿瀬見
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2013179785A priority Critical patent/JP6044490B2/ja
Publication of JP2015049311A publication Critical patent/JP2015049311A/ja
Application granted granted Critical
Publication of JP6044490B2 publication Critical patent/JP6044490B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像に合わせて出力される音声の発声時間を表す話速データを生成する情報処理装置、話速データ生成方法、及びプログラムに関する。
従来、映画やテレビ番組などの映像を含むコンテンツにおいて、映像の出力に合わせて音声合成にて生成された合成音声を出力することがなされている。
この映像に合わせて合成音声を出力する装置として、合成音声の発声時間長を番組放送時間に一致させるように当該音声の伸縮率を決定し、その決定した伸縮率に基づいて合成音声における話速を変換する話速調整装置(即ち、情報処理装置)が提案されている(特許文献1参照)。
特開2012−078755号公報
この特許文献1に記載された装置にて話速を変換した場合、合成音声の全体が伸縮されるため、合成音声にて発声される文章に含まれる各単語の発声時間も伸縮される。
そして、発声時間が伸縮される際に発声時間が短縮されると、文章中に含まれる単語は、聴き取りにくくなる可能性がある。このため、発声時間が短縮された単語を聞いた人物は、発声の内容全体を理解することが困難となるという課題があった。
つまり、従来の技術では、合成音声において、発声の内容が理解しやすくなるように話速を調整できないという課題があった。
そこで、本発明は、合成音声において、発声の内容が理解しやすくなるように話速を調整可能とすることを目的とする。
上記目的を達成するためになされた本発明は、テキスト取得手段と、解析手段と、親密度取得手段と、話速決定手段と、識別情報取得手段と、履歴取得手段と、履歴解析手段と、更新手段とを備えた情報処理装置である。
本発明においては、テキスト取得手段が、映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得し、解析手段が、テキスト取得手段にて取得したテキストデータを解析し、テキストデータによって表される文字列に含まれる各単語を特定する。
そして、親密度取得手段が、解析手段にて特定された各単語に対応する親密度を、親密度データベースから取得する。ここで言う親密度データベースとは、親密度情報が格納されたデータベースであり、親密度情報とは、単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた情報である。
さらに、話速決定手段は、親密度取得手段で取得した親密度が低いことを表している単語ほど、テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する。ここで言う話速データとは、音声合成によって出力される合成音声の発声時間を表すデータであり、かつ、テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータである。
また、本発明では、識別情報取得手段が、利用者を識別する利用者識別情報を取得する。そして、履歴取得手段が、利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、識別情報取得手段で取得した利用者識別情報に対応する利用者の視聴情報を取得する。
さらに、本発明では、履歴解析手段が、履歴取得手段で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する。更新手段は、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する。
すなわち、映像に合わせて出力される音声に、認識度合い(即ち、親密度)が低い単語が含まれている場合、その単語の発声に掛ける時間長が短いと、その音声を聞いた人物は、音声によって表される情報の内容を認識できない可能性がある。
そこで、本発明の情報処理装置においては、親密度が低いことを表している単語ほど、情報の全発声時間に占める当該単語の発声時間の割合が長くなるように、当該単語に掛ける発声時間を調整した話速データを生成している。
このような話速データに基づいて合成音声の出力速度を決定すれば、その合成音声においては、情報の全発声時間に占める、親密度が低い単語の発声に掛ける時間長の割合を大きくできる。
この結果、その合成音声を聴いた人物は、親密度が低い単語であっても聴き取りやすくなり、発声によって表される情報の内容全体を認識することができる。
しかも、本発明の情報処理装置においては、利用者が過去に視聴した映像に対応するテキストデータを解析して親密度情報を更新している。
このように、利用者が過去に視聴した映像における音声中の各単語は、利用者によって認識されている可能性が高い。
したがって、本発明の情報処理装置によれば、利用者ごとの単語の認識状態に合わせた親密度情報を用いることができ、利用者にとって、より適切な話速データを生成できる。
換言すれば、本発明の情報処理装置においては、合成音声において、発声の内容を理解しやすくなるように話速を調整することができる。
なお、ここで言う発声時間は、発声に要する時間を表すものであり、速度(話速)を含むものである。
ところで、本発明の情報処理装置は、解析手段で特定した単語の中から、重要度が高い品詞として予め規定された重要品詞に対応する単語である重要単語を特定する単語特定手段を備えていても良い。
この場合、本発明における話速決定手段は、単語特定手段で特定された重要単語に含まれる母音の発声時間が長くなるように、話速データを生成しても良い。
本発明の情報処理装置によれば、日本語の重要単語に対する発声時間が長くなるように話速データを生成することができる。
そして、本発明の情報処理装置にて生成された話速データに基づいて話速が調整された合成音声は、重要単語をより聴き取りやすくすることができ、発声の内容をより理解しやすくできる。
さらに、本発明における単語特定手段は、名詞、及び動詞の少なくとも一方を重要品詞とし、重要品詞それぞれに対応する単語を重要単語として特定しても良い。
音声にて出力される情報においては、名詞及び動詞が大きな重みを有する。
このため、本発明においては、名詞及び動詞の少なくとも一方を重要品詞とし、重要品詞それぞれに対応する単語を重要単語として特定しても良い。
このような情報処理装置によれば、名詞及び動詞の少なくとも一方に対する発声時間が長くなるように話速データを生成することができる。
そして、本発明の情報処理装置にて生成された話速データに基づいて話速が調整された合成音声は、名詞及び動詞の少なくとも一方をより聴き取りやすくすることができる。
また、本発明における更新手段は、履歴解析手段にて特定した単語が出現した回数の増加に応じて、単語が出現したタイミングでの親密度が高くなるように、親密度情報において当該単語と対応付けられた親密度を更新しても良い。
このような情報処理装置によれば、映像全体に渡って登場する回数が多い単語ほど、親密度を高くでき、その映像に適した話速データを生成できる。
そして、本発明においては、話速決定手段にて生成された話速データに基づいて、音声合成手段が、各単語を構成する各音素の発声時間が話速データによって表された発声時間となるように音声合成して出力しても良い。
このような情報処理装置によれば、発声の内容を理解しやすくなるように話速を調整した合成音声を出力することができる。
なお、本発明のテキストデータのそれぞれには、当該テキストデータによって表された文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれていても良い。
この場合、本発明の話速決定手段は、テキストデータによって表される情報全体の発声時間が要発声時間に維持されるように正規化したデータを、話速データとして生成しても良い。
このような情報処理装置によれば、情報の内容を発声するために要する時間長を変更することがないため、映像の進行に沿って適切なタイミングで発声させることができる。
ところで、本発明は、話速データを生成する話速データ生成方法としてなされていても良い。
本発明の話速データ生成方法は、テキストデータを取得するテキスト取得過程と、その取得したテキストデータによって表される文字列に含まれる各単語を特定する解析過程と、その特定された各単語に対応する親密度を取得する親密度取得過程と、その取得した親密度が低いことを表している単語ほど、情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する話速決定過程とを備えている。さらに、本発明の話速データ生成方法は、利用者識別情報を取得する識別情報取得過程と、その取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得過程と、その取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析過程と、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新過程とを備えている。
このような話速データ生成方法であれば、本発明の情報処理装置と同様の効果を得ることができる。
また、本発明は、コンピュータが実行するプログラムとしてなされていても良い。
本発明のプログラムでは、テキストデータを取得するテキスト取得手順と、そのテキストデータによって表される文字列に含まれる各単語を特定する解析手順と、その特定された各単語に対応する親密度を取得する親密度取得手順と、その取得した親密度が低いことを表している単語ほど、情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する話速決定手順とをコンピュータに実行させる。
さらに、本発明のプログラムでは、利用者識別情報を取得する識別情報取得手順と、その取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手順と、その取得した視聴情報によって表される各映像に対応するテキストデータによって表される文字列に含まれる各単語を特定する履歴解析手順と、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手順とをコンピュータに実行させる。
例えば、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、本発明の情報処理装置として機能させることができる。
なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。
本発明が適用された情報処理装置及び情報処理装置の周辺の概略構成を示すブロック図である。 テキストデータの構造を説明する説明図である。 話速データ生成処理の処理手順を示すフローチャートである。 話速データ生成処理の処理過程で生成される情報を説明する説明図である。 親密度更新処理の処理手順を示すフローチャートである。
以下に本発明の実施形態を図面と共に説明する。
〈コンテンツ視聴システム〉
図1に示すコンテンツ視聴システム1は、予め用意されたコンテンツを利用者が視聴するシステムであり、情報処理サーバ10と、少なくとも一つの情報処理装置30とを備えている。
〈情報処理サーバ〉
情報処理サーバ10は、各種データが格納されるサーバであり、通信部12と、制御部14と、記憶部22とを備えている。
この情報処理サーバ10に格納される各種データには、少なくとも、出力すべき映像と音声とを含むコンテンツデータCDと、予め入力された音声の音声特徴量を少なくとも含む音源データSVと、コンテンツ視聴システム1の利用者が視聴したコンテンツの履歴に関する利用者履歴データHDと、各単語の認識度合いを表す親密度を単語それぞれと対応付けた単語親密度データDDとを含む。
通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部14は、ROM16と、RAM18と、CPU20とを少なくとも有した周知のコンピュータを中心に構成され、通信部12や記憶部22を制御する。
ROM16は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM18は、処理プログラムやデータを一時的に格納する。CPU20は、ROM16やRAM18に記憶された処理プログラムに従って各種処理を実行する。
記憶部22は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部22には、コンテンツデータCDと、音源データSVと、利用者履歴データHDと、単語親密度データDDとが格納されている。
このうち、コンテンツデータCDは、コンテンツごとに予め用意されたデータである。
ここで言うコンテンツとは、少なくとも画像(映像)と音声とが時間軸に沿って出力される制作物である。この制作物の一例として、映画やテレビ番組が考えられる。
このコンテンツデータCDは、映像データIMと、セリフ音声データSDと、セリフテキストデータTDとを含む。図1中の符号“m”は、コンテンツデータCDそれぞれを識別する符号である。
映像データIMは、コンテンツにおいて出力される映像(動画)を構成する複数の画像からなるデータである。
セリフ音声データSDは、映像データIMによって表される映像に合わせて出力される音声データである。このセリフ音声データSDは、例えば、映像に合わせて発せられるセリフやナレーションである。本実施形態におけるセリフ音声データSDは、映像におけるセリフやナレーションごとに用意されていても良いし、映像における時間軸に沿って予め規定された単位区間ごとに用意されていても良い。
セリフテキストデータTDは、映像データIMによって表される映像に合わせて出力される音声の内容を表すテキストデータである。このセリフテキストデータTDには、図2に示すように、配役情報と、字幕情報と、タイミング情報とが含まれる。
このうち、字幕情報は、映像に合わせて出力される字幕(テキスト)である。この字幕は、セリフやナレーションなどの内容を文字列で表したものである。さらに、本実施形態における字幕の言語は、日本語である。
配役情報は、各字幕を読み上げるべき人物を識別する情報であり、字幕それぞれに規定されている。この配役情報は、人物そのものを特定する情報であっても良いし、性別や年齢などの人物の特徴を表す情報であっても良い。
タイミング情報は、字幕情報によって表される字幕を出力するタイミングが規定された開始タイミングと、その出力を終了するタイミングを表す終了タイミングとが、字幕それぞれに規定された情報である。これらの開始タイミング及び終了タイミングは、映像データIMにおける時間の進行と対応付けられている。
さらに、タイミング情報には、セリフテキストデータTDに含まれる字幕情報によって表された文字列全体を読み上げることに掛けることが可能な時間長として規定された要発声時間が含まれている。
なお、本実施形態におけるセリフテキストデータTDは、映像に合わせて出力される字幕ごとに用意されている。
音源データSVは、音声パラメータとタグデータとを音源ごとに対応付けたデータである。音声パラメータは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータにおける特徴量として、発声音声における各音素での基本周波数F0、メル周波数ケプストラム(MFCC)、音素長、パワー、及びそれらの時間差分を少なくとも備えている。
タグデータは、音声パラメータによって表される音の性質を表すデータであり、少なくとも、発声者の特徴を表す発声者特徴データを含む。この発声者特徴データには、例えば、発声者の性別、年齢などを含む。
さらに、タグデータには、当該音声が発声されたときの発声者の表情を表す表情データを含んでも良い。この表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。
これらの音声パラメータとタグデータとを対応付けた音源データSVは、例えば、周知のカラオケ装置を用いて楽曲が歌唱された際に、そのカラオケ装置にて予め規定された処理を実行することで生成され記憶部22に登録されても良い。
なお、図1中の符号“n”は、音源データそれぞれSVを識別する符号である。
また、利用者履歴データHDは、コンテンツ視聴システム1の利用者が視聴したコンテンツの履歴を表すデータである。図1中の符号“L”は、利用者履歴データHDそれぞれを識別する符号である。
この利用者履歴データHDは、利用者を識別する利用者IDと、その利用者が視聴したコンテンツそれぞれを識別するコンテンツIDとが利用者ごとに対応付けられたデータである。
この利用者履歴データHDは、コンテンツが閲覧されるごとに、そのコンテンツを視聴したものとして、当該コンテンツのコンテンツIDを利用者IDと対応付けても良い。なお、コンテンツIDを利用者IDと対応付けるタイミングは、コンテンツが閲覧されたタイミングに限るものではなく、コンテンツが購入されたタイミングであっても良い。
また、単語親密度データDDは、単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられたデータである。ここで言う親密度は、認識度合いが高いほど大きな値である。すなわち、単語親密度データDDは、特許請求の範囲に記載された親密度情報の一例である。
なお、本実施形態における単語親密度データDDは、利用者ごとの各単語の認識度合いが記憶されたものでも良い。また、本実施形態においては、単語親密度データDDが記憶された記憶部22は、親密度データベースとして機能する。
〈情報処理装置〉
情報処理装置30は、通信部31と、入力受付部32と、表示部33と、音入力部34と、音出力部35と、記憶部36と、制御部40とを備えている。
本実施形態における情報処理装置30として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。
通信部31は、通信網を介して外部との間で情報通信を行う。入力受付部32は、入力装置(図示せず)を介して入力された情報を受け付ける。表示部33は、制御部40からの信号に基づいて画像を表示する。
音入力部34は、音を電気信号に変換して制御部40に入力する装置であり、例えば、マイクロホンである。音出力部35は、音を出力する周知の装置であり、例えば、PCM音源と、スピーカとを備えている。記憶部36は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部36には、各種処理プログラムや各種データが記憶される。
また、制御部40は、ROM41、RAM42、CPU43を少なくとも有した周知のコンピュータを中心に構成されている。ROM41は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM42は、処理プログラムやデータを一時的に格納する。CPU43は、ROM41やRAM42に記憶された処理プログラムに従って各種処理を実行する。
すなわち、情報処理装置30は、指定コンテンツに対応するコンテンツデータCDに基づいて、その指定コンテンツにおける映像を表示部33に表示すると共に、映像における時間軸に合わせて音声を音出力部35から出力する。ここで言う指定コンテンツとは、入力受付部32にて受け付けた情報によって指定されたコンテンツである。
情報処理装置30は、指定コンテンツにおける音声を出力する際に、セリフテキストデータCDによって表された日本語の字幕(テキスト)を、情報処理サーバ10に格納されている音源データSVを用いて音声合成して合成音声を出力する。すなわち、本実施形態の情報処理装置30は、声の吹き替えを実行可能に構成されている。
情報処理装置30のROM41には、音声合成によって出力される合成音声の発声時間を表す話速データを生成する話速データ生成処理を、制御部40が実行するための処理プログラムが格納されている。
〈話速データ生成処理〉
情報処理装置30の制御部40が実行する話速データ生成処理は、起動指令が入力されると起動される。
この話速データ生成処理では、図3に示すように、起動されると、制御部40は、まず、指定コンテンツの日本語によるセリフテキストデータCDを取得する(S110)。続いて、制御部40は、S110にて取得したセリフテキストデータCDによって表されるテキストを形態素解析し、形態素情報を導出する(S120)。このS120における形態素解析の手法として、周知の手法(例えば、“MeCab”)を用いれば良い。
また、形態素情報には、形態素mo(k)と、形態素音素数ph_nu(k)と、音素ph(k,j)と、品詞フラグpa(k)とが含まれる。
このうち、形態素mo(k)は、セリフテキストデータCDによって表されるテキストに含まれる各形態素moである。符号“k”は、テキストに含まれる形態素moそれぞれを識別するインデックス番号であり、セリフテキストデータCDにおける時間軸に沿って順に割り当てられる。
音素ph(k,j)は、形態素mo(k)それぞれを構成する各音素である。符号“j”は、各形態素mo(k)に含まれる音素それぞれを識別するインデックス番号であり、テキストにおける時間軸に沿って割り当てられている。また、形態素音素数ph_nu(k)は、各形態素mo(k)を構成する音素phの数である。
さらに、品詞フラグpa(k)は、各形態素mo(k)(単語)に対応する品詞が、名詞または動詞であるか否かを表す。この品詞フラグpa(k)は、品詞が名詞または動詞であれば「1」を設定し、品詞が名詞もしくは動詞でなければ「0」を設定する。
例えば、セリフテキストデータCDによって表されるテキストが「明日は晴れですね」である場合、そのテキストを形態素解析することで、図4に示す各形態素mo(k)(図中,明日/は/晴れ/ですね)、及び音素ph(k,j)(図中,asu/wa/hare/desne)を含む形態素情報が導出される。
さらに、話速データ生成処理では、制御部40が、情報処理サーバ10の記憶部22から、S120にて導出した各形態素情報に含まれる形態素(単語)mo(k)それぞれに対応する親密度を取得する(S130)。
続いて、話速データ生成処理では、制御部40は、各音素ph(k,j)が母音であるか否かを判定し、母音フラグvw(k,j)を設定する(S140)。このS140では、具体的には、図4に示すように、各形態素mo(k)における音素ph(k,j)が母音であれば、母音フラグvw(k,j)を「1」に設定し、音素ph(k,j)が子音であれば、母音フラグvw(k,j)を「0」に設定する。
さらに、話速データ生成処理では、制御部40は、音素長比率Ph_lr(k,j)の初期値を設定する(S150)。ここで言う音素長比率Ph_lr(k,j)は、セリフテキストデータCDによって表されるテキスト全体を読み上げるために必要な時間長(発声時間長)に占める、各音素ph(k,j)の読み上げに必要な時間長の割合である。
本実施形態におけるS150では、具体的には、音素ph(k,j)が母音であれば、音素長比率ph_lr(k,j)の初期値を「1」に設定し、音素ph(k,j)が子音であれば、音素長比率ph_lr(k,j)の初期値を「規定値p」に設定する。なお、本実施形態における規定値pは、予め規定された値であり、「0」よりも大きく「1」よりも小さい値である。
続いて、話速データ生成処理では、制御部40は、形態素情報に含まれる品詞フラグに基づいて、S120で導出した各形態素mo(k)(単語)の中から重要単語を特定する(S160)。ここで言う重要単語とは、重要度が高い品詞として予め規定された重要品詞に対応する単語である。そして、本実施形態における重要品詞には、動詞と名詞とが含まれる。
そして、制御部40は、S160にて重要単語であると特定された各形態素mo(k)を構成する音素ph(k,j)それぞれの中で母音に対応する音素ph(k,j)の音素長比率Ph_lr(k,j)を更新する(S170)。このS170における更新は、下記(1)式に従って実行され、重要単語に含まれる母音に対応する音素ph(k,j)の音素長比率Ph_lr(k,j)だけが長くなる。なお、(1)式中のαは、予め規定された定数である。
すなわち、本実施形態のS170では、品詞フラグpa(k)が「1」であり、かつ、母音フラグvw(k,j)が「1」である音素ph(k,j)を発声する時間長が“1+α/100”倍される。
さらに、話速データ生成処理では、制御部40は、まず、各形態素mo(k)の親密度を情報処理サーバ10から取得し、その取得した親密度に基づいて規格化親密度nr_fa(k)を算出する(S180)。この規格化親密度nr_fa(k)は、形態素mo(k)ごとの親密度の平均が「1」、分散が「1」となるように、各形態素mo(k)の親密度を規格化したものである。
このS180においては、さらに、制御部40は、下記(2)式に従って倍率β(k)を算出すると共に、下記(3)式に従って、各形態素に含まれる母音の音素長比率Ph_lr(k,j)を補正する。
すなわち、S180によって、親密度が低いことを表している単語の母音の音素長比率Ph_lr(k,j)は、情報全体の読み上げに要する時間に占める当該単語の読み上げに要する時間の割合が長くなるように補正される。
続いて、話速データ生成処理では、制御部40が、セリフテキストデータCDによって表されるテキスト全体の発声時間が要発声時間に維持されるように、各音素ph(k,j)の音素時間長Ph_le(k,j)を導出する(S190)。
具体的に、本実施形態のS190における各音素ph(k,j)の音素時間長Ph_le(k,j)の導出は、下記(4)式に従って実行される。
なお、(4)式における分母は、セリフテキストデータCDに含まれる全ての音素ph(k,j)音素長比率Ph_lr(k,j)を積算した値(総和)である。そして、(4)式における符号“tol”は、要発声時間である。また、(4)式における符号“N”は、セリフテキストデータCDに含まれる音素phの個数である。
すなわち、音素時間長Ph_le(k,j)は、セリフテキストデータCDによって表される字幕を読み上げる全時間長が、当該セリフテキストデータCDにおける要発声時間に維持されるように正規化されている。
続いて、話速データ生成処理では、制御部40が、S190にて導出された音素時間長Ph_le(k,j)を、各形態素mo(k)を構成する各音素ph(k,j)を読み上げるタイミングを表すデータとして規定した話速データを生成する(S200)。
さらに、話速データ生成処理では、制御部40が、S110にて取得したセリフテキストデータCDに含まれている配役情報それぞれに基づいて、各配役情報に最も適合する音源データSVを取得する(S210)。
そして、話速データ生成処理では、制御部40が、S210にて取得した音源データSVを用いて、S110にて取得したセリフテキストデータCDに含まれている字幕情報の内容を音声合成する(S220)。なお、本実施形態のS220では、S200にて生成された話速データに基づいて、字幕情報によって表されるテキストを構成する各音素の読み上げタイミング(速度)が決定される。
そして、本実施形態のS220では、制御部40は、制御信号を音出力部35に出力し、音声合成によって生成された合成音声を音出力部35から出力する。
その後、本話速データ生成処理を終了する。そして、時間軸に沿って次の映像データIMが出力されるタイミングに合わせて、話速データ生成処理を起動し、その映像データIMの時間軸に沿った次のセリフテキストデータTDを取得する(S110)。その後、S120〜S220を実行する。
つまり、本実施形態の話速データ生成処理では、指定コンテンツのセリフテキストデータTDを取得し、その取得したセリフテキストデータTDを形態素解析する。そして、情報処理サーバ10に格納されている単語親密度データに基づいて、形態素解析にて特定された各形態素(単語)について親密度を特定する。
さらに、話速データ生成処理では、親密度が低いことを表している単語ほど、情報全体の読み上げに要する時間に占める当該単語の読み上げに要する時間の割合が長くなるように、話速データを生成している。
〈親密度更新処理〉
情報処理サーバ10の制御部14が実行する親密度更新処理について説明する。
この親密度更新処理は、話速データ生成処理の起動タイミングに合わせて起動される。
この親密度更新処理では、起動されると、図5に示すように、まず、制御部14が、情報処理装置30の入力受付部32を介して入力された利用者IDを取得する(S310)。
続いて、親密度更新処理では、制御部14は、利用者履歴データHDにおいて、S310にて取得された利用者IDと対応付けられている全てのコンテンツIDを取得する(S320)。
さらに、親密度更新処理では、制御部14は、S320にて取得されたコンテンツIDそれぞれに対応し、かつ、日本語による全てのセリフテキストデータTDを取得する(S330)。
続いて、親密度更新処理では、制御部14は、S330にて取得したセリフテキストデータTDそれぞれによって表されるテキストを形態素解析し、形態素情報を導出する(S340)。このS340における形態素解析の手法として、周知の手法(例えば、“MeCab”)を用いれば良い。また、ここでの形態素情報には、少なくとも形態素mo(k)(単語)が含まれる。
そして、親密度更新処理では、制御部14は、S340にて導出した形態素mo(k)に基づいて、単語親密度データDDを更新する(S350)。具体的に、本実施形態のS350では、同一内容の形態素moごとに出現回数をカウントし、その出現回数が多い形態素mo(単語)ほど親密度が高くなるように、単語親密度データDDを更新する。
なお、親密度の更新は、出現回数に予め規定された係数を乗じた値を、更新前の親密度に加算することで実現すれば良い。また、親密度の更新は、形態素moの品詞が自立語であるものを対象とし、付属語は対象外としても良い。
その後、親密度更新処理を終了する。
つまり、本実施形態の親密度更新処理においては、制御部14は、利用者が視聴したコンテンツを通して出現回数が多い形態素mo(単語)ほど親密度が高くなるように、記憶部22に格納されている単語親密度データDDを更新する。
[実施形態の効果]
以上説明したように、本実施形態の話速データ生成処理では、親密度が低い単語ほど、全読み上げ時間に占める当該単語の読み上げ時間の割合が長くなるように、話速データを生成している。
これは、認識度合い(即ち、親密度)が低い単語の読み上げに要する時間長が短いと、映像に合わせて出力される音声を聴いた人物は、その音声による情報の内容を認識できない可能性があるためである。
すなわち、本実施形態の話速データ生成処理によって生成された話速データに基づいて合成音声における各音素の開始タイミングを決定すれば、その合成音声においては、情報の全読み上げ時間に占める、親密度が低い単語の読み上げに要する時間長の割合を大きくできる。
この結果、親密度が低い単語であっても、合成音声を聴いた人物が聴き取りやすくなり、その人物は、発声によって表される情報の内容全体を認識することができる。
換言すれば、情報処理装置30においては、合成音声において、発声の内容を理解しやすくなるように、読み上げ速度(即ち、話速)を調整できる。
ところで、通常、日本語の音声にて表される情報では、名詞及び動詞が大きな重みを有する。このため、本実施形態の話速データ生成処理では、名詞及び動詞を重要品詞とし、重要品詞それぞれに対応する重要単語に対する読み上げ時間が長くなるように話速データを生成している。
このように生成された話速データに基づいて話速が調整された合成音声によれば、重要品詞をより聴き取りやすくすることができ、発声の内容をより理解しやすくできる。
また、本実施形態の話速データ生成処理では、一つのセリフテキストデータCDによって表される情報全体を読み上げるために必要な時間長が、要発声時間に維持されるように正規化したデータを話速データとして生成している。
このため、話速データ生成処理によれば、字幕を読み上げる時間長が予め規定された時間長から変更されることを防止でき、映像の進行に合わせた適切なタイミングで字幕の読み上げを実現できる。
なお、本実施形態では、親密度更新処理において、利用者が視聴したことのあるコンテンツの字幕に含まれる単語が出現した回数に応じて親密度が高くなるように、当該単語に対応する親密度を更新している。
このような親密度更新処理によれば、利用者が視聴したコンテンツにて登場する回数が多いほど、親密度を高くできる。この結果、コンテンツ視聴システム1によれば、利用者ごとの認識度を反映した単語親密度データを生成でき、利用者の知識に応じた話速データを生成できる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態の話速データ生成処理では、名詞及び動詞の両方を重要品詞としていたが、重要品詞は、名詞及び動詞の少なくとも一方であっても良い。
また、上記実施形態では、話速データ生成処理を情報処理装置30の制御部40が実行していたが、話速データ生成処理を実行する装置は、情報処理装置30に限るものではなく、情報処理サーバ10であっても良い。
この場合、情報処理装置30は、セリフテキストデータTDに基づく字幕を読み上げた音声合成を実行する際に、情報処理サーバ10から話速データを取得して話速を決定すれば良い。
また、上記実施形態では、親密度更新処理を情報処理サーバ10が実行していたが、親密度更新処理を実行する装置は、情報処理サーバ10に限るものではなく、情報処理装置30であっても良い。
なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
話速データ生成処理のS110を実行することで得られる機能が、特許請求の範囲の記載におけるテキスト取得手段に相当し、話速データ生成処理のS120を実行することで得られる機能が、解析手段に相当する。また、話速データ生成処理のS130を実行することで得られる機能が、特許請求の範囲の記載における親密度取得手段に相当し、話速データ生成処理のS140〜S200を実行することで得られる機能が、話速決定手段に相当する。
そして、親密度更新処理のS310を実行することで得られる機能が、特許請求の範囲の記載における識別情報取得手段に相当し、親密度更新処理のS320を実行することで得られる機能が、履歴取得手段に相当する。親密度更新処理のS330,S340を実行することで得られる機能が、特許請求の範囲の記載における履歴解析手段に相当し、S350を実行することで得られる機能が、更新手段に相当する。
さらに、話速データ生成処理のS160を実行することで得られる機能が、特許請求の範囲の記載における単語特定手段に相当し、話速データ生成処理のS210,S220を実行することで得られる機能が、音声合成手段に相当する。
1…コンテンツ視聴システム 10…情報処理サーバ 12…通信部 14…制御部 16…ROM 18…RAM 20…CPU 22…記憶部 22…記憶装置 30…情報処理装置 31…通信部 32…入力受付部 33…表示部 34…音入力部 35…音出力部 36…記憶部 40…制御部 41…ROM 42…RAM 43…CPU

Claims (8)

  1. 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手段と、
    前記テキスト取得手段にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手段と、
    単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手段にて特定された各単語に対応する親密度を取得する親密度取得手段と、
    音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手段で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手段と、
    利用者を識別する利用者識別情報を取得する識別情報取得手段と、
    前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手段で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手段と、
    前記履歴取得手段で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手段と、
    前記履歴解析手段で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手段と
    を備えることを特徴とする情報処理装置。
  2. 前記解析手段で特定した単語の中から、重要度が高い品詞として予め規定された重要品詞に対応する単語である重要単語を特定する単語特定手段を備え、
    前記話速決定手段は、
    前記単語特定手段で特定された重要単語に含まれる母音の発声時間が長くなるように、前記話速データを生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記単語特定手段は、
    名詞、及び動詞の少なくとも一方を前記重要品詞とし、前記重要品詞それぞれに対応する単語を前記重要単語として特定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記更新手段は、
    前記履歴解析手段にて特定した単語が出現した回数の増加に応じて、前記単語が出現したタイミングでの前記親密度が高くなるように、前記親密度情報において当該単語と対応付けられた親密度を更新する
    ことを特徴とする請求項1から請求項3までのいずれか一項に記載の情報処理装置。
  5. 前記話速決定手段にて生成された話速データに基づいて、各単語を構成する各音素の発声時間が前記話速データによって表された発声時間となるように音声合成して出力する音声合成手段を備える
    ことを特徴とする請求項1から請求項4までのいずれか一項に記載の情報処理装置。
  6. 前記テキストデータのそれぞれには、当該テキストデータによって表された前記文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれ、
    前記話速決定手段は、
    前記テキストデータによって表される情報全体の発声時間が前記要発声時間に維持されるように正規化したデータを、前記話速データとして生成する
    ことを特徴とする請求項1から請求項5までのいずれか一項に記載の情報処理装置。
  7. 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得過程と、
    前記テキスト取得過程にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析過程と、
    単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析過程にて特定された各単語に対応する親密度を取得する親密度取得過程と、
    音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得過程で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定過程と、
    利用者を識別する利用者識別情報を取得する識別情報取得過程と、
    前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得過程で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得過程と、
    前記履歴取得過程で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析過程と、
    前記履歴解析過程で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新過程と
    を備えることを特徴とする話速データ生成方法。
  8. 映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手順と、
    前記テキスト取得手順にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手順と、
    単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手順にて特定された各単語に対応する親密度を取得する親密度取得手順と、
    音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手順で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手順と、
    利用者を識別する利用者識別情報を取得する識別情報取得手順と、
    前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手順で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手順と、
    前記履歴取得手順で取得した視聴情報によって表される各映像に対応するテキストデー
    タを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手順と、
    前記履歴解析手順で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手順とを
    コンピュータに実行させることを特徴とするプログラム。
JP2013179785A 2013-08-30 2013-08-30 情報処理装置、話速データ生成方法、及びプログラム Active JP6044490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013179785A JP6044490B2 (ja) 2013-08-30 2013-08-30 情報処理装置、話速データ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013179785A JP6044490B2 (ja) 2013-08-30 2013-08-30 情報処理装置、話速データ生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015049311A JP2015049311A (ja) 2015-03-16
JP6044490B2 true JP6044490B2 (ja) 2016-12-14

Family

ID=52699399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013179785A Active JP6044490B2 (ja) 2013-08-30 2013-08-30 情報処理装置、話速データ生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6044490B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157607B2 (en) 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
CN108922540B (zh) * 2018-07-27 2023-01-24 重庆柚瓣家科技有限公司 与老人用户进行连续ai对话的方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297499A (ja) * 1995-04-26 1996-11-12 Matsushita Electric Ind Co Ltd 音声速度変換制御装置および音声速度変換制御方法
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
WO2009013875A1 (ja) * 2007-07-24 2009-01-29 Panasonic Corporation 文字情報提示装置
JP2011102910A (ja) * 2009-11-11 2011-05-26 Nippon Telegr & Teleph Corp <Ntt> 聴覚特性を反映した音声読み上げ方法、その装置及びプログラム
JP5802139B2 (ja) * 2012-01-20 2015-10-28 日本放送協会 音声処理装置及びプログラム

Also Published As

Publication number Publication date
JP2015049311A (ja) 2015-03-16

Similar Documents

Publication Publication Date Title
CN106898340B (zh) 一种歌曲的合成方法及终端
CN105788589B (zh) 一种音频数据的处理方法及装置
JP3599549B2 (ja) 動映像と合成音を同期化するテキスト/音声変換器、および、動映像と合成音を同期化する方法
JP2008517315A (ja) メディアコンテンツ項目のカテゴリに関してユーザに通知するためのデータ処理装置及び方法
JP2006501509A (ja) 個人適応音声セグメントを備える音声合成装置
CN108242238B (zh) 一种音频文件生成方法及装置、终端设备
JP2008070564A (ja) 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
CN106710585B (zh) 语音交互过程中的多音字播报方法及***
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP2015169698A (ja) 音声検索装置、音声検索方法及びプログラム
KR101877559B1 (ko) 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체
JP2009251199A (ja) 音声合成装置、方法及びプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP2010156738A (ja) 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
CN110992984B (zh) 音频处理方法及装置、存储介质
JP2007187799A (ja) 音声対話装置および音声対話方法
JP5819147B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2010117528A (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP2008116643A (ja) 音声生成装置
US11563708B1 (en) Message grouping
JP2011170622A (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
US11582174B1 (en) Messaging content data storage

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161031

R150 Certificate of patent or registration of utility model

Ref document number: 6044490

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150