JP6044490B2

JP6044490B2 - 情報処理装置、話速データ生成方法、及びプログラム

Info

Publication number: JP6044490B2
Application number: JP2013179785A
Authority: JP
Inventors: 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-08-30
Filing date: 2013-08-30
Publication date: 2016-12-14
Anticipated expiration: 2033-08-30
Also published as: JP2015049311A

Description

本発明は、映像に合わせて出力される音声の発声時間を表す話速データを生成する情報処理装置、話速データ生成方法、及びプログラムに関する。

従来、映画やテレビ番組などの映像を含むコンテンツにおいて、映像の出力に合わせて音声合成にて生成された合成音声を出力することがなされている。
この映像に合わせて合成音声を出力する装置として、合成音声の発声時間長を番組放送時間に一致させるように当該音声の伸縮率を決定し、その決定した伸縮率に基づいて合成音声における話速を変換する話速調整装置（即ち、情報処理装置）が提案されている（特許文献１参照）。

特開２０１２−０７８７５５号公報

この特許文献１に記載された装置にて話速を変換した場合、合成音声の全体が伸縮されるため、合成音声にて発声される文章に含まれる各単語の発声時間も伸縮される。
そして、発声時間が伸縮される際に発声時間が短縮されると、文章中に含まれる単語は、聴き取りにくくなる可能性がある。このため、発声時間が短縮された単語を聞いた人物は、発声の内容全体を理解することが困難となるという課題があった。

つまり、従来の技術では、合成音声において、発声の内容が理解しやすくなるように話速を調整できないという課題があった。
そこで、本発明は、合成音声において、発声の内容が理解しやすくなるように話速を調整可能とすることを目的とする。

上記目的を達成するためになされた本発明は、テキスト取得手段と、解析手段と、親密度取得手段と、話速決定手段と、識別情報取得手段と、履歴取得手段と、履歴解析手段と、更新手段とを備えた情報処理装置である。

本発明においては、テキスト取得手段が、映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得し、解析手段が、テキスト取得手段にて取得したテキストデータを解析し、テキストデータによって表される文字列に含まれる各単語を特定する。

そして、親密度取得手段が、解析手段にて特定された各単語に対応する親密度を、親密度データベースから取得する。ここで言う親密度データベースとは、親密度情報が格納されたデータベースであり、親密度情報とは、単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた情報である。

さらに、話速決定手段は、親密度取得手段で取得した親密度が低いことを表している単語ほど、テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する。ここで言う話速データとは、音声合成によって出力される合成音声の発声時間を表すデータであり、かつ、テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータである。

また、本発明では、識別情報取得手段が、利用者を識別する利用者識別情報を取得する。そして、履歴取得手段が、利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、識別情報取得手段で取得した利用者識別情報に対応する利用者の視聴情報を取得する。

さらに、本発明では、履歴解析手段が、履歴取得手段で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する。更新手段は、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する。

すなわち、映像に合わせて出力される音声に、認識度合い（即ち、親密度）が低い単語が含まれている場合、その単語の発声に掛ける時間長が短いと、その音声を聞いた人物は、音声によって表される情報の内容を認識できない可能性がある。

そこで、本発明の情報処理装置においては、親密度が低いことを表している単語ほど、情報の全発声時間に占める当該単語の発声時間の割合が長くなるように、当該単語に掛ける発声時間を調整した話速データを生成している。

このような話速データに基づいて合成音声の出力速度を決定すれば、その合成音声においては、情報の全発声時間に占める、親密度が低い単語の発声に掛ける時間長の割合を大きくできる。

この結果、その合成音声を聴いた人物は、親密度が低い単語であっても聴き取りやすくなり、発声によって表される情報の内容全体を認識することができる。
しかも、本発明の情報処理装置においては、利用者が過去に視聴した映像に対応するテキストデータを解析して親密度情報を更新している。

このように、利用者が過去に視聴した映像における音声中の各単語は、利用者によって認識されている可能性が高い。
したがって、本発明の情報処理装置によれば、利用者ごとの単語の認識状態に合わせた親密度情報を用いることができ、利用者にとって、より適切な話速データを生成できる。

換言すれば、本発明の情報処理装置においては、合成音声において、発声の内容を理解しやすくなるように話速を調整することができる。
なお、ここで言う発声時間は、発声に要する時間を表すものであり、速度（話速）を含むものである。

ところで、本発明の情報処理装置は、解析手段で特定した単語の中から、重要度が高い品詞として予め規定された重要品詞に対応する単語である重要単語を特定する単語特定手段を備えていても良い。

この場合、本発明における話速決定手段は、単語特定手段で特定された重要単語に含まれる母音の発声時間が長くなるように、話速データを生成しても良い。
本発明の情報処理装置によれば、日本語の重要単語に対する発声時間が長くなるように話速データを生成することができる。

そして、本発明の情報処理装置にて生成された話速データに基づいて話速が調整された合成音声は、重要単語をより聴き取りやすくすることができ、発声の内容をより理解しやすくできる。

さらに、本発明における単語特定手段は、名詞、及び動詞の少なくとも一方を重要品詞とし、重要品詞それぞれに対応する単語を重要単語として特定しても良い。
音声にて出力される情報においては、名詞及び動詞が大きな重みを有する。

このため、本発明においては、名詞及び動詞の少なくとも一方を重要品詞とし、重要品詞それぞれに対応する単語を重要単語として特定しても良い。
このような情報処理装置によれば、名詞及び動詞の少なくとも一方に対する発声時間が長くなるように話速データを生成することができる。

そして、本発明の情報処理装置にて生成された話速データに基づいて話速が調整された合成音声は、名詞及び動詞の少なくとも一方をより聴き取りやすくすることができる。
また、本発明における更新手段は、履歴解析手段にて特定した単語が出現した回数の増加に応じて、単語が出現したタイミングでの親密度が高くなるように、親密度情報において当該単語と対応付けられた親密度を更新しても良い。

このような情報処理装置によれば、映像全体に渡って登場する回数が多い単語ほど、親密度を高くでき、その映像に適した話速データを生成できる。
そして、本発明においては、話速決定手段にて生成された話速データに基づいて、音声合成手段が、各単語を構成する各音素の発声時間が話速データによって表された発声時間となるように音声合成して出力しても良い。

このような情報処理装置によれば、発声の内容を理解しやすくなるように話速を調整した合成音声を出力することができる。
なお、本発明のテキストデータのそれぞれには、当該テキストデータによって表された文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれていても良い。

この場合、本発明の話速決定手段は、テキストデータによって表される情報全体の発声時間が要発声時間に維持されるように正規化したデータを、話速データとして生成しても良い。

このような情報処理装置によれば、情報の内容を発声するために要する時間長を変更することがないため、映像の進行に沿って適切なタイミングで発声させることができる。
ところで、本発明は、話速データを生成する話速データ生成方法としてなされていても良い。

本発明の話速データ生成方法は、テキストデータを取得するテキスト取得過程と、その取得したテキストデータによって表される文字列に含まれる各単語を特定する解析過程と、その特定された各単語に対応する親密度を取得する親密度取得過程と、その取得した親密度が低いことを表している単語ほど、情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する話速決定過程とを備えている。さらに、本発明の話速データ生成方法は、利用者識別情報を取得する識別情報取得過程と、その取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得過程と、その取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析過程と、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新過程とを備えている。

このような話速データ生成方法であれば、本発明の情報処理装置と同様の効果を得ることができる。
また、本発明は、コンピュータが実行するプログラムとしてなされていても良い。

本発明のプログラムでは、テキストデータを取得するテキスト取得手順と、そのテキストデータによって表される文字列に含まれる各単語を特定する解析手順と、その特定された各単語に対応する親密度を取得する親密度取得手順と、その取得した親密度が低いことを表している単語ほど、情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した話速データを生成する話速決定手順とをコンピュータに実行させる。

さらに、本発明のプログラムでは、利用者識別情報を取得する識別情報取得手順と、その取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手順と、その取得した視聴情報によって表される各映像に対応するテキストデータによって表される文字列に含まれる各単語を特定する履歴解析手順と、その特定された単語それぞれの認識度合いが高くなるように、親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手順とをコンピュータに実行させる。

例えば、本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、本発明の情報処理装置として機能させることができる。

なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。

本発明が適用された情報処理装置及び情報処理装置の周辺の概略構成を示すブロック図である。テキストデータの構造を説明する説明図である。話速データ生成処理の処理手順を示すフローチャートである。話速データ生成処理の処理過程で生成される情報を説明する説明図である。親密度更新処理の処理手順を示すフローチャートである。

以下に本発明の実施形態を図面と共に説明する。
〈コンテンツ視聴システム〉
図１に示すコンテンツ視聴システム１は、予め用意されたコンテンツを利用者が視聴するシステムであり、情報処理サーバ１０と、少なくとも一つの情報処理装置３０とを備えている。
〈情報処理サーバ〉
情報処理サーバ１０は、各種データが格納されるサーバであり、通信部１２と、制御部１４と、記憶部２２とを備えている。

この情報処理サーバ１０に格納される各種データには、少なくとも、出力すべき映像と音声とを含むコンテンツデータＣＤと、予め入力された音声の音声特徴量を少なくとも含む音源データＳＶと、コンテンツ視聴システム１の利用者が視聴したコンテンツの履歴に関する利用者履歴データＨＤと、各単語の認識度合いを表す親密度を単語それぞれと対応付けた単語親密度データＤＤとを含む。

通信部１２は、通信網を介して、情報処理サーバ１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。
制御部１４は、ＲＯＭ１６と、ＲＡＭ１８と、ＣＰＵ２０とを少なくとも有した周知のコンピュータを中心に構成され、通信部１２や記憶部２２を制御する。

ＲＯＭ１６は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。ＲＡＭ１８は、処理プログラムやデータを一時的に格納する。ＣＰＵ２０は、ＲＯＭ１６やＲＡＭ１８に記憶された処理プログラムに従って各種処理を実行する。

記憶部２２は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。この記憶装置とは、例えば、ハードディスク装置やフラッシュメモリなどである。記憶部２２には、コンテンツデータＣＤと、音源データＳＶと、利用者履歴データＨＤと、単語親密度データＤＤとが格納されている。

このうち、コンテンツデータＣＤは、コンテンツごとに予め用意されたデータである。
ここで言うコンテンツとは、少なくとも画像（映像）と音声とが時間軸に沿って出力される制作物である。この制作物の一例として、映画やテレビ番組が考えられる。

このコンテンツデータＣＤは、映像データＩＭと、セリフ音声データＳＤと、セリフテキストデータＴＤとを含む。図１中の符号“ｍ”は、コンテンツデータＣＤそれぞれを識別する符号である。

映像データＩＭは、コンテンツにおいて出力される映像（動画）を構成する複数の画像からなるデータである。
セリフ音声データＳＤは、映像データＩＭによって表される映像に合わせて出力される音声データである。このセリフ音声データＳＤは、例えば、映像に合わせて発せられるセリフやナレーションである。本実施形態におけるセリフ音声データＳＤは、映像におけるセリフやナレーションごとに用意されていても良いし、映像における時間軸に沿って予め規定された単位区間ごとに用意されていても良い。

セリフテキストデータＴＤは、映像データＩＭによって表される映像に合わせて出力される音声の内容を表すテキストデータである。このセリフテキストデータＴＤには、図２に示すように、配役情報と、字幕情報と、タイミング情報とが含まれる。

このうち、字幕情報は、映像に合わせて出力される字幕（テキスト）である。この字幕は、セリフやナレーションなどの内容を文字列で表したものである。さらに、本実施形態における字幕の言語は、日本語である。

配役情報は、各字幕を読み上げるべき人物を識別する情報であり、字幕それぞれに規定されている。この配役情報は、人物そのものを特定する情報であっても良いし、性別や年齢などの人物の特徴を表す情報であっても良い。

タイミング情報は、字幕情報によって表される字幕を出力するタイミングが規定された開始タイミングと、その出力を終了するタイミングを表す終了タイミングとが、字幕それぞれに規定された情報である。これらの開始タイミング及び終了タイミングは、映像データＩＭにおける時間の進行と対応付けられている。

さらに、タイミング情報には、セリフテキストデータＴＤに含まれる字幕情報によって表された文字列全体を読み上げることに掛けることが可能な時間長として規定された要発声時間が含まれている。

なお、本実施形態におけるセリフテキストデータＴＤは、映像に合わせて出力される字幕ごとに用意されている。
音源データＳＶは、音声パラメータとタグデータとを音源ごとに対応付けたデータである。音声パラメータは、人が発した音の波形を表す少なくとも一つの特徴量である。この特徴量は、いわゆるフォルマント合成に用いる音声の特徴量であり、発声者ごと、かつ、音素ごとに用意される。音声パラメータにおける特徴量として、発声音声における各音素での基本周波数Ｆ０、メル周波数ケプストラム（ＭＦＣＣ）、音素長、パワー、及びそれらの時間差分を少なくとも備えている。

タグデータは、音声パラメータによって表される音の性質を表すデータであり、少なくとも、発声者の特徴を表す発声者特徴データを含む。この発声者特徴データには、例えば、発声者の性別、年齢などを含む。

さらに、タグデータには、当該音声が発声されたときの発声者の表情を表す表情データを含んでも良い。この表情データは、感情や情緒、情景、状況を少なくとも含む表情としての概念を表すデータであり、発声者の表情を推定するために必要な情報を含んでも良い。

これらの音声パラメータとタグデータとを対応付けた音源データＳＶは、例えば、周知のカラオケ装置を用いて楽曲が歌唱された際に、そのカラオケ装置にて予め規定された処理を実行することで生成され記憶部２２に登録されても良い。

なお、図１中の符号“ｎ”は、音源データそれぞれＳＶを識別する符号である。
また、利用者履歴データＨＤは、コンテンツ視聴システム１の利用者が視聴したコンテンツの履歴を表すデータである。図１中の符号“Ｌ”は、利用者履歴データＨＤそれぞれを識別する符号である。

この利用者履歴データＨＤは、利用者を識別する利用者ＩＤと、その利用者が視聴したコンテンツそれぞれを識別するコンテンツＩＤとが利用者ごとに対応付けられたデータである。

この利用者履歴データＨＤは、コンテンツが閲覧されるごとに、そのコンテンツを視聴したものとして、当該コンテンツのコンテンツＩＤを利用者ＩＤと対応付けても良い。なお、コンテンツＩＤを利用者ＩＤと対応付けるタイミングは、コンテンツが閲覧されたタイミングに限るものではなく、コンテンツが購入されたタイミングであっても良い。

また、単語親密度データＤＤは、単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられたデータである。ここで言う親密度は、認識度合いが高いほど大きな値である。すなわち、単語親密度データＤＤは、特許請求の範囲に記載された親密度情報の一例である。

なお、本実施形態における単語親密度データＤＤは、利用者ごとの各単語の認識度合いが記憶されたものでも良い。また、本実施形態においては、単語親密度データＤＤが記憶された記憶部２２は、親密度データベースとして機能する。
〈情報処理装置〉
情報処理装置３０は、通信部３１と、入力受付部３２と、表示部３３と、音入力部３４と、音出力部３５と、記憶部３６と、制御部４０とを備えている。

本実施形態における情報処理装置３０として、例えば、周知の携帯端末を想定しても良いし、いわゆるパーソナルコンピュータといった周知の情報処理装置を想定しても良い。なお、携帯端末には、周知の電子書籍端末や、携帯電話、タブレット端末などの携帯情報端末を含む。

通信部３１は、通信網を介して外部との間で情報通信を行う。入力受付部３２は、入力装置（図示せず）を介して入力された情報を受け付ける。表示部３３は、制御部４０からの信号に基づいて画像を表示する。

音入力部３４は、音を電気信号に変換して制御部４０に入力する装置であり、例えば、マイクロホンである。音出力部３５は、音を出力する周知の装置であり、例えば、ＰＣＭ音源と、スピーカとを備えている。記憶部３６は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。記憶部３６には、各種処理プログラムや各種データが記憶される。

また、制御部４０は、ＲＯＭ４１、ＲＡＭ４２、ＣＰＵ４３を少なくとも有した周知のコンピュータを中心に構成されている。ＲＯＭ４１は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。ＲＡＭ４２は、処理プログラムやデータを一時的に格納する。ＣＰＵ４３は、ＲＯＭ４１やＲＡＭ４２に記憶された処理プログラムに従って各種処理を実行する。

すなわち、情報処理装置３０は、指定コンテンツに対応するコンテンツデータＣＤに基づいて、その指定コンテンツにおける映像を表示部３３に表示すると共に、映像における時間軸に合わせて音声を音出力部３５から出力する。ここで言う指定コンテンツとは、入力受付部３２にて受け付けた情報によって指定されたコンテンツである。

情報処理装置３０は、指定コンテンツにおける音声を出力する際に、セリフテキストデータＣＤによって表された日本語の字幕（テキスト）を、情報処理サーバ１０に格納されている音源データＳＶを用いて音声合成して合成音声を出力する。すなわち、本実施形態の情報処理装置３０は、声の吹き替えを実行可能に構成されている。

情報処理装置３０のＲＯＭ４１には、音声合成によって出力される合成音声の発声時間を表す話速データを生成する話速データ生成処理を、制御部４０が実行するための処理プログラムが格納されている。
〈話速データ生成処理〉
情報処理装置３０の制御部４０が実行する話速データ生成処理は、起動指令が入力されると起動される。

この話速データ生成処理では、図３に示すように、起動されると、制御部４０は、まず、指定コンテンツの日本語によるセリフテキストデータＣＤを取得する（Ｓ１１０）。続いて、制御部４０は、Ｓ１１０にて取得したセリフテキストデータＣＤによって表されるテキストを形態素解析し、形態素情報を導出する（Ｓ１２０）。このＳ１２０における形態素解析の手法として、周知の手法（例えば、“ＭｅＣａｂ”）を用いれば良い。

また、形態素情報には、形態素ｍｏ（ｋ）と、形態素音素数ｐｈ＿ｎｕ（ｋ）と、音素ｐｈ（ｋ，ｊ）と、品詞フラグｐａ（ｋ）とが含まれる。
このうち、形態素ｍｏ（ｋ）は、セリフテキストデータＣＤによって表されるテキストに含まれる各形態素ｍｏである。符号“ｋ”は、テキストに含まれる形態素ｍｏそれぞれを識別するインデックス番号であり、セリフテキストデータＣＤにおける時間軸に沿って順に割り当てられる。

音素ｐｈ（ｋ，ｊ）は、形態素ｍｏ（ｋ）それぞれを構成する各音素である。符号“ｊ”は、各形態素ｍｏ（ｋ）に含まれる音素それぞれを識別するインデックス番号であり、テキストにおける時間軸に沿って割り当てられている。また、形態素音素数ｐｈ＿ｎｕ（ｋ）は、各形態素ｍｏ（ｋ）を構成する音素ｐｈの数である。

さらに、品詞フラグｐａ（ｋ）は、各形態素ｍｏ（ｋ）（単語）に対応する品詞が、名詞または動詞であるか否かを表す。この品詞フラグｐａ（ｋ）は、品詞が名詞または動詞であれば「１」を設定し、品詞が名詞もしくは動詞でなければ「０」を設定する。

例えば、セリフテキストデータＣＤによって表されるテキストが「明日は晴れですね」である場合、そのテキストを形態素解析することで、図４に示す各形態素ｍｏ（ｋ）（図中，明日／は／晴れ／ですね）、及び音素ｐｈ（ｋ，ｊ）（図中，ａｓｕ／ｗａ／ｈａｒｅ／ｄｅｓｎｅ）を含む形態素情報が導出される。

さらに、話速データ生成処理では、制御部４０が、情報処理サーバ１０の記憶部２２から、Ｓ１２０にて導出した各形態素情報に含まれる形態素（単語）ｍｏ（ｋ）それぞれに対応する親密度を取得する（Ｓ１３０）。

続いて、話速データ生成処理では、制御部４０は、各音素ｐｈ（ｋ，ｊ）が母音であるか否かを判定し、母音フラグｖｗ（ｋ，ｊ）を設定する（Ｓ１４０）。このＳ１４０では、具体的には、図４に示すように、各形態素ｍｏ（ｋ）における音素ｐｈ（ｋ，ｊ）が母音であれば、母音フラグｖｗ（ｋ，ｊ）を「１」に設定し、音素ｐｈ（ｋ，ｊ）が子音であれば、母音フラグｖｗ（ｋ，ｊ）を「０」に設定する。

さらに、話速データ生成処理では、制御部４０は、音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）の初期値を設定する（Ｓ１５０）。ここで言う音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）は、セリフテキストデータＣＤによって表されるテキスト全体を読み上げるために必要な時間長（発声時間長）に占める、各音素ｐｈ（ｋ，ｊ）の読み上げに必要な時間長の割合である。

本実施形態におけるＳ１５０では、具体的には、音素ｐｈ（ｋ，ｊ）が母音であれば、音素長比率ｐｈ＿ｌｒ（ｋ，ｊ）の初期値を「１」に設定し、音素ｐｈ（ｋ，ｊ）が子音であれば、音素長比率ｐｈ＿ｌｒ（ｋ，ｊ）の初期値を「規定値ｐ」に設定する。なお、本実施形態における規定値ｐは、予め規定された値であり、「０」よりも大きく「１」よりも小さい値である。

続いて、話速データ生成処理では、制御部４０は、形態素情報に含まれる品詞フラグに基づいて、Ｓ１２０で導出した各形態素ｍｏ（ｋ）（単語）の中から重要単語を特定する（Ｓ１６０）。ここで言う重要単語とは、重要度が高い品詞として予め規定された重要品詞に対応する単語である。そして、本実施形態における重要品詞には、動詞と名詞とが含まれる。

そして、制御部４０は、Ｓ１６０にて重要単語であると特定された各形態素ｍｏ（ｋ）を構成する音素ｐｈ（ｋ，ｊ）それぞれの中で母音に対応する音素ｐｈ（ｋ，ｊ）の音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）を更新する（Ｓ１７０）。このＳ１７０における更新は、下記（１）式に従って実行され、重要単語に含まれる母音に対応する音素ｐｈ（ｋ，ｊ）の音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）だけが長くなる。なお、（１）式中のαは、予め規定された定数である。

すなわち、本実施形態のＳ１７０では、品詞フラグｐａ（ｋ）が「１」であり、かつ、母音フラグｖｗ（ｋ，ｊ）が「１」である音素ｐｈ（ｋ，ｊ）を発声する時間長が“１＋α／１００”倍される。

さらに、話速データ生成処理では、制御部４０は、まず、各形態素ｍｏ（ｋ）の親密度を情報処理サーバ１０から取得し、その取得した親密度に基づいて規格化親密度ｎｒ＿ｆａ（ｋ）を算出する（Ｓ１８０）。この規格化親密度ｎｒ＿ｆａ（ｋ）は、形態素ｍｏ（ｋ）ごとの親密度の平均が「１」、分散が「１」となるように、各形態素ｍｏ（ｋ）の親密度を規格化したものである。

このＳ１８０においては、さらに、制御部４０は、下記（２）式に従って倍率β（ｋ）を算出すると共に、下記（３）式に従って、各形態素に含まれる母音の音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）を補正する。

すなわち、Ｓ１８０によって、親密度が低いことを表している単語の母音の音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）は、情報全体の読み上げに要する時間に占める当該単語の読み上げに要する時間の割合が長くなるように補正される。

続いて、話速データ生成処理では、制御部４０が、セリフテキストデータＣＤによって表されるテキスト全体の発声時間が要発声時間に維持されるように、各音素ｐｈ（ｋ，ｊ）の音素時間長Ｐｈ＿ｌｅ（ｋ，ｊ）を導出する（Ｓ１９０）。

具体的に、本実施形態のＳ１９０における各音素ｐｈ（ｋ，ｊ）の音素時間長Ｐｈ＿ｌｅ（ｋ，ｊ）の導出は、下記（４）式に従って実行される。

なお、（４）式における分母は、セリフテキストデータＣＤに含まれる全ての音素ｐｈ（ｋ，ｊ）音素長比率Ｐｈ＿ｌｒ（ｋ，ｊ）を積算した値（総和）である。そして、（４）式における符号“ｔｏｌ”は、要発声時間である。また、（４）式における符号“Ｎ”は、セリフテキストデータＣＤに含まれる音素ｐｈの個数である。

すなわち、音素時間長Ｐｈ＿ｌｅ（ｋ，ｊ）は、セリフテキストデータＣＤによって表される字幕を読み上げる全時間長が、当該セリフテキストデータＣＤにおける要発声時間に維持されるように正規化されている。

続いて、話速データ生成処理では、制御部４０が、Ｓ１９０にて導出された音素時間長Ｐｈ＿ｌｅ（ｋ，ｊ）を、各形態素ｍｏ（ｋ）を構成する各音素ｐｈ（ｋ，ｊ）を読み上げるタイミングを表すデータとして規定した話速データを生成する（Ｓ２００）。

さらに、話速データ生成処理では、制御部４０が、Ｓ１１０にて取得したセリフテキストデータＣＤに含まれている配役情報それぞれに基づいて、各配役情報に最も適合する音源データＳＶを取得する（Ｓ２１０）。

そして、話速データ生成処理では、制御部４０が、Ｓ２１０にて取得した音源データＳＶを用いて、Ｓ１１０にて取得したセリフテキストデータＣＤに含まれている字幕情報の内容を音声合成する（Ｓ２２０）。なお、本実施形態のＳ２２０では、Ｓ２００にて生成された話速データに基づいて、字幕情報によって表されるテキストを構成する各音素の読み上げタイミング（速度）が決定される。

そして、本実施形態のＳ２２０では、制御部４０は、制御信号を音出力部３５に出力し、音声合成によって生成された合成音声を音出力部３５から出力する。
その後、本話速データ生成処理を終了する。そして、時間軸に沿って次の映像データＩＭが出力されるタイミングに合わせて、話速データ生成処理を起動し、その映像データＩＭの時間軸に沿った次のセリフテキストデータＴＤを取得する（Ｓ１１０）。その後、Ｓ１２０〜Ｓ２２０を実行する。

つまり、本実施形態の話速データ生成処理では、指定コンテンツのセリフテキストデータＴＤを取得し、その取得したセリフテキストデータＴＤを形態素解析する。そして、情報処理サーバ１０に格納されている単語親密度データに基づいて、形態素解析にて特定された各形態素（単語）について親密度を特定する。

さらに、話速データ生成処理では、親密度が低いことを表している単語ほど、情報全体の読み上げに要する時間に占める当該単語の読み上げに要する時間の割合が長くなるように、話速データを生成している。
〈親密度更新処理〉
情報処理サーバ１０の制御部１４が実行する親密度更新処理について説明する。

この親密度更新処理は、話速データ生成処理の起動タイミングに合わせて起動される。
この親密度更新処理では、起動されると、図５に示すように、まず、制御部１４が、情報処理装置３０の入力受付部３２を介して入力された利用者ＩＤを取得する（Ｓ３１０）。

続いて、親密度更新処理では、制御部１４は、利用者履歴データＨＤにおいて、Ｓ３１０にて取得された利用者ＩＤと対応付けられている全てのコンテンツＩＤを取得する（Ｓ３２０）。

さらに、親密度更新処理では、制御部１４は、Ｓ３２０にて取得されたコンテンツＩＤそれぞれに対応し、かつ、日本語による全てのセリフテキストデータＴＤを取得する（Ｓ３３０）。

続いて、親密度更新処理では、制御部１４は、Ｓ３３０にて取得したセリフテキストデータＴＤそれぞれによって表されるテキストを形態素解析し、形態素情報を導出する（Ｓ３４０）。このＳ３４０における形態素解析の手法として、周知の手法（例えば、“ＭｅＣａｂ”）を用いれば良い。また、ここでの形態素情報には、少なくとも形態素ｍｏ（ｋ）（単語）が含まれる。

そして、親密度更新処理では、制御部１４は、Ｓ３４０にて導出した形態素ｍｏ（ｋ）に基づいて、単語親密度データＤＤを更新する（Ｓ３５０）。具体的に、本実施形態のＳ３５０では、同一内容の形態素ｍｏごとに出現回数をカウントし、その出現回数が多い形態素ｍｏ（単語）ほど親密度が高くなるように、単語親密度データＤＤを更新する。

なお、親密度の更新は、出現回数に予め規定された係数を乗じた値を、更新前の親密度に加算することで実現すれば良い。また、親密度の更新は、形態素ｍｏの品詞が自立語であるものを対象とし、付属語は対象外としても良い。

その後、親密度更新処理を終了する。
つまり、本実施形態の親密度更新処理においては、制御部１４は、利用者が視聴したコンテンツを通して出現回数が多い形態素ｍｏ（単語）ほど親密度が高くなるように、記憶部２２に格納されている単語親密度データＤＤを更新する。
［実施形態の効果］
以上説明したように、本実施形態の話速データ生成処理では、親密度が低い単語ほど、全読み上げ時間に占める当該単語の読み上げ時間の割合が長くなるように、話速データを生成している。

これは、認識度合い（即ち、親密度）が低い単語の読み上げに要する時間長が短いと、映像に合わせて出力される音声を聴いた人物は、その音声による情報の内容を認識できない可能性があるためである。

すなわち、本実施形態の話速データ生成処理によって生成された話速データに基づいて合成音声における各音素の開始タイミングを決定すれば、その合成音声においては、情報の全読み上げ時間に占める、親密度が低い単語の読み上げに要する時間長の割合を大きくできる。

この結果、親密度が低い単語であっても、合成音声を聴いた人物が聴き取りやすくなり、その人物は、発声によって表される情報の内容全体を認識することができる。
換言すれば、情報処理装置３０においては、合成音声において、発声の内容を理解しやすくなるように、読み上げ速度（即ち、話速）を調整できる。

ところで、通常、日本語の音声にて表される情報では、名詞及び動詞が大きな重みを有する。このため、本実施形態の話速データ生成処理では、名詞及び動詞を重要品詞とし、重要品詞それぞれに対応する重要単語に対する読み上げ時間が長くなるように話速データを生成している。

このように生成された話速データに基づいて話速が調整された合成音声によれば、重要品詞をより聴き取りやすくすることができ、発声の内容をより理解しやすくできる。
また、本実施形態の話速データ生成処理では、一つのセリフテキストデータＣＤによって表される情報全体を読み上げるために必要な時間長が、要発声時間に維持されるように正規化したデータを話速データとして生成している。

このため、話速データ生成処理によれば、字幕を読み上げる時間長が予め規定された時間長から変更されることを防止でき、映像の進行に合わせた適切なタイミングで字幕の読み上げを実現できる。

なお、本実施形態では、親密度更新処理において、利用者が視聴したことのあるコンテンツの字幕に含まれる単語が出現した回数に応じて親密度が高くなるように、当該単語に対応する親密度を更新している。

このような親密度更新処理によれば、利用者が視聴したコンテンツにて登場する回数が多いほど、親密度を高くできる。この結果、コンテンツ視聴システム１によれば、利用者ごとの認識度を反映した単語親密度データを生成でき、利用者の知識に応じた話速データを生成できる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態の話速データ生成処理では、名詞及び動詞の両方を重要品詞としていたが、重要品詞は、名詞及び動詞の少なくとも一方であっても良い。
また、上記実施形態では、話速データ生成処理を情報処理装置３０の制御部４０が実行していたが、話速データ生成処理を実行する装置は、情報処理装置３０に限るものではなく、情報処理サーバ１０であっても良い。

この場合、情報処理装置３０は、セリフテキストデータＴＤに基づく字幕を読み上げた音声合成を実行する際に、情報処理サーバ１０から話速データを取得して話速を決定すれば良い。

また、上記実施形態では、親密度更新処理を情報処理サーバ１０が実行していたが、親密度更新処理を実行する装置は、情報処理サーバ１０に限るものではなく、情報処理装置３０であっても良い。

なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

話速データ生成処理のＳ１１０を実行することで得られる機能が、特許請求の範囲の記載におけるテキスト取得手段に相当し、話速データ生成処理のＳ１２０を実行することで得られる機能が、解析手段に相当する。また、話速データ生成処理のＳ１３０を実行することで得られる機能が、特許請求の範囲の記載における親密度取得手段に相当し、話速データ生成処理のＳ１４０〜Ｓ２００を実行することで得られる機能が、話速決定手段に相当する。

そして、親密度更新処理のＳ３１０を実行することで得られる機能が、特許請求の範囲の記載における識別情報取得手段に相当し、親密度更新処理のＳ３２０を実行することで得られる機能が、履歴取得手段に相当する。親密度更新処理のＳ３３０，Ｓ３４０を実行することで得られる機能が、特許請求の範囲の記載における履歴解析手段に相当し、Ｓ３５０を実行することで得られる機能が、更新手段に相当する。

さらに、話速データ生成処理のＳ１６０を実行することで得られる機能が、特許請求の範囲の記載における単語特定手段に相当し、話速データ生成処理のＳ２１０，Ｓ２２０を実行することで得られる機能が、音声合成手段に相当する。

１…コンテンツ視聴システム１０…情報処理サーバ１２…通信部１４…制御部１６…ＲＯＭ１８…ＲＡＭ２０…ＣＰＵ２２…記憶部２２…記憶装置３０…情報処理装置３１…通信部３２…入力受付部３３…表示部３４…音入力部３５…音出力部３６…記憶部４０…制御部４１…ＲＯＭ４２…ＲＡＭ４３…ＣＰＵ

Claims

映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手段と、
前記テキスト取得手段にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手段と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手段にて特定された各単語に対応する親密度を取得する親密度取得手段と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手段で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手段と、
利用者を識別する利用者識別情報を取得する識別情報取得手段と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手段で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手段と、
前記履歴取得手段で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手段と、
前記履歴解析手段で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手段と
を備えることを特徴とする情報処理装置。
前記解析手段で特定した単語の中から、重要度が高い品詞として予め規定された重要品詞に対応する単語である重要単語を特定する単語特定手段を備え、
前記話速決定手段は、
前記単語特定手段で特定された重要単語に含まれる母音の発声時間が長くなるように、前記話速データを生成する
ことを特徴とする請求項１に記載の情報処理装置。
前記単語特定手段は、
名詞、及び動詞の少なくとも一方を前記重要品詞とし、前記重要品詞それぞれに対応する単語を前記重要単語として特定する
ことを特徴とする請求項２に記載の情報処理装置。
前記更新手段は、
前記履歴解析手段にて特定した単語が出現した回数の増加に応じて、前記単語が出現したタイミングでの前記親密度が高くなるように、前記親密度情報において当該単語と対応付けられた親密度を更新する
ことを特徴とする請求項１から請求項３までのいずれか一項に記載の情報処理装置。
前記話速決定手段にて生成された話速データに基づいて、各単語を構成する各音素の発声時間が前記話速データによって表された発声時間となるように音声合成して出力する音声合成手段を備える
ことを特徴とする請求項１から請求項４までのいずれか一項に記載の情報処理装置。
前記テキストデータのそれぞれには、当該テキストデータによって表された前記文字列の発声に掛けることが可能な時間長として予め規定された要発声時間が含まれ、
前記話速決定手段は、
前記テキストデータによって表される情報全体の発声時間が前記要発声時間に維持されるように正規化したデータを、前記話速データとして生成する
ことを特徴とする請求項１から請求項５までのいずれか一項に記載の情報処理装置。
映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得過程と、
前記テキスト取得過程にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析過程と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析過程にて特定された各単語に対応する親密度を取得する親密度取得過程と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得過程で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定過程と、
利用者を識別する利用者識別情報を取得する識別情報取得過程と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得過程で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得過程と、
前記履歴取得過程で取得した視聴情報によって表される各映像に対応するテキストデータを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析過程と、
前記履歴解析過程で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新過程と
を備えることを特徴とする話速データ生成方法。
映像に合わせて音声によって出力される情報の文字列を表すテキストデータを取得するテキスト取得手順と、
前記テキスト取得手順にて取得したテキストデータを解析し、前記テキストデータによって表される文字列に含まれる各単語を特定する解析手順と、
単語それぞれと各単語の認識度合いを表す親密度とが予め対応付けられた親密度情報が格納された親密度データベースから、前記解析手順にて特定された各単語に対応する親密度を取得する親密度取得手順と、
音声合成に用いる、合成音声の発声時間を表すデータであり、かつ、前記テキストデータによって表される情報の文字列を構成する各音素の発声時間を表すデータを話速データとし、前記親密度取得手順で取得した親密度が低いことを表している単語ほど、前記テキストデータによって表される情報全体の発声時間に占める、当該単語の発声時間の割合が長くなるように、当該単語の発声時間を調整した前記話速データを生成する話速決定手順と、
利用者を識別する利用者識別情報を取得する識別情報取得手順と、
前記利用者識別情報それぞれと、各利用者識別情報に対応する利用者が過去に視聴した映像を表す視聴情報とを対応付けた利用履歴から、前記識別情報取得手順で取得した利用者識別情報に対応する利用者の視聴情報を取得する履歴取得手順と、
前記履歴取得手順で取得した視聴情報によって表される各映像に対応するテキストデー
タを取得して解析し、各テキストデータによって表される文字列に含まれる各単語を特定する履歴解析手順と、
前記履歴解析手順で特定された単語それぞれの認識度合いが高くなるように、前記親密度データベースに格納されている親密度情報において当該単語と対応付けられた親密度を更新する更新手順とを
コンピュータに実行させることを特徴とするプログラム。