JP7140016B2

JP7140016B2 - 音声出力方法、音声出力システム及びプログラム

Info

Publication number: JP7140016B2
Application number: JP2019050337A
Authority: JP
Inventors: 良成白井; 早苗藤田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2022-09-21
Anticipated expiration: 2039-03-18
Also published as: US20220148563A1; JP2020154050A; WO2020189376A1

Description

本発明は、音声出力方法、音声出力システム及びプログラムに関する。

音声合成（speech synthesis）と呼ばれる技術が従来から知られている。音声合成は、例えば、視覚障がい者への情報伝達や、ディスプレイを十分に見ることができない状況下での情報伝達（例えば、車の運転中におけるカーナビによる情報伝達）等に利用されてきた。近年では、少し聞いただけでは人間の声と区別がつかないほど合成音声の性能が向上しており、スマートフォンやスマートスピーカ等の普及とも相まって音声合成が広く普及しつつある。

音声合成は、典型的にはテキストを合成音声に変換することに用いられる。この場合、音声合成は、しばしばテキスト音声合成（TTS:Text-to-speech）とも呼ばれる。テキスト音声合成の有効な利用方法として、スマートフォン等を用いた電子書籍の読み上げやWebページの読み上げ等がある。例えば、青空文庫等の小説サイトのテキストを合成音声で読み上げるスマートフォン用アプリケーションが知られている（非特許文献１）。

音声合成を利用することで、視覚障がい者だけでなく一般の人も、例えば、混雑した電車の中や運転中等のスマートフォンが操作困難な状況下でも電子書籍やWebページを合成音声で読み上げさせて聞くこと等ができるようになる。また、これ以外にも、例えば、能動的に文字を読むのが面倒だと感じた場合等に、合成音声で読み上げさせることで、受動的に情報を得ることができるようになる。

他方で、小説の読者の理解を助けるために、小説中の発話文の発話者を推定する研究が行われている（非特許文献２）。

"青空司書", [online], <URL: https://sites.***.com/site/aozorashisho/> He, et.al, "Identification of Speakers in Novels", Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 1312-1320.

ところで、音声合成を利用してテキストを読み上げる場合、合成音声の声（以下、「ボイス」とも表す。）は、例えば、スマートフォンに搭載されているOS（Operating System）やアプリケーション上でユーザが予め設定したボイスに固定される。このため、例えば、ユーザがイメージしていた声とは異なる声でテキストが読み上げられてしまう場合がある。

例えば、年配の男性のような声質のボイスが設定された状態で、音声合成により小説を読み上げた場合、若い女性がイメージされる登場人物の発話文も、年配の男性のような声質のボイスで読み上げられてしまう。

これに対して、例えば、読み上げ対象のコンテンツ（電子書籍やWebページ等）中の部分文字列をどのような年齢や性別のボイスで読み上げればよいかを識別し、この識別結果に応じてボイスを切り替えながらテキストを読み上げればよいと考えられる。しかしながら、テキスト中の部分文字列の主体（例えば、会話文であれば発話者の属性等）を識別することは容易ではない。また、仮に識別できたとしても、その識別結果に応じて音声合成のボイスを変更して出力するようなアプリケーションは現状では存在しない。

本発明は、上記の点に鑑みてなされたもので、コンテンツに付与された属性情報に応じた音声を出力することを目的とする。

上記目的を達成するため、本発明の実施の形態では、第１の端末と、サーバと、第２の端末とが含まれる音声出力システムが実行する音声出力方法であって、前記第１の端末は、コンテンツに含まれる文字列に対して、該文字列を合成音声で読み上げる場合における話者の属性を表すラベルデータを付与する第１のラベル付与手順と、前記ラベルデータを前記サーバに送信する送信手順と、を実行し、前記サーバは、前記第１の端末から送信されたラベルデータを、前記コンテンツを識別するコンテンツ識別情報と対応付けてデータベースに保存する保存手順を実行し、前記第２の端末は、前記コンテンツのコンテンツ識別情報に対応するラベルデータを前記サーバから取得する取得手順と、取得したラベルデータを、前記コンテンツに含まれる各文字列に付与する第２のラベル付与手順と、前記コンテンツに含まれる各文字列にそれぞれ付与されているラベルデータを用いて、複数の音声データの中から、前記文字列の読み上げに用いられる合成音声の音声データをそれぞれ特定する特定手順と、前記コンテンツに含まれる各文字列のそれぞれを、特定された音声データを用いた合成音声により読み上げて音声出力する音声出力手順と、を実行する、ことを特徴とする。

コンテンツに付与された属性情報に応じた音声を出力することができる。

読み上げ対象のコンテンツの一例を説明するための図である。ボイスの割り当ての一例を説明するための図である。 XML形式のタグでラベルの付与を実現する場合の一例を説明するための図である。本発明の実施の形態における音声出力システムの全体構成の一例を示す図である。ラベリング画面の一例を示す図である。本発明の実施の形態における音声出力システムの機能構成の一例を示す図である。ラベル管理DBに格納されているラベルデータの構成の一例を示す図である。本発明の実施の形態におけるラベル付与処理の一例を示すフローチャートである。本発明の実施の形態におけるラベルデータ保存処理の一例を示すフローチャートである。本発明の実施の形態における音声出力処理の一例を示すフローチャートである。コンピュータのハードウェア構成の一例を示す図である。

以下、本発明の実施の形態について説明する。本発明の実施の形態では、ヒューマンコンピュテーション技術によりコンテンツ中の部分文字列にラベルを付与した上で、部分文字列に付与されたラベルに応じてボイスを切り替えながら合成音声を出力する音声出力システム１について説明する。これにより、本発明の実施の形態における音声出力システム１では、イメージした声に近いボイスで、コンテンツ中の各部分文字列を音声出力することが可能となる。

ここで、ラベルとは、コンテンツ中の部分文字列を音声合成により読み上げる際に、当該部分文字列を読み上げる話者の識別情報（例えば、話者の名前等）や属性（例えば、年齢や性別等）を表す情報のことである。また、コンテンツとは、テキスト（つまり、文字列）で表現される電子データのことであり、例えば、Webページや電子書籍等が挙げられる。本発明の実施の形態では、コンテンツは、一例として、Webページ上の文章（例えばWebページ上で公開されている小説等）であるものとする。

更に、ヒューマンコンピュテーション技術とは、一般に、コンピュータにとって解くことが困難な課題を、人間の処理能力を利用して解決する技術のことである。本発明の実施の形態では、コンテンツ中の部分文字列に対するラベルの付与をヒューマンコンピュテーション技術により実現する（つまり、部分文字列に対するラベルの付与は、後述するラベリング画面等のUI（ユーザインタフェース）を用いて人手で行われる。）。

なお、本発明の実施の形態では、異なるボイスで読み上げられる複数の部分文字列がコンテンツ中に存在することを想定しているが、これに限られない。本発明の実施の形態は、例えば、１つのコンテンツ中の全文字列が１つのボイスで読み上げられる場合であっても同様に適用することができる（ただし、この場合、コンテンツ中の部分文字列とは全文字列を意味する。）。

＜コンテンツとボイスの割り当て＞
まず、音声合成による読み上げ対象のコンテンツ中の部分文字列に対するボイスの割り当てについて説明する。

図１は、読み上げ対象のコンテンツの一例である。図１では、コンテンツの一例として、夏目漱石の小説「こころ」の一部を取り出したものを表している。小説等のコンテンツには、一人称視点で記載されている文書や三人称視点で記載されている文章、或る登場人物の発話を表す文章等が存在する。

例えば、図１に示す例では、『これからどこへ行くという目的のない私は、ただ先生の歩く方へ歩いて行った。先生はいつもより口数を利かなかった。それでも私はさほどの窮屈を感じなかったので、ぶらぶらいっしょに歩いて行った。』との文章は一人称視点で記載されている文章であり、『「すぐお宅へお帰りですか」』との文章は登場人物「私」の発話を表す文章である。同様に、『「ええ別に寄る所もありませんから」』との文章は登場人物「先生」の発話を表す文章であり、『二人はまた黙って南の方へ坂を下りた。』との文章は三人称視点で記載されている文章である。また、『「先生のお宅の墓地はあすこにあるんですか」と私がまた口を利き出した。』との文章は、括弧（「」）内の文章が登場人物「私」の発話を表す文章、それ以降の文章が一人称視点で記載されている文章である。

図１に示すコンテンツを音声合成で読み上げる場合、登場人物「私」の発話文を読み上げるボイスと、登場人物「先生」の発話文を読み上げるボイスとは異なるボイスで、かつ、それぞれが常に同じボイスで読み上げられることが好ましいと考えられる。

また、発話文（つまり、括弧内の文章）以外の文章では、三人称視点であれば登場人物の発話に用いられているボイスとは異なるボイスで読み上げられることが好ましいと考えられる。一方で、一人称視点であれば該当の登場人物（図１に示す例では「私」）と同一のボイスで読み上げられることが好ましいと考えられる。

以上により、図１に示すコンテンツを音声合成で読み上げる場合には、例えば、図２に示すように、登場人物「私」を表すボイス１と、登場人物「先生」を表すボイス２と、第三者視点の文章を読み上げるためのナレーションを表すボイス３とを用いて、コンテンツ中の各部分文字列に対して該当のボイスを割り当てて読み上げることが好ましい。

つまり、例えば小説等のコンテンツでは、一般に、同一登場人物の発話文は同一ボイスを割り当てた上で一貫してそのボイスで読み上げることが好ましく、地の文章（発話文でない文章）は三人称視点や一人称視点等に応じたボイスを割り当てた上で一貫してそのボイスで読み上げることが好ましい。

なお、図１に示す例では、コンテンツの一例として小説を挙げたが、限られないことはいうまでもない。コンテンツは、電子書籍等の小説以外にも、論説や論文、漫画等でもよいし、例えばニュースサイト等のWebページであってもよい。

特に、例えば、ニュースサイトのWebページでは、ユーザによっては男性キャスター風に読み上げて欲しい人もいれば女性キャスター風に読み上げて欲しい人もいると思われる。また、例えば、ニュースサイトの記事中に登場する政治家のコメント等は、その政治家の性別や年齢に応じたボイスで読み上げて欲しいこともある。更に、論文等も、地の文は第一著者の性別や年齢に応じたボイスで読み上げ、引用箇所等では別のボイスで読み上げると、論文内容の利用が進む可能性がある。本発明の実施の形態では、これらの場合についても適用可能である。

＜部分文字列に対するラベルの付与＞
上記の読み上げを実現するために、コンテンツ中の部分文字列にラベルを付与する方法について説明する。

例えば、Webページ上のコンテンツ中の各部分文字列に対して、図３に示すようなラベル（つまり、XML形式のタグ）が付与されていれば、図２に示すようなボイスの割り当てが可能となると考えられる。このようなラベルが付与されていれば、合成音声により読み上げを行うアプリケーションプログラムは、タグで囲まれた文章（部分文字列）の年齢（age）及び性別（gender）の属性値に応じて、その年齢及び性別に最も近いボイスを選択して読み上げることが可能となるためである。また、同一登場人物の発話であるか否かをid（識別情報）で管理し、同一idが割り振られた発話は同一ボイスで一貫して読み上げることが可能となる。

なお、図３に示す例では、SSML（Speech Synthesis Markup Language）に類似するラベルを用いたが、例えば、以下の参考文献１に記載されているように、発話文への発話者情報付与に関する既存ラベルを用いることも考えられる。

［参考文献１］
宮嵜由美, 柏野和佳子, 山崎誠, "発話文への発話者情報付与の基本設計 : 『現代日本語書き言葉均衡コーパス』収録の小説を対象に", 言語資源活用ワークショップ発表論文集, 2017.

しかしながら、上記のように、ラベルをコンテンツに埋め込む場合には、コンテンツに対する更新権限を持っている者（例えば、コンテンツの作成者等）しか、ラベルの付与や更新をすることができない。例えば、Webページ上に小説等のコンテンツを作成及び公開しているコンテンツ作成者がラベルを付与したり、更新したりするのはコンテンツ作成者にとっては負担が大きいと考えられる。また、Webページのコンテンツを複数のボイスで読み上げてもらいたいという強いモチベーションがコンテンツ作成者に存在するとも限らない。

そこで、本発明の実施の形態では、ヒューマンコンピュテーション技術を用いて、コンテンツ作成者とは異なる第三者（例えば、コンテンツの利用者等）がWebページ上のコンテンツにラベルを付与するものとする。本発明の実施の形態では、ラベルを付与する第三者（この第三者を「ラベラー」とも表す。）が、コンテンツ中の部分文字列に対して、この部分文字列を読み上げる話者の識別情報と、性別と、年齢とを設定することで、ラベルを付与する。これにより、コンテンツ中の各部分文字列を、この部分文字列に付与されているラベルに応じたボイスで読み上げることを可能とする。なお、ラベルを付与の具体的な方法については後述する。

＜音声出力システム１の全体構成＞
次に、本発明の実施の形態における音声出力システム１の全体構成について、図４を参照しながら説明する。図４は、本発明の実施の形態における音声出力システム１の全体構成の一例を示す図である。

図４に示すように、本発明の実施の形態における音声出力システム１には、１以上のラベリング端末１０と、１以上の音声出力端末２０と、ラベル管理サーバ３０と、Webサーバ４０とが含まれる。これらの各端末及び各サーバは、例えばインターネット等の通信ネットワークＮを介して通信可能に接続される。

ラベリング端末１０は、コンテンツ中の部分文字列に対するラベル付与に用いられるコンピュータである。ラベリング端末１０としては、例えば、PC（パーソナルコンピュータ）、スマートフォン、タブレット端末等が利用可能である。

ラベリング端末１０には、Webブラウザ１１０と、このWebブラウザ１１０に対するアドオン１２０とが搭載されている。なお、アドオン１２０とは、Webブラウザ１１０に対する拡張機能を提供するプログラムのことである。アドオンはアドインと称されることもある。

ラベリング端末１０は、Webブラウザ１１０によりコンテンツを表示させることができる。また、ラベリング端末１０は、アドオン１２０により、Webブラウザ１１０上に表示されたコンテンツ中の部分文字列に対してラベルを付与することができる。このとき、ラベリング端末１０には、アドオン１２０により、コンテンツ中の部分文字列に対してラベルを付与するためのラベリング画面が表示される。ラベラーは。このラベリング画面上で、コンテンツ中の部分文字列に対するラベルを付与することができる。なお、ラベリング画面については後述する。

そして、ラベリング端末１０は、アドオン１２０により、当該部分文字列に付与されたラベルを表すデータ（以降、「ラベルデータ」とも表す。）をラベル管理サーバ３０に送信する。

音声出力端末２０は、音声合成によりコンテンツを読み上げさせたいユーザが利用するコンピュータである。音声出力端末２０としては、例えば、PC、スマートフォン、タブレット端末等が利用可能である。これら以外にも、例えば、ゲーム機器、デジタル家電、カーナビゲーション端末等の車載機、ウェアラブルデバイス、スマートスピーカ等が用いられてもよい。

音声出力端末２０は、音声出力アプリケーション２１０と、ボイスデータ記憶部２２０とを有する。音声出力端末２０は、音声出力アプリケーション２１０により、コンテンツ中の部分文字列に付与されているラベルのラベルデータをラベル管理サーバ３０から取得する。そして、音声出力端末２０は、ボイスデータ記憶部２２０に記憶されているボイスデータを用いて、コンテンツ中の各部分文字列に付与されているラベルに応じたボイスで読み上げた音声を出力する。

ラベル管理サーバ３０は、ラベルデータを管理するコンピュータである。ラベル管理サーバ３０は、ラベル管理プログラム３１０と、ラベル管理DB３２０とを有する。ラベル管理サーバ３０は、ラベル管理プログラム３１０により、ラベリング端末１０から送信されたラベルデータをラベル管理DB３２０に格納する。また、ラベル管理サーバ３０は、ラベル管理プログラム３１０により、音声出力端末２０からの要求に応じて、ラベル管理DB３２０に格納されているラベルデータを当該音声出力端末２０に送信する。

Webサーバ４０は、コンテンツを管理するコンピュータである。Webサーバ４０は、コンテンツ作成者により作成されたコンテンツを管理している。Webサーバ４０は、ラベリング端末１０や音声出力端末２０からの要求に応じて、この要求に係るコンテンツをラベリング端末１０や音声出力端末２０に送信する。

なお、図１に示す音声出力システム１の構成は一例であって、他の構成であってもよい。例えば、ラベリング端末１０と音声出力端末２０とが異なる端末でなくてもよい（つまり、１台の端末が、ラベリング端末１０の機能と音声出力端末２０の機能とを有していてもよい。）。

＜ラベリング画面＞
ここで、ラベリング端末１０上に表示されるラベリング画面１０００を図５に示す。図５は、ラベリング画面１０００の一例を示す図である。図５に示すラベリング画面１０００は、ラベリング端末１０に搭載されているWebブラウザ１１０若しくはアドオン１２０（又はその両方）により表示される。

ラベリング画面１０００には、コンテンツ表示欄１１００と、ラベリングウインドウ１２００とが含まれる。コンテンツ表示欄１１００は、コンテンツ及びラベリング結果が表示される表示領域である。ラベリングウインドウ１２００は、コンテンツ表示欄１１００に表示されているコンテンツ中の部分文字列に対するラベル付与を行うためのダイアログウインドウである。

ラベリングウインドウ１２００には、名前（NAME）と性別（SEX）と年齢（AGE）とが設定された話者がラジオボタンで選択可能なリストとして表示される。ここで、リスト中の各話者はラベルを表し、名前が識別情報、性別及び年齢が属性に相当する。

図５に示す例では、名前「default」、性別「F」及び年齢「20」の話者と、名前「老爺」、性別「M」及び年齢「70」の話者と、名前「メロス」、性別「M」及び年齢「23」の話者と、名前「王様」、性別「M」及び年齢「43」の話者とがリストとして表示されている。

また、ラベリングウインドウ１２００には、ADDボタン、DELボタン、SAVEボタン及びLOADボタンが含まれる。ラベラーによりADDボタンが押下された場合、リストに話者が１人追加される。また、DELボタンが押下された場合、ラジオボタンで選択されている話者がリストから削除される。SAVEボタンが押下された場合、コンテンツ中の部分文字列に付与されたラベルのラベルデータがラベル管理サーバ３０に送信される。一方で、LOADボタンが押下された場合は、ラベル管理サーバ３０で管理されているラベルデータが取得され、当該コンテンツの現在のラベリング状況が表示される。

コンテンツ表示欄１１００に表示されているコンテンツ中の部分文字列に対してラベルを付与する場合、ラベラーは、ラベリングウインドウ１２００から所望の話者をラジオボタンで選択した上で、所望の部分文字列をマウス等で選択する。これにより、選択された部分文字列に対して、選択された話者及びその属性（年齢及び性別）を表すラベルが付与される。このとき、ラベルが付与された部分文字列は、どの話者及びその属性を表すラベルが付与されたかがわかるように、付与されたラベルが表す話者固有の色でマーキングされたり、当該話者固有の表示態様で表示されたりして、ラベリング状況が可視化される。

図５に示す例では、コンテンツ表示欄１１００に表示されているコンテンツ中の部分文字列『「王様は、人を殺します。」』に対して、話者「老爺」及びその属性（性別「M」、年齢「70」）を表すラベルが付与されている。同様に、図５に示す例では、部分文字列『「なぜ殺すのだ。」』に対して、話者「メロス」及びその属性（性別「M」、年齢「23」）を表すラベルが付与されている。

なお、名前「default」の話者は、ラベラーにより明示的にラベルが付与された部分文字列以外の部分文字列に付与されるラベルを表す。図５に示す例では、名前「老爺」、名前「メロス」及び名前「王様」を表すラベルが付与されていない部分文字列に対して、名前「default」の話者を表すラベルが付与されている。

以上のように、ラベラーは、ラベリング画面１０００上で、コンテンツ中の各部分文字列に対してラベルを付与することができる。これにより、後述するように、音声出力端末２０の音声出力アプリケーション２１０では、部分文字列に付与されているラベルに応じたボイスで、当該部分文字列を読み上げて音声出力をすることができる（言い換えれば、部分文字列に対してラベルが付与されることで、当該部分文字列にはラベルに応じたボイスが割り当てられることになる。）。

＜音声出力システム１の機能構成＞
次に、本発明の実施の形態における音声出力システム１の機能構成について、図６を参照しながら説明する。図６は、本発明の実施の形態における音声出力システム１の機能構成の一例を示す図である。

≪ラベリング端末１０≫
図６に示すように、本発明の実施の形態におけるラベリング端末１０は、機能部として、ウインドウ出力部１２１と、コンテンツ解析部１２２と、ラベル操作管理部１２３と、ラベルデータ送受信部１２４とを有する。これら各機能部は、アドオン１２０がプロセッサ等に実行させる処理により実現される。

ウインドウ出力部１２１は、Webブラウザ１１０上に、上述したラベリングウインドウを表示する。

コンテンツ解析部１２２は、Webブラウザ１１０により表示されているコンテンツ（例えばWebページ等）の構造を解析する。ここで、コンテンツの構造としては、例えば、DOM（Document Object Model）等が挙げられる。

ラベル操作管理部１２３は、コンテンツ中の部分文字列に対するラベル付与に関する操作を管理する。例えば、ラベル操作管理部１２３は、ラベリングウインドウ中のリストから話者をラジオボタンで選択する操作やコンテンツ中の部分文字列をマウスで選択する操作等を受け付ける。

また、ラベル操作管理部１２３は、コンテンツ解析部１２２による解析結果に基づいて、例えば、マウスで選択された部分文字列が属するHTML（HyperText Markup Language）エレメントを取得し、ラベリング状況を可視化する処理（つまり、当該HTMLエレメントをラベル固有の色でマーキングする等の処理）を行う。

ラベルデータ送受信部１２４は、ラベリングウインドウでSAVEボタンが押下された場合に、現在のコンテンツ中の部分文字列に付与されたラベルのラベルデータをラベル管理サーバ３０に送信する。このとき、ラベルデータ送受信部１２４は、ラベリングしたコンテンツのURL（Uniform Resource Locator）もラベル管理サーバ３０に送信する。なお、このとき、ラベルデータ送受信部１２４は、必要に応じて、ラベリングを行ったラベラーの情報（例えば、ラベラーのユーザID等）をラベル管理サーバ３０に送信してもよい。

また、ラベルデータ送受信部１２４は、ラベリングウインドウでLOADボタンが押下された場合に、ラベル管理サーバ３０で管理されているラベルデータを受信する。これにより、ラベラーは、例えば、或るコンテンツを途中までラベリングしてラベルデータをラベル管理サーバ３０に送信した場合に、その続きからラベリングを行うことが可能となる。

≪音声出力端末２０≫
図６に示すように、本発明の実施の形態における音声出力端末２０は、機能部として、コンテンツ取得部２１１と、ラベルデータ取得部２１２と、コンテンツ解析部２１３と、コンテンツ出力部２１４と、音声管理部２１５と、音声出力部２１６とを有する。これら各機能部は、音声出力アプリケーション２１０がプロセッサ等に実行させる処理により実現される。

また、本発明の実施の形態における音声出力端末２０は、記憶部として、ボイスデータ記憶部２２０を有する。当該記憶部は、例えば、音声出力端末２０が備える記憶装置等を用いて実現可能である。

コンテンツ取得部２１１は、Webサーバ４０からコンテンツ（例えば、小説等の文章が公開されたWebページ）を取得する。

ラベルデータ取得部２１２は、コンテンツ取得部２１１により取得されたコンテンツのURL（つまり、コンテンツの識別情報）に対応するラベルデータをラベル管理サーバ３０から取得する。ラベルデータ取得部２１２は、例えば、当該コンテンツのURLを含む取得要求をラベル管理サーバ３０に送信することで、この取得要求の応答としてラベルデータを取得することができる。

コンテンツ解析部２１３は、コンテンツ取得部２１１により取得されたコンテンツを解析して、当該コンテンツに含まれるテキストのどの部分文字列に対してどのラベルデータが付与されているかを特定する。

コンテンツ出力部２１４は、コンテンツ取得部２１１により取得されたコンテンツを表示する。ただし、コンテンツ出力部２１４は、必ずしもコンテンツを表示する必要はない。コンテンツを表示しない場合には、音声出力端末２０は、コンテンツ出力部２１４を有していなくてもよい。

音声管理部２１５は、コンテンツ解析部２１３による解析結果に基づいて、コンテンツ中の各部分文字列を、ボイスデータ記憶部２２０に記憶されているどのボイスデータで読み上げるかを特定する。すなわち、音声管理部２１５は、各部分文字列にそれぞれ付与されているラベルが表す属性を用いて、ボイスデータ記憶部２２０に記憶されているボイスデータの中から属性が最も近いボイスデータを検索し、検索されたボイスデータを、当該部分文字列を読み上げるボイスデータとして特定する。これにより、コンテンツ中の各部分文字列に対してボイスが割り当てられる。

音声出力部２１６は、コンテンツ中の各部分文字列を該当のボイスデータを用いた合成音声により読み上げて音声を出力する。このとき、音声出力部２１６は、音声管理部２１５で特定されたボイスデータを用いて、各部分文字列を読み上げて音声を出力する。なお、音声出力端末２０のユーザは、合成音声の出力開始（つまり、再生）、一時停止、早送り（又は、次の部分文字列を再生）、巻き戻し（又は、１つ前の部分文字列を再生）等の操作を行うことができてもよい。この場合、音声出力部２１６は、これらの操作に応じて、ボイスデータによる音声出力を制御する。

ボイスデータ記憶部２２０は、コンテンツ中の部分文字列の読み上げに用いられるボイスデータを記憶する。ここで、ボイスデータ記憶部２２０では、各ボイスデータに対して属性（例えば、性別及び年齢）が対応付けて記憶されている。なお、これらのボイスデータは任意のボイスデータを利用可能であり、例えば、任意のサーバ等から予めダウンロードされる。ただし、ダウンロードされたボイスデータに対して属性が対応付けされていない場合には、音声出力端末２０のユーザは、当該ボイスデータに対して属性を対応付ける必要がある。

≪ラベル管理サーバ３０≫
図６に示すように、本発明の実施の形態におけるラベル管理サーバ３０は、機能部として、ラベルデータ送受信部３１１と、ラベルデータ管理部３１２と、DB管理部３１３と、ラベルデータ提供部３１４とを有する。これら各機能部は、ラベル管理プログラム３１０がプロセッサ等に実行させる処理により実現される。

また、本発明の実施の形態におけるラベル管理サーバ３０は、記憶部として、ラベル管理DB３２０を有する。当該記憶部は、例えば、ラベル管理サーバ３０が備える記憶装置、又はラベル管理サーバ３０と通信ネットワークＮを介して接続される記憶装置等を用いて実現可能である。

ラベルデータ送受信部３１１は、ラベリング端末１０からのラベルデータを受信する。また、ラベルデータ送受信部３１１は、ラベリング端末１０にラベルデータを送信する。

ラベルデータ管理部３１２は、ラベルデータ送受信部３１１によりラベルデータが受信された場合に、当該ラベルデータを検証する。ラベルデータの検証とは、例えば、ラベルデータのフォーマット（データ形式）が正しいか否かの検証等である。

DB管理部３１３は、ラベルデータ管理部３１２により検証されたラベルデータをラベル管理DB３２０に格納する。

なお、例えば、同一の部分文字列に対して異なるラベルを表すラベルデータがラベル管理DB３２０に既に格納されている場合、DB管理部３１３は、古いラベルデータを新しいラベルデータで更新してもよいし、古いラベルデータと新しいラベルデータとを共存させてもよい。又は、同一の部分文字列に対するラベルデータであっても、ラベラーのユーザIDが異なる場合には異なるラベルデータと扱ってもよい。

ラベルデータ提供部３１４は、音声出力端末２０からの取得要求に応じて、該当のラベルデータ（つまり、当該取得要求に含まれるURLに対応するラベルデータ）をラベル管理DB３２０から取得して、当該取得要求に対する応答として、取得したラベルデータを当該音声出力端末２０に送信する。

ラベル管理DB３２０は、ラベルデータが格納されている。ここで、ラベルデータは、上述したように、コンテンツ中の部分文字列に対して付与されるラベルを表すデータであり、ラベルは当該部分文字列を読み上げる話者の識別情報及び属性を表す。したがって、ラベルデータでは、コンテンツと、当該コンテンツ中で該当の部分文字列を特定可能な情報と、当該部分文字列を読み上げる話者の識別情報と、当該話者の属性とが少なくとも対応付けられていればよい。

このようなラベルデータをラベル管理DB３２０に格納する際に、どのようなデータ構成で格納するかは任意のデータ構成を採用することが可能であるが、一例として、話者テーブルと部分文字列テーブルとを用いてラベル管理DB３２０に格納した場合を図７に示す。図７は、ラベル管理DB３２０に格納されているラベルデータの構成の一例を示す図である。

図７に示すように、話者テーブルには１つ以上の話者データが格納されており、各話者データには、データ項目として、「SPEAKER_ID」と、「SEX」と、「AGE」と、「NAME」と、「COLOR」と、「URL」とが含まれる。

データ項目「SPEAKER_ID」には、話者データを識別するIDが設定される。データ項目「SEX」には、話者の属性として性別が設定される。データ項目「AGE」には、話者の属性として年齢が設定される。データ項目「NAME」には、話者の名前が設定される。データ項目「COLOR」には、ラベリング状況を可視化する際の話者固有の色が設定される。データ項目「URL」には、コンテンツのURLが設定される。

なお、図7に示す例では、データ項目「NAME」に同一の名前が設定される場合も考慮して、データ項目「SPEAKER_ID」に設定されるIDを話者の識別情報としている。ただし、例えば、データ項目「NAME」に同一の名前が設定されない場合には、話者の名前を識別情報としてもよい。

また、図７に示すように、部分文字列テーブルには１つ以上の部分文字列データが格納されており、各部分文字列データには、データ項目として、「TEXT」と、「POSITION」と、「SPEAKER_ID」と、「URL」とが含まれる。

データ項目「TEXT」には、ラベラーにより選択された部分文字列が設定される。データ項目「POSITION」には、コンテンツ中における先頭からの当該部分文字列の出現回数が設定される。データ項目「SPEAKER_ID」には、ラベラーにより選択された話者（つまり、ラベリングウインドウで選択された話者）が設定される。データ項目「URL」には、コンテンツのURLが設定される。

例えば、図７に示す部分文字列テーブルの３行目の部分文字列データには、データ項目「TEXT」に『「先生のお宅の墓地はあすこにあるんですか」と私がまた口を利き出した。』、データ項目「POSITION」に「0」、データ項目「SPEAKER_ID」に「1」がそれぞれ設定されている。これは、部分文字列『「先生のお宅の墓地はあすこにあるんですか」と私がまた口を利き出した。』は、コンテンツ中の先頭から当該部分文字列までに同様の部分文字列が存在を表し、かつ、当該部分文字列はSPEAKER_IDが「1」の話者データ（つまり、名前（NAME）が「私」の話者）のボイスにより読み上げられることを表す。

同様に、図７に示す部分文字列テーブルの６行目の部分文字列データには、データ項目「TEXT」に『「いいえ」』、データ項目「POSITION」に「1」、データ項目「SPEAKER_ID」に「2」がそれぞれ設定されている。これは、部分文字列『「いいえ」』は、コンテンツ中の先頭から当該部分文字列までに同様の部分文字列が１回出現することを表し、かつ、当該部分文字列はSPEAKER_IDが「2」の話者データ（つまり、名前（NAME）が「先生」の話者）のボイスにより読み上げられることを表す。

部分文字列データに対してデータ項目「POSITION」を設けることで、音声出力アプリケーション２１０がコンテンツ中の部分文字列を読み上げる際に、コンテンツの先頭からの出現回数も用いて、ラベルが付与された部分文字列を検索することが可能となる。また、例えば、Webページ（コンテンツ）が更新された場合であっても、当該部分文字列の先頭からの出現位置が変わらなければ、Webページの更新前に付与されたラベルを利用可能である。

ここで、コンテンツ中の部分文字列で、部分文字列テーブルに格納されていない部分文字列は、SPEAKER_IDが「0」の話者データ（つまり、データ項目「NAME」に「default」が設定されている話者データ）のボイスにより読み上げられる。

以上により、図７に示す構成により、ラベルデータは、話者データと部分文字列テーブルとの組、又は、話者データのみで表される。例えば、コンテンツ中の発話文（つまり、括弧内の文章）を表す部分文字列や一人称視点の文章を表す部分文字列に付与されたラベルのラベルデータは、話者データと部分文字列データとの組で表される。一方で、コンテンツ中の三人称視点の文章を表す部分文字列に付与されたラベルのラベルデータは、データ項目「SPEAKER_ID」に「0」が設定された話者データのみで表される。

なお、図７に示すラベルデータの構成は一例であって、他の構成であってもよい。例えば、Webページ（コンテンツ）のソースファイルをコピーし、コピーしたソースファイルにラベルを埋め込んでDBで保持する方法も考えられる。しかしながら、この場合、Webページが更新された場合には、Webページの更新前後におけるラベルと部分文字列との対応付けが難しいことがあるため、上記の図７に示す構成の方が好ましい。

＜ラベル付与処理＞
以降では、ラベリング端末１０を用いて、ラベラーがコンテンツ中の部分文字列にラベルを付与する場合の処理（ラベル付与処理）の流れについて、図８を参照しながら説明する。図８は、本発明の実施の形態におけるラベル付与処理の一例を示すフローチャートである。

まず、ラベリング端末１０のWebブラウザ１１０及びウインドウ出力部１２１は、ラベリング画面を表示する（ステップＳ１０１）。すなわち、ラベリング端末１０は、Webブラウザ１１０によりコンテンツを取得して画面上に表示すると共に、ウインドウ出力部１２１によりラベリングウインドウを当該画面上に表示することで、ラベリング画面を表示する。

次に、ラベリング端末１０のコンテンツ解析部１２２は、Webブラウザ１１０により表示されているコンテンツの構造を解析する（ステップＳ１０２）。

次に、ラベリング端末１０のラベル操作管理部１２３は、ラベラーによるラベリング操作を受け付ける（ステップＳ１０３）。ラベリング操作とは、ラベリングウインドウ中のリストから話者をラジオボタンで選択した上で、コンテンツ中の部分文字列をマウスで選択する操作のことである。これにより、当該部分文字列に対してラベルが付与され、例えば、当該部分文字列が話者固有の色でマーキングされる等のラベリング状況の可視化が行われる。

最後に、ラベリング端末１０のラベルデータ送受信部１２４は、例えば、ラベリングウインドウでSAVEボタンが押下された場合、現在のコンテンツ中の部分文字列に付与されたラベルのラベルデータをラベル管理サーバ３０に送信する（ステップＳ１０４）。なお、上述したように、このとき、ラベルデータ送受信部１２４は、ラベリングしたコンテンツのURLもラベル管理サーバ３０に送信する。

以上により、ラベラーによってコンテンツ中の部分文字列にラベルが付与され、このラベルのラベルデータがラベル管理サーバ３０に送信される。

＜ラベルデータ保存処理＞
以降では、ラベリング端末１０から送信されたラベリングデータをラベル管理サーバ３０が保存する処理（ラベルデータ保存処理）の流れについて、図９を参照しながら説明する。図９は、本発明の実施の形態におけるラベルデータ保存処理の一例を示すフローチャートである。

まず、ラベル管理サーバ３０のラベルデータ送受信部３１１は、ラベリング端末１０からのラベルデータを受信する（ステップＳ２０１）。

次に、ラベル管理サーバ３０のラベルデータ管理部３１２は、上記のステップＳ２０１で受信したラベルデータを検証する（ステップＳ２０２）。

次に、ラベル管理サーバ３０のDB管理部３１３は、上記のステップＳ２０２で検証が成功した場合、当該ラベルデータをラベル管理ＤＢ３２０に保存する（ステップＳ２０３）。

以上により、ラベラーによってコンテンツ中の部分文字列に付与されたラベルのラベルデータがラベル管理サーバ３０に保存される。

＜音声出力処理＞
以降では、音声出力端末２０でコンテンツ中の部分文字列を、当該部分文字列に付与されたラベルに応じたボイスで読み上げる場合の処理（音声出力処理）の流れについて、図１０を参照しながら説明する。図１０は、本発明の実施の形態における音声出力処理の一例を示すフローチャートである。

まず、音声出力端末２０のコンテンツ取得部２１１は、Webサーバ４０からコンテンツを取得する（ステップＳ３０１）。

次に、音声出力端末２０のコンテンツ出力部２１４は、上記のステップＳ３０１で取得したコンテンツを表示する（ステップＳ３０２）。

次に、音声出力端末２０のラベルデータ取得部２１２は、上記のステップＳ３０１で取得したコンテンツのURLに対応するラベルデータをラベル管理サーバ３０から取得する（ステップＳ３０３）。

次に、音声出力端末２０のコンテンツ解析部２１３は、上記のステップＳ３０１で取得したコンテンツを解析する（ステップＳ３０４）。上述したように、この解析では、コンテンツに含まれるテキストのどの部分文字列に対してどのラベルデータが付与されているかが特定される。

次に、音声出力端末２０の音声管理部２１５は、上記のステップＳ３０４での解析結果に基づいて、コンテンツ中の各部分文字列に対して、当該部分文字列の読み上げに用いるボイスデータをボイスデータ記憶部２２０の中から特定する（ステップＳ３０５）。すなわち、上述したように、音声管理部２１５は、各部分文字列にそれぞれ付与されているラベルが表す属性を用いて、ボイスデータ記憶部２２０に記憶されているボイスデータの中から属性が最も近いボイスデータを検索し、検索されたボイスデータを、当該部分文字列を読み上げるボイスデータとして特定する。このとき、話者の識別情報（例えば、SPEAKER_ID）が同一のラベルデータが付与されている部分文字列に対しては、同一のボイスデータを特定する。これにより、コンテンツ中の各部分文字列に対して、一貫性があるボイスが割り当てられる。

最後に、音声出力端末２０の音声出力部２１６は、上記のステップＳ３０５で割り当てられたボイス（を用いた合成音声）で各部分文字列を読み上げて音声を出力（ステップＳ３０６）。

以上により、コンテンツ中の各部分文字列が、当該部分文字列に付与されたラベルに応じたボイスで読み上げられる。

＜音声出力システム１のハードウェア構成＞
次に、本発明の実施の形態における音声出力システム１に含まれるラベリング端末１０、音声出力端末２０、ラベル管理サーバ３０及びWebサーバ４０のハードウェア構成について説明する。これらの各端末及び各サーバは、１台以上のコンピュータ５００を用いて実現可能である。図１１は、コンピュータ５００のハードウェア構成の一例を示す図である。

図１１に示すコンピュータ５００は、ハードウェアとして、入力装置５０１と、表示装置５０２と、外部Ｉ／Ｆ５０３と、ＲＡＭ（Random Access Memory）５０４と、ＲＯＭ（Read Only Memory）５０５と、プロセッサ５０６と、通信Ｉ／Ｆ５０７と、補助記憶装置５０８とを有する。これら各ハードウェアは、それぞれがバスＢを介して通信可能に接続されている。

入力装置５０１は、例えばキーボードやマウス、タッチパネル等である。表示装置５０２は、例えばディスプレイ等である。なお、ラベル管理サーバ３０やWebサーバ４０は、入力装置５０１及び表示装置５０２の少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ５０３は、外部装置とのインタフェースである。外部装置には、記録媒体５０３ａ等がある。コンピュータ５００は、外部Ｉ／Ｆ５０３を介して、記録媒体５０３ａの読み取りや書き込み等を行うことができる。

ＲＡＭ５０４は、プログラムやデータを一時保持する揮発性の半導体メモリである。ＲＯＭ５０５は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ＲＯＭ５０５には、例えば、OSに関する設定情報や通信ネットワークＮに関する設定情報等が格納されている。

プロセッサ５０６は、例えばCPU（Central Processing Unit）等である。通信Ｉ／Ｆ５０７は、コンピュータ５００を通信ネットワークＮに接続するためのインタフェースである。

補助記憶装置５０８は、例えばHDD（Hard Disk Drive）やSSD（Solid State Drive）等であり、プログラムやデータを格納している不揮発性の記憶装置である。補助記憶装置５０８に格納されているプログラムやデータには、例えば、OS、当該OS上で各種機能を実現するアプリケーションプログラム等がある。

なお、本発明の実施の形態における音声出力端末２０は、上記の各ハードウェアに加えて、音声を外部に出力するためのハードウェア（例えば、イヤホン等を接続するためのＩ／Ｆやスピーカ等）を有する。

本発明の実施の形態におけるラベリング端末１０、音声出力端末２０、ラベル管理サーバ３０及びWebサーバ４０は、図１１に示すコンピュータ５００により実現される。なお、上述したように、本発明の実施の形態におけるラベリング端末１０、音声出力端末２０、ラベル管理サーバ３０及びWebサーバ４０は、複数台のコンピュータ５００で実現されていてもよい。また、１台のコンピュータ５００には、複数のプロセッサ５０６や複数のメモリ（ＲＡＭ５０４やＲＯＭ５０５、補助記憶装置５０８等）が含まれていてもよい。

＜まとめ＞
以上のように、本発明の実施の形態における音声出力システム１では、ヒューマンコンピュテーション技術によりコンテンツ中の部分文字列にラベルを付与した上で、部分文字列に付与されたラベルに応じてボイスを切り替えながら合成音声を出力することができる。これにより、本発明の実施の形態における音声出力システム１では、イメージした声に近いボイスで、コンテンツ中の各部分文字列を音声出力することが可能となる。

なお、本発明の実施の形態では、ラベラーと音声出力端末２０のユーザとは、同一人物であることを要しない。つまり、コンテンツ中の部分文字列に付与されたラベルのラベルデータの利用者はラベラーに限定されない。また、ラベル管理サーバ３０で管理されているラベルデータは複数のラベラーの間で共有可能であってもよい。このとき、例えば、ラベル管理サーバ３０等により、ラベリングを行ったラベラーのランキングや多く利用されたラベルデータのランキング等が提供されてもよい。これにより、ラベリングに対するラベラーのモチベーション維持に貢献することが可能となる。

また、例えば、Webページ等のコンテンツでは、同一のコンテンツが複数のWebページに分割されて提供される場合もある。このような場合では、Webページ間でボイスの割り当てが一貫されていることが好ましい。すなわち、或る小説が複数のWebページに分割されている場合には、Webページが異なっても、同一人物の発話文は同一のボイスで読み上げられることが好ましい。したがって、このような場合には、例えば、図７に示す話者データのデータ項目「URL」に複数のWebページのURLを設定可能とすることが考えられる。また、このとき、音声出力端末２０上では、話者の識別情報が同一のラベルデータが付与されている部分文字列を読み上げるボイスデータを、当該識別情報と対応付けて保持しておく必要がある。

また、本発明の実施の形態では、年齢や性別等の属性に応じたボイスで部分文字列を読み上げる場合について説明したが、これら年齢や性別以外にも、コンテンツ中の発話文のイメージと合成音声とのギャップを生じさせる様々な属性が存在する。

例えば、小説中で落ち着いたイメージの人の発話文が快活な声質のボイスで再生されたり、悲しげな場面での発話文が嬉しそうな声質のボイスで再生されたり、といった場合がある。また、小説等では、作中の展開によって登場人物の子どもから大人に成長したり、回想場面では逆に大人が子ともに場面点検したりといったことが起こり得る。このため、年齢や性別以外にも、例えば、様々な属性（例えば、場面の状況や登場人物の性格等）も表すラベルを部分文字列に付与し、このラベルデータに応じたボイスで音声出力してもよい。また、このラベルに応じて、ボイスの設定（例えば、発話速度（SpeechRate）やピッチ（Pitch）等）が変更されてもよい。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

１音声出力システム
１０ラベリング端末
２０音声出力端末
３０ラベル管理サーバ
４０ Webサーバ
１１０ Webブラウザ
１２０アドオン
１２１ウインドウ出力部
１２２コンテンツ解析部
１２３ラベル操作管理部
１２４ラベルデータ送受信部
２１０音声出力アプリケーション
２１１コンテンツ取得部
２１２ラベルデータ取得部
２１３コンテンツ解析部
２１４コンテンツ出力部
２１５音声管理部
２１６音声出力部
２２０ボイスデータ記憶部
３１０ラベル管理プログラム
３１１ラベルデータ送受信部
３１２ラベルデータ管理部
３１３ DB管理部
３１４ラベルデータ提供部
３２０ラベル管理DB

Claims

第１の端末と、サーバと、第２の端末とが含まれる音声出力システムが実行する音声出力方法であって、
前記第１の端末は、
コンテンツに含まれる文字列に対して、該文字列を合成音声で読み上げる場合における話者の属性を表すラベルデータを付与する第１のラベル付与手順と、
前記ラベルデータを前記サーバに送信する送信手順と、を実行し、
前記サーバは、
前記第１の端末から送信されたラベルデータを、前記コンテンツを識別するコンテンツ識別情報と対応付けてデータベースに保存する保存手順を実行し、
前記第２の端末は、
前記コンテンツのコンテンツ識別情報に対応するラベルデータを前記サーバから取得する取得手順と、
取得したラベルデータを、前記コンテンツに含まれる各文字列に付与する第２のラベル付与手順と、
前記コンテンツに含まれる各文字列にそれぞれ付与されているラベルデータを用いて、複数の音声データの中から、前記文字列の読み上げに用いられる合成音声の音声データをそれぞれ特定する特定手順と、
前記コンテンツに含まれる各文字列のそれぞれを、特定された音声データを用いた合成音声により読み上げて音声出力する音声出力手順と、を実行する、
ことを特徴とする音声出力方法。
前記ラベルデータには、前記話者を識別する話者識別情報が含まれ、
前記特定手順は、
同一の話者識別情報が含まれるラベルデータが付与されている文字列に対しては、同一の音声データを特定する、ことを特徴とする請求項１に記載の音声出力方法。
前記保存手順は、
前記ラベルデータを、前記話者及び該話者の属性を表す話者データと、前記文字列を表す文字列データとで表して前記データベースに保存する、ことを特徴とする請求項１又は２に記載の音声出力方法。
前記文字列データには、
前記コンテンツ中の先頭から前記文字列までにおける該文字列と同一の文字列の出現回数が含まれる、ことを特徴とする請求項３に記載の音声出力方法。
前記第１のラベル付与手順は、
前記コンテンツに含まれる文字列のうちのユーザにより選択された文字列に対して、前記ユーザにより選択された話者の属性を表すラベルデータを付与する、ことを特徴とする請求項１乃至４の何れか一項に記載の音声出力方法。
前記属性には、前記話者の性別及び年齢が少なくとも含まれる、ことを特徴とする請求項１乃至５の何れか一項に記載の音声出力方法。
第１の端末と、サーバと、第２の端末とが含まれる音声出力システムであって、
前記第１の端末は、
コンテンツに含まれる文字列に対して、該文字列を合成音声で読み上げる場合における話者の属性を表すラベルデータを付与する第１のラベル付与手段と、
前記ラベルデータを前記サーバに送信する送信手段と、を有し、
前記サーバは、
前記第１の端末から送信されたラベルデータを、前記コンテンツを識別するコンテンツ識別情報と対応付けてデータベースに保存する保存手段を有し、
前記第２の端末は、
前記コンテンツのコンテンツ識別情報に対応するラベルデータを前記サーバから取得する取得手段と、
取得したラベルデータを、前記コンテンツに含まれる各文字列に付与する第２のラベル付与手段と、
前記コンテンツに含まれる各文字列にそれぞれ付与されているラベルデータを用いて、複数の音声データの中から、前記文字列の読み上げに用いられる合成音声の音声データをそれぞれ特定する特定手段と、
前記コンテンツに含まれる各文字列のそれぞれを、特定された音声データを用いた合成音声により読み上げて音声出力する音声出力手段と、を有する、
ことを特徴とする音声出力システム。
請求項１乃至６の何れか一項に記載の音声出力方法における各手順をコンピュータに実行させることを特徴とするプログラム。