−−−第1の実施形態におけるシステム構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、第1の実施形態における投稿音声再生制御システム1003を含むネットワーク構成図である。図1に示す投稿音声再生制御システム1003(以下、システム1003)は、音声SNS等のメッセージサービスにおける複数の投稿音声を違和感無く連続再生し、投稿者意図の良好な伝達を可能とするコンピュータシステムである。
なお、音声SNSとは、従来から存在するテキストベースのSNSとは異なり、音声メッセージの投稿、公開がなされるSNSである。音声SNSでは、ユーザの音声投稿すなわち肉声を、SNS内で該当ユーザとつながりを持つ他ユーザが聞くことで、ユーザ間の感情豊かでリアリティあるコミュニケーションが図られることになる。
図1に例示するシステム1003は、SNSサーバ150、公開Webサーバ160、および投稿記録装置170で構成されている。SNSサーバ150は、音声SNSに関する各種処理の主たる実行主体であり、音声SNSのユーザに関する認証情報や、各ユーザの投稿音声データの情報などを管理し、ユーザ認証や投稿音声の公開、再生といった処理を実行するサーバ装置となる。また、公開Webサーバ160は、インターネット網120を介してアクセスしてくるユーザ端末200と、上述のSNSサーバ150との間にあって、SNSサーバ150でのユーザ認証処理や、上述のSNSサーバ150が出力した、投稿音声データの再生データなど各種データの授受を仲介するサーバ装置である。また、投稿記録装置170は、ユーザ端末200から送られてくる投稿音声データを格納する情報処理装置であり、SNSサーバ150からの要求に応じて、当該要求が指定する投稿音声データを読み出してSNSサーバ150に送るものとなる。
なお、SNSサーバ150では、ソーシャルネットワークサービスの形態として当然ながら、ユーザ毎に、当該音声SNS上でのつながり(例:友人、知人、同僚、家族、一方的なフォロワー、趣味・嗜好等のグループなど)が規定された他ユーザの情報が管理されている。従って、ユーザが再生して聞くことが出来る投稿音声は、こうしたつながりを持った他ユーザのものとなる。そのため、投稿記録装置170では、ユーザ毎に、該当ユーザ宛て乃至該当グループ宛等に投稿された他ユーザの投稿音声データを紐付けて管理している。
公開Webサーバ160およびSNSサーバ150は、ユーザ端末200(投稿者端末220、閲覧再生者端末240)からのアクセスに際し、所定のユーザ認証処理を経てアクセスユーザを特定し、該当ユーザに紐付けて投稿記録装置170にて管理している他ユーザからの投稿音声データの情報(例:投稿ユーザ名、投稿日時、タイトル、録音長等)を、該当ユーザ用のページ(SNSサイトにおける、いわゆるマイページ)にて、例えば投稿日時順に列挙するように設定し、このページデータを該当ユーザ端末200に送信することとなる。
公開Webサーバ160が、前記のユーザ用ページにて、所定投稿についての再生指示をユーザ端末200から受けた場合、公開Webサーバ160は該当投稿に関する再生指示の情報をSNSサーバ150に送る。SNSサーバ150ではこの再生指示の情報を受けて、該当投稿に関する投稿音声データを投稿記録装置170から読み出して再生し、その再生データを公開Webサーバ160を介してユーザ端末200に送信する。ユーザ端末200では、この再生データをインターネット網120を介して受信し、スピーカーで出力する。
一方、音声SNSのユーザが利用する端末がユーザ端末200である。このユーザ端末200は、例えば図1にて示すように、投稿者端末220、230、閲覧再生者端末240に分類できる。投稿者端末220は、インターネット網120を介して公開Webサーバ160にアクセスし、当該公開Webサーバ160にて公開されている音声SNSのWebサイトのデータを取得、表示すると共に、自ユーザによる投稿音声の入力をマイクで受け付けて、対応する投稿音声データを公開Webサーバ160にアップロードする端末となる。また、閲覧再生者端末240は、インターネット網120を介して公開Webサーバ160にアクセスし、当該公開Webサーバ160にて公開されている音声SNSのWebサイトのデータを取得、表示する端末となる。
なお、投稿者端末220、閲覧再生者端末240が公開Webサーバ160にアクセスする場合、当然ながら、音声SNSにおける自分用のページにログインするためのユーザ認証処理が必要となる。従って、投稿者端末220、閲覧再生者端末240では、利用中のユーザによる認証情報の入力を受け付けて、これを認証依頼と共に、公開Webサーバ160を介してSNSサーバ150に送信する。この場合、SNSサーバ150は、前記の認証情報を、認証用の情報を格納したデータベース等に照合してユーザ認証を実行し、その認証結果に応じて、該当投稿者端末220や閲覧再生者端末240からの公開Webサーバ160における該当ユーザ用ページへのアクセス可否を制御する。また、SNSサーバ150は、前記の認証結果を公開Webサーバ160を介して投稿者端末220や閲覧再生者端末240に送信する。
また、上述したように、投稿音声データやその再生データの授受等をインターネット網120を介して行う場合の他に、ユーザ端末200の電話機能と、公衆回線網122らを用いて投稿音声データやその再生データの授受等を行う形態も想定できる。この場合、図1にて示すように、上述のSNSサーバ150や投稿記録装置170にLAN回線121を介して接続する電話応答システム300がネットワーク構成に含まれる。
この電話応答システム300は、交換機310、自動音声応答装置320、CTI(Computer Telephony Integration)装置330から構成されている。そのうち交換機310は、電話回線を相互接続し電話網を構成するための交換機であり、自動音声応答装置320は、電話の応答と音声による情報の入出力や対話をコンピュータにて行う装置であり、CTI装置330は、電話やFAXをコンピュータシステムに統合する装置である。
こうした構成において、ユーザ端末たる投稿者端末230より、予め定められた投稿受付電話番号へ発話がなされた場合、上述の投稿者端末230は、公衆回線網122を経て交換機310へ接続され、この接続に応じて、CTI装置330での発話番号取得や自動応答装置320での自動音声ガイダンス再生がなされる。その後、上述の投稿者端末230において、投稿者がメッセージを発話した場合、その発話メッセージは自動音声応答装置320を経て、投稿音声データとして投稿記録装置170に録音、すなわち登録される。また、この投稿音声データの登録処理にあわせ、自動音声応答装置320が、投稿記録装置170に登録された投稿音声データの情報(投稿者、投稿日時、投稿音声データの識別情報等)を、SNSサーバ150に通知する。SNSサーバ150では、この通知を受けて、投稿記録装置170に登録された投稿音声データの情報(投稿者、投稿日時、投稿音声データの識別情報等)を記憶部に格納することとなる。
続いて、システム1003のハードウェア構成について説明する。第1の実施形態におけるシステム1003は、上述のように、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されている。まずは、システム1003における処理の実行主体たるSNSサーバ150について説明を行うこととする。
この場合、システム1003を構成するSNSサーバ150は、図2に例示するように、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶部101、RAMなど揮発性記憶装置で構成されるメモリ103、前記記憶部101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部104、LAN回線121等と接続し他装置との通信処理を担う通信部105、を備える。なお、記憶部101内には、第1の実施形態の投稿音声再生制御システムとして必要な機能を実装する為のプログラム102、グルーピングテーブル131、優先度評価テーブル132、およびユーザテーブル133が少なくとも記憶されている。これらテーブルの詳細については後述する。
また、公開Webサーバ160も同様に、図3に例示するように、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶部111、RAMなど揮発性記憶装置で構成されるメモリ113、前記記憶部111に保持されるプログラム112をメモリ113に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部114、インターネット網120、LAN回線121と接続し他装置との通信処理を担う通信部115、を備える。なお、記憶部111内には、第1の実施形態の投稿音声再生制御システムとしてSNSサーバ150と協働し必要な機能を実装する為のプログラム112、および、音声SNSサイトの各種Webページデータ116が少なくとも記憶されている。
また、投稿記録装置170も同様に、図4に例示するように、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶部11、RAMなど揮発性記憶装置で構成されるメモリ13、前記記憶部11に保持されるプログラム12をメモリ13に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部14、LAN121と接続し他装置との通信処理を担う通信部15、を備える。なお、記憶部11内には、第1の実施形態の投稿音声再生制御システムとしてSNSサーバ150と協働し必要な機能を実装する為のプログラム12、および、各ユーザ端末200(投稿者端末220、230)から受信した投稿音声データ16が少なくとも記憶されている。投稿音声データ16には、各投稿音声データのファイル(ファイル名が識別情報ともなる)と、該当投稿音声の投稿者、投稿日時、公開先、および該当投稿音声データと共に再生するBGMの識別情報といったデータが対応付けて格納されている(図4)。
続いて、第1の実施形態のシステム1003が備える機能について説明する。第1の実施形態におけるシステム1003は、上述のように、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されているが、以下では説明の簡明化の為、SNSサーバ150が公開Webサーバ160および投稿記録装置170の機能を備え、一体のシステム1003として機能を果たすものとして説明を行うこととする。なお、こうしたシステム1003において、ユーザ端末200とのデータ授受は公開Webサーバ160を介して実行され、投稿音声データの管理については投稿記録装置170を介して実行される。
この場合、システム1003は、投稿記録装置170がユーザ端末200から得て格納している投稿音声データのうち、同じ投稿公開先の指定情報(例:公開先となるユーザやグループの識別情報)が付与されているものを、投稿記録装置170より通信部105を介しアクセスして特定し、該当投稿音声データに同時再生すべき音楽が付与されている場合は、当該特定した各投稿音声データに付与されている、該当投稿音声データと同時再生すべき音楽の識別情報を、一方、該当投稿音声データに同時再生すべき音楽が付与されていない場合は、当該特定した各投稿音声データに対し音声認識処理を実行してテキストデータを生成し、当該生成したテキストデータを、グルーピングテーブル131に照合して、各投稿音声データのテーマ(例:誕生日祝い、結婚祝い等)を特定し、当該特定したテーマが互いに共通する投稿音声データらを連続再生対象のグループとして記憶部101に格納する機能を有している。
また、システム1003は、連続再生対象のグループに含まれる各投稿音声データを順次再生し、当該再生したデータをユーザ端末200に送信する機能を有している。
なお、システム1003は、連続再生対象のグループにおける投稿公開先のユーザに関する属性情報(例:誕生日、音楽志向、趣味、年齢等)をユーザテーブル133より読み出し、このユーザの属性情報を優先度評価テーブル132に照合して、ユーザの属性情報に応じたグループの再生優先レベルを特定し、当該再生優先レベルの高低に応じてグループ間の再生順序を決定し、当該再生順序で連続再生対象のグループを記憶部101より読み出し、当該グループに含まれる各投稿音声データを順次再生し、当該再生したデータをユーザ端末200に送信する機能を備えるとしてもよい。
また、システム1003は、連続再生対象のグループにおける投稿公開先のユーザに関する直近の投稿音声データ16を、投稿記録装置170(ないし投稿記録装置170から予めの投稿音声データ16をコピーした記憶部101)より読み出し、該当投稿音声データに対し、音声認識処理を実行してテキストデータを生成し、当該テキストデータを優先度評価テーブル132に照合して、ユーザの投稿内容に応じたグループの再生優先レベルを特定し、当該再生優先レベルの高低に応じてグループ間の再生順序を決定し、当該再生順序で連続再生対象のグループを記憶部101より読み出し、当該グループに含まれる各投稿音声データを順次再生し、当該再生したデータをユーザ端末200に送信する機能を備えるとしてもよい。
なお、システム1003は、上述の投稿音声データの再生時に、該当再生データを受信しているユーザ端末200より、再生停止指示を通信部105を介して受信した場合、該当連続再生対象のグループのテーマに関して、一定期間の再生対象排除を指定するフラグを記憶部101にて設定する機能を備えるとしてもよい。この場合、システム1003は、連続再生対象のグループに含まれる各投稿音声データを順次再生する際、上述のフラグが設定されているテーマに対応した連続再生対象のグループについては再生をせず、他の連続再生対象のグループの再生を優先する。
−−−第1の実施形態におけるデータ構造例−−−
次に、第1の実施形態のシステム1003が用いるテーブルにおけるデータ構造例について説明する。図5は、第1の実施形態のグルーピングテーブル131の一例を示す図である。このグルーピングテーブル131は、「バースデイソング」、「ウェディングソング」といったBGM名、すなわち音楽データの識別情報をキーとして、投稿音声を音声認識により生成したテキストキーワード、「お祝い系」、「元気系」といった該当音楽または投稿音声のテーマ、および「楽しい」、「明るい」といったトーン(曲調)とを対応付けたレコードの集合体となっている。
図6は第1の実施形態の優先度評価テーブル132の一例を示す図である。また、優先度評価テーブル132は、ユーザの属性情報(例:誕生日等)ないし投稿内容(例:結婚、試合等)と、連続再生対象の再生優先レベルとを対応付けたレコードの集合体となっている。図6における優先度評価テーブル132の例では、連続再生対象のグループの公開先であるユーザの属性情報(例:誕生日等)ないし直近の投稿内容(例:結婚、試合等)が、当該優先度評価テーブル132におけるユーザ属性ないし投稿内容の項目値にマッチした場合、該当連続再生対象のグループに付与される所定の評価得点の値が規定されたテーブルとなっている。
図7は第1の実施形態のユーザテーブル133の一例を示す図である。また、ユーザテーブル133は、音声SNSの各ユーザの属性情報を記述したテーブルであり、図の例では、ユーザIDをキーとして、該当ユーザの誕生日、音楽志向、趣味、年齢といったユーザ属性の値を対応付けたレコードの集合体となっている。
−−−第1の実施形態における処理手順例−−−
以下、第1の実施形態における投稿音声再生制御方法の実際手順について図に基づき説明する。以下で説明する投稿音声再生制御方法に対応する各種動作は、システム1003を構成する各装置らがメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図8は、第1の実施形態における投稿音声再生制御方法の処理手順例を示すフロー図である。ここで、SNSサーバ150は、投稿記録装置170がユーザ端末200から得て格納している投稿音声データ16のうち、同じ投稿公開先の指定情報(例:公開先となるユーザやグループの識別情報)が付与されているものを、投稿記録装置170より通信部105を介しアクセスして特定する(s100)。
また、SNSサーバ150は、上述のステップs100で特定された当該投稿音声データに同時再生すべき音楽が付与されているか否かを判定し(s101)、付与されている場合、特定した各投稿音声データに付与されている、該当投稿音声データと同時再生すべき音楽の識別情報をグルーピングテーブル131に照合して、各投稿音声データと同時再生すべき音楽のテーマ(例:誕生日祝い、結婚祝い等)やトーンを特定する(s102)。この場合、SNSサーバ150は、投稿記録装置170にて該当投稿音声データ16に関して付与されている、「バースデイソング」といったBGMの識別情報を読み取り、当該BGMの識別情報をグルーピングテーブル131に照合して、該当投稿音声データと同時再生すべき音楽のテーマを「お祝い系」、トーンを「楽しい・明るい」などと特定することになる。なお、各投稿音声データに付与されている、該当投稿音声データと同時再生すべき音楽の識別情報は、後述する第2の実施形態における音楽選択支援システム1001により特定され、投稿記録装置170にて投稿音声データに付与されたものであると想定する。
また、上述のステップs100で特定された当該投稿音声データに同時再生すべき音楽が付与されていない場合、当該特定した各投稿音声データに対し音声認識処理を実行してテキストデータを生成し、当該生成したテキストデータを、グルーピングテーブル131に照合して、各投稿音声データのテーマ(例:誕生日祝い、結婚祝い等)を特定する(s103)。
続いてSNSサーバ150は、上述のステップs102またはs103で特定したテーマ、好ましくは更にトーンも互いに共通する投稿音声データらを、連続再生対象のグループとして記憶部101に格納する(s104)。SNSサーバ150における、この投稿音声データのグルーピングの処理は、上述のステップs100で特定した全ての投稿音声データに関して処理完了するまで繰り返し実行することとなる(s105)。図9に示す評価結果例では、同一公開先の投稿音声データとして、「投稿1」〜「投稿7」までの7つの投稿が特定され、それら各投稿に紐付けされていたBGMの識別情報が「BGM1:バースデイソング」、「BGM2:応援歌」、「BGM3:卒業ソング」、「BGM4:バースデイソング」、「BGM5:卒業ソング」、「BGM6:バレンタインソング」、「BGM7:BGMなし」であり、それらのテーマに基づくグループは、「投稿1:お祝い系」、「投稿2:元気系」、「投稿3:お別れ系」、「投稿4:お祝い系」、「投稿5:お別れ系」、「投稿6:お祝い系」、「投稿7:お祝い系」と分類された。
次に、SNSサーバ150は、上述の連続再生対象のグループにおける投稿公開先のユーザに関する属性情報(例:誕生日、音楽志向、趣味、年齢等)をユーザテーブル133より読み出す(s106)。また、SNSサーバ150は、前記グループにおける投稿公開先のユーザに関する直近の投稿音声データ16(直近から一定期間遡った複数件であってもよい)を、投稿記録装置170(ないし投稿記録装置170から予めの投稿音声データ16をコピーした記憶部101)より読み出し、該当投稿音声データに対し、プログラム102が含む音声認識プログラムを起動して音声認識処理を実行し、テキストデータを生成する(s107)。ここで、SNSサーバ150は、この音声認識処理のため、プログラム102の一部として、音声認識プログラムを備えているものとする。
SNSサーバ150は、上述のステップs106,s107で得た、前記ユーザの属性情報およびテキストデータ(すなわち直近の投稿内容)を、優先度評価テーブル132に照合し、これらユーザの属性情報および直近の投稿内容に応じて、該当グループの再生優先レベルを特定する(s108)。
図9に示す評価結果例の場合、投稿公開先のユーザの属性情報が、「誕生日:2月」であり、また、当該ユーザによる直近の投稿内容が「明日はサッカーの試合のあと、誕生日パーティだ!」、「週末はバレンタイン」、「来月で卒業。さみしいなあ」であった。そのため、「投稿1」〜「投稿7」の各投稿のうち、「投稿1」については、その投稿内容が「7歳の誕生日おめでとう」であるから、"誕生日"なるキーワードについて「10点」獲得し、該当グループの「お祝い系」にこの10点を加算する。また、「投稿2」については、その投稿内容が「明日の試合がんばろう」であるから、"試合"なるキーワードについて「10点」獲得し、該当グループの「元気系」にこの10点を加算する。また、「投稿3」については、その投稿内容が「もうすぐ卒業式、高校は別々で寂しいね」であるから、"卒業"なるキーワードについて「10点」獲得し、該当グループの「お別れ系」にこの10点を加算する。また、「投稿4」については、その投稿内容が「ハッピーバースディ。もう7才。大きくなったね」であるから、"バースデイ"なるキーワードについて「10点」獲得し、該当グループの「お祝い系」にこの10点を加算する。また、「投稿5」については、その投稿内容が「卒業してもまたみんなで遊ぼう」であるから、"卒業"なるキーワードについて「10点」獲得し、該当グループの「お別れ系」にこの10点を加算する。また、「投稿6」については、その投稿内容が「バレンタインチョコ作りで忙しいよう」であるから、"バレンタイン"なるキーワードについて「10点」獲得し、該当グループの「お祝い系」にこの10点を加算する。また、「投稿7」については、その投稿内容が「今日の誕生日会はみんなにお祝いしてもらって楽しかった」であるから、"誕生日"なるキーワードについて「10点」獲得し、該当グループの「お祝い系」にこの10点を加算する。
各グループの得点は、「投稿1」、「投稿4」、「投稿6」、「投稿7」から10点づつ得たお祝い系が合計40点となり、「投稿2」からのみ10点得た元気計が合計10点となり、「投稿3」、「投稿5」から10点づつ得たお別れ系が合計20点となった。従って、SNSサーバ150は、こうして得た各グループの総得点が高いものほど、再生優先レベルが高いと判定し、これに応じてグループ間の再生順序を、再生順序1位:お祝い系、再生順序2位:お別れ系、再生順序3位:元気系、と決定する(s109)。
続いてSNSサーバ150は、上述のステップs109で決定した再生順序で、該当連続再生対象のグループを、投稿記録装置170(ないし投稿記録装置170から投稿音声データをコピーした記憶部101)より読み出し、当該グループに含まれる各投稿音声データを順次再生し、当該再生したデータをユーザ端末200に送信する(s110)。
なお、SNSサーバ150は、上述のステップs110における投稿音声データの再生時に、該当再生データを受信しているユーザ端末200より、再生停止指示を通信部105を介して受信した場合(s111:Yes)、該当連続再生対象のグループのテーマに関して、一定期間の再生対象排除を指定するフラグを、記憶部101にて設定するとしてもよい(s112)。このステップs112の処理後のSNSサーバ150は、後に、ステップs110を再度実行するに際し、上述のフラグが設定されているテーマに対応した連続再生対象のグループについて、該当フラグの示す有効期間内の間は、再生をせず、他の連続再生対象のグループのうち再生順序が早いものから再生を優先する。このような処理を行うこととすれば、システム1003側で決定した再生順序を、ユーザが好ましく思わなかった事実を確実に踏まえて、よりユーザの意向、気分に沿った投稿音声データの連続再生が可能となる。
また、SNSサーバ150は、上述のフラグの起源である再生停止指示を行ったユーザ毎に、前記フラグの設定履歴を該当グループと対応付けて記憶部101にて保持しておくとしてもよい。この場合、SNSサーバ150は、該当ユーザに関して、各グループでのフラグ設定頻度を一定期間毎に算定し、グループ間でフラグ設定頻度が最高となったものについて、以後再びフラグが設定される際には、フラグの有効期間すなわち再生対象排除の期間を通常より一定期間延長するといった処理を実行する。このような処理を行うこととすれば、ユーザが好ましく思わなかった事実を更に確実に踏まえて、よりユーザの意向、気分に沿った投稿音声データの連続再生が可能となる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした第1の実施形態によれば、音声SNSにおける複数の投稿音声を違和感無く連続再生し、投稿者意図の良好な伝達が可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、第1の実施形態の投稿音声再生制御システムにおいて、前記記憶部は、ソーシャルネットワークサービスの各ユーザの属性情報を記述したユーザテーブルと、ユーザの属性情報と連続再生対象の再生優先レベルとを対応付けた優先度評価テーブルとを更に備え、前記演算部は、前記連続再生対象のグループにおける投稿公開先のユーザに関する属性情報を前記ユーザテーブルより読み出し、前記ユーザの属性情報を前記優先度評価テーブルに照合して、前記ユーザの属性情報に応じた前記グループの再生優先レベルを特定し、当該再生優先レベルの高低に応じてグループ間の再生順序を決定し、当該再生順序で前記連続再生対象のグループを記憶部より読み出し、当該グループに含まれる各投稿音声データを順次再生し、当該再生したデータを前記ユーザ端末に送信するものである、としてもよい。
また、第1の実施形態の投稿音声再生制御システムにおいて、前記記憶部は、各ユーザ端末から受信した投稿音声データを蓄積しているものであり、ソーシャルネットワークサービスの各ユーザの属性情報を記述したユーザテーブルと、ユーザの投稿内容と連続再生対象の再生優先レベルとを対応付けた優先度評価テーブルとを更に備え、前記演算部は、前記連続再生対象のグループにおける投稿公開先のユーザに関する直近の投稿音声データを記憶部より読み出し、該当投稿音声データに対し、音声認識処理を実行してテキストデータを生成し、当該テキストデータを前記優先度評価テーブルに照合して、前記ユーザの投稿内容に応じた前記グループの再生優先レベルを特定し、当該再生優先レベルの高低に応じてグループ間の再生順序を決定し、当該再生順序で前記連続再生対象のグループを記憶部より読み出し、当該グループに含まれる各投稿音声データを順次再生し、当該再生したデータを前記ユーザ端末に送信するものである、としてもよい。
−−−第2の実施形態におけるシステム構成−−−
以下に本発明の実施形態について図面を用いて詳細に説明する。第2の実施形態の音楽選択支援システム1001を含むネットワーク構成は、第1の実施形態におけるネットワーク構成(図1)と同じである。そのため、以降は第1の実施形態と異なる構成についてのみ説明を行うこととする。第2の実施形態における音楽選択支援システム1001(以下、システム1001)は、音声SNS(Social Network Service)での投稿音声に対して手間無く効率的に音楽を選択し、ひいては音声SNSでのユーザビリティ向上を図るコンピュータシステムである。
続いてシステム1001のハードウェア構成について説明する。第2の実施形態におけるシステム1001は、上述のように、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されている。ここでは、システム1001における処理の実行主体たるSNSサーバ150について説明を行うこととする。
この場合、システム1001を構成するSNSサーバ150は、図10に例示するように、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶部101、RAMなど揮発性記憶装置で構成されるメモリ103、前記記憶部101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部104、LAN回線121等と接続し他装置との通信処理を担う通信部105、を備える。なお、記憶部101内には、第2の実施形態の音楽選択支援システムとして必要な機能を実装する為のプログラム102、評価テーブル125、ユーザテーブル128、および、投稿音声データ情報テーブル129が少なくとも記憶されている。なお、評価テーブル125は、一次評価テーブル126と二次評価テーブル127から構成されている。
続いて、第2の実施形態のシステム1001が備える機能について説明する。第2の実施形態におけるシステム1001は、上述のように、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されているが、以下では説明の簡明化の為、SNSサーバ150が公開Webサーバ160および投稿記録装置170の機能を備え、一体のシステム1001として機能を果たすものとして説明を行うこととする。なお、こうしたシステム1001において、ユーザ端末200とのデータ授受は公開Webサーバ160を介して実行され、投稿音声データの管理については投稿記録装置170を介して実行される。
この場合、システム1001は、ユーザ端末200から受信した投稿音声データ(投稿記録装置170で格納されているもの)に対し、プログラム102が含む音声認識プログラムを起動して音声認識処理を実行し、テキストデータを生成する機能を有している。ここで、SNSサーバ150は、この音声認識処理のため、プログラム102の一部として、音声認識プログラムを備えているものとする。
また、システム1001は、上述の音声認識処理で生成したテキストデータを評価テーブル125の各選定キーワード群に照合して、テキストデータが含むキーワードとのマッチ度が所定値以上である選定キーワード群を特定し、特定した選定キーワード群に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する機能を有している。ここで、システム1001は、マッチ度が最も高い選定キーワード群を特定するとしてもよい。他方、ユーザ端末200では、この推奨情報を受信してディスプレイにて表示し、ユーザに閲覧させる。
ユーザが上述の推奨情報の示す音楽を容認した場合、その旨がユーザ端末200から公開Webサーバ160を介してSNSサーバ150に通知される。SNSサーバ150は、容認通知を受信した音楽のデータ(投稿記録装置170ないし自身の記憶部101にて保持)を、該当投稿音声データと合わせて再生し、当該再生したデータを公開Webサーバ160を介してユーザ端末200に送信することとなる。或いは、上述の如き、システム1001は、ユーザ端末200への推奨情報の送信を行わず、前記特定した選定キーワード群に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
また、システム1001は、上述のテキストデータを評価テーブル125の各選定キーワード群に照合して、テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を複数特定した場合、すなわち、マッチ度最高のものが並存していた場合、ユーザ端末200のユーザに関する属性情報をユーザテーブル128より読み出し、ユーザの属性情報を評価テーブル125の各ユーザ属性に照合して、ユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する機能を有しているとしてもよい。当然この場合も、システム1001は、上述の如きユーザ端末200への推奨情報の送信を行わず、前記特定したユーザ属性に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
また、システム1001は、マッチ度が最も高い選定キーワード群を複数特定した場合に、該当投稿音声データに、ソーシャルネットワークサービスにおける公開先(ユーザやグループ等)の指定情報が付与されているか判定する機能を有しているとしてもよい。
この場合、システム1001は、前記の判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていると判定した場合、該当指定情報が示す投稿公開先のユーザに関して、ユーザテーブル128から属性情報を読み出し、当該属性情報を評価テーブル125の各ユーザ属性に照合して、投稿公開先のユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する機能を有しているとしてもよい。この場合も、システム1001は、上述の如きユーザ端末200への推奨情報の送信を行わず、前記特定したユーザ属性に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
一方、前記の判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていないと判定した場合、システム1001は、該当投稿音声データの投稿ユーザに関して、ユーザテーブル128から属性情報を読み出し、当該属性情報を評価テーブル125の各ユーザ属性に照合して、投稿ユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する処理を実行するものとしてもよい。この場合も、システム1001は、上述の如きユーザ端末200への推奨情報の送信を行わず、前記特定したユーザ属性に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
また、システム1001は、上述のテキストデータを評価テーブル125の各選定キーワード群に照合して、テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を複数特定した場合、ユーザ端末200のユーザに関する直近の投稿音声データを、投稿記録装置170ないし記憶部101より読み出し、該当投稿音声データに対し、上述同様の音声認識処理を実行してテキストデータを生成し、当該テキストデータを評価テーブル125の各選定キーワード群に照合して、テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を特定し、特定した選定キーワード群に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する機能を有しているとしてもよい。この場合も、システム1001は、上述の如きユーザ端末200への推奨情報の送信を行わず、前記特定した選定キーワード群に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
また、システム1001は、上述のテキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を複数特定した場合、ユーザ端末200のユーザに関する直近から所定範囲の期間の各投稿音声データを、投稿記録装置170ないし記憶部101より読み出し、各投稿音声データに対し上述と同様の音声認識処理を実行してテキストデータを生成し、各テキストデータを跨って出現頻度が一定以上のキーワードを抽出し、当該キーワードを評価テーブル125の各選定キーワード群に照合して、出現頻度一定以上のキーワードとのマッチ度が最も高い選定キーワード群を特定し、特定した選定キーワード群に対応する音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報としてユーザ端末200に送信する機能を有しているとしてもよい。この場合も、システム1001は、上述の如きユーザ端末200への推奨情報の送信を行わず、前記特定した選定キーワード群に対応する音楽データを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信する機能を有しているとしてもよい。
−−−第2の実施形態におけるデータ構造例−−−
次に、第2の実施形態のシステム1001が用いるテーブルにおけるデータ構造例について説明する。図11は第2の実施形態の評価テーブル125の一例を示す図である。評価テーブル125は、音楽データの識別情報と該当音楽データに関して予め選定された選定キーワード群とを対応付けたテーブルであり、第2の実施形態では、一次評価テーブル126と二次評価テーブル127とで構成している。図に示す例では、一次評価テーブル126は、音楽データの識別情報たるBGM名をキーとして、該当音楽データすなわちBGMに関して予め選定された、「たんじょうび」、「ばーすでい」、「はっぴー」、などといった選定キーワード群とを対応付けたレコードの集合体となっている。また、二次評価テーブル127は、音楽データの識別情報たるBGM名をキーとして、該当音楽データすなわちBGMに関して予め選定されたユーザ属性(例:誕生日当日、ロック音楽好き、40代)、および直近書込みが含むキーワード(例:結婚、クリスマス等)を対応付けたレコードの集合体となっている。
図12は第2の実施形態のユーザテーブル128の一例を示す図である。ユーザテーブル128は、音声SNSの各ユーザの属性情報を記述したテーブルであり、図の例では、ユーザIDをキーとして、該当ユーザの誕生日、音楽志向、趣味、年齢といったユーザ属性の値を対応付けたレコードの集合体となっている。
図13は第2の実施形態の投稿音声データ情報テーブル129の一例を示す図である。投稿音声データ情報テーブル129は、投稿記録装置170に格納されている投稿音声データに関する情報を、該当投稿音声データの公開先毎に格納したテーブルであり、図の例では、「U00001」といったユーザID毎に、投稿音声データIDをキーとして、該当投稿音声データの投稿者、投稿日時、投稿音声データのタイトル(識別情報)といった値を対応付けたレコードの集合体となっている。
−−−第2の実施形態における処理手順例−−−
以下、第2の実施形態における音楽選択支援方法の実際手順について図に基づき説明する。以下で説明する音楽選択支援方法に対応する各種動作は、システム1001を構成する各装置らがメモリに読み出してそれぞれ実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図14は、第2の実施形態における音楽選択支援方法の処理手順例を示すフロー図である。ここで、SNSサーバ150は、ユーザ端末200から受信して投稿記録装置170に格納された投稿音声データを、投稿記録装置170より取得する(s200)。
次に、SNSサーバ150は、上述で取得した投稿音声データに対し、プログラム102が含む音声認識プログラムを起動して音声認識処理を実行し、テキストデータを生成する(s201)。ここでSNSサーバ150は、前記の音声認識処理で生成したテキストデータを、一次評価テーブル126における、各BGMの選定キーワード群に照合して、テキストデータが含むキーワードと各BGMとのマッチ度を算定する(s202)。
このように、テキストデータが含むキーワードと各BGMとのマッチ度を算定する処理は、例えば次のような処理手順となる。テキストデータが含むキーワードが、「けっこん」、「おめでとう」、「しあわせ」であった場合、SNSサーバ150は、これらキーワードを一次評価テーブル126に照合し、「けっこん」のキーワードについては、適合時得点の「10点」を特定し、「おめでとう」のキーワードについては、適合時得点の「6点」を特定し、「しあわせ」のキーワードについては、適合時得点の「6点」を特定する。こうした、「けっこん」、「おめでとう」、「しあわせ」の各キーワードに関する適合時得点の特定処理を、一次評価テーブル126における各BGMのレコードについて実行し(s203)、図15に示す評価結果例1のように、各BGM毎の得点計を算定する。図15の例では、"BGM2:ウェディングソング"について最高得点「19点」が算定された。
このように、一次評価テーブル126へのテキストデータのキーワードの照合と得点算定の処理により、テキストデータが含むキーワードとのマッチ度最高のもの、つまり最高得点のキーワード群=BGMが1つのみ特定された場合(s204:No)、SNSサーバ150は、特定したBGMつまり音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報として、該当投稿音声データの投稿者のユーザ端末200に送信する(s205)。該当投稿音声データの投稿者情報は勿論のこと、公開先は、投稿音声データの投稿時に投稿者が指定しており、公開先となったユーザないしグループの情報が該当投稿音声データに付帯して投稿記録装置170や投稿音声データ情報テーブル129に格納されているものとする。
なお、上述の推奨情報を受信したユーザ端末200は、推奨情報をディスプレイに表示して、ユーザに閲覧させることとなる。ユーザが上述の推奨情報の示すBGMを容認した場合、その旨がユーザ端末200から公開Webサーバ160を介してSNSサーバ150に通知される。
SNSサーバ150は、ユーザ端末200から容認通知を受信したBGMのデータ(投稿記録装置170ないし自身の記憶部101にて保持)を、該当投稿音声データと合わせて再生し、当該再生したデータを公開Webサーバ160を介してユーザ端末200に送信する(s212)。なお、SNSサーバ150は、上述の如き、ユーザ端末200への推奨情報の送信を行わず、前記特定した選定キーワード群に対応するBGMのデータを、投稿音声データと合わせて再生し、当該再生したデータをユーザ端末200に送信するとしてもよい。
一方、一次評価テーブル126へのテキストデータのキーワードの照合と得点算定の処理により、テキストデータが含むキーワードとのマッチ度最高のもの、つまり最高得点のキーワード群=BGMが複数特定された場合(s204:Yes)、SNSサーバ150は、該当投稿音声データに、音声SNSにおける公開先(ユーザやグループ等)の指定情報が付与されているか判定する(s206)。
この場合、SNSサーバ150は、上述のステップs206での判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていると判定した場合(s206:Yes)、該当指定情報が示す「投稿公開先」のユーザに関して、ユーザテーブル128から属性情報を読み出す(s207)。このステップs207において、SNSサーバ150は、更に、「投稿公開先」のユーザに関する直近の投稿音声データを、投稿記録装置170より読み出し、該当投稿音声データに対し、音声認識処理を実行してテキストデータを生成する。SNSサーバ150は、直近の投稿音声データを投稿記録装置170から読み出す際、直近から所定範囲の期間の投稿音声データを読み出すものとしてもよい。その場合、SNSサーバ150は、所定範囲の期間の各投稿音声データに対し上述と同様の音声認識処理を実行してテキストデータを生成し、各テキストデータを跨って出現頻度が一定以上のキーワードを抽出する。
他方、上述のステップs206での判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていないと判定した場合(s206:No)、SNSサーバ150は、該当投稿音声データの「投稿」ユーザに関して、ユーザテーブル128から属性情報を読み出す(s208)。このステップs208において、SNSサーバ150は、更に、「投稿」ユーザに関する直近の投稿音声データを、投稿記録装置170より読み出し、該当投稿音声データに対し、音声認識処理を実行してテキストデータを生成する。SNSサーバ150は、直近の投稿音声データを投稿記録装置170から読み出す際、直近から所定範囲の期間の投稿音声データを読み出すものとしてもよい。その場合、SNSサーバ150は、所定範囲の期間の各投稿音声データに対し上述と同様の音声認識処理を実行してテキストデータを生成し、各テキストデータを跨って出現頻度が一定以上のキーワードを抽出する。
続いてSNSサーバ150は、上述のステップs207、s208のいずれかで得た、ユーザの属性情報および直近書込みから得たキーワードを、二次評価テーブル127に照合し、各BGMに関して規定されているユーザの属性情報およびキーワードとのマッチ度を算定する(s209)。
このように、ユーザの属性情報およびキーワードと、各BGMとのマッチを算定する処理は、例えば次のような処理手順となる。ユーザの属性情報が「年齢:40」、「音楽志向:ロック」であり、キーワードが、「フットサル」、「がんばろう」であった場合、SNSサーバ150は、これらの値を二次評価テーブル127に照合し、「年齢:40」、「音楽志向:ロック」の各値については適合時得点の「10点」をそれぞれ特定し、「フットサル」、「がんばろう」の各キーワードについては、適合時得点無しを特定する。こうした、ユーザの属性情報およびキーワードに関する適合時得点の特定処理を、二次評価テーブル127における各BGMのレコードについて実行し(s210)、図16に示す評価結果例2のように、各BGM毎の得点計を算定する。
図16の例では、一次評価テーブル126を用いた評価で最高得点となった"BGM4"、"BGM5"、"BGM6"、のうち、二次評価テーブル127を用いた評価で、"BGM6"に計20点が算定された。このように、二次評価テーブル127へのユーザの属性情報およびキーワードの照合と得点算定の処理により、ユーザの属性情報およびキーワードとのマッチ度最高のもの、つまり最高得点のBGMを特定する。
続いてSNSサーバ150は、上述のステップs205と同様に、上述のステップs209で特定したBGMつまり音楽データの識別情報を、投稿音声データと合わせて再生する音楽の推奨情報として、該当投稿音声データの投稿者のユーザ端末200に送信する(s211)。なお、上述の推奨情報を受信したユーザ端末200は、推奨情報をディスプレイに表示して、ユーザに閲覧させることとなる。ユーザが上述の推奨情報の示すBGMを容認した場合、その旨がユーザ端末200から公開Webサーバ160を介してSNSサーバ150に通知される。
SNSサーバ150は、ユーザ端末200から容認通知を受信したBGMのデータ(投稿記録装置170ないし自身の記憶部101にて保持)を、該当投稿音声データと合わせて再生し、当該再生したデータを公開Webサーバ160を介してユーザ端末200に送信する(s212)。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした第2の実施形態によれば、音声SNSでの投稿音声に対して手間無く効率的に音楽を選択し、ひいては音声SNSでのユーザビリティ向上を図ることが可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、上述の第2の実施形態の音楽選択支援システムにおいて、前記記憶部は、ソーシャルネットワークサービスの各ユーザの属性情報を記述したユーザテーブルを備え、前記評価テーブルにおいて、音楽データの識別情報に対し、該当音楽データに関して予め選定されたユーザ属性を更に対応付けて格納するものであり、前記演算部は、前記テキストデータを前記評価テーブルの各選定キーワード群に照合して、前記テキストデータが含むキーワードとのマッチ度が所定値以上である選定キーワード群を複数特定した場合、前記ユーザ端末のユーザに関する属性情報を前記ユーザテーブルより読み出し、前記ユーザの属性情報を前記評価テーブルの各ユーザ属性に照合して、前記ユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、前記投稿音声データと合わせて再生する音楽の推奨情報として前記ユーザ端末に送信する処理を更に実行するものである、としてもよい。
また、上述の第2の実施形態の音楽選択支援システムにおいて、前記演算部は、前記マッチ度が最も高い選定キーワード群を複数特定した場合に、該当投稿音声データに、ソーシャルネットワークサービスにおける公開先の指定情報が付与されているか判定する処理と、前記判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていると判定した場合、該当指定情報が示す投稿公開先のユーザに関して、ユーザテーブルから属性情報を読み出し、当該属性情報を前記評価テーブルの各ユーザ属性に照合して、前記投稿公開先のユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、前記投稿音声データと合わせて再生する音楽の推奨情報として前記ユーザ端末に送信する処理と、前記判定の結果、該当投稿音声データに投稿公開先の指定情報が付与されていないと判定した場合、該当投稿音声データの投稿ユーザに関して、ユーザテーブルから属性情報を読み出し、当該属性情報を前記評価テーブルの各ユーザ属性に照合して、前記投稿ユーザの属性情報とのマッチ度が最も高いユーザ属性を特定し、特定したユーザ属性に対応する音楽データの識別情報を、前記投稿音声データと合わせて再生する音楽の推奨情報として前記ユーザ端末に送信する処理を実行するものである、としてもよい。
また、上述の第2の実施形態の音楽選択支援システムにおいて、前記記憶部は、各ユーザ端末から受信した投稿音声データを蓄積しているものであり、前記演算部は、前記テキストデータを前記評価テーブルの各選定キーワード群に照合して、前記テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を複数特定した場合、前記ユーザ端末のユーザに関する直近の投稿音声データを記憶部より読み出し、該当投稿音声データに対し、音声認識処理を実行してテキストデータを生成し、当該テキストデータを前記評価テーブルの各選定キーワード群に照合して、前記テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を特定し、特定した選定キーワード群に対応する音楽データの識別情報を、前記投稿音声データと合わせて再生する音楽の推奨情報として前記ユーザ端末に送信する処理を実行するものである、としてもよい。
また、上述の第2の実施形態の音楽選択支援システムにおいて、前記演算部は、前記テキストデータが含むキーワードとのマッチ度が最も高い選定キーワード群を複数特定した場合、前記ユーザ端末のユーザに関する直近から所定範囲の期間の各投稿音声データを記憶部より読み出し、各投稿音声データに対し音声認識処理を実行してテキストデータを生成し、各テキストデータを跨って出現頻度が一定以上のキーワードを抽出し、当該キーワードを前記評価テーブルの各選定キーワード群に照合して、前記出現頻度一定以上のキーワードとのマッチ度が最も高い選定キーワード群を特定し、特定した選定キーワード群に対応する音楽データの識別情報を、前記投稿音声データと合わせて再生する音楽の推奨情報として前記ユーザ端末に送信するものである、としてもよい。
また、上述の第2の実施形態の音楽選択支援システムにおいて、前記演算部は、前記特定した選定キーワード群に対応する音楽データを、前記投稿音声データと合わせて再生し、当該再生したデータを前記ユーザ端末に送信する処理を実行するものであるとしてもよい。
−−−第3の実施形態におけるシステム構成−−−
以下に本発明の第3の実施形態について図面を用いて詳細に説明する。第3の実施形態の投稿音声再生制御システム1002を含むネットワーク構成は第1および第2の実施形態のネットワーク構成(図1)ものと同じである。そのため、以降は第1の実施形態と異なる構成についてのみ説明を行うこととする。第3の実施形態における投稿音声再生制御システム1002(以下、システム1002)は、音声SNSにおける類似した投稿音声を手間無く効率的に選択、再生し、投稿者意図の良好な伝達を可能とするコンピュータシステムである。
続いてシステム1002のハードウェア構成について説明する。第3の実施形態におけるシステム1002は、第1の実施形態と同様、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されている。まずは、システム1002における処理の実行主体たるSNSサーバ150について説明を行うこととする。
この場合、システム1002を構成するSNSサーバ150は、図17に例示するように、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶部101、RAMなど揮発性記憶装置で構成されるメモリ103、前記記憶部101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算部104、LAN回線121等と接続し他装置との通信処理を担う通信部105、を備える。なお、記憶部101内には、第3の実施形態の投稿音声再生制御システムとして必要な機能を実装する為のプログラム102、イベントの識別情報と該当イベントに関して予め選定された選定キーワードとを対応付けた判定テーブル130が少なくとも記憶されている。
続いて、第3の実施形態のシステム1002が備える機能について説明する。第3の実施形態におけるシステム1002は、上述のように、SNSサーバ150、公開Webサーバ160、および投稿記録装置170にて構成されているが、以下では説明の簡明化の為、SNSサーバ150が公開Webサーバ160および投稿記録装置170の機能を備え、一体のシステム1002として機能を果たすものとして説明を行うこととする。なお、こうしたシステム1002において、ユーザ端末200とのデータ授受は公開Webサーバ160を介して実行され、投稿音声データの管理については投稿記録装置170を介して実行される。
この場合、システム1002は、ユーザ端末200から受信し投稿記録装置170にて格納されている投稿音声データのうち、同じ投稿公開先の指定情報が付与されているものを、通信部105を介して投稿記録装置170にアクセスして特定し、当該特定した投稿音声データそれぞれに対し音声認識処理を実行してテキストデータを生成し、当該生成したテキストデータを投稿公開先毎に記憶部101に格納する機能を有している。
また、システム1002は、上述で得た投稿公開先が共通な各テキストデータを判定テーブル130の各選定キーワードに照合し、共通する選定キーワードを含んでいたテキストデータを、同じ投稿公開先および同じイベントに関するものとして特定し、同時再生対象のグループとして記憶部に格納する機能を有している。
また、システム1002は、上述の同時再生対象のグループに含まれる投稿音声データにおける、所定属性(選定キーワード)の音声信号の開始時点ないし終了時点を検索し、データ先頭から開始時点までの不要区間、ないし終了時点からデータ末尾までの不要区間の音声信号を削除し、当該削除実行後の各投稿音声データを同時に再生したデータを、ユーザ端末200に送信する機能を有している。
また、システム1002は、上述の削除実行後の各投稿音声データを、データ先頭から同時に再生したデータをユーザ端末200に送信するとしてもよい。或いは、システム1002は、削除実行後の各投稿音声データを、同時に終了するようデータ末尾を揃えて再生したデータをユーザ端末200に送信するとしてもよい。
また、システム1002は、上述の削除実行後の各投稿音声データ間での再生時間長の平均値を算定し、各投稿音声データのうち再生時間長が平均値に満たないものは基準速度より低速で再生し、各投稿音声データのうち再生時間長が平均値を越えるものは基準速度より高速で再生して、各投稿音声データの再生時間長を統一する処理を実行し、当該処理後の各投稿音声データを同時に再生したデータを、ユーザ端末200に送信するとしてもよい。
−−−第3の実施形態におけるデータ構造例−−−
次に、第3の実施形態のシステム1002が用いるテーブルにおけるデータ構造例について説明する。図18は、第3の実施形態における判定テーブル130の一例を示す図である。判定テーブル130は、「結婚」、「誕生日」、「合格」といった各種イベントの識別情報をキーに、該当イベントに関して予め選定された、「けっこんおめでとう」、「たんじょうびおめでとう」、「ハッピーウェデング」といった選定キーワードを対応付けたレコードの集合体となっている。
−−−第3の実施形態における処理手順例−−−
以下、第3の実施形態における投稿音声再生制御方法の実際手順について図に基づき説明する。以下で説明する投稿音声再生制御方法に対応する各種動作は、システム1002を構成する各装置らがメモリに読み出してそれぞれ実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図19は、第3の実施形態における投稿音声再生制御方法の処理手順例を示すフロー図である。ここで、SNSサーバ150は、ユーザ端末200から受信し投稿記録装置170にて格納されている投稿音声データのうち、同じ投稿公開先の指定情報が付与されているものを、通信部105を介して投稿記録装置170にアクセスして特定する(s300)。
次に、SNSサーバ150は、上述で特定した投稿音声データそれぞれに対し、プログラム102が含む音声認識プログラムを呼び出して実行して音声認識処理を実行し(s301)、テキストデータを生成し、当該生成したテキストデータを投稿公開先毎に記憶部101に格納する(s302)。
ここでSNSサーバ150は、前記の音声認識処理で生成したテキストデータを、判定テーブル130における各選定キーワードに照合し、共通する選定キーワードを含んでいたテキストデータを、同じ投稿公開先および同じイベントに関するものとして特定し、合成再生対象グループとして記憶部101に記憶する(s303)。SNSサーバ150は、このステップs303の処理を、上述のステップs302で得ている各投稿音声データについて全て実行する(s304)。こうした処理により、例えば、あるユーザ「U00001」を公開先とし、「けっこんおめでとう」という選定キーワードを共通に含んでいた投稿音声データが特定されたとする。図18に示す判定テーブル130の例であれば、この場合の投稿音声データのテーマは、イベント「結婚祝い」となる。また、図25に第3の実施形態における処理結果例を示す。この例では、「投稿1」、「投稿4」、「投稿7」、が、投稿公開先「太郎」、およびイベント「誕生祝い」について共通する投稿音声データとして特定されている。
続いてSNSサーバ150は、上述のステップs303にて特定した、投稿公開先およびイベントが共通する各投稿音声データにおいて、所定属性(選定キーワード)の音声信号の開始時点ないし終了時点を検索する(s305)。上述の例であれば、SNSサーバ150は、前記各投稿音声データについて、「けっこんおめでとう」の選定キーワードの発話開始時点、或いは発話終了時点を、音声解析処理により特定する。この音声解析処理は、SNSサーバ150が備えるプログラム102が備える音声解析プログラムを実行することで実行される。なお、音声解析プログラムは既存のものを利用すればよい。
「けっこんおめでとう」の選定キーワードの発話開始時点、或いは発話終了時点を、音声解析処理により特定したSNSサーバ150は、図20に例示する如く、該当投稿音声データにおけるデータ先頭から上述の発話開始時点までの不要区間Δt1、ないし上述の発話終了時点から投稿音声データにおけるデータ末尾までの不要区間Δt2、のいずれかの音声信号を削除する(s306)。SNSサーバ150は、このステップs306の処理を、上述のステップs305で開始時点ないし終了時点を検索した各投稿音声データについて全て実行する(s307)。
次に、SNSサーバ150は、上述のステップs306での不要区間削除の実行後、各投稿音声データを、データ先頭から重畳させることで合成して1ファイルとし(s308)、当該ファイルを再生した再生データをユーザ端末200に送信する(s309)。このように、各投稿音声データをデータ先頭から重畳させることで合成して1ファイルとし、当該ファイルを再生することで、各投稿音声データの同時再生がなされることになる。図21に第3の実施形態の合成再生用ファイルの例1を示す。この図21にて示すように、前記のステップs308で合成して得たファイル、すなわち合成再生用ファイルは、各投稿者の投稿音声データが「けっこんおめでとう」の部分を先頭に多重化されたものとなっている。
なお、SNSサーバ150は、不要区間削除の実行後、上述のステップs308において、各投稿音声データを、同時に再生終了となるようデータ末尾を揃えて重畳させることで合成して1ファイルとし、前記ステップs309において、当該ファイルを再生した再生データをユーザ端末200に送信するとしてもよい。図22に第3の実施形態の合成再生用ファイルの例2を示す。この場合の合成再生用ファイルは、図22にて示すように、各投稿者の投稿音声データが、「けっこんおめでとう」の部分を後端に揃えて多重化されたものとなっている。
上述した例では、投稿音声データのうち、不要区間として削除するのは、データ先頭から選定キーワードの発話開始時点まで、或いは選定キーワードの発話終了時点からデータ末尾まで、としたが、その他にも、図23に示すように、第3の選定キーワードの発話終了時点から、第3の選定キーワードの発話開始時点までの不要区間Δt3を想定するとしてもよい。この場合、SNSサーバ150は、例えば、処理対象の各投稿音声データにおけるデータ先頭から上述の発話開始時点までの不要区間Δt1、および、上述の不要区間Δt3、の音声信号を削除して、不要区間Δt1,Δt3の削除実行後の各投稿音声データを、データ先頭から重畳させることで合成して1ファイルとする(図24)。或いは、SNSサーバ150は、例えば、処理対象の各投稿音声データにおける上述の発話終了時点からデータ末尾までの不要区間Δt2、および、上述の不要区間Δt3、の音声信号を削除して、不要区間Δt2,Δt3の削除実行後の各投稿音声データを、データ末尾が揃うよう重畳させることで合成して1ファイルとするとしてもよい。
なお、上述のステップs306において、不要区間の削除を行って得られた投稿音声データの再生時間長が、各投稿音声データ間で大きく異なっているとすれば、上述の合成再生用ファイルを生成して再生したとしても、それを聞いているユーザは発話タイミングがばらばらにずれた内容のメッセージを聞くことになりかねない。
そこで、SNSサーバ150は、上述のステップs308において、不要区間削除実行後の各投稿音声データを重畳させる際、不要区間削除実行後の各投稿音声データ間での再生時間長の平均値を算定し(s308A)、各投稿音声データのうち再生時間長が平均値に満たないものは基準速度より低速の再生速度、各投稿音声データのうち再生時間長が平均値を越えるものは基準速度より高速の再生速度を設定し、各投稿音声データの再生時間長を統一する処理を実行する(s308B)。SNSサーバ150は、当該処理後の各投稿音声データを合成して1ファイルとする。
こうした第3の実施形態によれば、音声SNSにおける類似した投稿音声を手間無く効率的に選択、再生し、投稿者意図の良好な伝達が可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、第3の実施形態の投稿音声再生制御システムにおいて、前記演算部は、前記削除実行後の各投稿音声データを、データ先頭から同時に再生したデータを前記ユーザ端末に送信するものであるとしてもよい。
また、第3の実施形態の投稿音声再生制御システムにおいて、前記演算部は、前記削除実行後の各投稿音声データを、同時に終了するようデータ末尾を揃えて再生したデータを前記ユーザ端末に送信するものであるとしてもよい。
また、第3の実施形態の投稿音声再生制御システムにおいて、前記演算部は、前記削除実行後の各投稿音声データ間での再生時間長の平均値を算定し、前記各投稿音声データのうち再生時間長が前記平均値に満たないものは基準速度より低速の再生速度を設定し、前記各投稿音声データのうち再生時間長が前記平均値を越えるものは基準速度より高速の再生速度を設定して、前記各投稿音声データの再生時間長を統一する処理を実行し、当該処理後の各投稿音声データを同時に再生したデータを、前記ユーザ端末に送信するものであるとしてもよい。