以下に、本願に係る判定プログラム、判定装置及び判定方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る判定プログラム、判定装置及び判定方法が限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.判定処理の一例〕
まず、図1を用いて、実施形態に係る判定処理の一例について説明する。図1は、実施形態に係る判定処理の一例を示す図である。図1では、本願に係る判定プログラムによって動作するサーバ装置である判定装置100によって、実施形態に係る判定処理が行われる流れについて説明する。より具体的には、図1では、本願に係る判定装置100によって、ネットワーク上のユーザの所定の行動が、1つのセッションに含まれるか否かを判定する処理が行われる一例を示す。
なお、実施形態では、セッションとは、ネットワーク上のユーザの一連の行動を示す。例えば、セッションは、ユーザが所定の目的(意図)を持った行動を行う期間を意味する。また、セッションは、その一連の行動が同一のユーザによって行われていることを意味する。
例えば、セッションは、予め設定された所定時間(例えば30分)で定義付けられてもよいし、ユーザがショッピングサイトにログインしてからログオフするまでの間と定義付けられてもよい。また、セッションは、ユーザがショッピングサイトにログインしてから、所定の行動(例えば、任意の商品の注文手続きを完了させたこと)が行われるまでの間と定義付けられてもよい。あるいは、セッションは、ある行動が行われてから所定時間(例えば5分)が経過しないうちに次の行動が行われた場合にはセッションが継続していると判定され、次の行動が行われない場合にはセッションが終了したと判定されるように定義付けられてもよい。具体的には、判定装置100は、ユーザがユーザ端末10への操作を5分以上の間隔を空けずに継続している場合に、セッションが継続していると判定してもよい。また、判定装置100は、セッションの継続中において、ユーザの操作が最後に行われてから5分以上ユーザの操作がなかった場合に、セッションを終了したとして、新たなセッションを開始してもよい。
実施形態において、判定装置100は、ユーザから送信される音声を認識し、所定のサービスを提供するものとする。図1の例では、判定装置100は、送信された音声を認識し、所定の商品の注文を受け付けるショッピングサービスを提供する。なお、このようなサービスは、判定装置100ではなく、判定装置100と通信する所定のサーバ(例えば、ウェブサーバ)によって提供されてもよい。
判定装置100は、例えば、ユーザから送信された音声が、任意の商品名と注文を意図する語とを含む場合、当該商品がユーザから注文されたと認識する。具体的には、判定装置100は、音声を「お米買って。」と認識した場合、「お米」を、任意の商品名と認識し、「買って。」を、注文を意図する語として認識する。すなわち、判定装置100は、ショッピングサービスにおいてユーザがお米を注文したと認識し、注文に関する手続き処理を行う。なお、音声認識については、種々の既知の技術を用いることが可能であるため、説明を省略する。
一般に、音声認識を利用しない注文の場合、サービスを提供するサーバは、所定の識別情報に基づいて、ユーザのセッションを判定する。例えば、サービスを提供するサーバは、ショッピングページにアクセスしたユーザU1のクッキー情報を取得し、クッキー情報に基づいてセッションを判定する。これにより、サービスを提供するサーバは、例えば、ショッピングサイトにログインしたことや、お米をカートに入れたことや、カートに入れたお米を注文する等の行動が、ユーザU1によって行われた一連の行動であると判定できる。
一方、音声認識を利用した注文が行われる場合、サービスを提供するサーバは、ユーザの所定の行動が、1つのセッションに含まれるか否かを判定できない場合がある。例えば、ユーザが「お米」と言ったあとに、何らかの別の行動を行ったことにより、所定時間、音声が途切れたとする。そして、ユーザは、所定時間ののちに、「買って。」と発話したとする。この場合、サービスを提供するサーバは、先のユーザの発声と、後で行われた発声とが、1つのセッションに含まれるか否かを判定することが難しい。具体的には、サービスを提供するサーバは、「買って。」という命令に対応する商品名を認識することができない。このため、ユーザは、再度音声の入力を行うこととなる。場合によっては、ユーザは、セッションが終了したと判定され、再度のログインを求められることもある。このように、セッションが適切に判定できない場合、サービス側は、サービスのユーザビリティを低下させるおそれがある。
そこで、実施形態に係る判定装置100は、実施形態に係る判定処理によって、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する。具体的には、判定装置100は、ユーザが利用する端末装置であるユーザ端末10を介して、ユーザの周囲の環境音を収集する。そして、判定装置100は、収集した環境音の連続性に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する。これにより、判定装置100は、ユーザの置かれた状況に基づき適切にセッションの判定を行うので、ユーザビリティの高いセッション管理を行うことができる。以下、図1を用いて、実施形態に係る判定処理を流れに沿って説明する。
図1に示すユーザ端末10は、ユーザによって利用される情報処理端末である。図1では、ユーザ端末10は、例えばスマートフォン(Smartphone)である。図1の例では、ユーザ端末10は、ユーザの一例であるユーザU1によって利用されるものとする。なお、以下では、ユーザをユーザ端末10と読み替える場合がある。例えば、「ユーザU1が音声を送信する」という記載は、実際には、「ユーザU1が利用するユーザ端末10が音声を送信する」という状況を示す場合がある。
図1の例において、ユーザ端末10は、周囲の環境音や、ユーザU1からの音声入力を検知する(ステップS01)。例えば、ユーザ端末10は、内部に備えられたマイクロフォンによりこれらの音を検知する。なお、以下では、環境音や音声などの音に関する情報を、音情報と総称する場合がある。
実施形態では、環境音とは、ユーザU1が何らかの意図をもってユーザ端末10に入力した音声以外の音をいう。例えば、環境音の一例は、ユーザU1が拠点とする場所における暗騒音となりうる音である。具体的には、環境音は、ユーザU1の自宅50における、エアコン60の稼働音や、テレビ70が出力する音である。また、環境音は、自宅50における、水道から水が流れる音や、ドアの開け閉めの音などの生活音であってもよい。また、環境音は、自然環境に関する音でもよい。例えば、環境音は、自宅50内で検知できる外の雨音や、風の音等でもよい。また、環境音は、人工的に発せられる音でもよい。例えば、環境音は、ユーザU1がマウスをクリックする音や、キーボードを押下する音等であってもよい。
また、ユーザU1からの音声入力とは、ユーザU1が何らかの意図をもってユーザ端末10に入力した音声をいう。図1の例では、ユーザU1からの音声入力は、例えば、ユーザ端末10を介して、判定装置100が提供するショッピングサービスを利用するために発せられる音声である。なお、ユーザU1からの音声入力は、ユーザ端末10に対する指示の音声であってもよい。例えば、ユーザU1からの音声入力は、ユーザ端末10を起動するための音声や、判定装置100が提供するサービスへアクセスすることを指示する音声や、サービスにログインするためにユーザ端末10の認証(例えば、声紋認証)を受けるための音声等であってもよい。
ユーザ端末10は、これらの検知した音情報を、ネットワークを介して、判定装置100に送信する(ステップS02)。判定装置100は、送信された音情報を収集する(ステップS03)。図1の例では、判定装置100は、ユーザ端末10の周囲の環境音とともに、ユーザU1の音声入力である「お米・・・」という音情報を収集する。
ステップS03の後、所定時間が経過したものとする(ステップS04)。例えば、ユーザU1が、「お米・・・」という音声を発した後に、他に購入すべき商品がなかったかを確認するためユーザ端末10に保存されていたメモを閲覧したことで、所定時間(例えば、数分間)が経過したものとする。また、この間、ユーザU1は、音声を発せず、ユーザ端末10に表示されていたメモを閲覧していたものとする。
ユーザ端末10は、ステップS04を経て、さらに、周囲の環境音やユーザU1からの音声入力を検知する(ステップS05)。ステップS05において、ユーザ端末10は、ユーザU1の「買って。」という音声入力を検知する。また、ユーザ端末10は、ステップS01からステップS05までと同様に、エアコン60が稼働する音や、テレビ70から出力される音などの環境音を検知しているものとする。
ユーザ端末10は、ステップS02と同様、検知した音情報を判定装置100に送信する(ステップS06)。判定装置100は、送信された音情報を収集する。
そして、判定装置100は、収集された環境音の連続性に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する。具体的には、判定装置100は、連続した環境音のもとで行われた一連の行動を1つのセッションと判定する(ステップS07)。図1の例では、判定装置100は、ステップS01で検知された環境音と、ステップS04を経て、ステップS05で検知された環境音とに連続性がある場合に、ステップS01で発せられた「お米・・・」という音声入力と、ステップS05で発せられた「買って。」という音声入力とが1つのセッションに含まれると判定する。
判定装置100は、音声入力が1つのセッションに含まれると判定した場合、「買って。」という注文を意図する語を認識し、その注文の対象の商品名として、ステップS01で発せられた「お米・・・」を認識する。すなわち、判定装置100は、ステップS01で行われた音声入力という行動と、ステップS05で行われた音声入力という行動との間に所定時間が経過し、かつ、判定装置100に対する何らかの入力が行われなくとも、環境音の連続性に基づいて、ユーザU1のセッションを維持する。
なお、環境音の連続性について詳しくは後述するが、例えば、判定装置100は、ユーザ端末10に検知された定常的に発せられる周囲の環境音を数秒毎に収集し、収集した環境音の音圧や周波数、波形等が所定の閾値を超えない場合に、環境音の連続性が保たれていると判定する。なお、判定装置100は、音が発せられる方向や音源までの距離等を推定し、推定した情報が所定の閾値を超えない場合に、環境音の連続性が保たれていると判定してもよい。
このように、実施形態に係る判定装置100は、周囲の環境音を収集し、収集した環境音の連続性に基づいて、ユーザU1の所定の行動が1つのセッションに含まれるか否かを判定する。
すなわち、判定装置100は、環境音に基づいて、音声認識を利用したサービスに対して行われる複数の行動が、ユーザU1という同一のユーザによって行われている一連の行動であることを判定する。具体的には、判定装置100は、ユーザU1から送信される音声が途中で途切れた場合でも、環境音が連続している場合には、ユーザU1が移動したり、何か別の行動をしようとしたりしているのではなく、単にユーザ端末10への入力を待機しているだけであると判定する。また、判定装置100は、ユーザU1のログイン後、環境音が連続している場合には、ユーザ端末10を利用するユーザに変化がないと判定する。このように、判定装置100は、ユーザU1が、意図した音声を一度に連続して発さなくとも、環境音を利用することで、セッションを維持し続けることができる。これにより、ユーザU1は、セッションが途切れたことによる再度のログインや、再度の音声入力を行う手間を省くことができる。結果として、判定装置100は、ユーザU1がネットワーク上において音声認識技術を利用する場合に、ユーザビリティの高いセッション管理を行うことができる。
また、判定装置100によれば、ユーザU1の音声入力と併せて、自然とユーザ端末10によって検知される環境音を処理に利用するため、ユーザU1やユーザ端末10に、特に何らかの処理を実行させて、セッションを維持することを要しない。すなわち、判定装置100は、ユーザU1からの音声を受け付ける際に、当然に収集される環境音を用いて処理を行うため、ユーザU1に余計な負担を掛けることなく、ユーザビリティの高いセッション管理を行うことができる。
また、判定装置100は、環境音と、既存のセッション管理の処理とを組み合わせてもよい。例えば、判定装置100は、環境音が連続している場合であっても、サービスの利用に関して比較的長い時間(例えば1時間など)が経過した場合には、セッションを終了させてもよい。また、ユーザU1が、移動しながらユーザ端末10に対して音声入力を行う場合も想定される。この場合、判定装置100は、環境音は連続しないものの、ユーザU1の音声入力が継続しているならば、ユーザU1の音声入力の連続性を優先して判定し、セッションを維持してもよい。
また、判定装置100は、環境音の連続性を利用して、コンテンツの効果測定を行ってもよい。例えば、ユーザU1は、ユーザ端末10やテレビ70を介して、コンテンツ(例えば、動画による広告コンテンツや、テレビコマーシャル)を閲覧する場合がある。そして、判定装置100は、ユーザU1がコンテンツを閲覧したのち、環境音が連続している間に、そのコンテンツに関する何らかの行動をユーザU1がとったという情報を収集する。例えば、ユーザU1は、そのコンテンツが宣伝する商品について「あの商品いいね」とつぶやく場合がある。判定装置100は、ユーザ端末10が検知した環境音とともに、このような好意的なつぶやきを音声入力として収集する。そして、判定装置100は、例えば商品名をキーとして、コンテンツと、ユーザU1の好意的なつぶやきを対応付ける。この場合、判定装置100は、当該コンテンツがユーザU1に対して効果を発揮したと判定する。
一般に、コンテンツがユーザU1に対して効果を発揮したかは、その因果関係を証明することが難しいため、真に効果を発揮したか否かを測定することは難しい。判定装置100によれば、環境音が連続している間に、そのコンテンツに対して何らかの行動をとったという情報を収集するので、コンテンツの配信が動機付けとなってユーザU1に何らかの行動をとらせた、という推定を高い確度で行うことができる。
なお、図1の例では、実施形態に係る判定処理を判定装置100が行う例を示したが、より正確には、実施形態に係る判定処理は、判定装置100内で実行される判定プログラムによって実行される。以下、このような判定プログラムに従って、上述した判定処理を実行する判定装置100等について詳細に説明する。
〔2.判定処理システムの構成〕
次に、図2を用いて、実施形態に係る判定装置100が含まれる判定処理システム1の構成について説明する。図2は、実施形態に係る判定処理システム1の構成例を示す図である。図2に例示するように、実施形態に係る判定処理システム1には、ユーザ端末10と、判定装置100とが含まれる。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。また、判定処理システム1には、複数のユーザ端末10が含まれてもよい。すなわち、ユーザは、1台のユーザ端末10のみならず、複数台のユーザ端末10を所有し、利用してもよい。
ユーザ端末10は、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット端末や、スマートフォンを含む携帯電話機、PDA(Personal Digital Assistant)等の情報処理端末である。また、ユーザ端末10には、眼鏡型や時計型の情報処理端末であるウェアラブルデバイス(wearable device)も含まれる。さらに、ユーザ端末10には、情報処理機能を有する種々のスマート機器が含まれてもよい。例えば、ユーザ端末10には、TV(Television)や冷蔵庫、掃除機などのスマート家電や、自動車などのスマートビークル(Smart vehicle)や、ドローン(drone)、家庭用ロボットなどが含まれてもよい。また、ユーザ端末10には、ユーザからの音声入力を検知し、所定の処理を行う各装置が含まれてもよい。例えば、ユーザ端末10は、音声を検知して動作するスピーカーや照明装置等であってもよい。
ユーザ端末10は、マイクロフォン等の集音装置を有し、ユーザからの音声入力や、ユーザ端末10の周囲の環境音を検知する。なお、ユーザ端末10は、マイクロフォンを内蔵するのではなく、マイクロフォンと有線又は無線の通信で接続されたり、音声情報をデータとして入力されたりすることによって、ユーザの音声や環境音を検知してもよい。
判定装置100は、ユーザ端末10の周囲の環境音を収集し、収集した環境音の連続性に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定するサーバ装置である。判定装置100は、実施形態に係る判定プログラムを内部で動作させることにより、実施形態に係る判定処理を実行する。
〔3.判定装置の構成〕
次に、図3を用いて、実施形態に係る判定装置100の構成について説明する。図3は、実施形態に係る判定装置100の構成例を示す図である。図3に示すように、判定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、判定装置100は、判定装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部120は、セッション記憶部121と、効果測定記憶部122とを有する。以下、記憶部120に含まれる各記憶部について順に説明する。なお、重複する項目に関する説明は、適宜省略する。
(セッション記憶部121について)
セッション記憶部121は、セッションに関する情報を記憶する。ここで、図4に、実施形態に係るセッション記憶部121の一例を示す。図4は、実施形態に係るセッション記憶部121の一例を示す図である。図4に示した例では、セッション記憶部121は、「セッションID」、「ユーザID」、「環境音情報」、「行動情報」といった項目を有する。また、行動情報は、「入力手段」、「収集データ」、「内容」、「日時」といった小項目を有する。
「セッションID」は、セッションを識別する識別情報である。「ユーザID」は、ユーザを識別する識別情報である。なお、実施形態では、図4に示すような識別情報を参照符号として用いる場合がある。例えば、ユーザID「U1」によって識別されるユーザを「ユーザU1」と表記する場合がある。
「環境音情報」は、収集された環境音に関する情報を示す。「行動情報」は、セッションにおけるユーザの所定の行動を示す。「入力手段」は、ユーザの行動における入力手段を示す。具体的には、入力手段は、ユーザがユーザ端末10に対して情報を入力する際に用いた手段(音声入力やタッチパネルに対する操作等)を示す。「収集データ」は、ユーザの行動を示す情報として収集された具体的なデータを示す。「内容」は、ユーザの行動の内容を示す。「日時」は、ユーザの行動が行われた日時を示す。
なお、図4に示す例では、項目に記憶される情報として、「環境音データ#1」や、「音声データ#1」や、「時間#1」といった概念的な情報を示しているが、実際には、任意の形式の音声ファイルや、日時を示す値等が記憶される。
すなわち、図4に示したデータの一例は、セッションID「SE01」で識別されるセッションSE01は、ユーザID「U1」で識別されるユーザU1が行った一連の行動に関する情報を含むことを示している。また、セッションSE01において、環境音情報として「環境音データ#1」が収集された際に、ユーザU1は、入力手段として「音声」を用いて「ログイン」を行っており、その際に収集されたデータは「音声データ#1」であり、ログインが行われた日時は「時間#1」であることを示している。
また、ユーザU1は、その後、「音声」を用いて「リクエスト」を行っており、その際に収集されたデータは「音声データ#2」である。この行動は、例えば図1で示したように、「お米・・・」とユーザU1が発声したこと等によりサービス(すなわち、判定装置100)に対するリクエストとして記憶される。また、ユーザU1は、その後、「タッチパネル」を用いて「ウェブ閲覧」を行っており、その際に収集されたデータは「操作データ#1」である。この行動は、例えば図1で示したように、ユーザU1があるリクエストを行った後に、環境音が連続している間に行われた場合に、同一のセッションSE01の行動として記憶される。また、ユーザU1は、その後、「音声」を用いて「リクエスト」を行っており、その際に収集されたデータは「音声データ#3」である。この行動は、例えば図1で示したように、環境音が連続している間に行われた場合に、「買って。」とユーザU1が発声したこと等によりサービスに対するリクエストとして記憶される。また、この行動は、同一のセッションSE01の行動として記憶される。
なお、図4の例では、説明のために、ユーザの所定の行動が行われる度に環境音情報が記憶される例を示したが、判定装置100は、所定時間ごと(例えば3秒ごと)に環境音情報を収集してもよい。そして、判定装置100は、ユーザの何らかの行動が記憶されない場合であっても、環境音の連続性が保持されると判定している間は、1つのセッションを継続させるようにしてもよい。
(効果測定記憶部122について)
効果測定記憶部122は、コンテンツの効果測定に関する情報を記憶する。効果測定記憶部122は、データテーブルとして、行動テーブル123と、効果テーブル124とを有する。
(行動テーブル123について)
行動テーブル123は、コンテンツの配信と、コンテンツ配信後のユーザの行動に関する情報を記憶する。ここで、図5に、実施形態に係る行動テーブル123の一例を示す。図5は、実施形態に係る行動テーブル123の一例を示す図である。図5に示した例では、行動テーブル123は、「セッションID」、「ユーザID」、「環境音情報」、「配信情報」、「行動情報」といった項目を有する。また、配信情報の項目は、「コンテンツID」、「配信日時」、「メディア」といった小項目を有する。また、行動情報の項目は、「入力手段」、「収集データ」、「関連コンテンツID」、「内容」といった小項目を有する。
「配信情報」は、ユーザに配信されたコンテンツに関する情報を示す。「コンテンツID」は、コンテンツを識別する識別情報を示す。「配信日時」は、コンテンツがユーザに配信された日時を示す。「メディア」は、コンテンツが配信されたメディアを示す。メディアは、例えば、ユーザ端末10で表示されるウェブページであってもよいし、ユーザ端末10以外のテレビやラジオ等であってもよい。例えば、判定装置100は、ユーザ端末10から送信されるユーザの行動履歴を収集する際に、配信されたコンテンツや、コンテンツが配信された日時に関する情報を収集する。また、メディアがテレビやラジオである場合、判定装置100は、予めテレビやラジオにおいてコンテンツが配信される配信情報を外部サーバから取得してもおいてもよいし、収集された音情報に基づいて、コンテンツを特定してもよい。
「行動情報」は、コンテンツに反応したユーザの行動に関する情報を示す。「関連コンテンツID」は、ユーザの行動に関連していると推定されるコンテンツの識別情報を示す。なお、関連コンテンツIDとコンテンツIDとは、共通した識別情報が記憶されるものとする。「内容」は、ユーザの行動の内容を示す。
判定装置100は、種々の手法を用いて、ユーザの行動と、配信されたコンテンツとが関連するか否かを判定する。例えば、判定装置100は、ユーザが商品名をつぶやいた際には、商品名を認識し、認識した商品名に対応するコンテンツ(例えば、その商品を宣伝する広告コンテンツ)を特定する。そして、判定装置100は、そのユーザのツイート(つぶやき)と、コンテンツとが関連すると判定する。また、判定装置100は、ユーザが商品を注文した場合に、同一セッションにおいて、当該商品に関するコンテンツ(例えばテレビコマーシャル)がユーザに対して配信されていた場合には、ユーザの注文という行動と、コンテンツとが関連すると判定する。
すなわち、図5に示したデータの一例では、セッションSE02において、ユーザU1は、環境音データ#21が収集された時間#21のタイミングで、「テレビ」を介して、コンテンツID「C01」で識別されるコンテンツC01の配信を受けたことを示している。また、ユーザU1は、環境音データ#22が収集された時間#22のタイミングで、テレビを介して、コンテンツC02の配信を受けたことを示している。
また、図5に示したデータの一例では、ユーザU1が、セッションSE02において、音声データ#21というツイートを行っており、そのツイートに関連するコンテンツは、コンテンツC01であることを示している。また、ユーザU1は、音声データ#22というリクエスト(例えば商品の購入)を判定装置100に行っており、そのリクエストに関連するコンテンツは、コンテンツC02であることを示している。
なお、上記の例では、ユーザの行動としてツイートやリクエスト等を示したが、ユーザの行動はこれらに限られない。例えば、判定装置100は、ユーザの行動として、コンテンツが宣伝する商品のウェブページにアクセスしたことや、商品に関する書き込みをSNS(Social Networking Service)に行ったことや、コンテンツを選択(タッチやクリック)したことや、商品をウィッシュリストに追加したことなど、種々の行動を収集してもよい。
(効果テーブル124について)
効果テーブル124は、コンテンツの効果に関する情報を記憶する。ここで、図6に、実施形態に係る効果テーブル124の一例を示す。図6は、実施形態に係る効果テーブル124の一例を示す図である。図6に示した例では、効果テーブル124は、「コンテンツID」、「ツイート率」、「CVR(Conversion Rate)」といった項目を有する。
「ツイート率」は、ユーザに配信されたコンテンツに対して、ユーザがツイートを行った割合を示す。「CVR」は、ユーザに配信されたコンテンツに対して、コンテンツの提供主に何らかの利益がもたらされた割合を示す。コンバージョンは、例えば、ユーザがコンテンツで宣伝された商品を購入したり、申込みを行ったり、資料請求を行ったり、コンテンツの提供主のウェブページにアクセスしたりした行動等が該当する。
すなわち、図6に示したデータの一例では、コンテンツC01のツイート率が「ツイート率#1」であり、CVRが「CVR#1」であることを示している。
(制御部130について)
図3に戻って説明を続ける。制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、判定装置100内部の記憶装置に記憶されている各種プログラム(例えば、判定プログラム)がRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、収集部131と、抽出部132と、判定部133と、測定部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。また、制御部130が有する各処理部は、本願に係る判定プログラムによって実行される各手順に対応する。例えば、収集部131が実行する処理は、判定プログラムが判定装置100に実行させる収集手順に対応する。同様に、抽出部132が実行する処理は、判定プログラムが判定装置100に実行させる抽出手順に対応し、判定部133が実行する処理は、判定プログラムが判定装置100に実行させる判定手順に対応し、測定部134が実行する処理は、判定プログラムが判定装置100に実行させる測定手順に対応する。
(収集部131について)
収集部131は、各種情報を収集する。例えば、収集部131は、ユーザ及びユーザ端末10の周囲の環境音を収集する。
具体的には、収集部131は、ネットワークNを介して、ユーザ端末10が検知した環境音を収集する。なお、収集部131は、ユーザ端末10が送信する音情報を収集し、音情報に含まれる環境音を収集してもよいし、ユーザ端末10をクロール(crawl)することで、ユーザ端末10内に保持されている音情報を収集し、音情報に含まれる環境音を収集してもよい。
収集部131は、定常的に発せられる周囲の環境音を収集する。例えば、収集部131は、音が発せられる方向、音源までの距離、収集する音の波形、収集する音の音量(音圧)の少なくとも一つが定常的である周囲の環境音を収集する。より具体的には、収集部131は、ユーザの自宅等における、エアコン60の稼働音や、テレビ70が出力する音等を環境音として収集する。
例えば、収集部131は、所定時間ごとに環境音を継続的に収集する。例えば、収集部131は、判定装置100の管理者によって設定される所定時間ごと(例えば3秒や5秒ごと)に環境音を収集し続ける。この場合、収集される環境音は、ある瞬間の音情報のみならず、3秒や5秒の継続した音情報であってもよい。
収集部131は、環境音を含む音情報として、音圧レベルや、周波数や、推定される音源の数(環境音を構成していると推定される機器の数等)や、音圧や波形における周期等を収集する。なお、これらの音情報の収集について、収集部131は、適宜、既知の解析技術を利用して音情報を収集するようにしてもよい。
また、収集部131は、環境音のみならず、ユーザが発した音声情報を収集してもよい。具体的には、収集部131は、サービスを利用するためにユーザが発する音声情報を収集する。また、収集部131は、ユーザが発する音声を断続的に収集してもよい。この場合、後述する判定部133によって、断続的に収集した音声が、1つの意図を構成する音声情報であると判定される場合もある。
なお、収集部131は、音情報とともに、ユーザ端末10が備えるセンサによって収集される各種情報を収集してもよい。例えば、収集部131は、ユーザ端末10によって検知される環境情報を収集する。また、収集部131は、ユーザ端末10自体のデバイス情報や、ユーザ端末10と通信する外部装置に関する情報等を収集してもよい。
具体的には、収集部131は、ユーザ端末10によって検知される情報として、ユーザ端末10(あるいは、ユーザ端末10を利用するユーザ)が所在する位置を示す位置情報、ユーザ端末10の周囲の温度、湿度情報、環境光の強さを示す光情報等を収集する。また、収集部131は、ユーザ端末10が備えるカメラで撮影された写真や映像に基づいて、ユーザ端末10の周囲の環境情報を収集してもよい。例えば、収集部131は、カメラで撮影された画像情報や、画像情報に含まれる位置情報、撮影された日時等に基づいて、ユーザ端末10の周囲の環境情報を収集する。
また、収集部131は、ユーザ端末10自体のデバイス情報として、ユーザ端末10のCPUや、OS(Operating System)、メモリ等に関する情報、アンテナ等のネットワーク機能、インストールされたソフトウェア、使用されるブラウザソフトウェア、ユーザ端末10が備える入力手段(例えば、マイクロフォンや、タッチパネル、指紋データを収集可能な指紋リーダ)等の情報を収集する。
また、収集部131は、ユーザ端末10の動作状況を収集してもよい。例えば、収集部131は、ユーザ端末10が起動状態にあるか否か、また、起動状態であれば、画面のON/OFFの状態や、ユーザ端末10が移動/静止している状態か等の情報を収集する。かかる情報は、例えば、ユーザ端末10にインストールされた所定のセンシング(sensing)機能を有するアプリによって収集され、ユーザ端末10内部に保持される。また、収集部131は、ユーザ端末10の動作状況として、ユーザ端末10によって観測される加速度等を収集してもよい。
また、収集部131は、ユーザ端末10と通信する外部装置に関する情報として、ユーザ端末10と相互の通信状態にある外部装置を識別する情報や、確立している通信の種類や周波数帯域等を収集する。
また、収集部131は、ユーザの行動に関する情報を収集してもよい。例えば、収集部131は、ユーザがユーザ端末10を利用して閲覧したサービスページの情報や、検索サービスに送信したクエリの情報等を収集してもよい。
また、収集部131は、ユーザの個人情報を収集してもよい。例えば、収集部131は、所定のサービスを利用するための登録情報として、ユーザの個人情報を受け付ける。なお、収集部131は、ユーザの個人情報をウェブサーバ等のサービス側から収集してもよい。
また、収集部131は、コンテンツの配信に関する情報を収集してもよい。例えば、収集部131は、コンテンツが配信されるメディア(テレビやラジオ等)や、コンテンツの配信日時等の情報を外部サーバから収集する。
収集部131は、収集した情報を記憶部120内の各記憶部に格納する。また、収集部131は、記憶部120内に既に格納されている情報を適宜収集してもよい。
(抽出部132について)
抽出部132は、収集部131によって収集された音情報から、環境音又はユーザの所定の行動を示す音情報を抽出する。
抽出部132は、既知の音声解析処理に基づいて、ユーザ端末10から収集した音情報のうち、ユーザの所定の行動を示す音声情報を抽出する。具体的には、抽出部132は、ユーザの行動を示す語として予め登録されている語に対応する音声が抽出された場合に、当該音声を、ユーザの所定の行動を示す音声情報として抽出する。
例えば、抽出部132は、ユーザ端末10から収集した音情報に、判定装置100が提供するサービスを利用するためにユーザが入力する語(例えば、判定装置100が提供するサービス名や、「ハロー」などの呼びかけであってもよい)が含まれている場合、その語と、前後の音声を、ユーザがサービスにログインを要求している音声情報として抽出する。あるいは、抽出部132は、ユーザ端末10から収集した音情報に、サービスにおいて商品の注文を意図する語として登録されている語(例えば、「買って。」や、「買いたい。」や、「欲しい。」など)が含まれている場合、ユーザが任意の商品を注文しようとする行動に対応するものとして、その語と、前後の音声情報を抽出する。
なお、抽出部132は、予め登録されているユーザの声紋に基づいて、その音声がユーザ本人により発せられた音声か否かを判定してもよい。抽出部132は、ユーザ本人と判定された場合のみ、処理対象とした音声を、当該ユーザの所定の行動に対応する音声情報として抽出してもよい。これにより、抽出部132は、ユーザ以外の者が発した音声を、ユーザの所定の行動に対応する音声情報として誤って抽出することを防止できる。
また、抽出部132は、ユーザの所定の行動を示す情報として抽出された音声情報以外の音情報を、環境音として抽出する。また、抽出部132は、ユーザの所定の行動を示す音声情報と、環境音が同時に発せられる場合(例えば、環境音が、ユーザの発した音声に対する暗騒音として検知される場合)には、ユーザの所定の行動に対応する音情報と、環境音に対応する音情報とを分離して認識し、それぞれを抽出してもよい。
また、抽出部132は、音情報を解析し、ユーザの所定の行動を示す音声情報や、環境音を抽出するにあたり、既知の技術を用いて、所定の学習モデルを生成してもよい。例えば、抽出部132は、生成したモデルに音情報を入力することにより、その音情報に含まれるユーザの所定の行動を示す音声情報を抽出したり、環境音を抽出したりしてもよい。例えば、モデルは、ユーザが発する音声の癖等を予め学習したモデルであってもよいし、例えばディープラーニング等の各種学習技術によって学習が継続的に行われるものであってもよい。
(判定部133について)
判定部133は、環境音の連続性に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する。
例えば、判定部133は、定常的に発せられる周囲の環境音が収集されている間のユーザの所定の行動が、1つのセッションに含まれると判定する。より具体的には、判定部133は、定常的に発せられる周囲の環境音が所定の閾値を超えて変化した後に観測されたユーザの所定の行動は、1つのセッションに含まれないと判定する。言い換えれば、判定部133は、定常的に発せられる周囲の環境音が所定の閾値を超えない間に観測されたユーザの所定の行動は、1つのセッションに含まれると判定する。
なお、この場合の所定の閾値には、種々の種別の情報が含まれてもよい。例えば、判定部133は、音圧や、周波数や、音の大小の周期や、波形等の各々に関して所定の閾値を設け、それらのうち少なくとも一つが閾値を超えて観測された場合に、環境音が連続しなくなったと判定してもよい。また、判定部133は、音圧や周波数等を含めた波形として環境音を捉え、ある時点で観測された環境音の波形と、現時点の環境音の波形とが非類似である場合に、環境音が連続しなくなったと判定してもよい。なお、類似か非類似かの基準は、既知の音声解析の技術に基づいて、任意に設定されてもよい。
また、判定部133は、収集部131によって収集された環境音の連続性に基づいて、ユーザが発した断続的な音声が、一連の音声入力であるか否かを判定してもよい。すなわち、判定部133は、収集された音声が途切れている場合であっても、その音声とともに観測される環境音が連続している場合には、それらの音声を一連の音声入力として判定してもよい。図1で示した例では、判定部133は、ステップS01でユーザU1が発した「お米・・・」という音声と、ステップS05でユーザU1が発した「買って。」という音声とが、一連の音声入力であると判定する。
また、判定部133は、環境音が所定の時間(例えば、30分や1時間など)を超えて連続する場合には、所定の時間の間に行われたユーザの所定の行動が1つのセッションに含まれると判定し、当該所定の時間を超えて行われたユーザの所定の行動は1つのセッションに含まれないと判定してもよい。すなわち、判定部133は、環境音の連続性のみならず、時間によるセッション管理を併用してもよい。
また、判定部133は、環境音が不連続となった場合(環境音が所定の閾値を超えて変化した場合)であっても、ユーザの音声入力が継続している間には、その音声入力は1つのセッションに含まれると判定してもよい。
また、判定部133は、ユーザ端末10から収集された音情報のうちに、コンテンツの配信に関する情報が含まれているか否かを判定してもよい。判定部133は、環境音に、コンテンツが出力する音情報が含まれているか否かを判定することで、コンテンツが配信されたか否かを判定してもよい。あるいは、判定部133は、音情報のみならず、例えば、ユーザにコンテンツが配信されたことを示す情報(例えば、判定装置100が提供するサービスにおいて、宣伝のための動画コンテンツが配信されたことを示す情報)に基づいて、コンテンツがユーザに配信されたことを判定してもよい。
(測定部134について)
測定部134は、判定部133によって、ユーザの所定の行動と、ユーザへのコンテンツの提供とが1つのセッションに含まれると判定された場合に、ユーザに提供されたコンテンツの効果を測定する。
例えば、測定部134は、ユーザの所定の行動が、コンテンツを視聴したと推定される行動であるか否かに基づいて、ユーザに提供されたコンテンツの効果を測定する。具体的には、測定部134は、配信されたコンテンツに対して、ユーザが何らかの音声を発したという行動に基づいて、コンテンツの効果を測定する。より具体的には、測定部134は、コンテンツの配信後に、コンテンツの商品名や、商品をほめる言葉や、商品に関心を示す言葉等をつぶやいた場合に、当該コンテンツがユーザに視聴されたと推定する。そして、測定部134は、コンテンツが視聴されたことにより、コンテンツが効果を発揮したとみなして、当該コンテンツの効果を測定する。
また、測定部134は、ユーザの所定の行動が、コンテンツに関するコンバージョンと成り得るか否かに基づいて、ユーザに提供されたコンテンツの効果を測定してもよい。コンバージョンは、例えば、ユーザがコンテンツで宣伝された商品を購入したり、申込みを行ったり、資料請求を行ったり、コンテンツの提供主のウェブページにアクセスしたりした行動等が該当する。
測定部134は、ユーザに対して配信されたコンテンツの識別情報や、コンテンツが配信された数や、コンテンツに対してツイートがあった割合(ツイート率)や、コンテンツに対してコンバージョンがあった割合(CVR)等を記憶部120に格納する。なお、測定部134は、測定処理の際に、当該ユーザの性別や年齢等の属性に関する情報を取得してもよい。これにより、測定部134は、例えば、コンテンツが特に効果を発揮する年代や性別等に関する情報についても合わせて測定することができる。
また、測定部134は、測定した効果に関する情報を、コンテンツの提供主に送信してもよい。コンテンツの提供主は、かかる情報を参照することで、配信されたコンテンツがユーザに対して効果を発揮したか否かを確認することができる。
〔4.ユーザ端末の構成〕
次に、図7を用いて、実施形態に係るユーザ端末10の構成について説明する。図7は、実施形態に係るユーザ端末10の構成例を示す図である。図7に示すように、ユーザ端末10は、通信部11と、入力部12と、表示部13と、検知部14と、記憶部15と、制御部16とを有する。
通信部11は、ネットワークNと有線又は無線で接続され、判定装置100との間で情報の送受信を行う。例えば、通信部11は、NIC等によって実現される。
入力部12は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部12は、ユーザ端末10に備えられた操作キー等によって実現される。表示部13は、各種情報を表示するための表示装置である。例えば、表示部13は、液晶ディスプレイ等によって実現される。なお、ユーザ端末10にタッチパネルが採用される場合には、入力部12の一部と表示部13とは一体化される。
検知部14は、ユーザ端末10に関する各種情報を検知する。具体的には、検知部14は、ユーザが発する音声や、ユーザ端末10の周囲の環境音を検知する。例えば、検知部14は、マイクロフォン等の集音手段であり、音が入力された場合に、その音を音情報として取得する。
また、検知部14は、ユーザ端末10に対するユーザの操作や、ユーザ端末10の所在する位置情報や、ユーザ端末10と接続されている機器に関する情報や、ユーザ端末10における環境等を検知してもよい。
例えば、検知部14は、入力部12に入力された情報に基づいて、ユーザの操作を検知する。すなわち、検知部14は、入力部12に画面をタッチする操作の入力があったことや、音声の入力があったこと等を検知する。また、検知部14は、ユーザによって所定のアプリが起動されたことを検知してもよい。かかるアプリがユーザ端末10内の撮像装置を動作させるアプリである場合、検知部14は、ユーザによって撮像機能が利用されていることを検知する。また、検知部14は、ユーザ端末10内に備えられた加速度センサやジャイロセンサ等で検知されたデータに基づき、ユーザ端末10自体が動かされているといった操作を検知してもよい。
また、検知部14は、ユーザ端末10の現在位置を検知してもよい。具体的には、検知部14は、GPS(Global Positioning System)衛星から送出される電波を受信し、受信した電波に基づいてユーザ端末10の現在位置を示す位置情報(例えば、緯度及び経度)を取得する。また、位置情報は、ユーザ端末10が備える光学式センサや、赤外線センサや、磁気センサ等によって取得されてもよい。
また、検知部14は、ユーザ端末10に接続される外部装置を検知してもよい。例えば、検知部14は、外部装置との相互の通信パケットのやり取りなどに基づいて、外部装置を検知する。そして、検知部14は、検知した外部装置をユーザ端末10と接続される端末として認識する。また、検知部14は、外部装置との接続の種類を検知してもよい。例えば、検知部14は、外部装置と有線で接続されているか、無線通信で接続されているかを検知する。また、検知部14は、無線通信で用いられている通信方式等を検知してもよい。また、検知部14は、外部装置が発する電波を検知する電波センサや、電磁波を検知する電磁波センサ等によって取得される情報に基づいて、外部装置を検知してもよい。
なお、ユーザ端末10が外部機器と接続される場合、ユーザからの音声は、外部機器によって検知されてもよい。外部機器とは、例えば、音声アシスト機能を有する家電等であり、ユーザ端末10や判定装置100と通信可能なスマート機器である。
また、検知部14は、ユーザ端末10における周囲の環境を検知してもよい。検知部14は、ユーザ端末10に備えられた各種センサや機能を利用し、環境に関する情報を検知する。例えば、検知部14は、ユーザ端末10の周囲の照度を検知する照度センサや、ユーザ端末10の物理的な動きを検知する加速度センサ(又は、ジャイロセンサなど)や、ユーザ端末10の周囲の湿度を検知する湿度センサや、ユーザ端末10の所在位置における磁場を検知する地磁気センサ等を利用する。そして、検知部14は、各種センサを用いて、種々の情報を検知する。例えば、検知部14は、ユーザ端末10の周囲における騒音レベルや、ユーザ端末10の周囲が撮像に適する照度であるか等を検知する。さらに、検知部14は、カメラで撮影された写真や映像に基づいて周囲の環境情報を検知してもよい。
記憶部15は、各種情報を記憶する。記憶部15は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部15は、検知部14によって検知された音情報を、音が検知された日時と対応付けて記憶する。
制御部16は、コントローラであり、例えば、CPUやMPU等によって、ユーザ端末10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部16は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
図7に示すように、制御部16は、取得部161と、送信部162とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部16の内部構成は、図7に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部161は、各種情報を取得する。例えば、取得部161は、検知部14を制御することにより、検知部14によって検知される各種情報を取得する。具体的には、取得部161は、ユーザ又はユーザ端末10の周囲の環境音や、ユーザが発した音声等を含む、音情報を取得する。
取得部161は、所定の時間毎に音情報を取得するようにしてもよい。例えば、取得部161は、上述した検知部14を制御すること等により、音情報を取得する。取得部161は、ユーザからの音声入力がない場合には、例えば、所定時間ごと(3秒ごとや、5秒ごとや、10秒ごと等)の長さの音情報(環境音)を取得する。あるいは、取得部161は、検知部14によってユーザからの音声入力が検知された場合には、ユーザが発した音声に対応した長さの音情報を取得する。なお、取得部161が取得する音情報の長さは、判定装置100によって設定されてもよい。
送信部162は、各種情報を送信する。例えば、送信部162は、判定装置100からの要求に応じて、取得部161によって取得された音情報を判定装置100に送信する。
〔5.処理手順〕
次に、図8を用いて、実施形態に係る判定装置100による処理の手順について説明する。図8は、実施形態に係る処理手順を示すフローチャートである。
図8に示すように、判定装置100は、ユーザ端末10から、周囲の環境音を含む音情報を収集する(ステップS101)。そして、判定装置100は、音情報から音声情報(すなわち、ユーザの所定の行動を示す情報)を抽出する(ステップS102)。
そして、判定装置100は、音声情報に対応するユーザの所定の行動が、連続した環境音のもとで行われた行動か否かを判定する(ステップS103)。ユーザの所定の行動が、連続した環境音のもとで行われた行動であると判定した場合(ステップS103;Yes)、判定装置100は、その所定の行動が、1つのセッションに含まれる行動であると判定する(ステップS104)。そして、判定装置100は、音情報(環境音)を収集する処理を繰り返す。
一方、ユーザの所定の行動が、連続した環境音のもとで行われた行動でないと判定した場合(ステップS103;No)、判定装置100は、その所定の行動が、別のセッションの行動であると判定する(ステップS105)。この場合、判定装置100は、例えば、直前のセッションを終了させ、新たなセッションを開始し、当該行動は新たなセッションに含まれると判定する。
〔6.変形例〕
上述した実施形態に係る処理は、上記実施形態以外にも種々の異なる形態にて実施されてよい。以下では、判定装置100又は判定処理システム1の他の実施形態(変形例)について説明する。
〔6−1.環境音によるセッション管理のバリエーション〕
上記実施形態では、判定装置100は、ユーザの所定の行動が、連続した環境音のもとで行われた行動か否かを判定することにより、セッションを管理する例を示した。ここで、判定装置100は、ユーザからの明示の行動がなくとも(ユーザが無言であっても)、ユーザがサービスの利用を継続していると推定することで、セッションを維持するといった処理を行ってもよい。この点について、図9乃至図11を用いて説明する。なお、以下では、区別のため、変形例の構成を有する判定装置100を判定装置100Aと表記するが、特に区別する必要のない場合には、判定装置100と総称する。
例えば、判定装置100Aは、ユーザを認識するための音情報と環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定する。そして、判定装置100Aは、任意の行動の主体がユーザであると判定した場合には、任意の行動が1つのセッションに含まれると判定する。この場合、任意の行動とは、音声によるリクエストなどの明示的な行動のみならず、例えば、サービスにログインしたまま待機する、といった行動を含む。
また、ユーザを認識するための音情報とは、例えば、ユーザによって予め登録される、ユーザ本人を認識するための音情報である。例えば、ユーザは、判定装置100Aが提供するサービスの利用にあたり、自身を認識するための音情報をサービス側に登録する。
具体的には、ユーザは、自身がユーザ端末10を主に操作する場所(拠点)の環境音を予め登録する。あるいは、ユーザは、自身が発する音であって、環境音になりうる音を予め登録する。具体的には、ユーザは、自身の足音を環境音の一つとして登録する。あるいは、ユーザは、自身の家族の音声やペットの音声等を環境音の一つとして登録する。なお、これらの音情報の登録は、ユーザから明示的に行われることを要さず、例えば、環境音を収集した判定装置100Aによって、任意に登録が行われてもよい。言い換えれば、判定装置100Aは、ユーザを認識するための環境音を常時収集しておき、かかる環境音が観測された場合にはユーザ本人がサービスを利用している、と推定するための情報として、これらの音情報を予め登録しておく。
そして、判定装置100Aは、予め登録されているユーザの足音や、ユーザとは異なる者(例えば、ユーザの家族や友人等)の音声や、ユーザが拠点とする場所の環境音の少なくともいずれか一つと、収集された環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定する。判定装置100Aは、収集された環境音において、予め登録された音情報が含まれる場合は、ユーザからの音声入力がしばらくの間行われなくても、そのユーザ端末10を利用しているユーザは、ユーザ本人である蓋然性が高いものとして、セッションを維持する。すなわち、判定装置100は、任意の行動の主体がユーザであると判定した場合に、その任意の行動が、継続している1つのセッションに含まれる行動であると判定する。これにより、ユーザは、ログインしたサービスにおいて、しばらく明示の音声入力を行わずとも、ユーザ本人を示すと推定される環境音が観測され続けている間は、セッションを維持させることができる。
上記のように、変形例に係る判定装置100Aは、予め登録されたユーザ本人を示す音情報と、環境音との照合に基づいて、ユーザの本人性を検証することで、セッションを維持する。変形例に係る処理を行うにあたり、変形例に係る判定装置100Aは、図9に示す構成を有する。図9は、変形例に係る判定装置100Aの構成例を示す図である。図9に示すように、判定装置100Aは、照合情報記憶部125をさらに有する。
(照合情報記憶部125について)
照合情報記憶部125は、ユーザの照合に関する情報を記憶する。照合情報記憶部125は、データテーブルとして、登録テーブル126と、照合テーブル127とを有する。
(登録テーブル126について)
登録テーブル126は、ユーザを認識するために用いられる登録データに関する情報を記憶する。ここで、図10に、変形例に係る登録テーブル126の一例を示す。図10は、変形例に係る登録テーブル126の一例を示す図である。図10に示した例では、登録テーブル126は、「ユーザID」、「登録情報」、「内容」といった項目を有する。
「登録情報」は、ユーザを認識するための音情報として登録された音情報を示す。「内容」は、ユーザを認識するための音情報に関する内容を示す。なお、図10の例では、登録情報として、「登録データ#1」といった概念的な情報を示しているが、実際には、登録データは、任意の形式の音声ファイル等が記憶される。
すなわち、図10に示したデータの一例では、ユーザU1を認識するための登録情報として、「登録データ#1」が登録されており、その内容は、「友人の音声」であることを示している。また、ユーザU1を認識するための登録情報としては、「登録データ#2」や、「登録データ#3」や、「登録データ#4」も登録されており、その内容は、それぞれ、「同居人の音声」や、「本人の足音」や、「部屋の環境音」であることを示している。
(照合テーブル127について)
照合テーブル127は、ユーザの照合に関する情報を記憶する。ここで、図11に、変形例に係る照合テーブル127の一例を示す。図11は、変形例に係る照合テーブル127の一例を示す図である。図11に示した例では、照合テーブル127は、「セッションID」、「ユーザID」、「環境音情報」、「照合結果」といった項目を有する。
「照合情報」は、ユーザを認識するための音情報として登録されていたいずれかの登録データと、環境音とが照合されたか否かの結果を示す。例えば、照合情報に「○」が記憶されている場合、ユーザを認識するための音情報として登録されていたいずれかの登録データと、環境音とが照合されたことを示す。この場合、任意の行動(例えばサービスにログイン後、サービスを利用するために待機しているユーザの行動)は、ユーザU1本人によって行われていると推定される。このため、判定装置100Aは、セッションSE03を維持し、セッションを終了させないようにする。
すなわち、図11に示したデータの一例では、セッションSE03は、ユーザU1に関するセッションであり、収集された環境音情報#31は、ユーザを認識するための音情報として登録されていたいずれかの登録データとの照合結果が「○」であることから、セッションSE03が維持されていることを示している。また、環境音情報#32から環境音情報#34までの間も、ユーザを認識するための音情報として登録されていたいずれかの登録データとの照合結果が「○」であることから、セッションSE03が維持されていることを示している。
上記のように、判定装置100Aは、ユーザを認識するための音情報と環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定するとともに、主体がユーザであると判定した場合には、任意の行動が1つのセッションに含まれると判定する。
具体的には、判定装置100Aは、予め登録されているユーザの足音、ユーザとは異なる者の音声、ユーザが拠点とする場所の環境音の少なくともいずれか一つと、収集された環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定する。
このように、判定装置100Aは、予め登録された、ユーザの本人性を示すと推定される音情報と、環境音との照合により、セッション管理を行ってもよい。これにより、判定装置100Aは、ユーザからの意識的な音声入力を受け付けずとも、同じ環境下でユーザ本人がサービスを利用し続けていることから、あえてセッションを切断せずに、セッションを維持することができる。このため、判定装置100Aは、ユーザビリティの高いセッション管理を行うことができる。
(変形例に係る処理手順について)
次に、図12を用いて、変形例に係る判定装置100Aによる処理の手順について説明する。図12は、変形例に係る処理手順を示すフローチャートである。
図12に示すように、判定装置100Aは、ユーザ判定のための音情報を登録する(ステップS201)。その後、判定装置100Aは、ユーザ端末10から、周囲の環境音を含む音情報を収集する(ステップS202)。そして、判定装置100Aは、音情報から音声情報(すなわち、ユーザの任意の行動を示す情報)を抽出する(ステップS203)。
そして、判定装置100Aは、環境音と予め登録された音情報とが合致するか否かを判定する(ステップS204)。環境音と予め登録された音情報とが合致すると判定した場合(ステップS204;Yes)、判定装置100Aは、任意の行動がユーザ本人の行動であると判定する(ステップS205)。そして、判定装置100Aは、その任意の行動が、1つのセッションに含まれる行動であると判定する(ステップS206)。言い換えれば、判定装置100Aは、セッションを切断せずに維持する。そして、判定装置100Aは、音情報(環境音)を収集する処理を繰り返す。
一方、環境音と予め登録された音情報とが合致しないと判定した場合(ステップS204;No)、判定装置100Aは、任意の行動がユーザ本人の行動でないと判定する(ステップS207)。そして、判定装置100Aは、その任意の行動が、別のセッションに含まれる行動であると判定する(ステップS208)。言い換えれば、判定装置100Aは、セッションを維持せずに新たなセッションを開始し、当該任意の行動は、新たなセッションに含まれると判定する。
〔6−2.判定プログラム〕
上記実施形態では、本願に係る判定プログラムは、判定装置100内部で実行されることを示した。しかし、本願に係る判定プログラムは、ユーザ端末10内部で実行されてもよい。この場合、ユーザ端末10は、上記実施形態で説明した判定装置100が有する各処理部や、記憶部120に格納された各情報を記憶する記憶部15を有する。
〔6−3.ユーザ端末の数〕
上記実施形態では、ユーザ端末10が1台の装置である例を示したが、ユーザ端末10は1台に限られない。例えば、ユーザは、通信可能な端末装置を複数台所有することも想定される。この場合、判定装置100は、ユーザが利用する複数のユーザ端末10から、ユーザやユーザ端末10の周囲の環境音を収集してもよい。
なお、判定装置100は、複数のユーザ端末10の識別において、必ずしも他の機器にも共通するようなグローバルな識別子を取得することを要さない。すなわち、判定装置100は、実施形態において実行する処理において、ユーザ端末10を一意に識別することが可能な識別子を取得しさえすればよく、必ずしも永続的に定まる識別子を取得しなくてもよい。
〔6−4.ユーザ端末の構成〕
上記実施形態では、ユーザ端末10の構成例について図7を用いて説明した。しかし、ユーザ端末10は、図7で例示した全ての処理部を備えることを必ずしも要しない。例えば、ユーザ端末10は、表示部13を必ずしも備えていなくてもよい。また、ユーザ端末10は、2以上の機器に分離されて図7を示す構成が実現されてもよい。例えば、ユーザ端末10は、少なくとも検知部14を有する音声検知装置と、少なくとも通信部11を有する通信装置とに分離された構成を有する、2台以上の機器により実現されてもよい。
〔6−5.音声入力の判定〕
上記実施形態では、判定装置100が、環境音の連続性に基づいてセッションを管理することで、ユーザが発した断続的な音声が一連の音声入力であると判定する例を示した。ここで、判定装置100は、音声を一連の音声入力と判定以外にも、種々の音声認識に関する処理を行ってもよい。
例えば、判定装置100は、環境音の連続性に基づいて、ユーザが発する指示語を特定してもよい。具体的には、判定装置100は、環境音が連続している間に発せられたユーザの指示語が、同じセッションで発せられた別の語を指しているものと判定する。例えば、判定装置100は、「お米・・・」とユーザが発した音声を収集したのちに、「さっきのあれ買って。」という音声を収集したとする。この場合、判定装置100は、「さっきのあれ」という指示語を、直前にユーザが発した商品名である「お米」と認識する。そして、判定装置100は、認識した音声に対応する処理(この例では、お米を注文するという処理)を行う。
このように、判定装置100は、環境音の連続性に基づいてセッションを管理することで、ユーザの音声が途切れた場合でも、前後の音声を一連の音声として、また、前後の音声を一連の会話として取り扱うことができる。これにより、判定装置100は、サービスを利用するユーザの利便性を向上させることができる。
〔6−6.環境音〕
上記実施形態では、判定装置100が、環境音として、ユーザの自宅等で観測される機器の稼働音等を収集する例を示した。しかし、環境音の例はこれに限られず、判定装置100は、種々の音を環境音として収集してもよい。
例えば、判定装置100は、ユーザが自動車内でユーザ端末10を利用している場合には、自動車のエンジン音等を環境音として収集してもよい。なお、判定装置100は、環境音を収集する場合には、環境音を発する音源の距離や、方向や、音圧や、周波数等を収集し、そのうち、普遍的に観測される音情報を環境音として収集するようにしてもよい。これにより、判定装置100は、突発的に異なる音(例えば、ユーザ以外の者が発した音声など)が音情報に混在した場合であっても、上記のように普遍的な音情報が観測できる限りは、環境音が連続していると判定してもよい。このように、判定装置100は、上記実施形態で説明した処理を多様な状況で実現することができる。
〔7.ハードウェア構成〕
上述してきた実施形態に係る判定装置100やユーザ端末10は、例えば図13に示すような構成のコンピュータ1000によって実現される。以下、判定装置100を例に挙げて説明する。図13は、判定装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図2に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る判定装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラム(例えば、実施形態に係る判定プログラム)を実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔8.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図3に示した抽出部132と、判定部133とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた記憶装置に記憶されてもよい。
また、例えば、上記実施形態では、判定装置100が、ユーザから音情報を収集する収集処理と、セッションを判定する判定処理と、コンテンツの効果を測定する測定処理とを行う例を示した。しかし、上述した判定装置100は、収集処理を行う収集装置と、判定処理を行う判定装置と、測定処理を行う測定装置に分離されてもよい。この場合、例えば、実施形態に係る判定装置100による処理は、収集装置と、判定装置と、測定装置といった各装置を有する判定処理システム1によって実現される。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔9.効果〕
上述してきたように、実施形態に係る判定プログラムは、周囲の環境音を収集する収集手順と、収集手順によって収集された環境音の連続性に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する判定手順と、をコンピュータ(例えば、実施形態に係る判定装置100)に実行させる。
このように、実施形態に係る判定プログラムは、音声認識技術を利用してサービスが利用される際に、ユーザの音声とは異なる、周囲の環境音に基づいて、ユーザの所定の行動が1つのセッションに含まれるか否かを判定する。これにより、判定プログラムは、クッキー情報など、ユーザ本人であることを示す識別情報等を利用できない音声認識技術を利用したサービスにおいても、行動の連続性を判定することができる。このため、判定プログラムは、ユーザに再度のログインを求めたり、音声の再入力を求めたりすることなく、セッションを維持できる。結果として、判定プログラムは、ユーザに余計な負担を掛けることなく、ユーザビリティの高いセッション管理を行うことができる。
また、収集手順は、定常的に発せられる周囲の環境音を収集する。判定手順は、定常的に発せられる周囲の環境音が収集されている間のユーザの所定の行動が、1つのセッションに含まれると判定する。
このように、実施形態に係る判定プログラムは、エアコン60やテレビ70の稼働音など、定常的に観測される音を周囲の環境音として収集する。このため、判定プログラムは、環境音が変化したか否かを適切に判定できるので、確度の高いセッション管理を行うことができる。
また、判定手順は、定常的に発せられる周囲の環境音が所定の閾値を超えて変化した後に観測されたユーザの所定の行動は、1つのセッションに含まれないと判定する。
このように、実施形態に係る判定プログラムは、環境音が変化した場合に、ユーザの行動が1つのセッションに含まれないと判定する。これにより、判定プログラムは、ユーザの一連の行動が終了したことを、環境音が変化するという自然なかたちで行うことができるため、ユーザにとって違和感のないセッション管理を行うことができる。
また、収集手順は、音が発せられる方向、音源までの距離、収集する音の波形、収集する音の音量の少なくとも一つが定常的である周囲の環境音を収集する。
このように、実施形態に係る判定プログラムは、種々の音の素性を含む環境音を収集する。これにより、実施形態に係る判定プログラムは、環境音の変化を正確に捉えることができるので、より適切なセッション管理を行うことができる。
また、収集手順は、ユーザが発する音声を断続的に収集する。判定手順は、収集手順によって収集された環境音の連続性に基づいて、ユーザが発した断続的な音声が、一連の音声入力であるか否かを判定する。
このように、実施形態に係る判定プログラムは、例えば、環境音が連続している場合には、途切れた音声を一連の音声として捉えるなどの柔軟な処理を行うことができる。このため、判定プログラムは、再度の音声入力等をユーザに要求する機会を減少させるので、ユーザビリティを向上させることができる。
また、判定手順は、環境音が所定の時間を超えて連続する場合には、所定の時間の間に行われたユーザの所定の行動が1つのセッションに含まれると判定し、所定の時間を超えて行われたユーザの所定の行動は1つのセッションに含まれないと判定する。
このように、実施形態に係る判定プログラムは、継続時間などを用いた既存のセッション管理と、環境音によるセッション管理とを組み合わせてもよい。これにより、判定プログラムは、より安全性の高いセッション管理を行うことができる。
また、判定手順は、ユーザを認識するための音情報と環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定するとともに、主体がユーザであると判定した場合には、任意の行動が1つのセッションに含まれると判定する。
このように、実施形態に係る判定プログラムは、ユーザからの意識的な音声入力を受け付けずとも、同じ環境下でユーザ本人がサービスを利用し続けていることから、あえてセッションを切断せずに、セッションを維持してもよい。かかる処理によっても、判定プログラムは、ユーザビリティの高いセッション管理を行うことができる。
また、判定手順は、予め登録されているユーザの足音、ユーザとは異なる者の音声、ユーザが拠点とする場所の環境音の少なくともいずれか一つと、収集手順によって収集された環境音とを照合することにより、任意の行動の主体がユーザであるか否かを判定する。
このように、実施形態に係る判定プログラムは、種々の態様の音情報を登録してもよい。これにより、判定プログラムは、ユーザの本人性を高い精度で判定することができる。
また、実施形態に係る判定プログラムは、判定手順によって、ユーザの所定の行動と、ユーザへのコンテンツの提供とが1つのセッションに含まれると判定された場合に、ユーザに提供されたコンテンツの効果を測定する測定手順、をさらにコンピュータに実行させる。
このように、実施形態に係る判定プログラムは、環境音の連続性を利用して、コンテンツの効果測定を行ってもよい。これは、環境音が連続している状況のもとで、配信されたコンテンツに関連する行動をとったユーザは、コンテンツの配信が動機付けとなって何らかの行動を起こした蓋然性が高いと判定できるという理由による。一般に、コマーシャルなどの広告コンテンツ等と、ユーザがユーザ端末10につぶやいた行動とは、その関連性を証明することが難しい。一方、実施形態に係る判定プログラムによれば、コンテンツの配信から継続した環境音のもとで行われたユーザの行動(発したつぶやきや、音声入力による注文)を収集できるので、真にコンテンツが効果を発揮したか否かを正確に測定することができる。
また、測定手順は、ユーザの所定の行動が、コンテンツを視聴したと推定される行動であるか否かに基づいて、ユーザに提供されたコンテンツの効果を測定する。
このように、実施形態に係る判定プログラムは、例えばユーザのつぶやきなどの行動に基づいて、ユーザがコンテンツを視聴したか否かを推定し、推定した情報に基づいてコンテンツの効果測定を行ってもよい。これにより、判定プログラムは、配信されたコマーシャルや広告コンテンツがユーザに影響を及ぼしたか否かを確度良く捉えることができるので、例えばテレビ視聴率等の指標値と比べて、より正確にコンテンツの効果を測定することができる。
また、測定手順は、ユーザの所定の行動が、コンテンツに関するコンバージョンと成り得るか否かに基づいて、ユーザに提供されたコンテンツの効果を測定する。
このように、実施形態に係る判定プログラムは、コンバージョンを効果測定の要素としてもよい。判定プログラムは、コンバージョンのような、数値として成果が示しやすい要素を用いることで、より正確にコンテンツの効果を測定することができる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、収集部は、収集手段や収集回路に読み替えることができる。