JP7290154B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP7290154B2
JP7290154B2 JP2020533404A JP2020533404A JP7290154B2 JP 7290154 B2 JP7290154 B2 JP 7290154B2 JP 2020533404 A JP2020533404 A JP 2020533404A JP 2020533404 A JP2020533404 A JP 2020533404A JP 7290154 B2 JP7290154 B2 JP 7290154B2
Authority
JP
Japan
Prior art keywords
user
context
function
information processing
macro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020533404A
Other languages
Japanese (ja)
Other versions
JPWO2020026799A1 (en
Inventor
広 岩瀬
祐平 滝
邦仁 澤井
昌毅 高瀬
朗 宮下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020026799A1 publication Critical patent/JPWO2020026799A1/en
Application granted granted Critical
Publication of JP7290154B2 publication Critical patent/JP7290154B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、過去の記憶から連想される指示語を用いて機能の実行を指示することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。 The present technology relates to an information processing device, an information processing method, and a program, and in particular, an information processing device, an information processing method, and a program capable of instructing the execution of a function using an instruction word associated with past memory. and programs.

音声による操作が可能なエージェント機能を搭載した機器が普及してきている。ユーザは、音楽の再生、メッセージの送信などの各種の機能を実行させることができる。 Devices equipped with an agent function that can be operated by voice are becoming popular. The user can trigger various functions such as playing music, sending messages, and so on.

例えば、ユーザは、アーティスト名を指定して「〇〇の曲をかけて」と発話することによって、音楽の再生機能を実行させることができる。 For example, the user can cause the music playback function to be executed by specifying the artist name and uttering "play the song of XX".

国際公開WO2016/151699号公報International publication WO2016/151699 特表2017-516153号公報Japanese Patent Publication No. 2017-516153

メッセージの作成機能と送信機能などを含む複数の機能をマクロ化して実行することを、「〇〇にいつものメッセージを送って」などの、指示語を用いた発話によって一括して操作することができれば便利である。ユーザは、実行させるマクロを登録済みの特定の名前で指定しないで済むため、それぞれのマクロの名前を覚えておく必要がない。このことは、機器を使い込み、登録済みのマクロの数が増えるほど有用となる。ここで、「〇〇にいつものメッセージを送って」の発話における指示語は「いつも」である。 Multiple functions, including message creation and transmission functions, can be executed as a macro, and can be operated collectively by utterances using directives such as "Send the usual message to XX". Convenient if possible. The user does not need to remember the name of each macro because he does not have to specify the specific registered name of the macro to be executed. This becomes more useful as the device gets used and the number of registered macros increases. Here, the referent in the utterance "Send the usual message to OO" is "always".

本技術はこのような状況に鑑みてなされたものであり、過去の記憶から連想される指示語を用いて機能の実行を指示することができるようにするものである。 The present technology has been made in view of such circumstances, and enables the execution of a function to be instructed using a reference word associated with past memory.

本技術の一側面の情報処理装置は、ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索する検索部と、検索された前記機能を実行し、前記ユーザに対する応答を出力させる応答制御部とを備える。 An information processing device according to one aspect of the present technology is based on an operation log in which a function executed in response to an operation by a user and a context at the time when the operation was performed are recorded in association with each other. A retrieval unit for retrieving the function recorded in association with the context indicated by the referent, and a response control unit for executing the retrieved function and outputting a response to the user.

本技術の一側面においては、ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能が検索され、検索された前記機能が実行され、前記ユーザに対する応答が出力される。 In one aspect of the present technology, based on an operation log in which a function executed in response to an operation by the user and a context in which the operation was performed are recorded in association with each other, the instruction word input by the user is The function recorded in association with the pointing context is retrieved, the retrieved function is executed, and a response is output to the user.

本技術によれば、ユーザは、過去の記憶から連想される指示語を用いて機能の実行を指示することができる。 According to the present technology, the user can instruct the execution of a function using an instruction word associated with past memory.

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。 Note that the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.

本技術の一実施形態に係る情報処理システムの構成例を示す図である。It is a figure showing an example of composition of an information processing system concerning one embodiment of this art. ユーザ操作ログの記録の例を示す図である。FIG. 10 is a diagram illustrating an example of user operation log records; マクロの実行の例を示す図である。FIG. 10 is a diagram showing an example of macro execution; 情報処理システムの他の構成例を示す図である。It is a figure which shows the other structural example of an information processing system. 情報処理端末のハードウェア構成例を示すブロック図である。It is a block diagram which shows the hardware structural example of an information processing terminal. 情報処理サーバのハードウェア構成例を示すブロック図である。It is a block diagram which shows the hardware structural example of an information processing server. 情報処理システムの機能構成例を示すブロック図である。1 is a block diagram showing a functional configuration example of an information processing system; FIG. NLU処理の例を示す図である。FIG. 10 is a diagram showing an example of NLU processing; 図7の操作記録検索処理部の構成例を示すブロック図である。8 is a block diagram showing a configuration example of an operation record search processing unit in FIG. 7; FIG. ユーザ操作ログの構造の例を示す図である。FIG. 10 is a diagram illustrating an example of the structure of a user operation log; FIG. 観測コンテキストの例を示す図である。FIG. 4 is a diagram showing an example of observation context; 生成コンテキストの例を示す図である。FIG. 10 is a diagram showing an example of a generation context; エージェントの例を示す図である。FIG. 4 is a diagram showing an example of an agent; マクロ抽出テンプレートの第1の例を示す図である。FIG. 10 is a diagram showing a first example of a macro extraction template; マクロ抽出テンプレートの第2の例を示す図である。FIG. 10 is a diagram showing a second example of a macro extraction template; マクロ抽出テンプレートの第3の例を示す図である。FIG. 11 illustrates a third example of a macro extraction template; 機能シーケンスの検索例を示す図である。FIG. 10 is a diagram showing an example of searching for a function sequence; 各発話が行われた場合の情報処理システムの動作を示す図である。It is a figure which shows operation|movement of an information processing system when each utterance is performed. 各発話が行われた場合の情報処理システムの動作を示す他の図である。FIG. 10 is another diagram showing the operation of the information processing system when each utterance is made; 情報処理サーバの応答処理について説明するフローチャートである。8 is a flowchart for explaining response processing of an information processing server; 図20のステップS4において行われる操作記録/検索処理について説明するフローチャートである。FIG. 21 is a flowchart for explaining operation record/search processing performed in step S4 of FIG. 20; FIG. 図20のステップS4において行われる操作記録/検索処理について説明する、図21に続くフローチャートである。FIG. 22 is a flowchart continued from FIG. 21 and explaining operation record/search processing performed in step S4 of FIG. 20; FIG. マクロの提示画面の例を示す図である。FIG. 10 is a diagram showing an example of a macro presentation screen;

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.エピソード記憶に基づく音声操作
2.情報処理システムの構成
3.情報処理システムの動作
4.変形例
Embodiments for implementing the present technology will be described below. The explanation is given in the following order.
1. Voice manipulation based on episodic memory2. Configuration of information processing system 3 . Operation of information processing system 4 . Modification

<<エピソード記憶に基づく音声操作>>
図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
<<Voice operation based on episodic memory>>
FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment of the present technology.

図1の情報処理システムは、情報処理端末1と情報処理サーバ2が、インターネットなどのネットワーク11を介して接続されることによって構成される。情報処理端末1と情報処理サーバ2が協働して処理を行うことにより、いわゆるエージェント機能が実現される。ユーザは、音楽の再生、メッセージの送信などの各種の機能を音声によって実行させることができる。 The information processing system of FIG. 1 is configured by connecting an information processing terminal 1 and an information processing server 2 via a network 11 such as the Internet. A so-called agent function is realized by the information processing terminal 1 and the information processing server 2 working together to perform processing. The user can perform various functions such as playing music, sending messages, etc. by voice.

情報処理端末1は、マイク、カメラ、スピーカなどの入出力デバイスを有する。情報処理端末1は、ユーザの音声をマイクにより検出し、音声データを情報処理サーバ2に送信する。 The information processing terminal 1 has input/output devices such as a microphone, a camera, and a speaker. Information processing terminal 1 detects a user's voice with a microphone and transmits voice data to information processing server 2 .

情報処理サーバ2は、発話の内容を解析することによってユーザの意図を推定し、ユーザの意図に応じた機能を実行する。情報処理サーバ2は、機能の実行結果を情報処理端末1に送信し、ユーザに対する応答として出力させる。 The information processing server 2 estimates the user's intention by analyzing the content of the utterance, and executes a function according to the user's intention. The information processing server 2 transmits the execution result of the function to the information processing terminal 1 and outputs it as a response to the user.

このように、図1の情報処理システムにおいては、基本的に、UI(User Interface)の機能を情報処理端末1が担い、ユーザの意図に応じた機能の実行を情報処理サーバ2が担うことによって、エージェント機能が実現される。 As described above, in the information processing system of FIG. 1, basically, the information processing terminal 1 takes charge of the UI (User Interface) function, and the information processing server 2 takes charge of executing the function according to the user's intention. , the agent function is realized.

情報処理システムにおいては、ユーザは、過去に実行させた機能と同じ複数の機能からなる機能シーケンスをマクロとして一括して実行させることができるようになされている。また、ユーザは、そのようなマクロの実行を、自分が体験した過去の出来事を指し示すような指示語を用いた発話によって指定することができるようになされている。 In an information processing system, a user can collectively execute a function sequence consisting of a plurality of functions that have been executed in the past as a macro. Also, the user can specify the execution of such a macro by uttering an utterance using a referent that points to a past event experienced by the user.

情報処理システムにおいては、ユーザの操作の履歴がユーザ操作ログとして管理されている。マクロの生成は、ユーザ操作ログに記録されている情報に基づいて行われる。 In an information processing system, a history of user operations is managed as a user operation log. Macro generation is performed based on information recorded in the user operation log.

図2は、ユーザ操作ログの記録の例を示す図である。 FIG. 2 is a diagram illustrating an example of user operation log records.

図2の左側の吹き出しに示すように、ユーザが、所定の発話を行うことによって、機能A、機能B、機能Cを実行させるための操作を順に行ったものとする。ユーザの発話に応じて情報処理サーバ2において所定の処理が行われ、情報処理端末1からは、機能Aの実行結果、機能Bの実行結果、機能Cの実行結果がそれぞれ出力される。 As shown in the balloons on the left side of FIG. 2, it is assumed that the user sequentially performs operations for executing functions A, B, and C by uttering a predetermined utterance. Predetermined processing is performed in the information processing server 2 according to the user's speech, and the execution result of the function A, the execution result of the function B, and the execution result of the function C are output from the information processing terminal 1, respectively.

ここで、ユーザは、機能A、機能B、機能Cを実行させるための操作を行ったという出来事を、いつ、どこで、どんな状況で経験したのかなどを表す付随情報とともに、エピソード記憶として覚える。エピソード記憶は、出来事の内容を、出来事を経験したときの付随情報とともに記憶する記憶の仕組みである。付随情報としての状況には、ユーザが行っていたタスク(主タスク)、周辺環境の雰囲気、ユーザやユーザの周辺にいる人の行動、感情などが含まれる。 Here, the user memorizes, as an episodic memory, the events of performing the operations for executing the functions A, B, and C together with incidental information indicating when, where, and under what circumstances the user experienced the event. Episodic memory is a memory mechanism that stores the content of an event along with accompanying information when experiencing the event. The situation as accompanying information includes the task that the user was performing (main task), the atmosphere of the surrounding environment, the actions and emotions of the user and people around the user, and the like.

吹き出し#1に示す時間文脈は、機能A、機能B、機能Cを実行させるための操作を行ったときの時期的な記憶を表す。主タスクは、機能A、機能B、機能Cを実行させるための操作時に行っていたタスクの内容に関する記憶を表す。付随エピソードは、機能A、機能B、機能Cを実行させるための操作を行ったときの他の付随情報を表す。 The temporal context shown in balloon #1 represents temporal memory when the operation for executing function A, function B, and function C was performed. The main task represents a memory related to the contents of tasks that were performed during the operation for executing function A, function B, and function C. FIG. An incidental episode represents other incidental information when an operation for executing function A, function B, and function C is performed.

情報処理システムにおいては、上述したようにユーザの操作の履歴であるユーザ操作ログが管理される。機能A、機能B、機能Cを実行させるための操作をユーザが行ったときに生成されるユーザ操作ログには、矢印A1の先に示すように、機能A、機能B、機能Cを表す情報と、実行属性を表す情報が記録される。実行属性は、機能の実行に用いられた値などの属性である。 As described above, the information processing system manages a user operation log, which is a history of user operations. The user operation log generated when the user performs an operation for executing function A, function B, and function C includes information representing function A, function B, and function C as indicated by the arrow A1. , information representing the execution attribute is recorded. An execution attribute is an attribute such as a value used to execute a function.

また、ユーザ操作ログには、機能A、機能B、機能Cを実行させるための操作を行ったという出来事とともにエピソード記憶の付随情報としてユーザが記憶していると推測されるコンテキストを表す情報が記録される。 In addition, in the user operation log, information representing the context that the user is presumed to have memorized as incidental information of the episode memory is recorded together with the event that the operation for executing function A, function B, and function C was performed. be done.

コンテキストには、操作を行った日時、操作を行った場所などの、操作を行った時の状況が含まれる。コンテキストとしての状況にも、ユーザが行っていたタスク、周辺環境の雰囲気、ユーザやユーザの周辺にいる人の行動、感情などが含まれる。日時、場所、ユーザが行っていたタスク、周辺環境の雰囲気、ユーザやユーザの周辺にいる人の行動、感情のうちの少なくともいずれかがコンテキストとして記録される。 The context includes the situation at the time when the operation was performed, such as the date and time when the operation was performed and the place where the operation was performed. The situation as context also includes the task that the user was performing, the atmosphere of the surrounding environment, the actions and emotions of the user and those around the user. At least one of the date and time, the location, the task the user was performing, the atmosphere of the surrounding environment, the actions of the user and people around the user, and the emotions are recorded as the context.

例えば、情報処理端末1のカメラにより撮影された画像、情報処理端末1のセンサにより検出されたセンサデータを解析することによってコンテキストが観測され、ユーザ操作ログに記録される。 For example, the context is observed by analyzing the image captured by the camera of the information processing terminal 1 and the sensor data detected by the sensor of the information processing terminal 1, and recorded in the user operation log.

後に詳述するように、観測されたコンテキストではなく、情報処理システム側で生成されたコンテキストも、適宜、ユーザ操作ログに記録される。エピソード記憶の付随情報としてユーザが記憶することが推測されるイベントなどが情報処理システム側で生成され、ユーザに提示されるとともに、イベントの内容に関する情報がコンテキストとしてユーザ操作ログに記録される。 As will be described in detail later, not the observed context but also the context generated on the information processing system side is appropriately recorded in the user operation log. An event or the like that is assumed to be remembered by the user as incidental information of the episode memory is generated on the information processing system side and presented to the user, and information about the content of the event is recorded in the user operation log as context.

このように、情報処理システムにおいては、複数の機能からなる機能シーケンスと、それらの機能を実行させるための操作を行った時のコンテキストが対応付けて管理される。コンテキストと対応付けられた機能シーケンスが、1つのマクロとして実行される。 As described above, in the information processing system, a function sequence including a plurality of functions is managed in association with a context when an operation for executing those functions is performed. A function sequence associated with a context is executed as one macro.

なお、図2においては、情報処理端末1の操作が音声により行われるものとしたが、コントローラを用いた操作、タッチ操作などの他の操作によって行われるようにしてもよい。 In FIG. 2, the operation of the information processing terminal 1 is performed by voice, but it may be performed by another operation such as an operation using a controller or a touch operation.

図3は、マクロの実行の例を示す図である。 FIG. 3 is a diagram showing an example of macro execution.

ユーザ操作ログが生成されてから所定の時間が経過した後、ユーザが、過去に実行させた機能A、機能B、機能Cを再度実行させたいと考えているものとする。 It is assumed that the user wants to re-execute function A, function B, and function C executed in the past after a predetermined time has passed since the user operation log was generated.

ユーザは、図3の左側の吹き出しに示すように、機能A、機能B、機能Cの実行を、指示語Entityを含む形で依頼する内容の発話を行う。発話の目的は、機能A、機能B、機能Cの実行ということになる。指示語Entityは、過去に実行させたどの機能であるかを、エピソード記憶の付随情報に基づいて指し示す語句である。 As shown in the balloons on the left side of FIG. 3, the user utters an utterance requesting the execution of functions A, B, and C in a form that includes the referent Entity. The purpose of the utterance is to execute function A, function B, and function C. The referent Entity is a phrase that indicates which function was executed in the past based on the incidental information of the episodic memory.

情報処理システムにおいては、ユーザ操作ログの中から、ユーザの発話の目的に一致する内容の機能シーケンスが検索される。ここでは、機能A、機能B、機能Cからなる機能シーケンスが検索される。 In an information processing system, a user operation log is searched for a function sequence that matches the purpose of a user's utterance. Here, a function sequence consisting of function A, function B, and function C is retrieved.

また、検索結果の機能シーケンスのうち、矢印A11に示すように、指示語Entityが指し示すコンテキストと対応付けて記録されている機能シーケンスが選択され、選択された機能シーケンスを構成する機能A、機能B、機能Cが、マクロとして一括して実行される。 Further, from among the function sequences in the search results, as indicated by an arrow A11, a function sequence recorded in association with the context indicated by the referent Entity is selected, and function A and function B constituting the selected function sequence are selected. , function C are collectively executed as a macro.

例えば、機能A、機能B、機能Cを実行させるための操作を自宅のリビングで行っていた場合、機能A、機能B、機能Cの機能シーケンスと実行属性がユーザ操作ログに記録される。機能シーケンスには、操作を行った場所がリビングであることを表す情報がコンテキストとして対応付けて記録される。 For example, when an operation for executing function A, function B, and function C is performed in the living room at home, the function sequence and execution attributes of function A, function B, and function C are recorded in the user operation log. In the function sequence, information indicating that the place where the operation was performed is the living room is recorded in association with the context.

一方、ユーザは、機能A、機能B、機能Cを実行させるための操作を、リビングで行った、ということを覚えていることになる。例えば、機能A、機能B、機能Cが、メッセージの作成機能、メッセージの送信機能を含む、メッセージの送信に関する一連の機能であるものとする。 On the other hand, the user remembers that the operation for executing function A, function B, and function C was performed in the living room. For example, assume that function A, function B, and function C are a series of functions related to message transmission, including a message creation function and a message transmission function.

この状態において、ユーザが、自身のエピソード記憶に基づいて、「前にリビングで送ったメッセージ」と発話した場合、機能A、機能B、機能Cからなる機能シーケンスのうち、操作を行った場所がリビングであることを表す情報がコンテキストとして対応付けられている機能シーケンスが検索される。また、検索された機能シーケンスの実行属性を用いて、機能A、機能B、機能Cが一括して実行される。エピソード記憶に基づく指示語Entityはリビングとなる。 In this state, if the user utters, based on his or her episodic memory, "a message that was sent in the living room before," the place where the operation was performed is A search is made for a function sequence associated with information representing living as a context. Also, the function A, the function B, and the function C are collectively executed using the execution attribute of the searched function sequence. The reference word Entity based on episodic memory is living.

このように、図1の情報処理システムは、出来事の付随情報をエピソード記憶として覚え、思い出すという人間の記憶の特性を活用し、過去に行った操作と同じ操作を、自然な発話によって一括して実行することが可能なシステムである。 In this way, the information processing system of FIG. 1 makes use of the characteristics of human memory, such as memorizing and recalling incidental information as episodic memory, and collectively performs the same operations as those performed in the past using natural utterances. It is a system that can be executed.

ユーザは、実行属性として管理される内容などの、過去に行った操作の内容の詳細を覚えていない場合でも、付随情報として覚えている、状況などを指し示す発話を行うことで、過去の操作と同じ操作を容易に行うことが可能となる。 Even if the user does not remember the details of the past operations, such as the contents managed as execution attributes, the user can remember the incidental information by uttering utterances pointing to the situation, etc. It becomes possible to easily perform the same operation.

以上のような音声を用いた操作は、例えば、ゲームなどの行動を主タスクとしてユーザが行っている最中に行われる。情報処理システムにおいて管理されるユーザ操作ログには、主タスクであるゲームの状況を表す情報がコンテキストとして含まれる。情報処理サーバ2は、ユーザが行っているゲームの状況などを確認することができる。 The operation using voice as described above is performed, for example, while the user is performing an action such as a game as a main task. The user operation log managed by the information processing system includes information representing the status of the game, which is the main task, as a context. The information processing server 2 can check the status of the game being played by the user.

図4は、情報処理システムの他の構成例を示す図である。 FIG. 4 is a diagram showing another configuration example of the information processing system.

図4の例においては、情報処理端末1が置かれているユーザの自宅のリビングなどに据え置き型のゲーム機であるゲーム機3が設置されている。ユーザは、ゲーム機3を用いてゲームを行いながら情報処理端末1に向かって発話することにより、BGMを聴くなどのエージェント機能を利用することができる。 In the example of FIG. 4, the game machine 3, which is a stationary game machine, is installed in the living room of the user's home where the information processing terminal 1 is placed. A user can use an agent function such as listening to BGM by speaking to the information processing terminal 1 while playing a game using the game machine 3 .

ゲーム機3は、情報処理端末1と同様に、自宅に設けられたルータなどを介してネットワーク11に接続される。ゲーム機3は、ネットワーク11を介してタスク管理サーバ4と通信を行い、ゲームのプログラムをタスク管理サーバ4からダウンロードしたり、ユーザによるゲームの操作に関する情報をタスク管理サーバ4に送信したりする。 Like the information processing terminal 1, the game machine 3 is connected to the network 11 via a router or the like installed at home. The game machine 3 communicates with the task management server 4 via the network 11 , downloads game programs from the task management server 4 , and transmits information regarding user's game operations to the task management server 4 .

タスク管理サーバ4は、ゲーム機3のユーザが行うゲームに関する情報を管理する。タスク管理サーバ4が管理する情報は、適宜、矢印A21に示すように、ユーザの主タスクに関する情報として情報処理サーバ2に提供される。 The task management server 4 manages information about games played by users of the game machine 3 . Information managed by the task management server 4 is appropriately provided to the information processing server 2 as information about the user's main task, as indicated by an arrow A21.

情報処理サーバ2においては、タスク管理サーバ4から送信されてきた情報に基づいて、ユーザの主タスクの状況などが確認される。情報処理サーバ2は、ユーザがゲームを行っている場合、特定のキャラクタを出現させたり、特定のアイテムを取得させたりするなどの所定のイベントをゲームにおいて発生させることをタスク管理サーバ4に対して依頼するなどの処理を行う。 In the information processing server 2, based on the information transmitted from the task management server 4, the status of the user's main task and the like are confirmed. When the user is playing the game, the information processing server 2 instructs the task management server 4 to cause a predetermined event in the game, such as making a specific character appear or obtaining a specific item. Perform processing such as making a request.

タスク管理サーバ4においては、適宜、仮想空間(VR空間/AR空間)を利用したコミュニケーションサービスなども管理される。ユーザは、ゲーム機3を操作したり、図示せぬスマートフォンを操作したりして、タスク管理サーバ4が管理する仮想空間にアクセスし、仮想空間上で、他のユーザとコミュニケーションをとることができる。 The task management server 4 appropriately manages communication services using virtual space (VR space/AR space). The user can access the virtual space managed by the task management server 4 by operating the game machine 3 or the smartphone (not shown), and can communicate with other users in the virtual space. .

この場合、タスク管理サーバ4から情報処理サーバ2に対しては、仮想空間上でのユーザの行動に関する情報、仮想空間上のユーザの場所の情報、仮想空間の情景に関するなどが、ユーザの主タスクに関する情報として提供される。 In this case, the task management server 4 sends to the information processing server 2 information about the user's actions in the virtual space, information about the user's location in the virtual space, and information about the scene in the virtual space. provided as information about

以上のようにしてユーザ操作ログを管理し、ユーザの発話に応じて機能を実行するタスク管理サーバ4の処理の詳細については後述する。ユーザの主タスクを管理するタスク管理サーバ4の機能が、情報処理サーバ2に設けられるようにしてもよい。 The details of the processing of the task management server 4 that manages the user operation log as described above and executes functions according to the user's speech will be described later. The information processing server 2 may be provided with the function of the task management server 4 that manages the user's main task.

<<情報処理システムの構成>>
<情報処理端末の構成例>
図5は、情報処理端末1のハードウェア構成例を示すブロック図である。
<<Configuration of information processing system>>
<Configuration example of information processing terminal>
FIG. 5 is a block diagram showing a hardware configuration example of the information processing terminal 1. As shown in FIG.

CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103は、バス104により相互に接続される。 A CPU (Central Processing Unit) 101 , a ROM (Read Only Memory) 102 and a RAM (Random Access Memory) 103 are interconnected by a bus 104 .

バス104には、マイク105、カメラ106、センサ107、スピーカ108、ディスプレイ109、記憶部110、および通信部111が接続される。 Microphone 105 , camera 106 , sensor 107 , speaker 108 , display 109 , storage unit 110 and communication unit 111 are connected to bus 104 .

マイク105は、ユーザの音声や環境音などの各種の音を検出する。 The microphone 105 detects various sounds such as user's voice and environmental sounds.

カメラ106は、ユーザを含む、情報処理端末1の周囲を撮影する。 Camera 106 captures the surroundings of information processing terminal 1 including the user.

センサ107は、周囲の明るさを検出する照度センサ、周囲にある物体までの距離を測定する測距センサ、GPS(Global Positioning System)を用いた測位センサなどの各種のセンサにより構成される。 The sensor 107 is composed of various sensors such as an illuminance sensor that detects ambient brightness, a ranging sensor that measures the distance to surrounding objects, and a positioning sensor that uses GPS (Global Positioning System).

スピーカ108は、例えば情報処理サーバ2による制御に従って合成音声を出力することにより、ユーザの操作に対する応答を行い、各種の情報を提示する。スピーカ108からは、例えば情報処理サーバ2により再生された音楽なども出力される。 The speaker 108 responds to a user's operation and presents various information by, for example, outputting synthesized speech under the control of the information processing server 2 . For example, music played back by the information processing server 2 is also output from the speaker 108 .

ディスプレイ109は、LCD、有機ELディスプレイなどのディスプレイにより構成される。ディスプレイ109には、例えば情報処理サーバ2による制御に従って各種の情報が提示される。 A display 109 is configured by a display such as an LCD or an organic EL display. Various information is presented on the display 109 under the control of the information processing server 2, for example.

このように、ユーザに対する情報の提示が画面表示により行われるようにしてもよい。ユーザに対する情報の提示が情報処理端末1に設けられたディスプレイ109を用いて行われるのではなく、無線通信を介して接続された外部のディスプレイを用いて行われるようにしてもよい。 In this way, information may be presented to the user through screen display. Information may be presented to the user not by using the display 109 provided in the information processing terminal 1, but by using an external display connected via wireless communication.

記憶部110は、不揮発性のメモリなどにより構成される。記憶部110は、CPU101が実行するプログラムなどの各種のデータを記憶する。 Storage unit 110 is configured by a nonvolatile memory or the like. The storage unit 110 stores various data such as programs executed by the CPU 101 .

通信部111は、無線や有線による通信を介して、情報処理サーバ2、ゲーム機3などの外部の装置との間で各種の情報の送受信を行う。通信部111は、マイク105により検出された音声のデータ、カメラ106により撮影された画像データ、および、センサ107により検出されたセンサデータを情報処理サーバ2に送信する。 The communication unit 111 transmits and receives various types of information to and from external devices such as the information processing server 2 and the game machine 3 via wireless or wired communication. The communication unit 111 transmits audio data detected by the microphone 105 , image data captured by the camera 106 , and sensor data detected by the sensor 107 to the information processing server 2 .

また、通信部111は、情報処理サーバ2から送信されてきた音声データを受信してスピーカ108に出力し、合成音声を出力させる。通信部111は、情報処理サーバ2から送信されてきた情報を受信してディスプレイ109に出力し、画像やテキストなどの各種の情報を表示させる。 Further, the communication unit 111 receives voice data transmitted from the information processing server 2 and outputs the voice data to the speaker 108 to output synthesized voice. The communication unit 111 receives information transmitted from the information processing server 2, outputs the information to the display 109, and displays various information such as images and texts.

<情報処理サーバの構成例>
図6は、情報処理サーバ2のハードウェア構成例を示すブロック図である。
<Configuration example of information processing server>
FIG. 6 is a block diagram showing a hardware configuration example of the information processing server 2. As shown in FIG.

CPU201、ROM202、RAM203は、バス204により相互に接続される。 The CPU 201 , ROM 202 and RAM 203 are interconnected by a bus 204 .

バス204には、さらに、入出力インタフェース205が接続される。入出力インタフェース205には、キーボード、マウスなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続される。 An input/output interface 205 is further connected to the bus 204 . The input/output interface 205 is connected to an input unit 206 such as a keyboard and a mouse, and an output unit 207 such as a display and a speaker.

また、入出力インタフェース205には、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、リムーバブルメディア211を駆動するドライブ210が接続される。 The input/output interface 205 is also connected to a storage unit 208 such as a hard disk or nonvolatile memory, a communication unit 209 such as a network interface, and a drive 210 that drives a removable medium 211 .

情報処理サーバ2は、このような構成を有するコンピュータにより構成される。1台のコンピュータではなく、複数台のコンピュータにより情報処理サーバ2が構成されるようにしてもよい。 The information processing server 2 is configured by a computer having such a configuration. The information processing server 2 may be configured not by one computer but by a plurality of computers.

<情報処理システムの機能構成例>
図7は、以上のような構成を有する情報処理端末1と情報処理サーバ2からなる情報処理システムの機能構成例を示すブロック図である。
<Example of functional configuration of information processing system>
FIG. 7 is a block diagram showing a functional configuration example of an information processing system comprising the information processing terminal 1 and the information processing server 2 configured as described above.

図7の右側に示すように、情報処理サーバ2においては、音声認識処理部251、発話意図理解処理部252、指示語EntityDB253、画像認識処理部254、センサデータ認識処理部255が実現される。 As shown on the right side of FIG. 7, in the information processing server 2, a voice recognition processing unit 251, an utterance intention understanding processing unit 252, a reference word EntityDB 253, an image recognition processing unit 254, and a sensor data recognition processing unit 255 are implemented.

また、情報処理サーバ2においては、操作記録検索処理部256、マクロ抽出テンプレートDB257、ユーザ操作ログDB258、応答生成部259、音声合成処理部260、および表示画像処理部261が構成される。各機能部のうちの少なくとも一部は、図6のCPU201により所定のプログラムが実行されることによって実現される。 Further, in the information processing server 2, an operation record search processing unit 256, a macro extraction template DB 257, a user operation log DB 258, a response generation unit 259, a speech synthesis processing unit 260, and a display image processing unit 261 are configured. At least part of each functional unit is realized by executing a predetermined program by the CPU 201 in FIG.

音声入力デバイスとしてのマイク105により検出され、情報処理端末1から送信された音声データは、通信部209において受信され、音声認識処理部251に入力される。画像入力デバイスとしてのカメラ106により撮影され、情報処理端末1から送信された画像データは、通信部209において受信され、画像認識処理部254に入力される。センサデバイスとしてのセンサ107により検出され、情報処理端末1から送信されたセンサデータは、通信部209において受信され、センサデータ認識処理部255に入力される。 Voice data detected by microphone 105 as a voice input device and transmitted from information processing terminal 1 is received by communication section 209 and input to voice recognition processing section 251 . Image data captured by the camera 106 as an image input device and transmitted from the information processing terminal 1 is received by the communication unit 209 and input to the image recognition processing unit 254 . Sensor data detected by the sensor 107 as a sensor device and transmitted from the information processing terminal 1 is received by the communication unit 209 and input to the sensor data recognition processing unit 255 .

音声認識処理部251は、ユーザの発話に対して音声認識(ASR(Automatic Speech Recognition))処理を施し、テキストデータに変換する。音声認識処理部251は、ユーザの発話の内容を表すテキストデータである発話テキストを発話意図理解処理部252に出力する。 The speech recognition processing unit 251 performs speech recognition (ASR (Automatic Speech Recognition)) processing on the user's utterance and converts it into text data. The voice recognition processing unit 251 outputs the utterance text, which is text data representing the content of the user's utterance, to the utterance intention understanding processing unit 252 .

発話意図理解処理部252は、発話テキストに対して発話意図理解(NLU(Natural Language Understanding))処理を施すことによって、発話の意図を表すIntentを推定するとともに、発話に含まれる意味のある要素としてのEntityを抽出する。 The utterance intention understanding processing unit 252 estimates the Intent representing the intention of the utterance by performing NLU (Natural Language Understanding) processing on the utterance text, and extracts the intent as a meaningful element included in the utterance. Extract the Entity of

ユーザの発話のIntentは、例えば、所定の機能の実行を意図するものとなる。また、ユーザの発話に含まれるEntityは、機能の実行に用いられる属性情報となる。発話意図理解処理部252が抽出するEntityには、Entityの種類を表すEntityタイプと、Entityを構成する文字列や数値であるEntityリテラルが含まれる。 The Intent of the user's utterance is, for example, intended to execute a predetermined function. Also, the Entity included in the user's utterance becomes the attribute information used to execute the function. The Entity extracted by the utterance intention understanding processing unit 252 includes an Entity type representing the type of Entity and an Entity literal, which is a character string or a numerical value that constitutes the Entity.

図8は、NLU処理の例を示す図である。 FIG. 8 is a diagram illustrating an example of NLU processing.

図8の上方に示すように、「佐藤さんと鈴木さんに今から遊ぼうよってメッセージする」の発話をユーザが行ったものとする。 As shown in the upper part of FIG. 8, it is assumed that the user has uttered "I will send a message to Mr. Sato and Mr. Suzuki to play now."

この場合、下向き矢印の先に示すように、Intentとして“CreateMessage“が推定される。“CreateMessage“は、メッセージの作成機能の実行を表す。 In this case, as indicated by the downward arrow, "CreateMessage" is assumed as the Intent. "CreateMessage" represents the execution of the message creation function.

また、Entityとして、Entity#1乃至#3の3つのEntityが推定される。 Also, three Entities, Entity #1 to #3, are estimated as Entities.

Entity#1は、Entityタイプを“TO”、Entityリテラルを“佐藤さん”とするEntityである。Entity#2は、Entityタイプを“TO”、Entityリテラルを“鈴木さん”とするEntityである。Entityタイプが“TO”であることは、メッセージの送信先を表すEntityであることを表す。 Entity #1 is an Entity with an Entity type of "TO" and an Entity literal of "Mr. Sato". Entity #2 is an Entity with an Entity type of "TO" and an Entity literal of "Mr. Suzuki". An Entity type of "TO" indicates that the Entity represents the destination of the message.

Entity#3は、Entityタイプを“BODY”、Entityリテラルを“今から遊ぼうよ”とするEntityである。Entityタイプが“BODY”であることは、メッセージの本文を表すEntityであることを表す。 Entity#3 is an Entity whose Entity type is "BODY" and whose Entity literal is "Let's play now". An Entity type of "BODY" indicates that the Entity represents the body of the message.

このように、ユーザの操作は、IntentとEntityの組として表される。図7の発話意図理解処理部252は、NLU処理によって得られたIntentとEntityを操作記録検索処理部256に出力する。 In this way, a user's operation is expressed as a set of Intent and Entity. The utterance intention understanding processing unit 252 in FIG. 7 outputs the Intent and Entity obtained by the NLU processing to the operation record search processing unit 256 .

なお、ここでは、ユーザが音声によって操作を行う場合の処理について説明しているが、上述したように、ユーザの操作は、コントローラを用いた操作、タッチ操作などの他の操作によっても行われる。 Here, the processing in the case where the user performs the operation by voice is described, but as described above, the user's operation is also performed by other operations such as operation using a controller and touch operation.

音声以外によって操作が行われた場合、ユーザの操作の内容を表す情報が、NLU処理の結果として得られるIntent/Entityと同じフォーマットのデータに変換される。操作記録検索処理部256に対しては、音声以外による操作に応じたIntent/Entityが供給される。 When an operation is performed by means other than voice, the information representing the content of the user's operation is converted into data in the same format as the Intent/Entity obtained as a result of NLU processing. The operation record search processing unit 256 is supplied with an Intent/Entity corresponding to an operation other than voice.

また、発話意図理解処理部252は、発話テキストに指示語Entityが含まれている場合、発話テキストに含まれる指示語Entityを抽出する。発話意図理解処理部252による指示語Entityの抽出は、指示語EntityDB253に記憶されている情報を参照して行われる。 Further, when the utterance text includes the referent Entity, the utterance intention understanding processing unit 252 extracts the referent Entity included in the utterance text. The reference word Entity is extracted by the utterance intention understanding processing unit 252 by referring to the information stored in the reference word Entity DB 253 .

一般的に、NLU処理は、各Entityタイプのフレーズと、Intent毎の、Entityを含む複数の文例を予め登録しておき、登録しておいた情報に基づいて、Intentを推定するとともに、発話テキストに含まれるEntityを抽出するようにして行われる。 In general, NLU processing involves registering phrases of each Entity type and multiple example sentences containing Entity for each Intent in advance, estimating the Intent based on the registered information, and It is done by extracting the Entity contained in .

例えば「〇〇(曲名)をかけて」の発話テキストのNLU処理は、登録しておいた文例に基づいて“PlayMisic”のIntentを推定し、登録しておいた曲名に基づいて、Entityタイプが“曲名”のEntityを抽出するようにして行われる。 For example, the NLU processing of the utterance text "Play XX (song title)" estimates the intent of "PlayMisic" based on the registered sentence example, and based on the registered song name, the Entity type is This is done by extracting the “song name” Entity.

後述するような機能シーケンスの検索に用いられる指示語Entityの抽出も、この仕組みと同様の仕組みに従って行われる。すなわち、指示語Entityと、Intent毎の、指示語Entityを含む複数の文例を登録しておき、登録しておいた情報に基づいて、Intentの推定と、発話テキストに含まれる指示語Entityの抽出が行われる。 Extraction of the referent Entity used for searching the function sequence, which will be described later, is also performed according to the same mechanism as this mechanism. In other words, register the demonstrative Entity and multiple example sentences containing the demonstrative Entity for each Intent, estimate the Intent based on the registered information, and extract the demonstrative Entity included in the utterance text. is done.

例えば「昨日の音楽かけて」のNLU処理は、登録しておいた文例に基づいて“PlayMisic”のIntentを推定し、登録しておいた指示語Entityに基づいて、“昨日”の指示語Entityを抽出するようにして行われる。このようにして推定されたIntentと、発話テキストから抽出された指示語Entityも操作記録検索処理部256に供給される。 For example, in the NLU processing of "playing yesterday's music", the Intent of "PlayMisic" is estimated based on the registered sentence example, and based on the registered directive Entity, the directive Entity of "yesterday" is performed by extracting The Intent estimated in this way and the demonstrative word Entity extracted from the spoken text are also supplied to the operation record search processing unit 256 .

画像認識処理部254は、カメラ106により撮影された画像を解析し、発話時のユーザの状況や、雰囲気などの周囲の環境の状況を認識する。画像認識処理部254による認識結果は、観測コンテキストとして操作記録検索処理部256に出力される。 The image recognition processing unit 254 analyzes the image captured by the camera 106 and recognizes the situation of the user at the time of speaking and the situation of the surrounding environment such as the atmosphere. A recognition result by the image recognition processing unit 254 is output to the operation record search processing unit 256 as an observation context.

センサデータ認識処理部255は、センサ107により検出されたセンサデータを解析し、発話時のユーザの状況や、雰囲気などの周囲の環境の状況を認識する。センサデータ認識処理部255による認識結果は、観測コンテキストとして操作記録検索処理部256に出力される。 The sensor data recognition processing unit 255 analyzes the sensor data detected by the sensor 107 and recognizes the situation of the user at the time of speaking and the situation of the surrounding environment such as the atmosphere. A recognition result by the sensor data recognition processing unit 255 is output to the operation record search processing unit 256 as an observation context.

発話時のユーザの状況などが、マイク105により検出された音声や環境音に基づいて認識されるようにしてもよい。 The user's situation at the time of speaking may be recognized based on the voice detected by the microphone 105 or the environmental sound.

操作記録検索処理部256は、発話意図理解処理部252から供給されたIntent/Entityと、画像認識処理部254、センサデータ認識処理部255から供給された観測コンテキストに基づいて、ユーザの操作の履歴を管理する。 The operation record search processing unit 256 retrieves the user's operation history based on the Intent/Entity supplied from the utterance intention understanding processing unit 252 and the observation context supplied from the image recognition processing unit 254 and the sensor data recognition processing unit 255. to manage.

詳細については後述するが、操作記録検索処理部256は、発話意図理解処理部252から供給されたIntent/Entityをクラスタリングすることにより、複数の機能からなる機能シーケンスを生成する。操作記録検索処理部256は、機能シーケンスと、複数の機能の実行するための操作が行われた時のコンテキストとを対応付けて、ユーザ操作ログDB258に記憶されているユーザ操作ログに記録する(書き込む)。 Although the details will be described later, the operation record search processing unit 256 clusters the Intent/Entity supplied from the utterance intention understanding processing unit 252 to generate a function sequence consisting of a plurality of functions. The operation record search processing unit 256 associates the function sequence with the context when the operation for executing a plurality of functions is performed, and records them in the user operation log stored in the user operation log DB 258 ( write).

また、操作記録検索処理部256は、ユーザの発話に含まれる指示語Entityに基づいて、ユーザが意図している機能シーケンスを、ユーザ操作ログに記録されている機能シーケンスの中から検索する。機能シーケンスの検索には、マクロ抽出テンプレートDB257に記憶されているマクロ抽出テンプレートも用いられる。操作記録検索処理部256は、検索された機能シーケンスを構成する複数の機能をマクロとして抽出し、応答生成部259に実行させる。 Further, the operation record search processing unit 256 searches for the function sequence intended by the user from among the function sequences recorded in the user operation log, based on the reference word Entity included in the user's utterance. A macro extraction template stored in the macro extraction template DB 257 is also used for searching the function sequence. The operation record search processing unit 256 extracts a plurality of functions constituting the searched function sequence as macros, and causes the response generation unit 259 to execute them.

応答生成部259は、操作記録検索処理部256による制御に従って、機能シーケンスを構成する複数の機能をマクロとして一括して実行する。 The response generator 259 collectively executes a plurality of functions forming a function sequence as a macro under the control of the operation record search processor 256 .

応答生成部259は、マクロの実行結果を音声によってユーザに提示する場合、マクロの実行結果を音声合成処理部260に出力する。また、応答生成部259は、マクロの実行結果を画面表示によってユーザに提示する場合、マクロの実行結果を表示画像処理部261に出力する。 When presenting the macro execution result to the user by voice, response generation unit 259 outputs the macro execution result to speech synthesis processing unit 260 . Further, when presenting the execution result of the macro to the user by screen display, the response generation unit 259 outputs the execution result of the macro to the display image processing unit 261 .

応答生成部259は、音声や画面表示を用いた情報の提示以外にも、ユーザの操作に対する応答として、メッセージの送信などの各種の処理を行う。 The response generation unit 259 performs various processes such as sending a message as a response to the user's operation, in addition to presenting information using voice and screen display.

音声合成処理部260は、ユーザの発話に対する応答となる合成音声を応答生成部259による制御に従って生成し、合成音声のデータを情報処理端末1に送信する。情報処理端末1においては、情報処理サーバ2から送信されてきた合成音声のデータが受信され、音声出力デバイスとしてのスピーカ108から合成音声が出力される。 The speech synthesis processing unit 260 generates synthetic speech as a response to the user's utterance under the control of the response generation unit 259 , and transmits data of the synthetic speech to the information processing terminal 1 . In the information processing terminal 1, the synthesized speech data transmitted from the information processing server 2 is received, and the synthesized speech is output from the speaker 108 as an audio output device.

表示画像処理部261は、ユーザの発話に対する応答となる画像を応答生成部259から供給された情報に基づいて生成し、画像データを情報処理端末1に送信する。情報処理端末1においては、情報処理サーバ2から送信されてきた画像データが受信され、画像出力デバイスとしてのディスプレイ109に画像が表示される。 The display image processing unit 261 generates an image as a response to the user's speech based on the information supplied from the response generation unit 259 and transmits the image data to the information processing terminal 1 . The information processing terminal 1 receives the image data transmitted from the information processing server 2 and displays the image on the display 109 as an image output device.

<操作記録検索処理部の詳細構成>
図9は、操作記録検索処理部256の構成例を示すブロック図である。
<Detailed Configuration of Operation Record Search Processing Unit>
FIG. 9 is a block diagram showing a configuration example of the operation record search processing unit 256. As shown in FIG.

図9に示すように、操作記録検索処理部256は、ユーザ操作ログ記録制御部271、コンテキスト生成部272、マクロ抽出部273、および応答制御部274から構成される。発話意図理解処理部252から出力されたIntent/Entityは、ユーザ操作ログ記録制御部271、マクロ抽出部273、応答制御部274に入力される。また、画像認識処理部254、センサデータ認識処理部255から出力された観測コンテキストはユーザ操作ログ記録制御部271に入力される。 As shown in FIG. 9 , the operation record search processing unit 256 is composed of a user operation log record control unit 271 , a context generation unit 272 , a macro extraction unit 273 and a response control unit 274 . The Intent/Entity output from the utterance intention understanding processing unit 252 is input to the user operation log recording control unit 271 , the macro extraction unit 273 and the response control unit 274 . Also, the observation context output from the image recognition processing unit 254 and sensor data recognition processing unit 255 is input to the user operation log recording control unit 271 .

・ユーザ操作ログの記録
ユーザ操作ログ記録制御部271は、発話意図理解処理部252から供給されたIntent/Entityにより表される機能をクラスタリングすることにより、複数の機能からなる機能シーケンスを含むクラスタを生成する。
Recording of User Operation Log The user operation log recording control unit 271 clusters the functions represented by the Intent/Entity supplied from the utterance intention understanding processing unit 252, thereby creating a cluster containing a function sequence consisting of a plurality of functions. Generate.

機能シーケンスは、ひとまとまりの複数の操作がユーザにより行われることに応じて生成される。機能シーケンスは、複数の操作を組み合わせた複合操作の情報となる。クラスタリングは、例えば以下のようにして行われる。 A function sequence is generated in response to a group of operations performed by a user. A function sequence is information of a composite operation in which a plurality of operations are combined. Clustering is performed, for example, as follows.

(1)発話間の時間に基づくクラスタリング
直前の発話から例えば5秒といったような所定の時間内に行われた発話による操作は、直前の発話による操作と同一クラスタを構成する操作として記録される。同一クラスタの時間内で観測コンテキストが変化した場合、変化後の観測コンテキストが、そのクラスタのコンテキストとして記録される。
(1) Clustering Based on Time Between Utterances An operation by an utterance performed within a predetermined period of time, such as 5 seconds, from the immediately preceding utterance is recorded as an operation forming the same cluster as the operation by the immediately preceding utterance. If the observation context changes within the time of the same cluster, the observation context after the change is recorded as the context of that cluster.

(2)コンテキストの同一性に基づくクラスタリング
直前の発話から例えば3分といったような所定の時間内に行われた発話による操作が、直前の発話による操作と同じコンテキストの元で行われた場合、それらの操作は同一クラスタを構成する操作として記録される。
(2) Clustering based on identity of context When an operation by an utterance performed within a predetermined time such as 3 minutes from the immediately preceding utterance is performed under the same context as the operation by the immediately preceding utterance, these are recorded as operations constituting the same cluster.

(3)言語的な意味概念の近さに基づくクラスタリング
直前の発話から例えば3分といったような所定の時間内に行われた発話による操作が、直前の発話による操作と意味的に似た操作である場合、それらの操作は同一クラスタを構成する操作として記録される。
(3) Clustering based on closeness of linguistic semantic concept An operation by an utterance performed within a predetermined time such as 3 minutes from the immediately preceding utterance is semantically similar to the operation by the immediately preceding utterance. In some cases, those operations are recorded as operations forming the same cluster.

(4)UnDo操作の記録
特定の操作の取り消しが指示された場合、取り消しが指示された特定の操作が、クラスタを構成する操作として含まれないようにしてもよい。
(4) Recording of UnDo Operations When the cancellation of a specific operation is instructed, the specific operation for which the cancellation was instructed may not be included as operations forming a cluster.

例えば、Intent=“PlayMusic”、Entity=“A[TARGET_MUSIC]”とする操作(Aの音楽再生の操作)が行われてから5秒以内に、Intent=“StopMusic”の操作(音楽再生停止の操作)が行われた場合、これらの操作に関する情報がクラスタから消去される。直後に再生を停止したということは、ユーザが聞きたい曲ではなかったと考えられる。これにより、ユーザが意図していなかった機能がマクロに含めて実行されてしまうことを防ぐことが可能となる。 For example, within 5 seconds after an operation with Intent="PlayMusic" and Entity="A[TARGET_MUSIC]" (an operation to play music A) is performed, an operation with Intent="StopMusic" (an operation to stop music playback) ), the information about these operations is cleared from the cluster. It is considered that the fact that the playback was stopped immediately after the song was not the song that the user wanted to hear. This makes it possible to prevent a function not intended by the user from being included in the macro and executed.

ユーザ操作ログ記録制御部271は、クラスタリングによって生成した機能シーケンスの情報と、機能シーケンスを構成する複数の機能を実行するための操作が行われた時のコンテキストの情報とをユーザ操作ログに記録させる。 The user operation log recording control unit 271 records, in the user operation log, the information of the function sequence generated by clustering and the information of the context when the operation for executing a plurality of functions constituting the function sequence is performed. .

図10は、ユーザ操作ログの構造の例を示す図である。 FIG. 10 is a diagram showing an example of the structure of a user operation log.

図10の左側に示すように、ユーザ操作ログは、例えばJSON(Java Script(登録商標) Object Notation)形式の情報として生成される。図10に示すユーザ操作ログの各記述の先頭の数字とコロン(:)は、説明の便宜上付してあるものであり、ユーザ操作ログを構成する記述ではない。 As shown on the left side of FIG. 10, the user operation log is generated, for example, as information in JSON (Java Script (registered trademark) Object Notation) format. The numbers and colons (:) at the beginning of each description of the user operation log shown in FIG. 10 are added for convenience of explanation, and are not descriptions constituting the user operation log.

1行目乃至38行目の記述全体が、1つのユーザ操作ログの記述となる。2行目に示すように、ユーザ操作ログには、クラスタリングにより生成された各クラスタの情報が記述される。 The entire description from the 1st to 38th lines is the description of one user operation log. As shown in the second line, the user operation log describes information of each cluster generated by clustering.

4行目乃至29行目のItemsが、クラスタに含まれる機能シーケンスの記述となる。機能シーケンスには、アイテム(シーケンス内アイテム)として、機能シーケンスを構成する各機能に関する情報が含まれる。各機能に関する情報として、発話テキストであるSpeech、Intent、Entityが記述される。 Items on the 4th to 29th lines are descriptions of the function sequences included in the cluster. A function sequence includes information on each function constituting the function sequence as an item (in-sequence item). Speech, Intent, and Entity, which are utterance texts, are described as information about each function.

6行目乃至21行目の記述が、機能シーケンスを構成する1つ目の機能に関する記述となる。1つ目の機能は、図8を参照して説明した機能と同じ操作である。 The descriptions on the 6th to 21st lines are the description regarding the first function constituting the function sequence. The first function is the same operation as the function described with reference to FIG.

すなわち、6行目に示すように、Speechとして“佐藤さんと鈴木さんに今から遊ぼうよってメッセージする”が記述される。また、7行目に示すように、Intentとして“CreateMessage”が記述される。 That is, as shown in the 6th line, "I will send a message to Mr. Sato and Mr. Suzuki to play now" is described as Speech. Also, as shown in the seventh line, "CreateMessage" is described as Intent.

10行目、11行目に示すように、1つ目のEntityとして、Entityタイプ“TO”、Entityリテラル“佐藤さん”が記述される。14行目、15行目に示すように、2つ目のEntityとして、Entityタイプ“TO”、Entityリテラル“鈴木さん”が記述される。18行目、19行目に示すように、3つ目のEntityとして、Entityタイプ“BODY”、Entityリテラル“今から遊ぼうよ”が記述される。 As shown in the 10th and 11th lines, the Entity type "TO" and the Entity literal "Mr. Sato" are described as the first Entity. As shown in the 14th and 15th lines, the Entity type "TO" and the Entity literal "Mr. Suzuki" are described as the second Entity. As shown in the 18th and 19th lines, the Entity type "BODY" and the Entity literal "Let's play now" are described as the third Entity.

24行目乃至26行目の記述が、機能シーケンスを構成する2つ目の機能に関する記述となる。 The description on the 24th to 26th lines is the description regarding the second function that constitutes the function sequence.

24行目に示すように、Speechとして“メッセージ送って”が記述される。また、25行目に示すように、Intentとして“MessageSend”が記述される。“MessageSend”は、メッセージの送信機能の実行を表す。なお、“MessageSend”の操作にはEntityが含まれない。 As shown in the 24th line, "Send me a message" is described as Speech. Also, as shown in the 25th line, "MessageSend" is described as Intent. "MessageSend" represents the execution of the message sending function. Note that Entity is not included in the “MessageSend” operation.

機能シーケンスを構成するそれぞれの機能に関する情報が、このようにして順に記述される。 Information about each of the functions that make up the function sequence is described in turn in this way.

30行目乃至34行目のContextが、機能を実行するための操作が行われた時のコンテキストの記述となる。 Context on the 30th to 34th lines is a description of the context when the operation for executing the function is performed.

31行目のDateTimeは、操作の日時を表す。図10の例においては、DateTimeは“2018-06-07T11:14:28.867+09:00”とされている。 DateTime on the 31st line represents the date and time of the operation. In the example of FIG. 10, DateTime is "2018-06-07T11:14:28.867+09:00".

32行目のGameTitleは、ユーザが主タスクとして行っているゲームのタイトルを表す。図10の例においては、GameTitleは“HappyLand”とされている。 GameTitle on the 32nd line represents the title of the game that the user is playing as the main task. In the example of FIG. 10, the GameTitle is "HappyLand".

33行目のGameSceneは、ユーザが主タスクとして行っているゲームのシーンを表す。図10の例においては、GameSceneは“Stage3”とされている。 GameScene on the 33rd line represents the scene of the game that the user is performing as the main task. In the example of FIG. 10, the GameScene is "Stage3".

上述したように、ユーザは、主タスクとしてゲームを行いながら、エージェント機能を操作することができる。GameTitleとGameSceneは、例えばタスク管理サーバ4から取得された情報に基づいて記述される。 As described above, the user can operate the agent function while playing the game as the main task. GameTitle and GameScene are described based on information obtained from the task management server 4, for example.

タスク管理サーバ4から取得された主タスクに関する情報なども、適宜、観測コンテキストとしてユーザ操作ログ記録制御部271に供給され、ユーザ操作ログに記述される。 Information about the main task acquired from the task management server 4 is also appropriately supplied to the user operation log recording control unit 271 as an observation context and described in the user operation log.

図11は、観測コンテキストの例を示す図である。 FIG. 11 is a diagram showing an example of observation context.

図11の左列に示すように、観測コンテキストの種別には、日時、場所(Real)、場所(Virtual)、ゲーム、感情、雰囲気、行動が含まれる。 As shown in the left column of FIG. 11, the observation context types include date and time, location (Real), location (Virtual), game, emotion, atmosphere, and action.

日時の観測コンテキストは、操作の日時を表す。 The date and time observation context represents the date and time of the operation.

日時の観測コンテキストは、例えば、情報処理サーバ2が管理するカレンダーと時計から取得された情報に基づいて記述される。図10のDateTimeが、日時の観測コンテキストとなる。 The date and time observation context is described, for example, based on information acquired from the calendar and clock managed by the information processing server 2 . DateTime in FIG. 10 is the date and time observation context.

場所(Real)の観測コンテキストは、操作時のユーザの現実の位置を表す。 The location (Real) observation context represents the user's real position during the operation.

場所(Real)の観測コンテキストは、GPSセンサにより測位されたユーザの屋外の位置情報とマップに基づいて記述される。GPSセンサは、情報処理端末1、または、ユーザが携帯するスマートフォンなどの端末に搭載される。また、場所(Real)の観測コンテキストは、IoTセンサにより検出されたユーザの屋内の位置に基づいて記述される。 The observation context of the place (Real) is described based on the user's outdoor location information and the map positioned by the GPS sensor. The GPS sensor is installed in the information processing terminal 1 or a terminal such as a smartphone carried by the user. In addition, the location (Real) observation context is described based on the user's indoor position detected by the IoT sensor.

場所(Virtual)の観測コンテキストは、操作時のユーザの仮想空間上の位置を表す。例えば、仮想空間上において他のユーザとコミュニケーションをとるといった主タスクをユーザが行っている場合に、場所(Virtual)の観測コンテキストが記述される。 The location (Virtual) observation context represents the user's position in the virtual space during the operation. For example, when a user is performing a main task such as communicating with other users in a virtual space, the observation context of the place (Virtual) is described.

場所(Virtual)の観測コンテキストは、例えば、タスク管理サーバ4から取得された、仮想空間上のユーザの位置に基づいて記述される。仮想空間上の位置を表す情報が、仮想空間を管理するシステムとしてのタスク管理サーバ4から送信されてくる。 The location (Virtual) observation context is described based on the user's position in the virtual space, which is acquired from the task management server 4, for example. Information representing a position in the virtual space is transmitted from the task management server 4 as a system for managing the virtual space.

ゲームの観測コンテキストは、操作時のユーザのゲームの状態を表す。例えば、ユーザが主タスクとしてゲームを行っている場合にゲームの観測コンテキスが記述される。 The observed context of the game represents the state of the user's game at the time of operation. For example, the observed context of the game is described when the user is playing the game as the main task.

ゲームの観測コンテキストは、ゲーム機3から取得された情報に基づいて、または、タスク管理サーバ4などの、ユーザが行っているゲームを管理するシステムから取得された情報に基づいて記述される。図10のGameTitle、GameSceneが、ゲームの観測コンテキストとなる。 The game observation context is described based on information obtained from the game machine 3 or information obtained from a system such as the task management server 4 that manages the game being played by the user. GameTitle and GameScene in FIG. 10 are the observation context of the game.

感情の観測コンテキストは、操作時のユーザの感情を表す。 The emotion observation context represents the user's emotion at the time of operation.

感情の観測コンテキストは、カメラ106により撮影された画像に基づくユーザの表情の解析結果、または、マイク105により検出された音声に基づくユーザの声質の解析結果に基づいて記述される。感情の観測コンテキストとして、例えば、“嬉しい”、“悲しい”、“楽しい”、“怒っている”、“驚いている”を表す情報が記述される。 The emotion observation context is described based on the analysis result of the user's facial expression based on the image captured by the camera 106 or the analysis result of the user's voice quality based on the voice detected by the microphone 105 . Information representing, for example, “happy”, “sad”, “pleasant”, “angry”, and “surprised” is described as the emotion observation context.

雰囲気の観測コンテキストは、操作時のユーザの雰囲気、または、周囲の環境の雰囲気を表す。 The atmosphere observation context represents the atmosphere of the user at the time of operation or the atmosphere of the surrounding environment.

雰囲気の観測コンテキストは、カメラ106により撮影された画像やマイク105により検出された音声に基づく雰囲気の認識結果に基づいて記述される。雰囲気の観測コンテキストとして、例えば、“盛り上がっている”、“静か”、“みんなが笑っている”を表す情報が記述される。 The atmosphere observation context is described based on the atmosphere recognition result based on the image captured by the camera 106 and the sound detected by the microphone 105 . Information representing, for example, “exciting”, “quiet”, and “everyone is laughing” is described as the atmosphere observation context.

行動の観測コンテキストは、操作時のユーザの行動、または、周囲にいる人の行動を表す。 The behavioral observation context represents the behavior of the user during operation or the behavior of people in the surroundings.

行動の観測コンテキストは、例えば、センサ107や、情報処理端末1と連携が可能な外部機器のIoTセンサにより検出された各種のセンサデータに基づく行動の認識結果に基づいて記述される。行動の観測コンテキストとして、例えば、“料理中”、“食事中”、“テレビを見ている”、“○○さんと一緒にいる”を表す情報が記述される。 The behavior observation context is described, for example, based on behavior recognition results based on various sensor data detected by the sensor 107 or an IoT sensor of an external device that can cooperate with the information processing terminal 1 . Information representing, for example, “cooking”, “eating”, “watching TV”, and “being with ○○” is described as the action observation context.

このように、ユーザ操作ログには、エピソード記憶の付随情報としてユーザが記憶していると考えられる、操作時の観測コンテキストが記録される。 In this way, the user operation log records the observation context at the time of operation, which is considered to be stored by the user as incidental information of episode memory.

なお、感情、雰囲気、行動等の観測コンテキストは、人の記憶に残る、抽象度の高いメタ情報といえる。このような観測コンテキストについては、図10を参照して説明したように機能シーケンスと対応付けてユーザ操作ログに記録されるようにしてもよいし、ユーザ操作ログとは別のデータである状態監視ログに記録されるようにしてもよい。 Observation contexts such as emotions, moods, and behaviors can be said to be highly abstract meta-information that remains in people's memory. Such an observation context may be recorded in the user operation log in association with the function sequence as described with reference to FIG. It may be recorded in a log.

各タイミングのコンテキストをユーザ操作ログのタイムスタンプに基づいて照合できるように、状態監視ログには、それぞれの操作時の観測コンテキストを表す状態が、観測コンテキストの変化点のタイムスタンプとともに記録される。 In the state monitoring log, the state representing the observation context at the time of each operation is recorded together with the time stamp of the change point of the observation context so that the context of each timing can be collated based on the time stamp of the user operation log.

また、ユーザ操作ログには、適宜、エピソード記憶の付随情報としてユーザが記憶していると考えられる、操作時の生成コンテキストが記録される。生成コンテキストは、情報処理システム側が生成し、ユーザに体験させる出来事を表す。 In addition, the user operation log appropriately records the generated context at the time of operation, which is considered to be stored by the user as incidental information of the episode memory. The generated context represents an event generated by the information processing system and experienced by the user.

図9のコンテキスト生成部272は、所定の機能を実行するための操作が行われたことに応じて、ユーザ操作ログに記録するための生成コンテキストを生成し、ユーザに提示することによって出来事として体験させる。 The context generation unit 272 in FIG. 9 generates a generation context for recording in a user operation log in response to an operation for executing a predetermined function, and presents it to the user to experience it as an event. Let

図12は、生成コンテキストの例を示す図である。 FIG. 12 is a diagram showing an example of a generation context.

図12の左列に示すように、生成コンテキストの種別には、ゲーム、感情、行動、情景が含まれる。 As shown in the left column of FIG. 12, the generated context types include game, emotion, action, and scene.

ゲームの生成コンテキストは、ユーザが主タスクとして行っているゲーム内で体験させた出来事を表す。 The generated context of the game represents the events experienced in the game that the user is performing as the main task.

ゲームの生成コンテキストは、例えば、ゲーム内で、キャラクタの出現、アイテムの獲得、レベルアップなどのイベントを発生させることによって生成される。コンテキスト生成部272は、ユーザが行っているゲーム中でこのようなイベントを発生させることをタスク管理サーバ4に指示し、ユーザにイベントを体験させる。 The game generation context is generated, for example, by generating events such as appearance of characters, acquisition of items, and level-up in the game. The context generation unit 272 instructs the task management server 4 to generate such an event during the game that the user is playing, and allows the user to experience the event.

ユーザ操作ログには、“キャラクタの出現”、“アイテムの獲得”、“レベルアップ”などのイベントが発生したことを表す情報が、ゲームの生成コンテキストとして記述される。 In the user operation log, information representing the occurrence of events such as "character appearance", "item acquisition", and "level up" is described as a game generation context.

感情の生成コンテキストは、ユーザがコミュニケーションをとっているエージェントの感情を表す。例えば、図13に示すように、情報処理端末1のディスプレイ109に表示された、擬人化されたエージェントA(キャラクタ)に話しかける形でユーザが操作を行っている場合に、感情の生成コンテキストが生成される。エージェントAの表示は、例えば表示画像処理部261により制御される。 The emotion generation context represents the emotion of the agent with whom the user is communicating. For example, as shown in FIG. 13, when the user performs an operation by talking to an anthropomorphic agent A (character) displayed on the display 109 of the information processing terminal 1, an emotion generation context is generated. be done. The display of agent A is controlled by the display image processing unit 261, for example.

感情の生成コンテキストは、エージェントAの感情を変化させることによって生成される。コンテキスト生成部272は、例えば応答制御部274を制御するなどして、エージェントAの表情を変化させ、エージェントAの感情をユーザに認識させる。 The emotion generation context is generated by changing agent A's emotion. The context generation unit 272 changes the expression of the agent A by controlling the response control unit 274, for example, so that the user can recognize the emotion of the agent A.

ユーザ操作ログには、“嬉しい”、“悲しい”、“怒っている”、“驚いている”などの、エージェントAの感情を表す情報が、感情の生成コンテキストとして記述される。 In the user operation log, information representing the emotion of agent A, such as "happy", "sad", "angry", and "surprised", is described as the emotion generation context.

行動の生成コンテキストは、ユーザがコミュニケーションをとっているエージェントやロボットの行動を表す。例えば、エージェントAに話しかける形でユーザが操作を行っている場合、行動の生成コンテキストが生成される。情報処理サーバ2から制御可能なロボットに話しかける形でユーザが操作を行っている場合に行動の生成コンテキストが生成されるようにしてもよい。 The behavioral context represents the behavior of the agent or robot with which the user is communicating. For example, when the user is performing an operation by talking to agent A, an action generation context is generated. The action generation context may be generated when the user is performing an operation by talking to the controllable robot from the information processing server 2 .

行動の生成コンテキストは、ユーザがコミュニケーションをとっているエージェントやロボットの行動を変化させることによって生成される。コンテキスト生成部272は、応答制御部274を制御するなどして、エージェントやロボットの行動を制御し、エージェントやロボットの行動をユーザに認識させる。 Behavior generation context is generated by changing the behavior of the agent or robot with which the user communicates. The context generation unit 272 controls the actions of the agent and the robot by controlling the response control unit 274 and makes the user aware of the actions of the agent and the robot.

ユーザ操作ログには、“笑う”、“泣く”、“起きる”などの、エージェントやロボットの行動を表す情報が、行動の生成コンテキストとして記述される。 In the user operation log, information representing actions of agents and robots such as "laugh", "cry", and "wake up" is described as action generation context.

情景の生成コンテキストは、仮想空間上でユーザに認識させた情景を表す。 The scene generation context represents the scene recognized by the user in the virtual space.

情景の生成コンテキストは、例えば、仮想空間上の情景を変化させることによって生成される。コンテキスト生成部272は、仮想空間上の情景を変化させることをタスク管理サーバ4に指示し、情景の変化をユーザに体験させる。 The scene generation context is generated, for example, by changing the scene in the virtual space. The context generation unit 272 instructs the task management server 4 to change the scene in the virtual space, and allows the user to experience the change in the scene.

ユーザ操作ログには、“雨が降り出す”、“キャラクタの出現”などの情景の変化を表す情報が、情景の生成コンテキストとして記述される。 In the user operation log, information representing changes in the scene, such as "it starts to rain" and "appearance of a character", is described as a scene generation context.

このように、情報処理サーバ2においては、エピソード記憶の付随情報としてユーザが記憶すると考えられる出来事を生成してユーザに体験させるとともに、出来事に関する情報を生成コンテキストとしてユーザ操作ログに記録する処理が行われる。 As described above, in the information processing server 2, an event that the user is expected to remember as incidental information of the episode memory is generated, and the user experiences the event, and the information about the event is recorded in the user operation log as the generated context. will be

音声による操作時に、ゲームや、仮想空間上での活動などを主タスクとして行っている場合、ユーザの意識が主タスク側に向いているため、そのときの操作を思い出すことが困難となる。ゲームのイベントなどを情報処理システム側から発生させ、ユーザに出来事を体験させることにより、ユーザに、出来事の内容をエピソード記憶の付随情報として覚えさせることが可能となる。 When the main task is a game or an activity in a virtual space, the user's attention is focused on the main task, making it difficult to remember the operation at that time. By causing a game event or the like from the information processing system side and allowing the user to experience the event, it becomes possible for the user to remember the content of the event as incidental information of episode memory.

ユーザは、過去の操作と同じ操作を行う場合、主タスクとして行っていたゲームにおいて発生したイベントなどから、過去の操作を連想することが可能となる。 When the user performs the same operation as the past operation, the user can associate the past operation from events that occurred in the game performed as the main task.

なお、それぞれの機能シーケンスのコンテキスト(対応付けて記録されるコンテキスト)が重複しないようにするために、生成コンテキストの生成が行われるようにしてもよい。 It should be noted that the generated context may be generated in order to prevent the contexts of the respective function sequences (contexts recorded in correspondence) from overlapping.

具体的には、ある操作時に観測された観測コンテキストが、同様の操作に関する機能シーケンスの観測コンテキストと重複しない場合、生成コンテキストの生成は行われない。 Specifically, if the observed context observed during an operation does not overlap with the observed context of a functional sequence for a similar operation, no generated context is generated.

反対に、ある操作時に観測された観測コンテキストが、同様の操作に関する機能シーケンスの観測コンテキストと重複する場合、生成コンテキストの生成が行われることになる。日時、場所以外の観測コンテキストが観測できなかった場合も同様に、生成コンテキストが生成される。 Conversely, if the observed context observed during an operation overlaps with the observed context of a functional sequence for a similar operation, generation of a generated context will occur. Similarly, when the observation context other than the date and time and location cannot be observed, the generation context is generated.

ある操作時のコンテキストとして生成コンテキストを生成する場合、同様の操作に関する機能シーケンスと対応付けて記録されていない種別、あるいは、重複が少ない種別の生成コンテキストが生成されるようにしてもよい。 When a generated context is generated as a context for a certain operation, a generated context of a type that is not recorded in association with a function sequence related to a similar operation, or a type that has little duplication may be generated.

このように、ユーザ操作ログのコンテキストが重複しないように、または、コンテキストの重複が少なくなるようにして、生成コンテキストの生成が行われる。それぞれの機能シーケンスのコンテキストが重複しないようにすることにより、機能シーケンスとコンテキストがいわば1対1に対応することになる。ユーザは、機能シーケンスの実行を、指示語Entityを用いて容易に指示することが可能となる。 In this way, generation contexts are generated such that the contexts of the user operation logs do not overlap or overlap less. By preventing the contexts of the respective function sequences from overlapping, function sequences and contexts correspond to each other on a one-to-one basis. The user can easily instruct the execution of the function sequence using the directive Entity.

図9の説明に戻り、コンテキスト生成部272は、応答制御部274を制御するなどして各種の生成コンテキストを生成し、ユーザに出来事を体験させる。また、コンテキスト生成部272は、生成コンテキストの情報をユーザ操作ログ記録制御部271に出力し、ユーザ操作ログに記録させる。 Returning to the description of FIG. 9, the context generation unit 272 generates various generation contexts by controlling the response control unit 274, etc., and allows the user to experience events. In addition, the context generation unit 272 outputs information on the generated context to the user operation log recording control unit 271 to record it in the user operation log.

・機能シーケンスの検索と実行
マクロ抽出部273は、ユーザの発話に応じた機能シーケンスを検索する場合、マクロ抽出テンプレートDB257に記憶されているマクロ抽出テンプレートのうち、発話意図理解処理部252により推定されたIntent用のマクロ抽出テンプレートを選択する。
Search and Execution of Function Sequence When searching for a function sequence corresponding to the user's utterance, the macro extraction unit 273 uses the macro extraction template estimated by the utterance intention understanding processing unit 252 among the macro extraction templates stored in the macro extraction template DB 257 . Choose a macro extraction template for your intent.

マクロ抽出テンプレートは、マクロとして一括して実行することが有用な複数の機能からなるシーケンスを定義したテンプレートである。マクロ化の対象となる機能毎に、複数のマクロ抽出テンプレートが予め定義され、マクロ抽出テンプレートDB257に用意される。 A macro extraction template is a template that defines a sequence of functions that are useful to collectively execute as a macro. A plurality of macro extraction templates are defined in advance for each function to be macroized and prepared in the macro extraction template DB 257 .

マクロ抽出テンプレートに定義された機能シーケンスと一致する機能シーケンスが、ユーザ操作ログに記録されている機能シーケンスの中から検索され、マクロとして抽出される。このように、マクロ抽出テンプレートは、機能シーケンスの検索に用いられる情報である。 A function sequence that matches the function sequence defined in the macro extraction template is searched from the function sequences recorded in the user operation log and extracted as a macro. Thus, the macro extraction template is information that is used to search for function sequences.

図14乃至16は、マクロ抽出テンプレートの例を示す図である。 14 to 16 are diagrams showing examples of macro extraction templates.

図14に示すように、マクロ抽出テンプレートには、ObjectiveIntentとFramesが記述される。Framesには、機能シーケンスを構成する各機能の情報である、FunctionalIntent、IsFloating、EntityTypesが記述される。 As shown in FIG. 14, ObjectiveIntent and Frames are described in the macro extraction template. Frames describes FunctionalIntent, IsFloating, and EntityTypes, which are information of each function that constitutes the function sequence.

ObjectiveIntentは、マクロ抽出テンプレートの目的Intentを表す。指示語Entityを含むユーザの発話から推定されたIntentと目的Intentが一致するマクロ抽出テンプレートが選択される。 ObjectiveIntent represents the objective intent of the macro extraction template. A macro extraction template is selected whose target intent matches the intent estimated from the user's utterance including the referent Entity.

Framesは、マクロ化の対象となる機能シーケンスを表す。 Frames represents a functional sequence to be macroized.

FunctionalIntentは、マクロ化の対象となる機能シーケンスを構成する機能のIntentを表す。 FunctionalIntent represents the Intent of the function that constitutes the function sequence to be macroized.

IsFloatingは、各機能が、機能シーケンスを構成する機能として必須であるか否かを表すフラグである。 IsFloating is a flag indicating whether each function is essential as a function constituting the function sequence.

IsFloatingが“False”として設定された機能は、機能シーケンスを構成する機能として必須の要素である。IsFloatingが“False”として設定された機能と同じ機能が、マクロ抽出テンプレートに記述された順番通りに記録されている機能シーケンスが検索される。 A function whose IsFloating is set as "False" is an essential element as a function constituting a function sequence. A function sequence is searched in which the same functions as those whose IsFloating is set to "False" are recorded in the order described in the macro extraction template.

一方、IsFloatingが“True”として設定された機能は、機能シーケンスを構成する機能としてオプションの要素である。IsFloatingが“True”として設定された機能と同じ機能が、IsFloatingが“False”として設定された機能と同じクラスタ内に存在する場合、マクロに組み込まれる。 On the other hand, a function with IsFloating set as "True" is an optional element as a function constituting a function sequence. If the same function with IsFloating set as "True" exists in the same cluster as a function with IsFloating set as "False", it will be included in the macro.

EntityTypesは、Entityタイプを表す。EntityTypesに定義された全てのEntityタイプのEntityが、Intentに対応するEntityとして記録されている機能シーケンスが検索される。 EntityTypes represent Entity types. A function sequence in which all Entity types defined in EntityTypes are recorded as Entity corresponding to Intent is searched.

図14のマクロ抽出テンプレートは、メッセージ送信用のマクロ抽出テンプレートである。 The macro extraction template in FIG. 14 is a macro extraction template for message transmission.

図14の2行目に示すように、メッセージ送信用のマクロ抽出テンプレートのObjectiveIntentは、メッセージの送信機能を表す“MessageSend”となる。指示語Entityを含む発話のIntentが“MessageSend”である場合、メッセージ送信用のマクロ抽出テンプレートが選択される。 As shown in the second line of FIG. 14, the ObjectiveIntent of the macro extraction template for message transmission is "MessageSend" representing the message transmission function. When the Intent of the utterance containing the directive Entity is "MessageSend", a macro extraction template for sending a message is selected.

メッセージ送信用のマクロ抽出テンプレートのFramesには、5行目乃至7行目に示すように、機能シーケンスを構成する1つ目の機能に関する情報として、FunctionalIntent=“CreateMessage”、IsFloating=“false”、EntityTypes=“[“TO”,“BODY”]”が記述される。また、10行目乃至12行目に示すように、機能シーケンスを構成する2つ目の機能に関する情報として、FunctionalIntent=“MessageSend”、IsFloating=“false”、EntityTypes=“[]”が記述される。 In Frames of the macro extraction template for message transmission, as shown in lines 5 to 7, FunctionalIntent=“CreateMessage”, IsFloating=“false”, and EntityTypes="["TO","BODY"]" is described. Also, as shown in lines 10 to 12, FunctionalIntent="MessageSend", IsFloating="false", and EntityTypes="[]" are described as information about the second function that constitutes the function sequence. .

このような記述を含むマクロ抽出テンプレートに基づいて、“TO”と“BODY”のEntityタイプのEntityを含む“CreateMessage”のIntentが記録され、それに続けて、“MessageSend”のIntentが記録されている機能シーケンスが検索される。“CreateMessage”のIntentはメッセージ作成を表し、“MessageSend”のIntentはメッセージ送信指示を表す。 Based on the macro extraction template including such a description, an Intent of "CreateMessage" including an Entity of type "TO" and "BODY" is recorded, followed by an Intent of "MessageSend". A function sequence is retrieved. The Intent of "CreateMessage" represents creation of a message, and the Intent of "MessageSend" represents an instruction to send a message.

図15のマクロ抽出テンプレートは、音楽再生用のマクロ抽出テンプレートである。 The macro extraction template in FIG. 15 is a macro extraction template for music playback.

図15の2行目に示すように、音楽再生用のマクロ抽出テンプレートのObjectiveIntentは、音楽の再生機能を表す“PlayMusic”となる。指示語Entityを含む発話のIntentが“PlayMusic”である場合、音楽再生用のマクロ抽出テンプレートが選択される。 As shown in the second line of FIG. 15, the ObjectiveIntent of the music playback macro extraction template is "PlayMusic" representing the music playback function. When the Intent of the utterance containing the demonstrative Entity is "PlayMusic", a macro extraction template for playing music is selected.

音楽再生用のマクロ抽出テンプレートのFramesにも、機能シーケンスを構成する各機能に関する情報が順に記述される。図15の記述を含むマクロ抽出テンプレートに基づいて、“TARGET_MUSIC”のEntityタイプのEntityを含む“PlayMusic”のIntentが記録されている機能シーケンスが検索される。“PlayMusic”のIntentは音楽再生指示を表す。 Also in the Frames of the macro extraction template for music playback, information about each function that constitutes the function sequence is described in order. Based on the macro extraction template including the description of FIG. 15, a function sequence in which the Intent of "PlayMusic" including the Entity of the Entity type of "TARGET_MUSIC" is recorded is searched. The Intent of "PlayMusic" represents an instruction to play music.

検索された機能シーケンスに、“VolumeControl”、“MuteGameSound”、“MusicForward”、“MusicBackward”、“MusicCheckCurrent”のIntentが記述されている場合、その機能についてもマクロに組み込まれて実行される。 If the retrieved function sequence describes Intents of “VolumeControl”, “MuteGameSound”, “MusicForward”, “MusicBackward”, and “MusicCheckCurrent”, those functions are also incorporated into the macro and executed.

図16は、パーティー招待用のマクロ抽出テンプレートの例を示す図である。パーティーは、例えば、オンラインゲーム内で一緒にゲームを行うユーザのグループである。 FIG. 16 is a diagram showing an example of a macro extraction template for party invitation. A party is, for example, a group of users playing games together in an online game.

図16の2行目に示すように、パーティー招待用のマクロ抽出テンプレートのObjectiveIntentは、パーティーに招待するための案内の送信機能を表す“InviteParty”となる。指示語Entityを含む発話のIntentが“InviteParty”である場合、パーティー招待用のマクロ抽出テンプレートが選択される。 As shown in the second line of FIG. 16, the ObjectiveIntent of the party invitation macro extraction template is "InviteParty" representing the function of sending an invitation to a party. If the Intent of the utterance containing the demonstrative Entity is "InviteParty", a macro extraction template for party invitation is selected.

パーティー招待用のマクロ抽出テンプレートのFramesにも、機能シーケンスを構成する各機能に関する情報が順に記述される。図16の記述を含むマクロ抽出テンプレートに基づいて、“ShowFriends”のIntent、“CreateInvitation”のIntent、“InputInvitationBody”のIntent、“SendInvitation”のIntentが順に記述されている機能シーケンスが検索される。 Information about each function constituting the function sequence is also described in order in Frames of the macro extraction template for party invitation. Based on the macro extraction template including the description of FIG. 16, a function sequence in which the Intent of "ShowFriends", the Intent of "CreateInvitation", the Intent of "InputInvitationBody", and the Intent of "SendInvitation" are described in this order is retrieved.

図17は、マクロ抽出テンプレートを用いた機能シーケンスの検索例を示す図である。 FIG. 17 is a diagram showing an example of function sequence retrieval using a macro extraction template.

マクロ抽出部273は、矢印A31に示すように、発話のIntentと一致する目的Intentを有するマクロ抽出テンプレートを、マクロ抽出テンプレートDB257に記憶されているマクロ抽出テンプレートの中から選択する。 The macro extraction unit 273 selects a macro extraction template having a purpose intent that matches the intent of the utterance from among the macro extraction templates stored in the macro extraction template DB 257, as indicated by an arrow A31.

また、マクロ抽出部273は、矢印A32に示すように、選択したマクロ抽出テンプレートに定義された機能シーケンスと一致する機能シーケンスを、ユーザ操作ログに記録された機能シーケンスの中から検索する。検索された機能シーケンスにはコンテキストが対応付けて記録されている。 In addition, as indicated by an arrow A32, the macro extraction unit 273 searches for a function sequence that matches the function sequence defined in the selected macro extraction template from the function sequences recorded in the user operation log. A context is associated with the retrieved function sequence and recorded.

マクロ抽出部273は、矢印A33に示すように、発話テキストに含まれる指示語Entityが指し示すコンテキストと対応付けて記録された機能シーケンスを、マクロ抽出テンプレートに基づく検索結果の機能シーケンスの中から検索する。マクロ抽出部273は、検索した機能シーケンスを構成する複数の機能をマクロとして抽出する。このように、マクロ抽出部273は、指示語Entityが指し示すコンテキストと対応付けて記録された機能シーケンスを検索する検索部として機能する。 As indicated by arrow A33, the macro extraction unit 273 searches for the function sequence recorded in association with the context indicated by the referent Entity included in the uttered text from among the function sequences in the search results based on the macro extraction template. . The macro extracting unit 273 extracts a plurality of functions forming the searched function sequence as macros. In this way, the macro extraction unit 273 functions as a search unit that searches for the function sequence recorded in association with the context indicated by the referent Entity.

マクロ抽出部273は、検索結果として見つかったマクロが1つである場合、マクロの実行を応答制御部274に指示する。また、マクロ抽出部273は、検索結果として見つかったマクロが複数である場合、それぞれのマクロの情報をユーザに提示し、選択されたマクロを実行することを応答制御部274に指示する。 If only one macro is found as a search result, the macro extractor 273 instructs the response controller 274 to execute the macro. Further, when a plurality of macros are found as a search result, the macro extracting section 273 presents the information of each macro to the user and instructs the response control section 274 to execute the selected macro.

応答制御部274は、応答生成部259を制御し、発話意図理解処理部252から供給されたIntent/Entityにより表される機能を実行させる。 The response control unit 274 controls the response generation unit 259 to execute the function represented by the Intent/Entity supplied from the speech intention understanding processing unit 252 .

また、応答制御部274は、1つのマクロの情報がマクロ抽出部273から供給された場合、応答生成部259を制御し、機能シーケンスを構成する複数の機能をマクロとして一括して実行させる。 Further, when the information of one macro is supplied from the macro extraction unit 273, the response control unit 274 controls the response generation unit 259 to collectively execute a plurality of functions constituting the function sequence as a macro.

応答制御部274は、複数のマクロの情報が検索結果としてマクロ抽出部273から供給された場合、応答生成部259を制御し、マクロをユーザに提示させる。応答制御部274は、提示したものの中からユーザにより選択されたマクロを実行させる。 When information on a plurality of macros is supplied from the macro extractor 273 as search results, the response controller 274 controls the response generator 259 to present the macros to the user. The response control unit 274 executes a macro selected by the user from among the presented macros.

・機能シーケンスの検索の具体例
機能シーケンスの検索の具体例について説明する。
• Concrete Example of Function Sequence Search A concrete example of function sequence search will be described.

ここでは、「昨日のメッセージ送って」の発話が6月8日にユーザにより行われたものとする。この場合、発話意図理解処理部252によるNLU処理によって、“MessageSend”のIntentが推定され、“昨日”の指示語Entityが抽出される。 Here, it is assumed that the user uttered "Send yesterday's message" on June 8th. In this case, the intent of "MessageSend" is estimated by the NLU processing by the utterance intention understanding processing unit 252, and the demonstrative word Entity of "yesterday" is extracted.

操作記録検索処理部256のマクロ抽出部273においては、マクロ抽出テンプレートDB257に記憶されているマクロ抽出テンプレートの中から、目的Intentが“MessageSend”である、図14のメッセージ送信用のマクロ抽出テンプレートが選択される。 In the macro extraction unit 273 of the operation record search processing unit 256, the macro extraction template for message transmission in FIG. selected.

メッセージ送信用のマクロ抽出テンプレートに定義された機能シーケンスと一致する機能シーケンスとして、図10に示す機能シーケンスがユーザ操作ログから検索される。 A function sequence shown in FIG. 10 is retrieved from the user operation log as a function sequence that matches the function sequence defined in the macro extraction template for message transmission.

検索結果の機能シーケンスは、Intent=“CreateMessage”のアイテムと、Intent=“MessageSend”のアイテムからなる機能シーケンスである。 The function sequence of the search result is a function sequence consisting of an item with Intent="CreateMessage" and an item with Intent="MessageSend".

Intent=“CreateMessage”のアイテムには、Entityタイプ=“TO”、Entityリテラル=“佐藤さん”のEntity、Entityタイプ=“TO”、Entityリテラル=“鈴木さん”のEntity、および、Entityタイプ=“BODY”、Entityリテラル=“今から遊ぼうよ”のEntityが含まれる。 In the item with Intent="CreateMessage", Entity type="TO", Entity literal="Mr. Sato", Entity type="TO", Entity literal="Mr. Suzuki", and Entity type=" BODY”, Entity literal = Entity with “Let’s play now” is included.

図10に示す機能シーケンス以外の機能シーケンスが、メッセージ送信用のマクロ抽出テンプレートに定義された機能シーケンスに基づいて検索されたものとする。 Assume that a function sequence other than the function sequence shown in FIG. 10 is retrieved based on the function sequence defined in the message transmission macro extraction template.

6月8日に行われた発話に含まれる指示語Entityである“昨日”は、前日の6月7日を指し示す。マクロ抽出部273においては、マクロ抽出テンプレートに基づく複数の検索結果の機能シーケンスの中から、6月7日を表すコンテキストが対応付けて記録されている、図10の機能シーケンスが最終的な検索結果として選択される。図10の機能シーケンスには、6月7日を表す、DateTime=“2018-06-07T11:14:28.867+09:00”のコンテキストが対応付けて記録されている。 The referent Entity “yesterday” included in the utterance made on June 8th indicates the previous day, June 7th. In the macro extraction unit 273, the final search result is the function sequence shown in FIG. is selected as In the function sequence of FIG. 10, a context of DateTime="2018-06-07T11:14:28.867+09:00" representing June 7th is associated and recorded.

図10の機能シーケンスに含まれる、Intent=“CreateMessage”のアイテムとIntent=“MessageSend”のアイテムからなる機能シーケンスがマクロとして抽出され、応答制御部274を介して応答生成部259に供給される。 A function sequence consisting of the Intent=“CreateMessage” item and the Intent=“MessageSend” item included in the function sequence of FIG.

応答生成部259は、応答制御部274による制御に従って、“佐藤さん”と“鈴木さん”を送り先とする“今から遊ぼうよ”のメッセージを生成し、送信することになる。 Under the control of the response control unit 274, the response generation unit 259 generates and transmits the message "Let's play now" addressed to "Mr. Sato" and "Mr. Suzuki".

このように、ユーザは、“昨日”送ったというエピソード記憶の付随情報に基づいて、それを指示語Entityにより指し示すことにより、“今から遊ぼうよ”のメッセージの作成と、その送信を容易に実行させることが可能となる。 In this way, the user can easily create and send the message "Let's play now" by indicating it with the directive Entity based on the incidental information of the episode memory that was sent "yesterday". It is possible to execute.

図18および図19は、指示語Entityを用いた検索例を示す図である。 18 and 19 are diagrams showing search examples using the referent Entity.

図18および図19には、各発話が行われた場合の情報処理システム(情報処理サーバ2)の動作が示されている。左から2列目に示すユーザの発話のうち、下線を付して示す文字列が指示語Entityである。 18 and 19 show the operation of the information processing system (information processing server 2) when each utterance is made. In the user's utterance shown in the second column from the left, the underlined character string is the referent Entity.

No.1の発話は、あるタイミングを指し示す指示語Entityを含む発話である。 Utterance No. 1 is an utterance containing a directive Entity indicating a certain timing.

No.1の発話が行われた場合、日付のコンテキスト(DateTime)を用いて機能シーケンスの検索が行われる。すなわち、マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、最も新しい日付がコンテキストとして記録された機能シーケンスが抽出され、マクロとして即時実行される。マクロの即時実行は、ユーザに選択させることなく、検索結果の機能シーケンスをマクロとして自動的に実行することを意味する。 If the No. 1 utterance is made, the function sequence is searched using the date context (DateTime). That is, the function sequence with the latest date recorded as the context is extracted from the function sequence search results based on the macro extraction template, and is immediately executed as a macro. Immediate execution of the macro means automatically executing the sequence of functions in the search results as a macro without user selection.

No.2の発話は、日付/期間を指し示す指示語Entityを含む発話である。 Utterance No. 2 is an utterance containing a demonstrative word Entity indicating a date/period.

No.2の発話が行われた場合も、日付のコンテキスト(DateTime)を用いて機能シーケンスの検索が行われる。マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityが指し示す日付/期間を表すコンテキストが記録された機能シーケンスが検索される。検索結果の機能シーケンスが1つである場合、検索結果の機能シーケンスがマクロとして即時実行され、複数である場合、各マクロがユーザに提示された後、ユーザにより選択されたマクロが実行される。 When utterance No. 2 is made, the function sequence is retrieved using the date context (DateTime). A function sequence in which a context representing the date/period indicated by the referent Entity is recorded is searched from among the search results of the function sequence based on the macro extraction template. If there is one function sequence in the search result, the function sequence in the search result is immediately executed as a macro, and if there are multiple function sequences, each macro is presented to the user and then the macro selected by the user is executed.

No.3の発話は、ゲームシーンを指し示す指示語Entityを含む発話である。 Utterance No. 3 is an utterance containing a directive Entity that indicates a game scene.

No.3の発話が行われた場合、ゲームシーンコンテキスト(GameScene)を用いて機能シーケンスの検索が行われる。マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityが指し示すゲームシーンを表すコンテキストが記録された機能シーケンスが検索される。検索結果の機能シーケンスが1つである場合、検索結果の機能シーケンスがマクロとして即時実行され、複数である場合、各マクロがユーザに提示された後、ユーザにより選択されたマクロが実行される。 When the utterance No. 3 is made, the function sequence is searched using the game scene context (GameScene). Among the function sequence search results based on the macro extraction template, a function sequence in which the context representing the game scene indicated by the referent Entity is recorded is searched. If there is one function sequence in the search result, the function sequence in the search result is immediately executed as a macro, and if there are multiple function sequences, each macro is presented to the user and then the macro selected by the user is executed.

No.3の発話は、例えばユーザが主タスクとしてゲームを行っているときに行われる。ゲームシーンコンテキストを用いて検索が行われる場合の発話には、図18に示す発話以外に、「○○を倒した時のメッセージ」、「○○がゴールした時に聞いてたBGM」、「○○を攻める前のパーティー」、「この敵の時のパーティー」などがある。 Utterance No. 3 is made, for example, when the user is playing the game as the main task. In addition to the utterances shown in FIG. 18, the utterances when a search is performed using the game scene context include "message when XX was defeated", "BGM heard when XX reached the goal", "○○ The party before attacking ○, and the party at the time of this enemy.

No.4の発話は、ゲームシーンを指し示す代名詞を指示語Entityとして含む発話である。 Utterance No. 4 is an utterance that includes a pronoun indicating a game scene as a referent Entity.

No.4の発話が行われた場合、ゲームシーンコンテキスト(GameScene)を用いて機能シーケンスの検索が行われる。マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、代名詞の指示語Entityが指し示す現在のゲームシーンと一致するゲームシーンを表すコンテキストが記録された機能シーケンスが検索される。検索結果の機能シーケンスが1つである場合、検索結果の機能シーケンスがマクロとして即時実行され、複数である場合、各マクロがユーザに提示された後、ユーザにより選択されたマクロが実行される。 When utterance No. 4 is made, the function sequence is searched using the game scene context (GameScene). Among the function sequence search results based on the macro extraction template, a function sequence in which a context representing a game scene that matches the current game scene indicated by the pronoun demonstrative Entity is searched. If there is one function sequence in the search result, the function sequence in the search result is immediately executed as a macro, and if there are multiple function sequences, each macro is presented to the user and then the macro selected by the user is executed.

No.4の発話は、例えばユーザが主タスクとしてゲームを行い、ゲームの画面において、カーソルによってハイライト表示される対象を代名詞で指し示すことによって行われる。ゲームシーンコンテキストを用いて検索が行われる場合の発話には、図18に示す発話以外に、ゲームの画面に表示されたアイテムがハイライト表示されている状態における「これを取った時のメッセージ」などがある。また、ゲームの画面に表示されたマップ上で、特定の場所が指定されている状態における「ここの時のパーティー」などがある。 Utterance No. 4 is performed by, for example, the user playing a game as a main task and pointing with a pronoun to an object highlighted by the cursor on the game screen. In addition to the utterances shown in FIG. 18, the utterances when a search is performed using the game scene context include "message when picking this up" when the item displayed on the game screen is highlighted. and so on. There is also a "Party at this time" in a state where a specific place is specified on the map displayed on the game screen.

No.5の発話は、マクロの番号を指し示す指示語Entityを含む発話である。 Utterance No. 5 is an utterance containing a directive Entity that indicates a macro number.

No.5の発話は、検索結果のマクロが提示されている場合に行われる。No.2~4の発話が行われることに応じて、マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityが指し示すコンテキストが対応付けて記録された機能シーケンスが検索される。 The utterance of No. 5 is made when the search result macro is presented. In response to the utterances of Nos. 2 to 4, the function sequences recorded in association with the context indicated by the referent Entity are searched from the function sequence search results based on the macro extraction template.

検索結果のマクロが複数ある場合、それぞれのマクロに対して番号が割り当てられ、ユーザに提示される。マクロの提示画面には、それぞれの機能シーケンスのコンテキストのうち、他の機能シーケンスのコンテキストとの差分となる(重複しない)コンテキストが表示される。 If there are multiple macros in the search results, each macro is assigned a number and presented to the user. On the macro presentation screen, among the contexts of each function sequence, contexts that are different from (not overlapped with) the contexts of other function sequences are displayed.

指示語Entityとして番号を含む発話が行われた場合、指示語Entityにより指定された番号が割り当てられた機能シーケンスがマクロとして実行される。マクロの提示画面の詳細については後述する。 When an utterance including a number as the referent Entity is made, the function sequence to which the number specified by the referent Entity is assigned is executed as a macro. Details of the macro presentation screen will be described later.

図19のNo.6の発話は、マクロを、日付/期間により、またはゲームシーンにより指し示す指示語Entityを含む発話である。 Utterance No. 6 in FIG. 19 is an utterance containing a directive Entity that indicates a macro by date/period or by game scene.

No.6の発話も、検索結果のマクロが提示されている場合に行われる。No.2~4の発話が行われることに応じて、マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityが指し示すコンテキストが対応付けて記録された機能シーケンスが検索される。 The utterance of No. 6 is also made when the search result macro is presented. In response to the utterances of Nos. 2 to 4, the function sequences recorded in association with the context indicated by the referent Entity are searched from the function sequence search results based on the macro extraction template.

検索結果のマクロが複数ある場合、それぞれのマクロに対して番号が割り当てられ、ユーザに提示される。マクロの提示画面には、それぞれの機能シーケンスのコンテキストのうち、他の機能シーケンスのコンテキストとの差分となるコンテキストが表示される。 If there are multiple macros in the search results, each macro is assigned a number and presented to the user. On the macro presentation screen, among the contexts of each function sequence, the context that is the difference from the contexts of other function sequences is displayed.

指示語Entityを含む発話が行われた場合、指示語Entityにより指定された日付/期間を表すコンテキストが対応付けて記録された機能シーケンス、または、指示語Entityにより指定されたゲームシーンを表すコンテキストが対応付けて記録された機能シーケンスがマクロとして実行される。 When an utterance including the referent Entity is made, the function sequence that is recorded in association with the context representing the date/period specified by the referent Entity, or the context representing the game scene specified by the referent Entity is The associated recorded function sequence is executed as a macro.

No.7の発話は、複数の指示語Entityを含む発話である。 Utterance No. 7 is an utterance containing a plurality of demonstrative Entity.

No.7の発話が行われた場合、マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、複数の指示語EntityのAND条件が指し示すコンテキストを含む機能シーケンスが検索される。検索結果の機能シーケンスが1つである場合、検索結果の機能シーケンスがマクロとして即時実行され、複数である場合、各マクロがユーザに提示された後、ユーザにより選択されたマクロが実行される。 When utterance No. 7 is made, a function sequence including a context indicated by an AND condition of a plurality of referents Entity is searched from the function sequence search results based on the macro extraction template. If there is one function sequence in the search result, the function sequence in the search result is immediately executed as a macro, and if there are multiple function sequences, each macro is presented to the user and then the macro selected by the user is executed.

No.8の発話は、マクロをキーワードにより指し示す発話である。 Utterance No. 8 is an utterance pointing to a macro with a keyword.

No.8の発話も、検索結果のマクロが提示されている場合に行われる。No.2~4の発話が行われることに応じて、マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityが指し示すコンテキストが対応付けて記録された機能シーケンスが検索される。 The utterance of No. 8 is also made when the search result macro is presented. In response to the utterances of Nos. 2 to 4, the function sequences recorded in association with the context indicated by the referent Entity are searched from the function sequence search results based on the macro extraction template.

検索結果のマクロが複数ある場合、それぞれのマクロに対して番号が割り当てられ、ユーザに提示される。マクロの提示画面には、それぞれの機能シーケンスのコンテキストのうち、他のクラスタのコンテキストとの差分となるコンテキストが表示される。 If there are multiple macros in the search results, each macro is assigned a number and presented to the user. On the macro presentation screen, the contexts of the respective function sequences that are different from the contexts of other clusters are displayed.

No.8の発話が行われた場合、ユーザの発話から名詞の文字列がキーワードとして抽出される。抽出されたキーワードと同じ文字列をEntityとして含むマクロが実行される。 When No. 8 is uttered, a noun character string is extracted as a keyword from the user's utterance. A macro containing the same string as the extracted keyword as Entity is executed.

「5人でやったパーティー」といったように、Entityの数を使用した発話によって、マクロが指定されるようにしてもよい。 Macros may be specified by utterances that use the number of Entity, such as "Party with 5 people".

No.9の発話は、周期・頻度を指し示す指示語Entityを含む発話である。 Utterance No. 9 is an utterance that includes a demonstrative term Entity indicating period/frequency.

No.9の発話が行われた場合、日付のコンテキスト(DateTime)を用いて機能シーケンスの検索が行われる。マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、出現頻度が最も高い機能シーケンスが選択され、マクロとして即時実行される。 When utterance No. 9 is made, the function sequence is searched using the date context (DateTime). A function sequence with the highest appearance frequency is selected from among the function sequence search results based on the macro extraction template and immediately executed as a macro.

No.10の発話は、周期・頻度を指し示す指示語Entityを含む発話である。 Utterance No. 10 is an utterance that includes a demonstrative word Entity indicating period/frequency.

No.10の発話が行われた場合、日付のコンテキスト(DateTime)を用いて機能シーケンスの検索が行われる。マクロ抽出テンプレートに基づく機能シーケンスの検索結果の中から、指示語Entityにより指定される条件に一致し、出現頻度が最も高い機能シーケンスが選択され、マクロとして即時実行される。 When utterance No. 10 is made, the function sequence is searched using the date context (DateTime). From the function sequence search results based on the macro extraction template, the function sequence that matches the conditions specified by the directive Entity and has the highest appearance frequency is selected and immediately executed as a macro.

指示語Entityを用いたマクロの検索は、以上のようにして行われる。 A macro search using the directive Entity is performed as described above.

図18、図19に示す指示語Entityに代えて、図11の観測コンテキスト、または図12の生成コンテキストを指し示す指示語Entityを用いた発話に基づくマクロの検索が行われる。 Instead of the referent Entity shown in FIGS. 18 and 19, a macro search based on an utterance is performed using the referent Entity indicating the observed context in FIG. 11 or the generated context in FIG.

例えば、「嬉しい時の音楽」の発話は、感情の観測コンテキスト(図11)を指示語Entityによって指し示す発話となる。また、「盛り上がった時の音楽」の発話は、雰囲気の観測コンテキストを指示語Entityによって指し示す発話となる。「料理中の音楽」の発話は、行動の観測コンテキストを指示語Entityによって指し示す発話となる。 For example, an utterance of "music when happy" is an utterance that indicates the emotional observation context (FIG. 11) with the referent Entity. In addition, the utterance of "music when you are excited" is an utterance that indicates the observation context of the atmosphere with the demonstrative term Entity. The utterance of "music while cooking" is an utterance that indicates the observation context of the action by the demonstrative Entity.

「驚かれたメッセージ」の発話は、感情の生成コンテキスト(図12)を指示語Entityによって指し示す発話となる。「雨が降った時の音楽」の発話は、情景の生成コンテキストを指示語Entityによって指し示す発話となる。 The utterance of “surprised message” is an utterance that points to the emotional generation context (FIG. 12) by the referent Entity. The utterance of "music when it rains" is an utterance that indicates the scene generation context by the referent Entity.

<<情報処理システムの動作>>
図20のフローチャートを参照して、ユーザの発話に対する応答を行う情報処理サーバ2の処理について説明する。
<<Operation of information processing system>>
The processing of the information processing server 2 that responds to the user's speech will be described with reference to the flowchart of FIG. 20 .

図20の処理は、例えば、ユーザの発話に応じた音声データが情報処理端末1から送信されてきたときに開始される。情報処理端末1から送信された音声データは、通信部209において受信され、音声認識処理部251に供給される。 The process of FIG. 20 is started, for example, when voice data according to the user's speech is transmitted from the information processing terminal 1 . The voice data transmitted from the information processing terminal 1 is received by the communication section 209 and supplied to the voice recognition processing section 251 .

ステップS1において、音声認識処理部251は、ユーザの発話に対して音声認識処理を施し、テキストデータに変換する。 In step S1, the speech recognition processing unit 251 performs speech recognition processing on the user's utterance and converts it into text data.

ステップS2において、発話意図理解処理部252は、発話テキストに対してNLU処理を施すことによって、発話の意図を表すIntentを推定するとともに、実行属性であるEntityを抽出する。 In step S2, the utterance intention understanding processing unit 252 performs NLU processing on the utterance text, thereby estimating Intent representing the intention of the utterance and extracting Entity, which is an execution attribute.

ステップS3において、コンテキストの観測が行われる。すなわち、カメラ106により撮影された画像に基づくコンテキストの観測が画像認識処理部254により行われ、センサ107により検出されたセンサデータに基づくコンテキストの観測がセンサデータ認識処理部255により行われる。観測されたコンテキストは、観測コンテキストとして操作記録検索処理部256に出力される。 In step S3, context observation is performed. That is, the image recognition processing unit 254 observes the context based on the image captured by the camera 106 , and the sensor data recognition processing unit 255 observes the context based on the sensor data detected by the sensor 107 . The observed context is output to the operation record search processing unit 256 as an observed context.

ステップS4において、操作記録/検索処理が操作記録検索処理部256により行われる。操作記録/検索処理により、ユーザの操作の履歴が管理されるとともに、適宜、発話に含まれる指示語Entityに基づいてマクロが実行される。操作記録/検索処理の詳細については、図21、図22のフローチャートを参照して後述する。 In step S<b>4 , operation record/search processing is performed by the operation record search processing unit 256 . The operation recording/retrieval process manages the history of user's operations, and executes macros appropriately based on the referent Entity included in the utterance. Details of the operation record/search process will be described later with reference to the flowcharts of FIGS. 21 and 22 .

ステップS5において、応答生成部259は、機能の実行が操作記録検索処理部256により指示されたか否かを判定する。 In step S5, the response generation unit 259 determines whether or not the operation record search processing unit 256 has instructed execution of the function.

機能の実行が指示されたとステップS5において判定した場合、ステップS6において、応答生成部259は、操作記録検索処理部256による制御に従って、1つの機能を実行し、ユーザに対する応答を出力する。また、応答生成部259は、操作記録検索処理部256による制御に従って、複数の機能をマクロとして一括して実行し、ユーザに対する応答を出力する。 If it is determined in step S5 that the execution of a function has been instructed, the response generator 259 executes one function under the control of the operation record search processor 256 and outputs a response to the user in step S6. In addition, the response generation unit 259 collectively executes a plurality of functions as a macro under the control of the operation record search processing unit 256, and outputs a response to the user.

所定の機能がステップS6において実行された場合、または、機能の実行が指示されていないとステップS5において判定された場合、処理は終了となる。以上の処理が、ユーザが発話を行う毎に繰り返し行われる。 If the predetermined function has been executed in step S6, or if it is determined in step S5 that the execution of the function has not been instructed, the process ends. The above processing is repeated each time the user speaks.

次に、図21、図22のフローチャートを参照して、図20のステップS4において行われる操作記録/検索処理について説明する。 Next, the operation record/search process performed in step S4 of FIG. 20 will be described with reference to the flowcharts of FIGS. 21 and 22. FIG.

ステップS11において、操作記録検索処理部256は、発話意図理解処理部252から供給されたIntent/Entityを取得する。 In step S<b>11 , the operation record search processing unit 256 acquires the Intent/Entity supplied from the speech intention understanding processing unit 252 .

ステップS12において、操作記録検索処理部256は、ユーザの発話に指示語Entityが含まれているか否かを判定する。 In step S12, the operation record search processing unit 256 determines whether or not the user's utterance includes the referent Entity.

ユーザの発話に指示語Entityが含まれていないとステップS12において判定した場合、ステップS13において、操作記録検索処理部256は、Intentに応じた機能の実行に必要なEntityが揃っているか否かを判定する。 If it is determined in step S12 that the instruction word Entity is not included in the user's utterance, the operation record search processing unit 256 determines in step S13 whether or not the Entity necessary for executing the function corresponding to the Intent is present. judge.

Intentに応じた機能の実行に必要なEntityが揃っていないとステップS13において判定した場合、ステップS14において、操作記録検索処理部256の応答制御部274は、不足しているEntityの入力を促す応答を応答生成部259に指示する。応答生成部259においては、Entityの入力を促す合成音声をスピーカ108から出力させる処理などが行われる。 If it is determined in step S13 that the Entities required to execute the function corresponding to the Intent are not available, in step S14 the response control unit 274 of the operation record search processing unit 256 sends a response prompting the input of the missing Entities. to the response generation unit 259 . In the response generation unit 259, processing such as outputting synthetic voice prompting the input of the Entity from the speaker 108 is performed.

一方、Intentに応じた機能の実行に必要なEntityが揃っているとステップS13において判定された場合、処理はステップS15に進む。 On the other hand, if it is determined in step S13 that the Entities required to execute the function corresponding to the Intent are present, the process proceeds to step S15.

ステップS15において、コンテキスト生成部272は、ユーザの記憶に残ると考えられる出来事を生成コンテキストとして生成し、ユーザに対して提示することを応答制御部274に指示する。 In step S15, the context generation unit 272 generates an event that is considered to remain in the user's memory as a generation context, and instructs the response control unit 274 to present it to the user.

コンテキスト生成部272による指示に応じて、応答制御部274は、例えば、ユーザが主タスクとして行っているゲーム内で所定のイベントを発生させることをタスク管理サーバ4に対して要求する。タスク管理サーバ4においては、応答制御部274による要求に応じてゲームのイベントを発生させ、出来事としてユーザに体験させる処理が行われる。 In response to the instruction from the context generation section 272, the response control section 274 requests the task management server 4 to generate a predetermined event in the game that the user is performing as the main task, for example. In the task management server 4, a game event is generated in response to a request from the response control unit 274, and the user experiences the event as an event.

ステップS16において、応答制御部274は、発話意図理解処理部252から供給されたIntent/Entityに応じた機能の実行と応答を応答生成部259に指示する。 In step S<b>16 , the response control unit 274 instructs the response generation unit 259 to execute a function and respond according to the Intent/Entity supplied from the speech intention understanding processing unit 252 .

ステップS17において、ユーザ操作ログ記録制御部271は、発話意図理解処理部252から供給されたIntent/Entityにより表される機能をクラスタリングすることにより、複数の機能からなる機能シーケンスを生成する。 In step S<b>17 , the user operation log recording control unit 271 clusters the functions represented by the Intent/Entity supplied from the speech intention understanding processing unit 252 to generate a function sequence consisting of a plurality of functions.

また、ユーザ操作ログ記録制御部271は、機能シーケンスを、図20のステップS3において観測された観測コンテキスト、コンテキスト生成部272により生成された生成コンテキストと対応付けてユーザ操作ログに記録する。観測コンテキストと生成コンテキストの両方が記録されるのではなく、いずれか一方が機能シーケンスと対応付けて記録されるようにしてもよい。 Further, the user operation log recording control unit 271 records the function sequence in the user operation log in association with the observed context observed in step S3 of FIG. 20 and the generated context generated by the context generation unit 272 . Instead of recording both the observed context and the generated context, either one may be recorded in association with the function sequence.

ステップS17において機能シーケンスが記録された後、または、ステップS14においてEntityの入力を促す応答が指示された後、図20のステップS4に戻り、それ以降の処理が行われる。 After the function sequence is recorded in step S17, or after a response prompting the input of Entity is instructed in step S14, the process returns to step S4 in FIG. 20 and the subsequent processes are performed.

なお、ユーザ操作ログに対する記録が行われる際、「今の操作を覚えておきます」などの合成音声を情報処理システム側から出力させ、一連の操作に関する情報を記録したことをユーザに認知させるようにしてもよい。ユーザは、一連の操作をマクロとして実行させることができるようになったことを知ることが可能となる。 In addition, when the user operation log is recorded, the information processing system outputs a synthesized voice such as "I will remember the operation just now." can be The user can know that a series of operations can now be executed as a macro.

なお、メッセージの内容などの個人的な情報を含み、ユーザ操作ログに内容を記録させることにユーザが違和感を覚える可能性のある機能については、「送信したメッセージの内容も覚えますか?」などの合成音声を出力して確認が行われるようにしてもよい。この場合、情報を記録することについて了承が得られたときに、ユーザ操作ログに対する記録が行われることになる。 For functions that include personal information such as the content of messages, and which may cause the user to feel uncomfortable with recording the content in the user operation log, ask "Do you remember the content of the sent message?" may be output for confirmation. In this case, when the consent to record the information is obtained, the information is recorded in the user operation log.

一方、ユーザの発話に指示語Entityが含まれているとステップS12において判定された場合、処理は図22のステップS18に進む。ユーザの発話に指示語Entityが含まれている場合、上述したようにして機能シーケンスの検索が行われる。 On the other hand, if it is determined in step S12 that the user's utterance includes the referent Entity, the process proceeds to step S18 in FIG. If the user's utterance contains the demonstrative term Entity, the function sequence is retrieved as described above.

ステップS18において、操作記録検索処理部256のマクロ抽出部273は、ユーザの発話のIntentと一致する目的Intentを有するマクロ抽出テンプレートを、マクロ抽出テンプレートDB257に記憶されているマクロ抽出テンプレートの中から選択する。 In step S18, the macro extraction unit 273 of the operation record search processing unit 256 selects a macro extraction template having a purpose intent that matches the intent of the user's utterance from among the macro extraction templates stored in the macro extraction template DB 257. do.

ステップS19において、マクロ抽出部273は、選択したマクロ抽出テンプレートに定義された機能シーケンスと一致する機能シーケンスを、ユーザ操作ログに記録された機能シーケンスの中から検索する。また、マクロ抽出部273は、発話テキストに含まれる指示語Entityが指し示すコンテキストと対応付けて記録された機能シーケンスを、マクロ抽出テンプレートに基づく検索結果の機能シーケンスの中から検索する。 In step S19, the macro extraction unit 273 searches for a function sequence that matches the function sequence defined in the selected macro extraction template from the function sequences recorded in the user operation log. In addition, the macro extraction unit 273 searches for the function sequence recorded in association with the context indicated by the referent Entity included in the uttered text from among the function sequences in the search results based on the macro extraction template.

ステップS20において、マクロ抽出部273は、検索した機能シーケンスを構成する複数の機能をマクロとして抽出する。 In step S20, the macro extractor 273 extracts, as macros, a plurality of functions that form the retrieved function sequence.

ステップS21において、マクロ抽出部273は、検索結果として抽出されたマクロが1つであるか否かを判定する。 In step S21, the macro extraction unit 273 determines whether or not there is one macro extracted as a search result.

検索結果として抽出されたマクロが1つであるとステップS21において判定した場合、ステップS22において、マクロ抽出部273は、マクロの実行とユーザに対する応答を応答制御部274に指示する。 If it is determined in step S21 that one macro is extracted as the search result, the macro extraction unit 273 instructs the response control unit 274 to execute the macro and respond to the user in step S22.

ステップS23において、ユーザ操作ログ記録制御部271は、実行したマクロに関する複数の機能のIntent/Entityを観測コンテキストとともにユーザ操作ログに記録させる。 In step S23, the user operation log recording control unit 271 records Intent/Entity of a plurality of functions related to the executed macro in the user operation log along with the observation context.

検索結果として抽出されたマクロが1つではないとステップS21において判定した場合、ステップS24において、マクロ抽出部273は、検索結果の複数のマクロを提示し、マクロの絞り込みを促す応答の出力を応答制御部274に指示する。 If it is determined in step S21 that the number of macros extracted as search results is not one, in step S24 the macro extracting unit 273 presents a plurality of macros in the search results and outputs a response prompting to narrow down the macros. The controller 274 is instructed.

実行したマクロに関する情報がステップS23においてユーザ操作ログに記録された後、または、検索結果の複数のマクロの提示などの指示がステップS24において行われた後、図20のステップS4に戻り、それ以降の処理が行われる。 After the information about the executed macro is recorded in the user operation log in step S23, or after an instruction such as presentation of a plurality of macros in the search results is given in step S24, the process returns to step S4 in FIG. is processed.

以上の処理により、ユーザは、過去の記憶から連想されるフレーズを発話することで、過去に行った複数の操作と同じ操作をマクロとして一括して実行させることが可能となる。 By the above processing, the user can collectively execute the same operations as the multiple operations performed in the past as a macro by uttering a phrase associated with the user's past memory.

また、指示語Entityを用いてコンテキストを指し示すことでマクロを実行させることができるため、各マクロに対して設定された名前などを発話してマクロの実行を指示する場合に比べて、より自然な発話に近い対話システムが実現される。 In addition, since the macro can be executed by pointing to the context using the directive Entity, it is more natural than instructing the execution of the macro by uttering the name set for each macro. A dialogue system close to speech is realized.

<マクロ提示画面の例>
図23は、マクロの提示画面の例を示す図である。
<Example of macro presentation screen>
FIG. 23 is a diagram showing an example of a macro presentation screen.

検索結果のマクロが複数ある場合、図23に示すような提示画面がディスプレイ109に表示される。 When there are a plurality of search result macros, a presentation screen as shown in FIG. 23 is displayed on the display 109 .

図23の例においては、「先週聞いた曲かけて」の発話がユーザにより行われたことに応じて、上述したような検索が行われ、目的Intentを“PlayMusic”とする4つの音楽再生マクロが見つかったものとされている。提示画面には、4つの音楽再生マクロに関する情報であるマクロ候補情報301乃至304が表示される。 In the example of FIG. 23, in response to the user uttering "Play the song you heard last week", the search as described above is performed, and four music playback macros with the target intent of "PlayMusic" are generated. is said to have been found. The presentation screen displays macro candidate information 301 to 304, which are information relating to four music reproduction macros.

マクロ候補情報301は、1番の音楽再生マクロに関する情報である。マクロ候補情報301として、「寝室」、「6/8(金)」の文字列が表示され、その下に、1番の音楽再生マクロを実行したときに再生される音楽の情報が表示される。 Macro candidate information 301 is information about the first music playback macro. As the macro candidate information 301, the character strings "bedroom" and "6/8 (Friday)" are displayed, and below them, the information of the music to be played when the first music playback macro is executed is displayed. .

「寝室」、「6/8(金)」の文字列は、矢印A41に示すように、1番の音楽再生マクロに関するコンテキストであるコンテキストC1に基づいて表示される。コンテキストC1には、「6月8日」を表す日付のコンテキストと、「寝室」を表す場所のコンテキストが含まれている。 The character strings "bedroom" and "6/8 (Friday)" are displayed based on the context C1, which is the context related to the first music playback macro, as indicated by an arrow A41. Context C1 includes a date context representing "June 8" and a location context representing "bedroom".

なお、「寝室」、「6/8(金)」の文字列の下に表示される音楽の情報は、1番の音楽再生マクロを構成する機能のIntentとEntityに基づいて表示される情報である。 In addition, the music information displayed under the character strings "bedroom" and "6/8 (Friday)" is information displayed based on the Intent and Entity of the functions that make up the first music playback macro. be.

マクロ候補情報302乃至303も、それぞれ、同様の情報から構成される。 Each of the macro candidate information 302 and 303 is also composed of similar information.

すなわち、2番の音楽再生マクロに関する情報であるマクロ候補情報302として、「盛り上がっている」、「6/7(木)」の文字列が表示される。 That is, as macro candidate information 302, which is information related to the second music reproduction macro, the character strings "exciting" and "6/7 (Thursday)" are displayed.

「盛り上がっている」、「6/7(木)」の文字列は、矢印A42に示すように、2番の音楽再生マクロに関するコンテキストであるコンテキストC2に基づいて表示される。コンテキストC2には、「6月7日」を表す日付のコンテキストと、「盛り上がっている」を表す雰囲気のコンテキストが含まれている。 The character strings "exciting" and "6/7 (Thursday)" are displayed based on the context C2, which is the context related to the second music playback macro, as indicated by an arrow A42. The context C2 includes a date context representing "June 7" and an atmosphere context representing "exciting".

3番の音楽再生マクロに関する情報であるマクロ候補情報303として、「雨が降っている」、「6/5(火)」の文字列が表示される。 As macro candidate information 303, which is information related to the music reproduction macro No. 3, a character string of "It's raining" and "6/5 (Tuesday)" is displayed.

「雨が降っている」、「6/5(火)」の文字列は、矢印A43に示すように、3番の音楽再生マクロに関するコンテキストであるコンテキストC3に基づいて表示される。コンテキストC3には、「6月5日」を表す日付のコンテキストと、「雨が降っている」を表す天気のコンテキストが含まれている。 The character strings "It's raining" and "6/5 (Tuesday)" are displayed based on the context C3, which is the context related to the third music playback macro, as indicated by an arrow A43. Context C3 includes a date context representing "June 5" and a weather context representing "it is raining".

4番の音楽再生マクロに関する情報であるマクロ候補情報304として、「悲しい」、「6/4(月)」の文字列が表示される。 As macro candidate information 304, which is information about the fourth music playback macro, the character strings "sad" and "6/4 (Monday)" are displayed.

「悲しい」、「6/4(月)」の文字列は、矢印A44に示すように、4番の音楽再生マクロに関するコンテキストであるコンテキストC4に基づいて表示される。コンテキストC4には、「6月4日」を表す日付のコンテキストと、「悲しい」を表す感情のコンテキストが含まれている。 The character strings "sad" and "6/4 (Monday)" are displayed based on the context C4, which is the context related to the music reproduction macro No. 4, as indicated by an arrow A44. The context C4 includes a date context representing "June 4th" and an emotion context representing "sad".

このように、マクロの検索結果の提示画面には、各マクロを構成する機能のIntentとEntityを表す情報に加えて、コンテキストの差分要素となる文字列が表示される。マクロ候補情報301の「寝室」と「6/8(金)」、マクロ候補情報302の「盛り上がっている」と「6/7(木)」、マクロ候補情報303の「雨が降っている」と「6/5(火)」、マクロ候補情報304の「悲しい」と「6/4(月)」は、それぞれ、他のマクロのコンテキストと重複しないコンテキストに基づいて表示される文字列である。 In this way, on the macro search result presentation screen, in addition to the information representing the Intent and Entity of the functions that make up each macro, the character strings that are the difference elements of the context are displayed. "Bedroom" and "June 8 (Friday)" in the macro candidate information 301; and "6/5 (Tuesday)", and "sad" and "6/4 (Monday)" in the macro candidate information 304 are character strings displayed based on contexts that do not overlap with other macro contexts. .

一方、場所のコンテキストとして重複している「リビング」は、マクロに関する情報として表示されない。「リビング」を表すコンテキストは、コンテキストC2,C3,C4のそれぞれに重複して記録されている。 On the other hand, "Living", which is duplicated as a location context, is not displayed as information about macros. The context representing "living room" is redundantly recorded in each of the contexts C2, C3, and C4.

このように、指示語Entityを含む発話によってユーザが指示していると考えられるマクロとして同じような機能シーケンスのマクロが複数ある場合、それぞれのマクロの情報が提示される。また、それぞれのマクロの情報として、コンテキストの差分要素となる文字列が表示される。 In this way, when there are multiple macros with similar function sequences as the macros that are considered to be indicated by the user through utterances containing the demonstrative word Entity, the information of each macro is presented. In addition, as the information of each macro, a character string that is a difference element of the context is displayed.

ユーザは、類似したマクロを見比べ、過去の断片的な記憶に基づいて絞り込むことができるため、目的とするマクロを容易に見つけることが可能となる。 Since the user can compare similar macros and narrow down the search based on fragmentary memories of the past, it is possible to easily find the target macro.

なお、図23に示す提示画面が表示されている状態で番号を指定してマクロが選択された場合、図18のNo.5の発話が行われたときと同様の処理が行われ、選択されたマクロが実行される。また、コンテキストの差分要素となる文字列を指定してマクロが選択された場合、図19のNo.6の発話が行われたときと同様の処理が行われ、選択されたマクロが実行される。 When a number is specified and a macro is selected while the presentation screen shown in FIG. 23 is displayed, the same processing as when No. 5 in FIG. macro is executed. Also, when a macro is selected by specifying a character string that is a difference element of the context, the same processing as when No. 6 in FIG. 19 is uttered is performed, and the selected macro is executed. .

マクロの提示画面においては、コンテキストの日付が新しいマクロの情報ほど上位に提示される。 On the macro presentation screen, macro information with a newer context date is presented at a higher position.

日付のコンテキスト以外の種別のコンテキストに基づいて提示順が切り替わるようにしてもよい。例えば、感情のコンテキストに基づいて提示順が切り替わるようにすることが可能である。この場合、嬉しい、楽しいといったような、ポジティブなコンテキストのマクロがより上位に提示される。 The presentation order may be switched based on a type of context other than the date context. For example, it is possible to switch the order of presentation based on emotional context. In this case, positive context macros such as happy and fun are presented higher.

提示画面を用いたGUIでの提示に加えて、「<コンテキスト>が違いますが、どちらにしますか?」などの合成音声を出力し、ユーザに問いかけるようにしてもよい。 In addition to the presentation on the GUI using the presentation screen, it is also possible to output synthesized speech such as "<context> is different, which one would you like?" to ask the user.

<<変形例>>
<マクロ抽出テンプレートを用いないマクロ化手法>
マクロ抽出テンプレートに定義された機能シーケンスを構成する複数の機能からマクロが生成されるものとしたが、マクロ抽出テンプレートに定義された機能シーケンスに含まれていない機能を含むようにしてマクロが生成されるようにしてもよい。
<<Modification>>
<Macroization method without using macro extraction template>
A macro is generated from multiple functions that make up the function sequence defined in the macro extraction template. can be

・出現頻度の高い機能を提案する例
機能シーケンスが選択され、マクロが生成されたものとする。この場合において、選択された機能シーケンスを含むクラスタに、出現頻度の高い機能があるとき、その機能について、実行するか否かの提案がユーザに対して行われる。
・Example of proposing frequently appearing functions Assume that a function sequence has been selected and a macro has been generated. In this case, if the cluster containing the selected function sequence has a function with a high appearance frequency, the user is suggested whether or not to execute the function.

例えば、ユーザが「HappyLandのパーティー招待」の発話を行い、これに応じて、HappyLandプレイ時のパーティー招待用のマクロが生成されたものとする。「HappyLand」はゲームの名前である。パーティー招待用のマクロの元になった機能シーケンスには、パーティー招待の配信機能が含まれていない。 For example, it is assumed that the user utters "HappyLand Party Invitation" and in response, a macro for party invitation during HappyLand play is generated. "HappyLand" is the name of the game. The function sequence on which the macro for party invites is based does not include the delivery function for party invites.

この場合、「配信もしますか?」の合成音声が出力され、パーティー招待の配信機能を実行するか否かの提案が行われる。この提案は、例えば、HappyLandのプレイ時に、パーティー招待の機能と配信の機能を高い頻度でユーザが行っていたことに基づいて行われるものである。 In this case, a synthesized voice saying "Would you like to distribute the invitation?" This proposal is made based on, for example, the fact that the user frequently used the party invitation function and the distribution function when playing HappyLand.

ユーザが「配信もして」の発話を行うことにより、配信の機能についても、パーティー招待の機能とまとめて実行される。 When the user utters "Also distribute", the function of distribution is also executed together with the function of party invitation.

なお、提案した同じ機能について、実行することが一定回数(例えば2回)を超えた場合、提案なしでマクロに含めて自動的に実行されるようにしてもよい。 Note that if the same proposed function has been executed a certain number of times (for example, twice), it may be included in a macro and automatically executed without being proposed.

・コンテキストを指示するだけでクラスタ内の全機能を実行する例
例えば、ユーザが「このゲーム始める時の設定をまとめてやって」の発話を行った場合、ユーザ操作ログ上の、該当ゲームの開始時の操作に関するクラスタに記録されている、パーティー招待、BGM再生、配信などの全ての機能がマクロとして実行されるようにしてもよい。
・Example of executing all functions in the cluster simply by specifying the context All functions such as party invitation, background music reproduction, distribution, etc., recorded in the time operation cluster may be executed as macros.

「寝る準備して」、「おやすみ」などの発話を行った場合、ユーザ操作ログ上の、就寝時間帯の操作に関するクラスタに記録されている、電気を消す、テレビを消す、アラーム設定などの全ての機能がマクロとして実行されるようにしてもよい。 When utterances such as "get ready for bed" or "good night" are performed, all actions recorded in the cluster related to operations during bedtime in the user operation log, such as turning off the lights, turning off the television, setting an alarm, etc. function may be executed as a macro.

これにより、ユーザは、自身に特有の習慣的な操作をまとめて実行することが可能となる。 This allows the user to collectively perform habitual operations unique to him/herself.

<その他の例>
・情報処理システムの構成
ユーザの操作に応じたマクロを実行する処理が、情報処理端末1と情報処理サーバ2により実現されるものとしたが、情報処理端末1単体で実現されるようにしてもよい。この場合、図7に示す情報処理サーバ2の構成が情報処理端末1に設けられることになる。
<Other examples>
・Configuration of information processing system The processing of executing macros according to the user's operation is realized by the information processing terminal 1 and the information processing server 2, but the information processing terminal 1 alone may realize the processing. good. In this case, the information processing terminal 1 is provided with the configuration of the information processing server 2 shown in FIG.

図7に示す情報処理サーバ2の全ての構成が情報処理端末1に設けられるのではなく、一部の構成が情報処理端末1に設けられ、他の構成については情報処理サーバ2などの他の装置に設けられるようにしてもよい。 Not all the configurations of the information processing server 2 shown in FIG. It may be provided in the device.

・ユーザ操作ログの記録内容の例
複数の機能からなる機能シーケンスがコンテキストと対応付けて記録されるものとしたが、1つの機能に関する情報が、その機能を実行するための操作が行われた時のコンテキストと対応付けてユーザ操作ログに記録されるようにしてもよい。
・Example of recorded content of user operation log Although a function sequence consisting of multiple functions is recorded in association with a context, information related to one function is recorded when an operation is performed to execute that function. context may be recorded in the user operation log.

・観測コンテキストのバリエーション
以下のコンテキストが観測され、観測コンテキストとして記録されるようにしてもよい。
・ゲームでの特定シーンのクリア(成功体験)
・ゲームオーバー・ゲームでのミッション失敗(失敗体験)
・食事中に何を食べているか
・ユーザが「眠い時の音楽で覚えて」の発話が行われた場合、“眠い”を観測コンテキストとして記録。
・うなずく等の所定のジェスチャとともに、「これをした時の音楽で覚えて」の発話が行われた場合、ジェスチャを観測コンテキストとして記録。この場合、ジェスチャしながら「これの時の音楽」の発話が行われた場合、そのジェスチャを表す観測コンテキストが対応付けて記録されている音楽が再生される。
- Variation of Observation Context The following context may be observed and recorded as an observation context.
・ Clear a specific scene in the game (successful experience)
・Game over ・Mission failure in the game (failure experience)
・What are you eating while eating? ・When the user utters “Remember me with music when I am sleepy”, “I am sleepy” is recorded as the observation context.
- When an utterance of "Remember the music when you do this" is made along with a predetermined gesture such as nodding, the gesture is recorded as an observation context. In this case, when "music at this time" is uttered while making a gesture, the music recorded in association with the observation context representing the gesture is played.

・生成コンテキストのバリエーション
以下のコンテキストが生成コンテキストとして生成され、記録されるようにしてもよい。
・音楽や効果音を出力させる。
・匂いを発生させる。この場合、ユーザは、「○○の匂い」といった、嗅覚で知覚した内容をエピソード記憶の付随情報として記憶することになる。
・コントローラなどのユーザが触れるデバイスに対して、振動を発生、痛みを生じさせる、温度を変化させる。この場合、ユーザは、触覚で知覚した内容を付随情報として記憶することになる。
・システム応答に用いた合成音声の話者声質(男女、大人/子供など)
- Variations of Generated Contexts The following contexts may be generated and recorded as generated contexts.
- Output music and sound effects.
・Produces an odor. In this case, the user memorizes the content perceived by the sense of smell, such as "smell of XX", as incidental information in episodic memory.
- Vibrate, cause pain, or change the temperature of a device that the user touches, such as a controller. In this case, the user will memorize the content perceived by the sense of touch as accompanying information.
・Speaker voice quality of synthesized speech used for system response (male/female, adult/child, etc.)

・フィードバック
機能の内容をユーザ操作ログに記録する際、何のコンテキストと対応付けて記録するのかをユーザに提示するようにしてもよい。例えば、コンテキストの内容を表すテキストが画面上に表示されようにしてもよいし、「食事中の音楽として覚えます」といったような合成音声が出力されるようにしてもよい。
- When recording the contents of the feedback function in the user operation log, the user may be presented with what context is to be associated with the recording. For example, a text representing the content of the context may be displayed on the screen, or a synthesized voice such as "I will remember it as music while eating" may be output.

指示語Entityを用いたマクロの実行時に、ユーザが発話した指示語Entityが、マクロの検索に用いられるコンテキストを指し示す対象として情報処理システムにおいて管理されている場合、効果音が出力され、そのことがユーザに提示されるようにしてもよい。 When executing a macro that uses a referent Entity, if the referent Entity uttered by the user is managed in the information processing system as an object that indicates the context used for macro search, a sound effect is output, indicating that It may be presented to the user.

・セキュリティ
ユーザ操作ログが個人毎に管理されるようにしてもよい。指示語Entityを含む発話が行われた場合において、発話を行ったユーザの周りに他の人がいるとき、メッセージの内容などの、プライバシーにかかわる機能の実行が制限され、内容が提示されないようにしてもよい。
- Security User operation logs may be managed for each individual. When an utterance including the directive Entity is made, if there are other people around the user who made the utterance, the execution of functions related to privacy, such as the content of the message, will be restricted, and the content will not be presented. may

・おすすめマクロの提示
性別、年齢、地域などのユーザの属性毎に、ユーザ操作ログに記録されているコンテキストの統計を収集しておき、統計に基づいて、コンテキストに応じたおすすめのマクロがユーザに提示されるようにしてもよい。
・Presentation of recommended macros Statistics of the context recorded in the user operation log are collected for each user attribute such as gender, age, region, etc. Based on the statistics, recommended macros are presented to the user according to the context. You may make it present.

<コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
<Computer configuration example>
The series of processes described above can be executed by hardware or by software. When executing a series of processes by software, a program that constitutes the software is installed from a program recording medium into a computer built into dedicated hardware or a general-purpose personal computer.

インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図6に示されるリムーバブルメディア211に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。 The program to be installed is provided by being recorded on removable media 211 shown in FIG. Alternatively, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting. The program can be installed in the ROM 202 or the storage unit 208 in advance.

コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。 The program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or a program in which processing is performed in parallel or at necessary timing such as when a call is made. It may be a program that is carried out.

なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。 In this specification, a system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules in one housing, are both systems. .

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。 The effects described herein are only examples and are not limiting, and other effects may also occur.

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。 Embodiments of the present technology are not limited to the above-described embodiments, and various modifications are possible without departing from the gist of the present technology.

例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。 For example, the present technology can take a configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.

また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。 Further, each step described in the flowchart above can be executed by one device, or can be shared by a plurality of devices and executed.

さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。 Furthermore, when one step includes a plurality of processes, the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.

<構成の組み合わせ例>
本技術は、以下のような構成をとることもできる。
<Configuration example combination>
This technique can also take the following configurations.

(1)
ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索する検索部と、
検索された前記機能を実行し、前記ユーザに対する応答を出力させる応答制御部と
を備える情報処理装置。
(2)
前記ユーザによる前記操作に応じて実行した前記機能をクラスタリングすることによって、複数の前記機能からなるシーケンスを生成し、前記シーケンスと前記コンテキストとを対応付けて前記操作ログに記録する記録制御部をさらに備える
前記(1)に記載の情報処理装置。
(3)
前記ユーザの状況を含む前記コンテキストを認識する認識処理部をさらに備える
前記(1)または(2)に記載の情報処理装置。
(4)
前記認識処理部は、前記ユーザの状況として、日時、場所、前記ユーザが行っているタスク、前記ユーザの感情、前記ユーザの周辺の環境の雰囲気、および、前記ユーザの行動のうちの少なくともいずれかを認識する
前記(3)に記載の情報処理装置。
(5)
所定の出来事を前記ユーザに体験させるための処理を実行し、前記コンテキストを生成するコンテキスト生成部をさらに備える
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記コンテキスト生成部は、前記操作が行われることに応じて、前記コンテキストを生成する
前記(5)に記載の情報処理装置。
(7)
前記コンテキスト生成部は、前記ユーザが行っているタスク上のイベントを発生するための処理を行い、前記イベントに関する情報を前記コンテキストとして記録させる
前記(5)または(6)に記載の情報処理装置。
(8)
前記コンテキスト生成部は、前記ユーザがコミュニケーションをとっている対象の行動を変化させるための処理を行い、前記行動に関する情報を前記コンテキストとして記録させる
前記(5)または(6)に記載の情報処理装置。
(9)
前記検索部は、前記シーケンスを定義した複数のテンプレートのうち、前記ユーザによる入力の意図に応じた前記テンプレートに定義された前記シーケンスと同じ前記シーケンスであって、前記指示語が指し示す前記コンテキストと対応付けて記録された前記シーケンスを検索する
前記(2)に記載の情報処理装置。
(10)
前記検索部は、検索結果の前記シーケンスが複数ある場合、それぞれの前記シーケンスに関する情報を提示し、
前記応答制御部は、前記ユーザにより指定された前記シーケンスを構成する複数の前記機能を実行する
前記(9)に記載の情報処理装置。
(11)
前記検索部は、前記シーケンスに関する情報として、それぞれの前記コンテキストの差分を表す情報を提示する
前記(10)に記載の情報処理装置。
(12)
前記応答制御部は、前記コンテキストと対応付けて記録された前記シーケンスを構成する複数の前記機能を実行する
前記(2)、(9)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記ユーザによる前記操作は、音声により行われる
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
情報処理装置が、
ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索し、
検索した前記機能を実行し、前記ユーザに対する応答を出力させる
情報処理方法。
(15)
コンピュータに、
ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索し、
検索した前記機能を実行し、前記ユーザに対する応答を出力させる
処理を実行させるためのプログラム。
(1)
Based on an operation log in which a function executed in response to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the instruction word input by the user. a search unit for searching for the function that has been obtained;
and a response control unit that executes the retrieved function and outputs a response to the user.
(2)
a recording control unit that clusters the functions executed according to the operation by the user to generate a sequence composed of a plurality of the functions, associates the sequence with the context, and records the operation log; The information processing apparatus according to (1).
(3)
The information processing apparatus according to (1) or (2), further comprising a recognition processing unit that recognizes the context including the user's situation.
(4)
The recognition processing unit determines, as the user's situation, at least one of a date and time, a place, a task being performed by the user, an emotion of the user, an atmosphere of an environment around the user, and an action of the user. The information processing apparatus according to (3) above.
(5)
The information processing apparatus according to any one of (1) to (4), further comprising a context generation unit that executes processing for causing the user to experience a predetermined event and generates the context.
(6)
The information processing apparatus according to (5), wherein the context generation unit generates the context in response to the operation being performed.
(7)
The information processing apparatus according to (5) or (6), wherein the context generation unit performs processing for generating an event on the task being performed by the user, and records information about the event as the context.
(8)
The information processing device according to (5) or (6), wherein the context generation unit performs processing for changing behavior of a target with whom the user is communicating, and records information about the behavior as the context. .
(9)
The search unit selects the sequence that is the same as the sequence defined in the template corresponding to the intention of the input by the user, among a plurality of templates that define the sequence, and that corresponds to the context indicated by the referent. The information processing apparatus according to (2) above, wherein the sequence recorded with an attachment is retrieved.
(10)
the search unit, if there are a plurality of the sequences of search results, presents information about each of the sequences;
The information processing apparatus according to (9), wherein the response control unit executes a plurality of the functions constituting the sequence specified by the user.
(11)
The information processing apparatus according to (10), wherein the search unit presents information representing a difference between the contexts as the information about the sequence.
(12)
The information processing apparatus according to any one of (2), (9) to (11), wherein the response control unit executes a plurality of the functions constituting the sequence recorded in association with the context.
(13)
The information processing apparatus according to any one of (1) to (12), wherein the operation by the user is performed by voice.
(14)
The information processing device
Based on an operation log in which a function executed according to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the directive input by the user. Search for the function that is specified,
An information processing method for executing the retrieved function and outputting a response to the user.
(15)
to the computer,
Based on an operation log in which a function executed according to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the directive input by the user. Search for the function that is specified,
A program for executing a process of executing the retrieved function and outputting a response to the user.

1 情報処理端末, 2 情報処理サーバ, 251 音声認識処理部, 252 発話意図理解処理部, 253 指示語EntityDB, 254 画像認識処理部, 255 センサデータ認識処理部, 256 操作記録検索処理部, 257 マクロ抽出テンプレートDB, 258 ユーザ操作ログDB, 259 応答生成部, 260 音声合成処理部, 261 表示画像処理部, 271 ユーザ操作ログ記録制御部, 272 コンテキスト生成部, 273 マクロ抽出部, 274 応答制御部 1 information processing terminal, 2 information processing server, 251 speech recognition processing unit, 252 utterance intention understanding processing unit, 253 instruction word EntityDB, 254 image recognition processing unit, 255 sensor data recognition processing unit, 256 operation record search processing unit, 257 macro Extraction template DB, 258 User operation log DB, 259 Response generation unit, 260 Voice synthesis processing unit, 261 Display image processing unit, 271 User operation log recording control unit, 272 Context generation unit, 273 Macro extraction unit, 274 Response control unit

Claims (15)

ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索する検索部と、
検索された前記機能を実行し、前記ユーザに対する応答を出力させる応答制御部と
を備える情報処理装置。
Based on an operation log in which a function executed in response to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the instruction word input by the user. a search unit for searching for the function that has been obtained;
and a response control unit that executes the retrieved function and outputs a response to the user.
前記ユーザによる前記操作に応じて実行した前記機能をクラスタリングすることによって、複数の前記機能からなるシーケンスを生成し、前記シーケンスと前記コンテキストとを対応付けて前記操作ログに記録する記録制御部をさらに備える
請求項1に記載の情報処理装置。
a recording control unit that clusters the functions executed according to the operation by the user to generate a sequence composed of a plurality of the functions, associates the sequence with the context, and records the operation log; The information processing apparatus according to claim 1 .
前記ユーザの状況を含む前記コンテキストを認識する認識処理部をさらに備える
請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, further comprising a recognition processing unit that recognizes the context including the user's situation.
前記認識処理部は、前記ユーザの状況として、日時、場所、前記ユーザが行っているタスク、前記ユーザの感情、前記ユーザの周辺の環境の雰囲気、および、前記ユーザの行動のうちの少なくともいずれかを認識する
請求項3に記載の情報処理装置。
The recognition processing unit determines, as the user's situation, at least one of a date and time, a place, a task being performed by the user, an emotion of the user, an atmosphere of an environment around the user, and an action of the user. The information processing apparatus according to claim 3, which recognizes the.
所定の出来事を前記ユーザに体験させるための処理を実行し、前記コンテキストを生成するコンテキスト生成部をさらに備える
請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, further comprising a context generation unit that executes processing for causing the user to experience a predetermined event and generates the context.
前記コンテキスト生成部は、前記操作が行われることに応じて、前記コンテキストを生成する
請求項5に記載の情報処理装置。
The information processing apparatus according to claim 5, wherein the context generation unit generates the context in response to the operation being performed.
前記コンテキスト生成部は、前記ユーザが行っているタスク上のイベントを発生するための処理を行い、前記イベントに関する情報を前記コンテキストとして記録させる
請求項5に記載の情報処理装置。
6. The information processing apparatus according to claim 5, wherein the context generation unit performs processing for generating an event on the task being performed by the user, and records information about the event as the context.
前記コンテキスト生成部は、前記ユーザがコミュニケーションをとっている対象の行動を変化させるための処理を行い、前記行動に関する情報を前記コンテキストとして記録させる
請求項5に記載の情報処理装置。
The information processing apparatus according to claim 5, wherein the context generation unit performs processing for changing behavior of a target with whom the user is communicating, and records information about the behavior as the context.
前記検索部は、前記シーケンスを定義した複数のテンプレートのうち、前記ユーザによる入力の意図に応じた前記テンプレートに定義された前記シーケンスと同じ前記シーケンスであって、前記指示語が指し示す前記コンテキストと対応付けて記録された前記シーケンスを検索する
請求項2に記載の情報処理装置。
The search unit selects the sequence that is the same as the sequence defined in the template corresponding to the intention of the input by the user, among a plurality of templates that define the sequence, and that corresponds to the context indicated by the referent. 3. The information processing apparatus according to claim 2, wherein the sequence recorded with the sequence is retrieved.
前記検索部は、検索結果の前記シーケンスが複数ある場合、それぞれの前記シーケンスに関する情報を提示し、
前記応答制御部は、前記ユーザにより指定された前記シーケンスを構成する複数の前記機能を実行する
請求項9に記載の情報処理装置。
the search unit, if there are a plurality of the sequences of search results, presents information about each of the sequences;
10. The information processing apparatus according to claim 9, wherein said response control unit executes a plurality of said functions constituting said sequence specified by said user.
前記検索部は、前記シーケンスに関する情報として、それぞれの前記コンテキストの差分を表す情報を提示する
請求項10に記載の情報処理装置。
The information processing apparatus according to claim 10, wherein the search unit presents information representing a difference between the contexts as the information about the sequences.
前記応答制御部は、前記コンテキストと対応付けて記録された前記シーケンスを構成する複数の前記機能を実行する
請求項2に記載の情報処理装置。
The information processing apparatus according to claim 2, wherein the response control unit executes a plurality of the functions constituting the sequence recorded in association with the context.
前記ユーザによる前記操作は、音声により行われる
請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the operation by the user is performed by voice.
情報処理装置が、
ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索し、
検索した前記機能を実行し、前記ユーザに対する応答を出力させる
情報処理方法。
The information processing device
Based on an operation log in which a function executed in response to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the instruction word input by the user. Search for the function that is specified,
An information processing method for executing the retrieved function and outputting a response to the user.
コンピュータに、
ユーザによる操作に応じて実行した機能と、前記操作が行われた時のコンテキストとを対応付けて記録した操作ログに基づいて、前記ユーザにより入力された指示語が指し示す前記コンテキストと対応付けて記録された前記機能を検索し、
検索した前記機能を実行し、前記ユーザに対する応答を出力させる
処理を実行させるためのプログラム。
to the computer,
Based on an operation log in which a function executed in response to an operation by a user and a context when the operation is performed are recorded in association with each other and recorded in association with the context indicated by the instruction word input by the user. Search for the function that is specified,
A program for executing a process of executing the retrieved function and outputting a response to the user.
JP2020533404A 2018-07-31 2019-07-17 Information processing device, information processing method, and program Active JP7290154B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018143252 2018-07-31
JP2018143252 2018-07-31
PCT/JP2019/028009 WO2020026799A1 (en) 2018-07-31 2019-07-17 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JPWO2020026799A1 JPWO2020026799A1 (en) 2021-08-19
JP7290154B2 true JP7290154B2 (en) 2023-06-13

Family

ID=69230925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020533404A Active JP7290154B2 (en) 2018-07-31 2019-07-17 Information processing device, information processing method, and program

Country Status (3)

Country Link
US (1) US20210295836A1 (en)
JP (1) JP7290154B2 (en)
WO (1) WO2020026799A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022161078A (en) * 2021-04-08 2022-10-21 京セラドキュメントソリューションズ株式会社 Information processing device, information processing method and information processing program
US12014547B2 (en) * 2021-09-07 2024-06-18 Nvidia Corporation Event information extraction from game logs using natural language processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016067765A1 (en) 2014-10-27 2016-05-06 ソニー株式会社 Information processing device, information processing method, and computer program
WO2016190126A1 (en) 2015-05-28 2016-12-01 ソニー株式会社 Information processing device, information processing method, and program
JP2017535823A (en) 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド Voice and connectivity platform
JP2018502358A (en) 2014-11-06 2018-01-25 マイクロソフト テクノロジー ライセンシング,エルエルシー Context-based actions in the voice user interface

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3973496B2 (en) * 2002-06-19 2007-09-12 株式会社リコー User interaction support device in groupware
US20140115456A1 (en) * 2012-09-28 2014-04-24 Oracle International Corporation System for accessing software functionality
US9754591B1 (en) * 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
JP6683127B2 (en) * 2014-08-01 2020-04-15 ソニー株式会社 Information processing apparatus, information processing method, and program
US10418032B1 (en) * 2015-04-10 2019-09-17 Soundhound, Inc. System and methods for a virtual assistant to manage and use context in a natural language dialog
US10514752B2 (en) * 2016-07-07 2019-12-24 Google Llc Methods and apparatus to determine objects to present in virtual reality environments
US20180336045A1 (en) * 2017-05-17 2018-11-22 Google Inc. Determining agents for performing actions based at least in part on image data
US10553204B2 (en) * 2017-12-21 2020-02-04 International Business Machines Corporation Personalization of conversational agents through macro recording

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017535823A (en) 2014-10-01 2017-11-30 エクスブレイン・インコーポレーテッド Voice and connectivity platform
WO2016067765A1 (en) 2014-10-27 2016-05-06 ソニー株式会社 Information processing device, information processing method, and computer program
JP2018502358A (en) 2014-11-06 2018-01-25 マイクロソフト テクノロジー ライセンシング,エルエルシー Context-based actions in the voice user interface
WO2016190126A1 (en) 2015-05-28 2016-12-01 ソニー株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
US20210295836A1 (en) 2021-09-23
WO2020026799A1 (en) 2020-02-06
JPWO2020026799A1 (en) 2021-08-19

Similar Documents

Publication Publication Date Title
KR102429436B1 (en) Server for seleting a target device according to a voice input, and controlling the selected target device, and method for operating the same
US6526395B1 (en) Application of personality models and interaction with synthetic characters in a computing system
JP7243625B2 (en) Information processing device and information processing method
CN110782900B (en) Collaborative AI storytelling
KR20220024557A (en) Detection and/or registration of hot commands to trigger response actions by automated assistants
US20200251089A1 (en) Contextually generated computer speech
CN110634483A (en) Man-machine interaction method and device, electronic equipment and storage medium
US11043216B2 (en) Voice feedback for user interface of media playback device
CN108228132A (en) Promote the establishment and playback of audio that user records
JP2004527809A (en) Environmentally responsive user interface / entertainment device that simulates personal interaction
US20220059122A1 (en) Providing emotion management assistance
JP6122792B2 (en) Robot control apparatus, robot control method, and robot control program
JP2018525691A (en) Human computer interaction method and system based on knowledge map
JP7290154B2 (en) Information processing device, information processing method, and program
US20190248001A1 (en) Conversation output system, conversation output method, and non-transitory recording medium
CN108140030A (en) Conversational system, terminal, the method for control dialogue and the program for making computer performance conversational system function
WO2019239656A1 (en) Information processing device and information processing method
WO2020039702A1 (en) Information processing device, information processing system, information processing method, and program
CN109460548B (en) Intelligent robot-oriented story data processing method and system
JP2000207214A (en) Interaction device
US11145306B1 (en) Interactive media system using audio inputs
WO2019244455A1 (en) Information processing device and information processing method
US20230154498A1 (en) System and method for providing advanced content interactivity features
JP6962849B2 (en) Conference support device, conference support control method and program
CN109377988B (en) Interaction method, medium and device for intelligent loudspeaker box and computing equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230515

R151 Written notification of patent or utility model registration

Ref document number: 7290154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151