JP2018165746A - Interaction device, interaction control method and program - Google Patents

Interaction device, interaction control method and program Download PDF

Info

Publication number
JP2018165746A
JP2018165746A JP2017062474A JP2017062474A JP2018165746A JP 2018165746 A JP2018165746 A JP 2018165746A JP 2017062474 A JP2017062474 A JP 2017062474A JP 2017062474 A JP2017062474 A JP 2017062474A JP 2018165746 A JP2018165746 A JP 2018165746A
Authority
JP
Japan
Prior art keywords
response
user
candidate
input
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017062474A
Other languages
Japanese (ja)
Inventor
道大 二瓶
Michio Nihei
道大 二瓶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2017062474A priority Critical patent/JP2018165746A/en
Publication of JP2018165746A publication Critical patent/JP2018165746A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an interaction device capable of improving a satisfaction level of communication.SOLUTION: An interaction device 100 is an interaction device which takes communication with a user and comprises: a response selection section 113 which performs a plurality of processing for generating a response candidate for input from the user in parallel and selects the response candidate with the highest evaluation value among the plurality of obtained response candidates; and a voice output section 150 for outputting the response candidate which the response selection section 113 has selected as a response to the input from the user.SELECTED DRAWING: Figure 1

Description

本発明は、対話装置、対話制御方法及びプログラムに関する。   The present invention relates to a dialogue apparatus, a dialogue control method, and a program.

ユーザとコミュニケーションをとる対話装置に関する技術が広く知られている。例えば、特許文献1は、ユーザから発せられた音声に基づいてその発話内容を認識し、適切に応答するための対話装置を開示している。   A technology related to a dialog device that communicates with a user is widely known. For example, Patent Document 1 discloses an interactive device for recognizing the utterance content based on a voice uttered by a user and appropriately responding.

特開2015−138147号公報JP2015-138147A

しかし、特許文献1が開示する対話装置は、応答に対するユーザの反応が得られない場合には、ユーザに対して応答に対する更なる発話を要求する応答処理を実行するため、ユーザは、滞りなく自己の発話に対する適切な応答を得ることができず、対話装置とのコミュニケーションに対して不満を抱く可能性がある。   However, when the user's response to the response cannot be obtained, the dialog device disclosed in Patent Document 1 executes a response process for requesting the user to further utter the response. May not be able to obtain an appropriate response to the utterance, and may be dissatisfied with the communication with the dialogue apparatus.

本発明は、上述のような事情に鑑みてなされたものであり、コミュニケーションの満足度を向上させることができる対話装置等を提供することを目的とする。   The present invention has been made in view of the circumstances as described above, and an object thereof is to provide an interactive apparatus and the like that can improve the satisfaction of communication.

上記の目的を達成するため、本発明に係る対話装置は、
ユーザとコミュニケーションをとる対話装置であって、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、得られた複数の応答候補のうち最も評価値の高い応答候補を選定する応答選定手段と、
前記応答選定手段が選定した応答候補を前記ユーザからの入力に対する応答として出力する出力手段と、を備える。
In order to achieve the above object, an interactive apparatus according to the present invention provides:
An interactive device that communicates with a user,
A plurality of processes for creating response candidates for the input from the user in parallel, and a response selection means for selecting a response candidate with the highest evaluation value among the obtained plurality of response candidates;
Output means for outputting the response candidate selected by the response selection means as a response to the input from the user.

本発明によれば、コミュニケーションの満足度を向上させることができる対話装置等を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the interactive apparatus etc. which can improve the satisfaction of communication can be provided.

本発明の実施の形態に係る対話装置の構成を示すブロック図である。It is a block diagram which shows the structure of the dialogue apparatus which concerns on embodiment of this invention. 応答情報テーブルの一例を示す図である。It is a figure which shows an example of a response information table. 対話履歴テーブルの一例を示す図である。It is a figure which shows an example of a dialogue history table. 応答処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a response process. 実施の形態2に係る応答情報テーブルの一例を示す図である。It is a figure which shows an example of the response information table which concerns on Embodiment 2.

以下、本発明の実施の形態に係る対話装置について、図面を参照しながら説明する。   Hereinafter, an interactive apparatus according to an embodiment of the present invention will be described with reference to the drawings.

(実施の形態1)
本実施の形態に係る対話装置100は、ユーザの発話に対して適切な応答を出力することにより、ユーザとコミュニケーションをとる装置である。ここで、ユーザと対話装置100とがコミュニケーションをとるための手段としては、映像、文字、音声等を用いた各種の交流手段が適用可能であるが、本実施の形態では、音声を用いて両者がコミュニケーションをとる例について説明する。
(Embodiment 1)
Dialog device 100 according to the present embodiment is a device that communicates with a user by outputting an appropriate response to the user's utterance. Here, as a means for communication between the user and the dialogue apparatus 100, various AC means using video, characters, voice, and the like can be applied. An example of taking communication will be described.

対話装置100は、図1に示すように、制御部110、記憶部120、センサ部130、音声入力部140、音声出力部150、通信部160を備える。これらの各部位は、バスラインBLを介して相互に電気的に接続されている。   As shown in FIG. 1, the dialogue apparatus 100 includes a control unit 110, a storage unit 120, a sensor unit 130, a voice input unit 140, a voice output unit 150, and a communication unit 160. Each of these parts is electrically connected to each other via a bus line BL.

制御部110は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を有するコンピュータから構成される。制御部110は、ROMに記憶された各種の動作プログラムを読み出してRAM上で実行することにより、対話装置100の各構成部位を制御する。   The control unit 110 includes a computer having a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like. The control unit 110 reads out various operation programs stored in the ROM and executes them on the RAM, thereby controlling each component of the interactive apparatus 100.

また、制御部110は、機能的には、音声認識部111、応答候補生成部112、応答選定部113、応答生成部114、反応判定部115を有する。制御部110は、これらの各部位を適宜機能させることにより、応答選定手段、応答候補作成手段、反応判定手段、類似評価手段として機能する。   Functionally, the control unit 110 includes a voice recognition unit 111, a response candidate generation unit 112, a response selection unit 113, a response generation unit 114, and a reaction determination unit 115. The control unit 110 functions as a response selection unit, a response candidate creation unit, a reaction determination unit, and a similarity evaluation unit by appropriately functioning these parts.

音声認識部111は、音声入力部140から取得した音声データに所定の音声認識処理を施して、ユーザの発話文をテキストデータに変換する。   The voice recognition unit 111 performs predetermined voice recognition processing on the voice data acquired from the voice input unit 140 to convert the user's utterance sentence into text data.

応答候補生成部112は、ユーザの発話に対する応答候補を生成する。応答候補生成部112は、応答情報データベースに格納された、ユーザの発話に対応付けられた複数の応答情報からそれぞれ応答候補を抽出する応答候補抽出部112a〜112cを有する。応答候補抽出部112a〜112cは、互いに異なる抽出アルゴリズムに基づいてそれぞれ単一の応答候補を抽出する。また、応答候補抽出部112a〜112cは、別個のスレッドにより応答候補の抽出処理を並列に実行する。応答候補抽出部112a〜112cは、互いに異なる評価基準に従ってユーザの発話に対応する各応答情報の評価値を算出して応答候補を作成する複数の応答候補作成手段として機能する。   The response candidate generation unit 112 generates response candidates for the user's utterance. The response candidate generation unit 112 includes response candidate extraction units 112a to 112c that extract response candidates from a plurality of response information stored in the response information database and associated with the user's utterance. The response candidate extraction units 112a to 112c each extract a single response candidate based on different extraction algorithms. Further, the response candidate extraction units 112a to 112c execute response candidate extraction processing in parallel by separate threads. The response candidate extraction units 112a to 112c function as a plurality of response candidate creation units that create response candidates by calculating an evaluation value of each response information corresponding to the user's utterance according to different evaluation criteria.

ここで、応答候補抽出部112aは第1抽出アルゴリズム、応答候補抽出部112bは第2抽出アルゴリズム、応答候補抽出部112cは第3抽出アルゴリズムに基づいて各々応答候補に対する評価値を算出して応答候補を抽出するものとする。評価値は、応答候補を抽出する際の度合いを規定する指標として用いられる。   Here, the response candidate extraction unit 112a calculates an evaluation value for each response candidate based on the first extraction algorithm, the response candidate extraction unit 112b calculates the second extraction algorithm, and the response candidate extraction unit 112c calculates a response candidate based on the third extraction algorithm. Shall be extracted. The evaluation value is used as an index that defines the degree at which response candidates are extracted.

第1抽出アルゴリズムは、ユーザの発話に含まれる単語を、予め用意されたテンプレートに当てはめることにより応答文を作成し、作成した応答文と応答情報テーブルの応答情報との一致率に応じて評価値を算出することにより、応答候補を抽出する。第1抽出アルゴリズムでは、例えば、ユーザの「今日は良い天気だね」という発話から「良い」と「天気」という単語が抽出され、「形容詞+名詞+ですね」というテンプレートに当てはめることにより、「良い天気ですね」という応答文が作成される。   The first extraction algorithm creates a response sentence by applying words included in the user's utterance to a template prepared in advance, and an evaluation value according to the matching rate between the created response sentence and the response information in the response information table By calculating, response candidates are extracted. In the first extraction algorithm, for example, the words “good” and “weather” are extracted from the user's utterance “Today is good weather” and applied to the template “adjective + noun + is”, “It ’s good weather”.

第2抽出アルゴリズムは、ユーザの発話に含まれる単語と共起性の高い単語を多く含む応答情報の評価値が高くなるように算定する。単語の共起関係については、共起情報を記憶部120の所定の領域に記憶しておいてもよいし、インターネット検索により適宜取得するようにしてもよい。   The second extraction algorithm calculates so that the evaluation value of response information including many words having high co-occurrence with words included in the user's utterance is high. Regarding the word co-occurrence relationship, the co-occurrence information may be stored in a predetermined area of the storage unit 120 or may be appropriately acquired by Internet search.

第3抽出アルゴリズムは、ユーザの発話に含まれる単語を基に検索クエリを作成し、インターネット検索による検索結果との一致率が高い応答情報の評価値が高くなるように算定する。   The third extraction algorithm creates a search query based on the words included in the user's utterance, and calculates so that the evaluation value of the response information having a high matching rate with the search result by the Internet search is high.

各抽出アルゴリズムは、各応答情報の評価値と重み値とを加算した総合評価値に基づいて応答候補を抽出する。なお、総合評価値が最高である応答情報が応答候補として常に抽出されるものではなく、相対的に評価値が高い応答情報が抽出される確率を高めるように構成してもよい。また、応答候補生成部112は、応答候補抽出部112a〜112cの3つを有するものとして説明するが、これに限られず、任意の数の応答候補抽出部が本実施の形態に適用可能である。   Each extraction algorithm extracts a response candidate based on a comprehensive evaluation value obtained by adding the evaluation value and weight value of each response information. Note that the response information with the highest overall evaluation value is not always extracted as a response candidate, and the probability that response information with a relatively high evaluation value is extracted may be increased. Moreover, although the response candidate production | generation part 112 demonstrates as what has three of the response candidate extraction parts 112a-112c, it is not restricted to this, Arbitrary numbers of response candidate extraction parts are applicable to this Embodiment. .

応答選定部113は、ユーザの発話に対する応答として、応答候補生成部112から提示された所定数の応答候補からユーザの発話に対する応答候補を選定する。より具体的には、応答選定部113は、所定数の応答候補に対応付けられた評価値を周知の手法により正規化する。これにより、異なる抽出アルゴリズムに基づいて算出された各評価値を同等に取り扱い、これらを比較することが可能となる。応答選定部113は、正規化された評価値が最も高い応答候補をユーザの発話に対する応答として選定する。また、応答選定部113は、反応判定部115による判定結果が所定の条件を満たさない場合には、所定数の応答候補から新たな応答候補を選定する。   The response selection unit 113 selects a response candidate for the user's utterance from a predetermined number of response candidates presented from the response candidate generation unit 112 as a response to the user's utterance. More specifically, the response selection unit 113 normalizes evaluation values associated with a predetermined number of response candidates by a known method. Thereby, it is possible to treat each evaluation value calculated based on different extraction algorithms equally and compare them. The response selection unit 113 selects a response candidate having the highest normalized evaluation value as a response to the user's utterance. Moreover, the response selection part 113 selects a new response candidate from a predetermined number of response candidates, when the determination result by the reaction determination part 115 does not satisfy | fill predetermined conditions.

応答生成部114は、応答選定部113により選定された応答データに音声合成処理を施して応答音声データを生成し、音声出力部150に出力する。   The response generation unit 114 performs a voice synthesis process on the response data selected by the response selection unit 113 to generate response voice data, and outputs the response voice data to the voice output unit 150.

反応判定部115は、対話装置100の応答に対するユーザの反応を判定する。反応判定部115は、例えば、対話装置100の応答の出力後に音声入力部140やセンサ部130を介して取得したユーザの発話の内容やユーザの表情の変化等に基づいて、「良好」(肯定的判定)、「普通」、「不良」(否定的判定)の3段階で対話装置100の応答に対するユーザの反応を判定する。   The response determination unit 115 determines a user's response to the response from the interactive apparatus 100. For example, the response determination unit 115 determines “good” (affirmative) based on the content of the user's utterance acquired through the voice input unit 140 or the sensor unit 130 or the change in the user's facial expression after outputting the response of the interactive device 100. The user's response to the response of the interactive device 100 is determined in three stages of “normal determination”, “normal”, and “bad” (negative determination).

反応判定部115は、例えば、ユーザの発話の内容が肯定的なもの(例えば、「そう、そう」、「なるほど」等)であったり、満足そうな表情に変化した場合には、ユーザの反応を「良好」と判定する。一方、所定時間内にユーザの反応を検出しない場合や、ユーザの発話の内容が否定的なもの(例えば、「え?」、「ん?」、「そうじゃなくて」等)であったり、不機嫌そうな表情に変化した場合には、ユーザの反応を「不良」と判定する。ユーザの反応の判定には、対話装置100が応答を出力してからユーザの反応を検出するまでの経過時間の長短等を考慮してもよい。   For example, when the content of the user's utterance is affirmative (for example, “Yes, yes”, “I see”, etc.) or when the expression changes to a satisfactory expression, the response determination unit 115 Is determined as “good”. On the other hand, when the user's reaction is not detected within a predetermined time, or the content of the user's utterance is negative (for example, “e?”, “N?”, “Not so”), If the expression changes to moody, the user's reaction is determined to be “bad”. The determination of the user's reaction may take into account the length of the elapsed time from when the interactive device 100 outputs a response until the user's reaction is detected.

応答選定部113は、ユーザの発話に対する応答として出力した応答情報の評価値に対して反応判定部115による判定結果を反映(フィードバック)する。応答選定部113は、例えば、判定結果が良好であった応答情報の重み値を増加させ、判定結果が不良であった応答情報の重み値を減少させる。   The response selection unit 113 reflects (feeds back) the determination result by the reaction determination unit 115 to the evaluation value of the response information output as a response to the user's utterance. For example, the response selection unit 113 increases the weight value of the response information with a good determination result and decreases the weight value of the response information with a bad determination result.

また、応答選定部113は、反応判定部115による判定結果が所定の条件を満たさない場合には、新たな応答候補を選定する。本実施の形態では、所定の条件を判定結果が「良好」であることと規定し、応答選定部113は、反応判定部115による判定結果が「良好」以外である場合、すなわち、判定結果が「普通」または「不良」の場合には、新たな応答候補を選定するものとする。   Moreover, the response selection part 113 selects a new response candidate, when the determination result by the reaction determination part 115 does not satisfy | fill predetermined conditions. In the present embodiment, the predetermined condition is defined as that the determination result is “good”, and the response selection unit 113 determines that the determination result by the reaction determination unit 115 is other than “good”, that is, the determination result is In the case of “normal” or “bad”, a new response candidate is selected.

記憶部120は、記憶内容が書き換え可能な不揮発性の半導体メモリ、ハードディスクドライブ等から構成され、例えば、ユーザの発話に対する応答情報を格納する応答情報データベース、ユーザと対話装置100との対話履歴を格納する対話履歴データベース等の各種データを記憶する。   The storage unit 120 includes a non-volatile semiconductor memory, a hard disk drive, or the like that can be rewritten, and stores, for example, a response information database that stores response information for a user's utterance, and a dialog history between the user and the dialog device 100. Various data such as a dialogue history database is stored.

応答情報データベースは、例えば、図2に示す応答情報テーブルから構成される。この応答情報テーブルは、ユーザの発話ごとにその応答情報を管理するためのテーブルである。応答情報テーブルは、具体的には、図2に示すように、ユーザ発話、応答情報、総合評価値が対応付けられている。総合評価値は、抽出アルゴリズム(図2ではアルゴリズムを「AL」と表記)毎に評価値と重み値(図2では各セルの右下に表記)を含む。評価値は、応答候補抽出部112a〜112cがユーザの発話に対する応答候補を抽出する際に算出された数値であり、ユーザの発話に対して新たな応答候補を抽出するごとに更新される。また、重み値は、各応答情報の相対的な重要度を定量評価した数値である。この重み値は、例えば、応答情報がユーザの発話に対する応答として出力された際のユーザの反応に応じて増減される。なお、ユーザ発話および応答情報は、ユーザの発話文および対話装置100の応答文そのものがテキストデータの形式で格納されているものとする。   The response information database is composed of, for example, a response information table shown in FIG. This response information table is a table for managing the response information for each user utterance. Specifically, as shown in FIG. 2, the response information table is associated with user utterances, response information, and comprehensive evaluation values. The total evaluation value includes an evaluation value and a weight value (indicated at the lower right of each cell in FIG. 2) for each extraction algorithm (in FIG. 2, the algorithm is expressed as “AL”). The evaluation value is a numerical value calculated when the response candidate extraction units 112a to 112c extract response candidates for the user's utterance, and is updated each time a new response candidate is extracted for the user's utterance. The weight value is a numerical value obtained by quantitatively evaluating the relative importance of each response information. This weight value is increased or decreased according to a user's reaction when response information is output as a response to the user's utterance, for example. Note that the user utterance and response information are assumed to be stored in the form of text data of the user's utterance and the response of the dialogue apparatus 100 itself.

対話履歴データベースは、例えば、図3に示す対話履歴テーブルから構成される。この対話履歴テーブルは、ユーザと対話装置100との間で取り交わされた一連の対話を記憶するためのテーブルである。対話履歴テーブルは、具体的には、図3に示すように、発話の順序を示す「対話通番」、発話の日時を示す「発話日時」、発話の主体を示す「発話区別」、発話の内容を示す「発話内容」が対応付けられている。なお、発話内容は、ユーザの発話文および対話装置100の応答文そのものがテキストデータの形式で格納されているものとする。   The dialog history database is composed of, for example, a dialog history table shown in FIG. The dialogue history table is a table for storing a series of dialogues exchanged between the user and the dialogue apparatus 100. Specifically, as shown in FIG. 3, the dialogue history table includes a “dialogue serial number” indicating the order of utterances, an “utterance date” indicating the date and time of utterance, an “utterance distinction” indicating the subject of the utterance, and the content of the utterance. "Speech contents" indicating that As for the utterance content, it is assumed that the user's utterance sentence and the response sentence itself of the dialogue apparatus 100 are stored in the form of text data.

センサ部130は、カメラ、赤外線センサ、放射温度計等から構成され、ユーザやその周囲の状態等を検出する。例えば、センサ部130は、カメラでユーザの顔を撮像し、表情の変化や口の形状等に基づいて対話装置100の応答に対するユーザの反応を示す各種情報を検出する。   The sensor unit 130 includes a camera, an infrared sensor, a radiation thermometer, and the like, and detects a user and a surrounding state thereof. For example, the sensor unit 130 captures an image of the user's face with a camera and detects various types of information indicating the user's response to the response of the dialogue apparatus 100 based on changes in facial expressions, mouth shapes, and the like.

音声入力部140は、例えば、マイクロフォン、AD(Analog to Digital)コンバータ等で構成され、ユーザから発せられた発話音声を取り込み、この発話音声をデジタル信号の発話データ(音声データ)に変換して、音声認識部111に出力する。   The voice input unit 140 is composed of, for example, a microphone, an AD (Analog to Digital) converter, and the like. The voice input unit 140 captures a voice spoken by a user, converts the voice into voice data (voice data) of a digital signal, Output to the voice recognition unit 111.

音声出力部150は、例えば、スピーカ、DA(Digital to Analog)コンバータ等で構成され、制御部110の制御の下、応答データ(音声データ)をアナログ信号の音声データに変換して、ユーザの発話に対する応答として出力する。   The audio output unit 150 is configured by, for example, a speaker, a DA (Digital to Analog) converter, and the like, under the control of the control unit 110, converts response data (audio data) into audio data of an analog signal, and utters the user. Is output as a response to.

通信部160は、インターネット等のネットワークNWに接続して外部機器とデータ通信をするためのネットワークカード、アンテナ等から構成される。通信部160は、制御部110の制御に従って、インターネット上で提供されるWeb(World Wide Web)検索サービスから検索要求を送信し、その応答として検索結果を受信する。   The communication unit 160 includes a network card, an antenna, and the like for connecting to a network NW such as the Internet and performing data communication with an external device. The communication unit 160 transmits a search request from a Web (World Wide Web) search service provided on the Internet under the control of the control unit 110, and receives a search result as a response.

次に、図4に示すフローチャートを参照しながら、対話装置100の制御部110が実行する応答処理について説明する。応答処理は、ユーザの発話に対して応答するための処理である。   Next, response processing executed by the control unit 110 of the interactive apparatus 100 will be described with reference to the flowchart shown in FIG. The response process is a process for responding to the user's utterance.

制御部110は、音声入力部140を介して、ユーザの発話音声を取得したことに応答して、応答処理の実行を開始する。制御部110は、応答処理を開始すると、まず、ユーザの発話内容を特定する(ステップS101)。より具体的には、制御部110の音声認識部111は、音声入力部140を介して取得したユーザの発話データに音声認識処理を施して取得したテキストデータを解析し、このテキストデータに含まれる単語を抽出する。そして、音声認識部111は、応答情報データベース内の応答情報テーブルを参照し、抽出した単語およびそれらの組合せと合致または近似するユーザ発話を特定する。   In response to the acquisition of the user's uttered voice via the voice input unit 140, the control unit 110 starts executing response processing. When starting the response process, the control unit 110 first identifies the user's utterance content (step S101). More specifically, the voice recognition unit 111 of the control unit 110 analyzes the text data obtained by performing voice recognition processing on the user's utterance data obtained via the voice input unit 140, and is included in the text data. Extract words. Then, the speech recognition unit 111 refers to the response information table in the response information database, and identifies user utterances that match or approximate the extracted words and combinations thereof.

次に、制御部110は、ユーザの発話に対する応答候補を生成する(ステップS102)。制御部110の応答候補生成部112が有する応答候補抽出部112a〜112cが、各々、応答情報テーブルを参照して、第1〜第3抽出アルゴリズムに基づいて、ステップS101において特定されたユーザ発話に対応付けられた複数の応答情報から単一の応答情報を応答候補として抽出することにより、ユーザの発話に対する応答候補を生成する。応答候補抽出部112a〜112cによる応答候補の抽出は、3つのスレッドを同時実行させて並列に処理される。   Next, the control part 110 produces | generates the response candidate with respect to a user's utterance (step S102). The response candidate extraction units 112a to 112c included in the response candidate generation unit 112 of the control unit 110 refer to the response information table, respectively, to the user utterance specified in step S101 based on the first to third extraction algorithms. By extracting single response information as a response candidate from a plurality of associated response information, a response candidate for the user's utterance is generated. Response candidate extraction by the response candidate extraction units 112a to 112c is performed in parallel by simultaneously executing three threads.

ステップS102の処理を実行した後、制御部110は、ステップS102において生成された3つの応答候補からユーザの発話に対する応答として今回出力する応答候補を選定する(ステップS103)。制御部110の応答選定部113は、応答候補生成部112が生成した3つの応答候補の総合評価値を比較し、この総合評価値が最大の応答候補を選定する。   After executing the process of step S102, the control unit 110 selects a response candidate to be output this time as a response to the user's utterance from the three response candidates generated in step S102 (step S103). The response selection unit 113 of the control unit 110 compares the total evaluation values of the three response candidates generated by the response candidate generation unit 112, and selects the response candidate having the maximum total evaluation value.

続いて、制御部110は、ステップS103において選定した応答候補を出力する(ステップS104)。制御部110の応答生成部114は、応答選定部113により選定された応答候補の応答データに音声合成処理を施して音声データを生成し、音声出力部150に出力する。制御部110は、音声出力部150を制御して、応答音声を出力する。   Subsequently, the control unit 110 outputs the response candidate selected in step S103 (step S104). The response generation unit 114 of the control unit 110 performs voice synthesis processing on the response data of the response candidate selected by the response selection unit 113 to generate voice data, and outputs the voice data to the voice output unit 150. The control unit 110 controls the voice output unit 150 to output a response voice.

制御部110は、応答音声を出力した後、反応待機時間の計測を開始する(ステップS105)。制御部110は、例えば、CPUに内蔵されたタイマのカウントをスタートさせ、応答音声を出力してからこの応答音声に対するユーザの反応を検出するまでの経過時間を計測する。   After outputting the response voice, control unit 110 starts measuring the reaction waiting time (step S105). For example, the control unit 110 starts counting of a timer built in the CPU, and measures an elapsed time from when a response voice is output until a user reaction to the response voice is detected.

反応待機時間の計測を開始した後、制御部110は、ユーザの反応を検出したか否かを判定する(ステップS106)。制御部110は、音声入力部140やセンサ部130を介して、ユーザの発話音声や表情の変化を検出したか否かに応じて、応答音声に対するユーザの反応の検出の有無を判定する。   After starting the measurement of the reaction waiting time, the control unit 110 determines whether or not a user reaction has been detected (step S106). The control unit 110 determines whether or not the user's reaction to the response voice has been detected according to whether or not a change in the user's utterance voice or facial expression is detected via the voice input unit 140 or the sensor unit 130.

ユーザの反応を検出していないと判定した場合(ステップS106;NO)、制御部110は、反応待機時間の計測を開始した後、所定時間(例えば、10秒)が経過したか否かを判定する(ステップS107)。所定時間が経過していないと判定した場合(ステップS107;NO)、制御部110は、処理をステップS106に戻し、ユーザの反応の検出を確認する。一方、所定時間が経過したと判定した場合(ステップS107;YES)、制御部110は、処理をステップS111に進める。   When it is determined that the user's reaction has not been detected (step S106; NO), the control unit 110 determines whether or not a predetermined time (for example, 10 seconds) has elapsed after starting the measurement of the reaction standby time. (Step S107). When it determines with predetermined time not having passed (step S107; NO), the control part 110 returns a process to step S106, and confirms the detection of a user's reaction. On the other hand, when it determines with predetermined time having passed (step S107; YES), the control part 110 advances a process to step S111.

ユーザの反応を検出したと判定した場合(ステップS106;YES)、制御部110は、ユーザの反応が良好であるか否かを判定する(ステップS108)。制御部110の反応判定部115は、音声入力部140やセンサ部130が検出したユーザの反応を示す各種データに基づいて、ステップS104において出力した応答に対するユーザの反応を判定する。制御部110は、この判定結果に応じてユーザの反応が良好であるか否かを判定する。   When it is determined that the user's reaction has been detected (step S106; YES), the control unit 110 determines whether or not the user's reaction is good (step S108). The response determination unit 115 of the control unit 110 determines a user response to the response output in step S104 based on various data indicating the user response detected by the voice input unit 140 and the sensor unit 130. The control unit 110 determines whether or not the user's reaction is good according to the determination result.

ユーザの反応が良好ではないと判定した場合(ステップS108;NO)、制御部110は、全ての応答候補が出力されたか否かを判定する(ステップS109)。ステップS102において生成された3つの応答候補が全て出力されていないと判定した場合(ステップS109;NO)、制御部110は、反応待機時間の計測を停止し(ステップS110)、処理をステップS103に戻す。これにより、制御部110の応答選定部113によって新たな応答候補が選択されて出力される。   When it determines with a user's reaction not being favorable (step S108; NO), the control part 110 determines whether all the response candidates were output (step S109). When it is determined that all three response candidates generated in step S102 are not output (step S109; NO), the control unit 110 stops measuring the reaction waiting time (step S110), and the process proceeds to step S103. return. As a result, a new response candidate is selected and output by the response selection unit 113 of the control unit 110.

一方、ステップS102において生成された3つの応答候補が全て出力されたと判定した場合(ステップS109;YES)、制御部110は、反応待機時間の計測を停止し(ステップS111)、ユーザの反応の判定結果をフィードバックする(ステップS112)。制御部110の応答選定部113は、例えば、反応判定部115による判定結果が良好であった場合には、応答情報の重み値を増加させ、判定結果が不良であった場合には、応答情報の重み値を減少させる。その後、制御部110は、応答処理を終了する。   On the other hand, when it is determined that all the three response candidates generated in step S102 have been output (step S109; YES), the control unit 110 stops measuring the reaction waiting time (step S111) and determines the user's reaction The result is fed back (step S112). For example, the response selection unit 113 of the control unit 110 increases the weight value of the response information when the determination result by the reaction determination unit 115 is good, and the response information when the determination result is poor. Decrease the weight value of. Thereafter, the control unit 110 ends the response process.

以上に述べたように、本実施の形態によれば、対話装置100は、ユーザの発話に応じて、別個のスレッドを並行して実行して複数の応答候補を抽出し、そのうちの最適な応答候補を選定してユーザの発話に対する応答として出力する。また、出力した応答に対するユーザの反応が良好でない場合には、新たな応答候補を選定して出力する。このように、対話装置100によれば、ユーザの発話に対して即時に別の応答を実行することが可能であり、円滑なコミュニケーションを図ることができる。   As described above, according to the present embodiment, the dialogue apparatus 100 extracts a plurality of response candidates by executing separate threads in parallel according to the user's utterance, and the optimum response among them is extracted. A candidate is selected and output as a response to the user's utterance. If the user's response to the output response is not good, a new response candidate is selected and output. Thus, according to the interactive device 100, another response can be immediately executed in response to the user's utterance, and smooth communication can be achieved.

(実施の形態2)
上記の実施の形態1では、応答候補抽出部112a〜112cが、応答情報データベースを構成するユーザ発話と応答情報とが対応付けられた応答情報テーブルを参照して、異なる抽出アルゴリズムを用いてユーザの発話に対する応答候補を並列して抽出し、応答選定部113が、各応答候補の総合評価値に基づいて出力すべき応答候補を選定した。しかし、ユーザの発話に対して適切な応答候補を選定するための手法は、これに限られるものではない。本実施の形態では、ユーザの発話に対して適切な応答候補を選定するための他の手法について説明する。
(Embodiment 2)
In the first embodiment, the response candidate extraction units 112a to 112c refer to the response information table in which the user utterances and the response information constituting the response information database are associated with each other, and use the different extraction algorithms. Response candidates for utterances were extracted in parallel, and the response selection unit 113 selected response candidates to be output based on the overall evaluation value of each response candidate. However, the method for selecting an appropriate response candidate for the user's utterance is not limited to this. In the present embodiment, another method for selecting an appropriate response candidate for a user's utterance will be described.

本実施の形態では、応答候補抽出部112a〜112cは、ユーザの発話に対する応答候補とともに、応答に対する次のユーザの発話を予測する発話予測候補を抽出するように構成される。応答情報データベースは、例えば、図5に示す応答情報テーブルから構成される。この応答情報テーブルは、ユーザ発話と応答情報と発話予測情報と総合評価値とが対応付けられた応答情報テーブルから構成されている。発話予測情報の内容は、対応付けられた応答情報の内容と関連するものである。   In the present embodiment, the response candidate extraction units 112a to 112c are configured to extract an utterance prediction candidate that predicts the next user's utterance to the response together with a response candidate for the user's utterance. The response information database is composed of, for example, a response information table shown in FIG. This response information table includes a response information table in which user utterances, response information, utterance prediction information, and comprehensive evaluation values are associated with each other. The content of the utterance prediction information is related to the content of the associated response information.

応答候補抽出部112a〜112cは、この応答情報テーブルを参照して、ユーザの発話に対する応答候補とこれに対応する発話予測候補を抽出する。このとき、応答候補抽出部112a〜112cが応答候補と発話予測候補をそれぞれ抽出するための抽出アルゴリズムは、実施の形態1と同様のものを用いてもよいし、別途、異なる抽出アルゴリズムを用いてもよい。例えば、対話履歴データベースに記憶された過去の対話における応答頻度、ユーザの反応、ユーザの反応に伴う応答のやり直し等を参酌して応答候補を抽出するといった抽出アルゴリズムを適用してもよい。   The response candidate extraction units 112a to 112c refer to the response information table and extract response candidates for the user's utterances and corresponding utterance prediction candidates. At this time, the extraction algorithm for the response candidate extraction units 112a to 112c to extract the response candidate and the utterance prediction candidate may be the same as that of the first embodiment, or separately, using a different extraction algorithm. Also good. For example, an extraction algorithm may be applied in which response candidates are extracted in consideration of the response frequency in the past dialogue stored in the dialogue history database, the user's response, the re-response of the response accompanying the user's response, and the like.

応答選定部113は、応答候補抽出部112a〜112cがそれぞれ抽出した応答候補の総合評価値を周知の手法により正規化した上で、正規化された総合評価値が高い応答候補から順次選定し、応答生成部114および音声出力部150を介して応答候補が出力される。   The response selection unit 113 normalizes the overall evaluation values of the response candidates extracted by the response candidate extraction units 112a to 112c by a well-known method, and then sequentially selects response candidates with high normalized overall evaluation values, Response candidates are output via the response generation unit 114 and the audio output unit 150.

応答候補が出力された後、音声入力部140を介して応答に対するユーザの反応を示す発話を取得した場合、反応判定部115は、応答に対するユーザの発話と発話予測候補との類似性を評価する。例えば、応答に対するユーザの発話と発話予測候補との類似性が高いと評価した場合には、ユーザの発話に対して適切な応答がなされたものと判定される。一方、応答に対するユーザの発話と発話予測候補との類似性が低いと評価した場合には、ユーザの発話に対して適切でない応答がなされたものと判定される。また、応答選定部113は、ユーザの発話に対する応答として出力した応答情報および発話予測情報の評価値に対して評価結果を反映する。このように、反応判定部115は、類似評価手段として機能する。   When the utterance indicating the user's response to the response is acquired via the voice input unit 140 after the response candidate is output, the reaction determination unit 115 evaluates the similarity between the user's utterance and the utterance prediction candidate for the response. . For example, when it is evaluated that the similarity between the user's utterance and the utterance prediction candidate for the response is high, it is determined that an appropriate response is made to the user's utterance. On the other hand, when it is evaluated that the similarity between the user's utterance and the utterance prediction candidate is low, it is determined that an inappropriate response has been made to the user's utterance. Moreover, the response selection part 113 reflects an evaluation result with respect to the evaluation value of the response information and speech prediction information output as a response with respect to a user's speech. As described above, the reaction determination unit 115 functions as a similarity evaluation unit.

以上に述べたように、本実施の形態によれば、対話装置100は、センサ部130を介してユーザの表情の変化等に関する情報を取得することができなかった場合であっても、音声入力部140を介して応答に対するユーザの発話を取得することができれば、発話予測候補と比較することによって、応答が適切であったか否かを一義的に判定することが可能となる。   As described above, according to the present embodiment, the dialogue apparatus 100 can perform voice input even when information relating to a change in the facial expression of the user cannot be acquired via the sensor unit 130. If the user's utterance to the response can be acquired via the unit 140, it can be uniquely determined whether or not the response is appropriate by comparing with the utterance prediction candidate.

なお、本発明は、上記の実施の形態に限定されず、種々の変形及び応用が可能である。上記の実施の形態は、次のように変形されてもよい。   In addition, this invention is not limited to said embodiment, A various deformation | transformation and application are possible. The above embodiment may be modified as follows.

上記の実施の形態では、対話装置100は、自装置が備える応答候補抽出部112a〜112cが互いに異なる評価基準に従って評価値を算出することによってユーザの発話に対する応答候補をそれぞれ抽出する例について説明した。しかし、応答候補抽出部112a〜112cの各々の機能を、例えば、対話装置100とネットワークNWを介して通信可能に接続された複数の外部装置が分担して実行するように構成してもよい。また、例えば、応答選定部113や応答候補生成部112(応答候補抽出部112a〜112c)等の機能を、対話装置100とネットワークNWを介して通信可能に接続された単一の外部装置が一括して実行し、対話装置100はユーザの発話に対して出力すべき応答データのみを外部装置から取得するように構成してもよい。   In the above embodiment, the dialogue apparatus 100 has described an example in which the response candidate extraction units 112a to 112c included in the own apparatus each extract a response candidate for a user's utterance by calculating an evaluation value according to different evaluation criteria. . However, each function of the response candidate extraction units 112a to 112c may be configured to be shared and executed by, for example, a plurality of external devices that are communicably connected to the interactive device 100 via the network NW. In addition, for example, a single external device that is connected to the dialog device 100 via the network NW so that functions such as the response selection unit 113 and the response candidate generation unit 112 (response candidate extraction units 112a to 112c) can communicate with each other is collectively performed. The dialogue apparatus 100 may be configured to acquire only response data to be output in response to the user's utterance from the external apparatus.

上記の実施の形態では、おもに、ユーザの発話に対して適切に応答するための技術について説明した。しかし、このような技術は、対話装置100がユーザに対して能動的に発話する際にも適用可能である。例えば、対話装置100は、自己の自発的な発話に対するユーザの反応に応じて、対話装置100の次の発話の内容を適宜選定するように構成してもよい。   In the above-described embodiment, the technique for appropriately responding to the user's utterance has been mainly described. However, such a technique can also be applied when the interactive apparatus 100 actively speaks to the user. For example, the interactive device 100 may be configured to appropriately select the content of the next utterance of the interactive device 100 in accordance with the user's reaction to the spontaneous utterance of the interactive device 100.

上記の実施の形態では、応答候補抽出部112a〜112cは、同一の応答情報テーブルを参照して応答候補を抽出したが、応答候補抽出部112a〜112cがユーザ発話毎に異なる応答情報が対応付けられた応答情報テーブルを参照して、応答候補をそれぞれ抽出するように構成してもよい。   In the above embodiment, the response candidate extraction units 112a to 112c extract response candidates by referring to the same response information table, but the response candidate extraction units 112a to 112c associate different response information for each user utterance. The response candidates may be extracted by referring to the response information table.

上記の実施の形態では、ユーザの発話に対して適切に応答するための技術について説明した。しかし、このような技術は、対話装置100がユーザに対して自発的に発話する際にも適用可能である。例えば、対話装置100は、自己の自発的な発話に対するユーザの反応に応じて、対話装置100の次の発話の内容を適宜選定するように構成してもよい。   In the above embodiment, the technique for appropriately responding to the user's utterance has been described. However, such a technique can also be applied when the interactive apparatus 100 speaks spontaneously to the user. For example, the interactive device 100 may be configured to appropriately select the content of the next utterance of the interactive device 100 in accordance with the user's reaction to the spontaneous utterance of the interactive device 100.

上記の実施の形態では、ユーザと対話装置100とが音声を用いてコミュニケーションを図る例について説明した。しかし、ユーザと対話装置100とがコミュニケーションを図るために、例えば、テキストデータによるやり取り、ユーザによる接触に応じて対話装置100が可動部位を動かして動作するといったやり取り、手話によるやり取り等の各種交流手段を用いるように構成してもよい。   In the above-described embodiment, an example has been described in which the user and the interactive device 100 communicate with each other using voice. However, in order to communicate between the user and the dialogue apparatus 100, for example, various exchange means such as exchange by text data, exchange in which the dialogue apparatus 100 operates by moving a movable part in response to contact by the user, exchange by sign language, etc. You may comprise so that it may be used.

上記の実施の形態において、対話装置100の制御部110のCPUが実行する動作プログラムは、あらかじめROMに記憶されていた。しかしながら、本発明は、これに限定されず、上記の各種処理を実行させるための動作プログラムを、既存の汎用コンビュータや、フレームワーク、ワークステーション等に実装することにより、上記の実施の形態に係る対話装置100に相当する装置として機能させてもよい。   In the above embodiment, the operation program executed by the CPU of the control unit 110 of the interactive apparatus 100 is stored in advance in the ROM. However, the present invention is not limited to this, and the operation program for executing the above-described various processes is mounted on an existing general-purpose computer, a framework, a workstation, or the like, and according to the above-described embodiment. You may make it function as an apparatus equivalent to the dialogue apparatus 100.

このようなプログラムの提供方法は任意であり、例えば、コンピュータが読取可能な記録媒体(フレキシブルディスク、CD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM)等に格納して配布してもよいし、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより提供してもよい。   The method of providing such a program is arbitrary. For example, the program is stored and distributed on a computer-readable recording medium (flexible disc, CD (Compact Disc) -ROM, DVD (Digital Versatile Disc) -ROM) or the like. Alternatively, the program may be stored in a storage on a network such as the Internet and provided by downloading it.

また、上記の処理をOS(Operating System)とアプリケーションプログラムとの分担、または、OSとアプリケーションプログラムとの協働によって実行する場合には、アプリケーションプログラムのみを記録媒体やストレージに格納してもよい。また、搬送波にプログラムを重畳し、ネットワークを介して配信することも可能である。例えば、ネットワーク上の掲示板(Bulletin Board System:BBS)に上記プログラムを掲示し、ネットワークを介してプログラムを配信してもよい。そして、このプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。   Further, when the above processing is executed by sharing an OS (Operating System) and an application program, or by cooperation between the OS and the application program, only the application program may be stored in a recording medium or storage. It is also possible to superimpose a program on a carrier wave and distribute it via a network. For example, the above program may be posted on a bulletin board (BBS) on a network, and the program may be distributed via the network. Then, this program may be activated and executed in the same manner as other application programs under the control of the OS, so that the above processing can be executed.

本発明は、本発明の広義の精神と範囲とを逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上記の実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。   The present invention is capable of various embodiments and modifications without departing from the broad spirit and scope of the present invention. The above-described embodiments are for explaining the present invention and do not limit the scope of the present invention. In other words, the scope of the present invention is shown not by the embodiments but by the claims. Various modifications within the scope of the claims and within the scope of the equivalent invention are considered to be within the scope of the present invention.

以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。   Hereinafter, the invention described in the scope of claims of the present application will be appended.

(付記)
(付記1)
ユーザとコミュニケーションをとる対話装置であって、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、得られた複数の応答候補のうち最も評価値の高い応答候補を選定する応答選定手段と、
前記応答選定手段が選定した応答候補を前記ユーザからの入力に対する応答として出力する出力手段と、を備える、
対話装置。
(Appendix)
(Appendix 1)
An interactive device that communicates with a user,
A plurality of processes for creating response candidates for the input from the user in parallel, and a response selection means for selecting a response candidate with the highest evaluation value among the obtained plurality of response candidates;
Output means for outputting the response candidate selected by the response selection means as a response to the input from the user;
Interactive device.

(付記2)
前記応答選定手段は、
互いに異なる評価基準に従って前記ユーザからの入力に対応する応答情報の各々の評価値を算出して応答候補を作成する複数の応答候補作成手段を有し、
前記複数の応答候補作成手段により得られた前記複数の応答候補の各々の前記評価値を正規化し、正規化された評価値の比較結果に基づいて、前記ユーザからの入力に対する応答候補を選定する、
付記1に記載の対話装置。
(Appendix 2)
The response selecting means includes
A plurality of response candidate creation means for creating a response candidate by calculating each evaluation value of the response information corresponding to the input from the user according to different evaluation criteria;
The evaluation value of each of the plurality of response candidates obtained by the plurality of response candidate creating means is normalized, and a response candidate for the input from the user is selected based on a comparison result of the normalized evaluation values. ,
The interactive apparatus according to appendix 1.

(付記3)
前記応答に対する前記ユーザの反応を判定する反応判定手段、を備え、
前記応答選定手段は、前記反応判定手段による判定結果が所定の条件を満たさない場合、前記複数の応答候補から前記ユーザからの入力に対する新たな応答候補を選定する、
付記1または2に記載の対話装置。
(Appendix 3)
Reaction determination means for determining a response of the user to the response,
The response selection means selects a new response candidate for the input from the user from the plurality of response candidates when the determination result by the reaction determination means does not satisfy a predetermined condition.
The interactive apparatus according to appendix 1 or 2.

(付記4)
前記応答選定手段は、前記反応判定手段による前記判定結果を前記評価値にフィードバックする、
付記3に記載の対話装置。
(Appendix 4)
The response selection means feeds back the determination result by the reaction determination means to the evaluation value.
The dialogue apparatus according to attachment 3.

(付記5)
前記応答候補作成手段は、前記応答情報に対応付けられた複数の入力予測情報から前記応答に対する前記ユーザの反応を示す入力予測候補を抽出する、
付記2に記載の対話装置。
(Appendix 5)
The response candidate creation means extracts an input prediction candidate indicating a response of the user to the response from a plurality of input prediction information associated with the response information.
The interactive apparatus according to attachment 2.

(付記6)
前記応答に対する前記ユーザからの入力と前記入力予測候補との類似性を評価する類似評価手段、を備える、
付記5に記載の対話装置。
(Appendix 6)
Similarity evaluation means for evaluating the similarity between the input from the user and the input prediction candidate for the response;
The interactive apparatus according to appendix 5.

(付記7)
前記応答選定手段は、前記類似評価手段による評価結果を前記評価値にフィードバックする、
付記6に記載の対話装置。
(Appendix 7)
The response selection means feeds back an evaluation result by the similarity evaluation means to the evaluation value;
The interactive apparatus according to appendix 6.

(付記8)
前記複数の応答候補は、並列に実行可能な複数のスレッドの各々により抽出された応答候補である、
付記1から7のいずれか1つに記載の対話装置。
(Appendix 8)
The plurality of response candidates are response candidates extracted by each of a plurality of threads that can be executed in parallel.
The interactive apparatus according to any one of appendices 1 to 7.

(付記9)
前記複数のスレッドの各々は、互いに異なるアルゴリズムを用いて、前記複数の応答候補の1つを抽出する、
付記8に記載の対話装置。
(Appendix 9)
Each of the plurality of threads extracts one of the plurality of response candidates using different algorithms.
The interactive apparatus according to appendix 8.

(付記10)
ユーザとコミュニケーションをとる対話制御方法であって、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、
得られた複数の応答候補のうち最も評価値の高い応答候補を選定し、
選定された応答候補を前記ユーザからの入力に対する応答として出力する、
対話制御方法。
(Appendix 10)
A dialog control method for communicating with a user,
A plurality of processes for creating response candidates for the input from the user are executed in parallel,
Select the response candidate with the highest evaluation value from the obtained response candidates,
Outputting the selected response candidate as a response to the input from the user;
Dialog control method.

(付記11)
ユーザとコミュニケーションをとる対話制御方法であって、
前記ユーザからの入力を受け付ける入力ステップと、
複数の評価基準に従って前記入力に対応する各応答情報の評価値を算出し、前記評価基準ごとに応答候補を並行して抽出する応答候補抽出ステップと、
前記応答候補の各々の前記評価値の比較結果に基づいて、前記応答候補から前記入力に対する応答候補を選定する応答選定ステップと、
前記応答選定ステップにより選定された応答候補を前記入力に対する応答として出力する出力ステップと、を備える、
対話制御方法。
(Appendix 11)
A dialog control method for communicating with a user,
An input step for receiving an input from the user;
A response candidate extraction step of calculating an evaluation value of each response information corresponding to the input according to a plurality of evaluation criteria, and extracting response candidates in parallel for each of the evaluation criteria;
A response selection step of selecting a response candidate for the input from the response candidates based on a comparison result of the evaluation values of each of the response candidates;
An output step of outputting the response candidate selected in the response selection step as a response to the input,
Dialog control method.

(付記12)
ユーザとコミュニケーションをとる対話装置のコンピュータに、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、得られた複数の応答候補のうち最も評価値の高い応答候補を選定する応答選定処理と、
前記応答選定処理で選定された応答候補を前記ユーザからの入力に対する応答として出力する出力処理と、
を実行させるためのプログラム。
(Appendix 12)
In the computer of the dialogue device that communicates with the user,
A plurality of processes for creating response candidates for the input from the user in parallel;
An output process for outputting the response candidates selected in the response selection process as a response to the input from the user;
A program for running

100…対話装置、110…制御部、111…音声認識部、112…応答候補生成部、112a,112b,112c…応答候補抽出部、113…応答選定部、114…応答生成部、115…反応判定部、120…記憶部、130…センサ部、140…音声入力部、150…音声出力部、160…通信部、BL…バスライン、NW…ネットワーク DESCRIPTION OF SYMBOLS 100 ... Dialogue device, 110 ... Control part, 111 ... Speech recognition part, 112 ... Response candidate production | generation part, 112a, 112b, 112c ... Response candidate extraction part, 113 ... Response selection part, 114 ... Response production part, 115 ... Reaction determination , 120 ... storage unit, 130 ... sensor unit, 140 ... voice input unit, 150 ... voice output unit, 160 ... communication unit, BL ... bus line, NW ... network

Claims (12)

ユーザとコミュニケーションをとる対話装置であって、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、得られた複数の応答候補のうち最も評価値の高い応答候補を選定する応答選定手段と、
前記応答選定手段が選定した応答候補を前記ユーザからの入力に対する応答として出力する出力手段と、を備える、
対話装置。
An interactive device that communicates with a user,
A plurality of processes for creating response candidates for the input from the user in parallel, and a response selection means for selecting a response candidate with the highest evaluation value among the obtained plurality of response candidates;
Output means for outputting the response candidate selected by the response selection means as a response to the input from the user;
Interactive device.
前記応答選定手段は、
互いに異なる評価基準に従って前記ユーザからの入力に対応する応答情報の各々の評価値を算出して応答候補を作成する複数の応答候補作成手段を有し、
前記複数の応答候補作成手段により得られた前記複数の応答候補の各々の前記評価値を正規化し、正規化された評価値の比較結果に基づいて、前記ユーザからの入力に対する応答候補を選定する、
請求項1に記載の対話装置。
The response selecting means includes
A plurality of response candidate creation means for creating a response candidate by calculating each evaluation value of the response information corresponding to the input from the user according to different evaluation criteria;
The evaluation value of each of the plurality of response candidates obtained by the plurality of response candidate creating means is normalized, and a response candidate for the input from the user is selected based on a comparison result of the normalized evaluation values. ,
The interactive apparatus according to claim 1.
前記応答に対する前記ユーザの反応を判定する反応判定手段、を備え、
前記応答選定手段は、前記反応判定手段による判定結果が所定の条件を満たさない場合、前記複数の応答候補から前記ユーザからの入力に対する新たな応答候補を選定する、
請求項1または2に記載の対話装置。
Reaction determination means for determining a response of the user to the response,
The response selection means selects a new response candidate for the input from the user from the plurality of response candidates when the determination result by the reaction determination means does not satisfy a predetermined condition.
The interactive apparatus according to claim 1 or 2.
前記応答選定手段は、前記反応判定手段による前記判定結果を前記評価値にフィードバックする、
請求項3に記載の対話装置。
The response selection means feeds back the determination result by the reaction determination means to the evaluation value.
The dialogue apparatus according to claim 3.
前記応答候補作成手段は、前記応答情報に対応付けられた複数の入力予測情報から前記応答に対する前記ユーザの反応を示す入力予測候補を抽出する、
請求項2に記載の対話装置。
The response candidate creation means extracts an input prediction candidate indicating a response of the user to the response from a plurality of input prediction information associated with the response information.
The interactive apparatus according to claim 2.
前記応答に対する前記ユーザからの入力と前記入力予測候補との類似性を評価する類似評価手段、を備える、
請求項5に記載の対話装置。
Similarity evaluation means for evaluating the similarity between the input from the user and the input prediction candidate for the response;
The interactive apparatus according to claim 5.
前記応答選定手段は、前記類似評価手段による評価結果を前記評価値にフィードバックする、
請求項6に記載の対話装置。
The response selection means feeds back an evaluation result by the similarity evaluation means to the evaluation value;
The dialogue apparatus according to claim 6.
前記複数の応答候補は、並列に実行可能な複数のスレッドの各々により抽出された応答候補である、
請求項1から7のいずれか1項に記載の対話装置。
The plurality of response candidates are response candidates extracted by each of a plurality of threads that can be executed in parallel.
The dialogue apparatus according to any one of claims 1 to 7.
前記複数のスレッドの各々は、互いに異なるアルゴリズムを用いて、前記複数の応答候補の1つを抽出する、
請求項8に記載の対話装置。
Each of the plurality of threads extracts one of the plurality of response candidates using different algorithms.
The dialogue apparatus according to claim 8.
ユーザとコミュニケーションをとる対話制御方法であって、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、
得られた複数の応答候補のうち最も評価値の高い応答候補を選定し、
選定された応答候補を前記ユーザからの入力に対する応答として出力する、
対話制御方法。
A dialog control method for communicating with a user,
A plurality of processes for creating response candidates for the input from the user are executed in parallel,
Select the response candidate with the highest evaluation value from the obtained response candidates,
Outputting the selected response candidate as a response to the input from the user;
Dialog control method.
ユーザとコミュニケーションをとる対話制御方法であって、
前記ユーザからの入力を受け付ける入力ステップと、
複数の評価基準に従って前記入力に対応する各応答情報の評価値を算出し、前記評価基準ごとに応答候補を並行して抽出する応答候補抽出ステップと、
前記応答候補の各々の前記評価値の比較結果に基づいて、前記応答候補から前記入力に対する応答候補を選定する応答選定ステップと、
前記応答選定ステップにより選定された応答候補を前記入力に対する応答として出力する出力ステップと、を備える、
対話制御方法。
A dialog control method for communicating with a user,
An input step for receiving an input from the user;
A response candidate extraction step of calculating an evaluation value of each response information corresponding to the input according to a plurality of evaluation criteria, and extracting response candidates in parallel for each of the evaluation criteria;
A response selection step of selecting a response candidate for the input from the response candidates based on a comparison result of the evaluation values of each of the response candidates;
An output step of outputting the response candidate selected in the response selection step as a response to the input,
Dialog control method.
ユーザとコミュニケーションをとる対話装置のコンピュータに、
前記ユーザからの入力に対する応答候補を作成する処理を複数並行して実行し、得られた複数の応答候補のうち最も評価値の高い応答候補を選定する応答選定処理と、
前記応答選定処理で選定された応答候補を前記ユーザからの入力に対する応答として出力する出力処理と、
を実行させるためのプログラム。
In the computer of the dialogue device that communicates with the user,
A plurality of processes for creating response candidates for the input from the user in parallel;
An output process for outputting the response candidates selected in the response selection process as a response to the input from the user;
A program for running
JP2017062474A 2017-03-28 2017-03-28 Interaction device, interaction control method and program Pending JP2018165746A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017062474A JP2018165746A (en) 2017-03-28 2017-03-28 Interaction device, interaction control method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017062474A JP2018165746A (en) 2017-03-28 2017-03-28 Interaction device, interaction control method and program

Publications (1)

Publication Number Publication Date
JP2018165746A true JP2018165746A (en) 2018-10-25

Family

ID=63922591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017062474A Pending JP2018165746A (en) 2017-03-28 2017-03-28 Interaction device, interaction control method and program

Country Status (1)

Country Link
JP (1) JP2018165746A (en)

Similar Documents

Publication Publication Date Title
US11580960B2 (en) Generating input alternatives
US11636851B2 (en) Multi-assistant natural language input processing
CN108197115B (en) Intelligent interaction method and device, computer equipment and computer readable storage medium
US10510340B1 (en) Dynamic wakeword detection
US10777189B1 (en) Dynamic wakeword detection
US11361763B1 (en) Detecting system-directed speech
US11386890B1 (en) Natural language understanding
JP6154155B2 (en) Spoken dialogue system using prominence
US11887596B2 (en) Multiple skills processing
US11393477B2 (en) Multi-assistant natural language input processing to determine a voice model for synthesized speech
JP6866715B2 (en) Information processing device, emotion recognition method, and program
US11862170B2 (en) Sensitive data control
US11030999B1 (en) Word embeddings for natural language processing
US20230042420A1 (en) Natural language processing using context
KR20170007107A (en) Speech Recognition System and Method
US10600419B1 (en) System command processing
Kim et al. Multistage data selection-based unsupervised speaker adaptation for personalized speech emotion recognition
US11195522B1 (en) False invocation rejection for speech processing systems
US10366442B1 (en) Systems and methods to update shopping cart
US11699441B2 (en) Contextual content for voice user interfaces
US11315552B1 (en) Responding with unresponsive content
US11151986B1 (en) Learning how to rewrite user-specific input for natural language understanding
US10957313B1 (en) System command processing
US10878047B1 (en) Content generation framework
US11544303B1 (en) Responding with unresponsive content