JP6682104B2 - Dialogue method, dialogue system, dialogue device, and program - Google Patents
Dialogue method, dialogue system, dialogue device, and program Download PDFInfo
- Publication number
- JP6682104B2 JP6682104B2 JP2018518378A JP2018518378A JP6682104B2 JP 6682104 B2 JP6682104 B2 JP 6682104B2 JP 2018518378 A JP2018518378 A JP 2018518378A JP 2018518378 A JP2018518378 A JP 2018518378A JP 6682104 B2 JP6682104 B2 JP 6682104B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- dialogue
- content
- limited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 48
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 44
- 230000009471 action Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 8
- 235000013305 food Nutrition 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 241000282412 Homo Species 0.000 description 5
- 230000009118 appropriate response Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 240000008620 Fagopyrum esculentum Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000219051 Fagopyrum Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000556720 Manga Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語を用いて対話を行う技術に関する。 The present invention relates to a technique applicable to a robot or the like that communicates with a person, in which a computer interacts with a person using natural language.
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄・知識紹介、教育(例えば、子供の保育・教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、人との会話を楽しむサービスも実施されている。このチャットサービスにロボットとの会話の技術を適用すれば、チャット相手がいなくても、ユーザとより自然に対話を行うチャットサービスの実現が可能となる。 In recent years, research and development of robots that communicate with humans have progressed, and have been put to practical use in various fields. For example, in the field of communication therapy, there is a usage pattern in which a robot is a talking partner of a person who has a feeling of loneliness. Specifically, in a nursing home for the elderly, the robot plays a role of listening to the resident, so that it can play a role of healing the loneliness of the resident, and at the same time show the conversation with the robot and interact with the resident. You can start the conversation with people around you, such as the family and caregivers. Further, for example, there is a usage mode in which a robot is a training partner in a field of communication training. Specifically, in a foreign language learning facility, the robot can be a foreign language learner's practice partner, so that the foreign language learning can be efficiently advanced. In addition, for example, in the application as an information presentation system, while basically speaking the dialogue between robots, by occasionally speaking to people, people can participate in the dialogue without getting bored and information can be accepted in a form that is easy for people to accept. Can be presented. Specifically, when people have too much time at a meeting place in the city, at a bus stop, at a platform at a station, or when they can afford to participate in a dialogue at home or in a classroom, news, product introduction, savings, knowledge, etc. Efficient presentation of information, such as introduction and education (for example, childcare / education, general education professor for adults, and moral enlightenment) can be expected. Further, for example, in an application as an information collecting system, there is a usage form in which a robot collects information while talking to a person. Since it is possible to maintain a sense of dialogue by communicating with the robot, it is possible to collect information without giving the pressure of being heard by a person. Specifically, it is expected to be applied to personal information research, market research, product evaluation, taste research for recommended products, and the like. In this way, various applications are expected for the communication between humans and robots, and it is expected that robots that can more naturally interact with users will be realized. In addition, with the spread of smartphones, services such as LINE (registered trademark) that allows a plurality of users to chat in real time to enjoy conversations with people have been implemented. By applying the technology of conversation with a robot to this chat service, it becomes possible to realize a chat service that allows a user to more naturally interact with each other without having a chat partner.
本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザとの対話相手となるハードウェアやユーザとの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザとの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。 In this specification, the hardware used as a conversation partner with a user such as a robot or a chat partner used in these services, and computer software for causing a computer to function as hardware to be a conversation partner with the user are collectively referred to. I will call it an agent. Since the agent is a person who interacts with the user, the agent may be an anthropomorphic person, personified, or have a personality or individuality like a robot or a chat partner.
これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。 The key to the realization of these services is the technology by which agents realized by hardware and computer software can naturally interact with humans.
上記のエージェントの一例として、例えば、非特許文献1に記載されたような、ユーザの発話を音声認識し、発話の意図を理解・推論して、適切な応答をする音声対話システムがある。音声対話システムの研究は、音声認識技術の進展に伴って活発に進められ、例えば音声自動応答システムなどで実用化されている。
As an example of the above-mentioned agent, for example, there is a voice dialogue system as described in Non-Patent
また、上記のエージェントの一例として、あらかじめ定められたシナリオに沿って特定の話題についてユーザと対話を行うシナリオ対話システムがある。シナリオ対話システムでは、シナリオに沿って対話が展開する限り対話を続けることが可能である。例えば、非特許文献2に記載された対話システムは、ユーザと複数のエージェント間で、エージェントによる割り込みやエージェント同士のやり取りを含めながら対話を行うシステムである。例えば、エージェントは、ユーザに対してシナリオに用意された質問を発話し、質問に対するユーザの回答の発話がシナリオに用意された選択肢に対応する場合に、その選択肢に対応する発話を行うように機能する。すなわち、シナリオ対話システムは、システムに予め記憶されたシナリオに基づいた発話をエージェントが行う対話システムである。この対話システムでは、エージェントがユーザに問いかけ、ユーザからの返答を受けた際に、ユーザの発話内容に関わらず「そっか」といった相槌で流したり、エージェントの割り込みで話題を変えたりすることで、ユーザの発話が本来の話題から外れた場合であってもストーリーの破綻をユーザに感じさせないように応答することが可能である。 In addition, as an example of the above-mentioned agent, there is a scenario dialogue system that interacts with a user about a specific topic according to a predetermined scenario. In the scenario dialogue system, it is possible to continue the dialogue as long as the dialogue develops along the scenario. For example, the dialogue system described in Non-Patent Document 2 is a system for dialogue between a user and a plurality of agents, including interruptions by the agents and exchanges between the agents. For example, the agent functions to utter a question prepared in the scenario to the user, and when the utterance of the user's answer to the question corresponds to the option prepared in the scenario, the agent performs the utterance corresponding to the option. To do. That is, the scenario dialogue system is a dialogue system in which an agent speaks based on a scenario stored in advance in the system. In this dialogue system, when the agent asks the user and receives a reply from the user, he or she can play with a humorous "whispering" regardless of the content of the user's utterance, or change the topic by interrupting the agent, Even if the user's utterance deviates from the original topic, it is possible to respond so that the user does not feel the story collapse.
また、上記のエージェントの一例として、ユーザの発話内容に沿った発話をエージェントが行うことにより、ユーザとエージェントとが自然な対話を行う雑談対話システムがある。例えば、非特許文献3に記載された対話システムは、ユーザとエージェントとの間で行われる複数回の対話の中で文脈に特有のものをより重視しながら、ユーザまたはエージェントの発話に含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従ってシステムが発話することで、ユーザとシステムとの間で雑談対話を実現するシステムである。雑談対話システムが用いるルールは、あらかじめ記述したものだけでなく、ユーザの発話内容に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話に基づいて自動的に生成したものであってもよいし、ユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいて自動的に生成したものであってもよい。非特許文献3には、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて、自動的にルールを生成する技術が記載されている。また、例えば、非特許文献4に記載された対話システムは、人手で記述したルールと統計的発話生成手法で記述したルールを融合することで、ルール生成のコストを低減したシステムである。雑談対話システムは、シナリオ対話システムとは異なり、予め用意されたシナリオに沿った発話をエージェントが行うものではないため、ユーザの発話によっては、エージェントの発話がユーザの発話に対応しないものとなってしまうという事態は生じずに、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行うことが可能である。すなわち、雑談対話システムは、少なくともユーザの発話内容、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話、もしくはユーザまたはエージェントによる直前の発話またはその近傍に発話された発話を少なくとも含む発話に基づいた発話をエージェントが行う対話システムである。これらの雑談対話システムでは、ユーザの発話に対して明示的に応答することが可能である。
In addition, as an example of the above-mentioned agent, there is a chat dialogue system in which the user and the agent have a natural dialogue by the agent uttering according to the utterance content of the user. For example, in the dialogue system described in
しかしながら、ユーザは多種多様で複雑な発話を行うため、従来の音声対話システムでは、すべてのユーザの発話について意味や内容を正確に理解することは難しい。音声対話システムがユーザの発話を正確に理解できなければ、ユーザの発話に対して適切な返答を行うことができない。ユーザと音声対話システムとが一対一で対話を行う状況では、音声対話システムが適切な返答をできないと、ユーザは対話を続けることにストレスを感じることになり、対話を中断したり対話破綻を起こしたりする原因となる。 However, since users make a wide variety of complicated utterances, it is difficult for the conventional voice dialogue system to accurately understand the meaning and contents of all user utterances. If the spoken dialogue system cannot understand the user's utterance accurately, it cannot give a proper reply to the user's utterance. In a situation where the user and the spoken dialogue system have a one-to-one dialogue, if the spoken dialogue system cannot give an appropriate reply, the user is stressed in continuing the dialogue, interrupting the dialogue, or causing a dialogue failure. Cause
この発明の目的は、上述のような点に鑑みて、ユーザの発話を所定の範囲に限定させ、対話を長く続けることができる対話技術を提供することである。 In view of the above points, an object of the present invention is to provide a dialogue technique that allows a user's utterance to be limited to a predetermined range and continues the dialogue for a long time.
上記の課題を解決するために、この発明の第一の態様の対話方法は、ユーザと対話を行う対話システムが行う対話方法であって、入力部が、ユーザが発した発話である第一ユーザ発話を受け付ける第一受付ステップと、提示部が、第一ユーザ発話に基づいて決定されたユーザの発話を所定の範囲に限定させるための発話である限定発話を提示する提示ステップと、入力部が、限定発話の後にユーザが発した発話である第二ユーザ発話を受け付ける第二受付ステップと、を含む。 In order to solve the above problems, a dialogue method according to a first aspect of the present invention is a dialogue method performed by a dialogue system for dialogue with a user, wherein the input unit is a utterance uttered by the user. A first reception step of receiving an utterance, a presentation unit presenting a limited utterance that is an utterance for limiting the utterance of the user determined based on the first user utterance to a predetermined range, and an input unit , A second reception step of receiving a second user utterance that is an utterance made by the user after the limited utterance.
この発明の第二の態様の対話システムは、ユーザと対話を行う対話システムであって、ユーザが発した発話である第一ユーザ発話と、ユーザの発話を所定の範囲に限定させるための発話である限定発話の後にユーザが発した発話である第二ユーザ発話と、を受け付ける入力部と、第一ユーザ発話に基づいて限定発話を決定する発話決定部と、発話決定部が決定した限定発話を提示する提示部と、を含む。 A dialogue system according to a second aspect of the present invention is a dialogue system for dialogue with a user, and comprises a first user utterance, which is an utterance uttered by the user, and an utterance for limiting the utterance of the user to a predetermined range. An input unit that receives a second user utterance that is a utterance made by the user after a certain limited utterance, an utterance determination unit that determines the limited utterance based on the first user utterance, and a limited utterance that is determined by the utterance determination unit. And a presenting unit for presenting.
この発明の第三の態様の対話装置は、ユーザの発話を受け付ける入力部と、発話を提示する提示部とを少なくとも含む対話システムが提示する発話を決定する対話装置であって、ユーザが発した発話である第一ユーザ発話に基づいてユーザの発話を所定の範囲に限定させるための発話である限定発話を決定する発話決定部を含む。 An interactive device according to a third aspect of the present invention is an interactive device that determines an utterance presented by an interactive system including at least an input unit that receives an utterance of a user and a presenting unit that presents the utterance, and is issued by the user. An utterance determination unit that determines a limited utterance that is an utterance for limiting the utterance of the user to a predetermined range based on the first user utterance that is the utterance.
この発明によれば、ユーザの発話の前にユーザの発話を所定の範囲に限定させるための発話を聞かせることで、ユーザの発話を所定の範囲に限定させることができ、ユーザとの対話を長く継続することが可能な対話システム、対話装置を実現することが可能となる。 According to the present invention, it is possible to limit the utterance of the user to a predetermined range by allowing the utterance for limiting the utterance of the user to a predetermined range before the utterance of the user, and to interact with the user. It becomes possible to realize a dialogue system and a dialogue device that can be continued for a long time.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In the drawings, components having the same function are denoted by the same reference numerals, and duplicate description will be omitted.
<第一実施形態>
第一実施形態の対話システムは、複数台の人型ロボットが協調してユーザとの対話を行うシステムである。対話システム10は、図1に示すように、入力部1、音声認識部2、発話決定部3、音声合成部4、および提示部5を備える。この対話システム10が後述する各ステップの処理を行うことにより第一実施形態の対話方法が実現される。なお、図1に示すように、対話システム10の音声認識部2、発話決定部3、音声合成部4による部分を対話装置11とする。<First embodiment>
The dialogue system of the first embodiment is a system in which a plurality of humanoid robots cooperate with each other to have a dialogue with a user. As shown in FIG. 1, the
人間同士が円滑な対話を行っているとき、互いに似た現象が起こることが確認されている(例えば、参考文献1参照)。この現象は、引き込み現象と呼ばれる。言語的な引き込み現象は、人間とロボットの間でも起こることが確認されている(例えば、参考文献2参照)。
〔参考文献1〕Condon, Williams S., and Louis W. Sander, “Neonate movement is synchronized with adult speech: Interactional participation and language acquisition”, Science, vol. 183, issue 4120, pp. 99-101, 1974
〔参考文献2〕飯尾尊優他,“語彙の引き込み:ロボットは人間の語彙を引き込めるか?”,情報処理学会論文誌,vol. 51,no. 2,pp. 277-289,2010It has been confirmed that similar phenomena occur when humans have a smooth dialogue (for example, see Reference 1). This phenomenon is called a pull-in phenomenon. It has been confirmed that the linguistic attraction phenomenon also occurs between humans and robots (for example, see Reference 2).
[Reference 1] Condon, Williams S., and Louis W. Sander, "Neonate movement is synchronized with adult speech: Interactional participation and language acquisition", Science, vol. 183, issue 4120, pp. 99-101, 1974.
[Reference 2] Takahiro Iio et al., "Attracting Vocabulary: Can Robots Attract Human Vocabulary?", Transactions of Information Processing Society of Japan, vol. 51, no. 2, pp. 277-289, 2010.
この発明の対話技術は、上述の引き込み現象を利用して、ユーザが発話する前に、対話システムが発話を取得するための条件に対応する行動をユーザに提示することで、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込む。これにより、対話システムがユーザの発話を理解できずに対話が中断する事態を回避することができ、対話を長く継続することが可能となる。 The dialog technology of the present invention utilizes the above-described pull-in phenomenon to present the user with an action corresponding to the condition for the dialog system to acquire the utterance before the user speaks, thereby allowing the user to speak the utterance. Pull into the range where the system satisfies the conditions for acquisition. As a result, it is possible to avoid a situation where the dialogue system cannot understand the user's utterance and the dialogue is interrupted, and the dialogue can be continued for a long time.
ユーザと複数のエージェントとが対話を行う対話システムにおいて、ユーザの発話を引き込む例を示す。まず、第一のエージェントは相手の返答を求める発話(例えば、質問形式の発話)を行う。続いて、第二のエージェントは対話システムが理解しやすい発話(以下、引き込み発話と呼ぶ)を行い、ユーザの発話を待機する。これに続くユーザの発話は、直前の第二のエージェントの発話に引き込まれ、第二のエージェントの発話に似た特徴を持つ発話となる。この例では、対話システムが発話を取得するための条件に対応する行動として対話システムが理解しやすい発話を発することとしたが、その行動は発話に限定されず、視線または身体の向きや手足の動作など非言語的な行動であってもよい。 An example is shown in which a user's utterance is drawn in a dialogue system in which the user and a plurality of agents interact. First, the first agent utters a reply to the other party (for example, a question-type utterance). Then, the second agent utters a dialogue (hereinafter referred to as a pull-in utterance) that the dialogue system can easily understand, and waits for the utterance of the user. The utterance of the user following this is drawn into the utterance of the second agent immediately before, and becomes an utterance having characteristics similar to the utterance of the second agent. In this example, it was decided that the dialogue system uttered a speech that the dialogue system could easily understand as the behavior corresponding to the condition for the dialogue system to acquire the utterance, but the behavior is not limited to the utterance, and the gaze or the orientation of the body or the limb It may be a non-verbal action such as an action.
引き込み発話の決定方法としては、事前にルールとして記述しておく手法が考えられる。具体的には、空白があるテンプレートに適切な単語を埋めて発話内容を決定するルールが挙げられる。ルールの作成方法としては、人手で作成する方法と、公知の破綻検出技術(例えば、参考文献3参照)を用いる方法とが挙げられる。破綻検出技術を用いる方法では、第一のエージェントの発話に続く第二のエージェントの発話に対して、対話が破綻していないかどうかを判定する。このとき対話が破綻していないと判定されれば、第二のエージェントの発話は対話システムが理解しやすい発話であると言え、引き込み発話として適切である。
〔参考文献3〕杉山弘晃,“異なる特性を持つデータの組み合わせによる雑談対話の破綻検出”,第6回対話システムシンポジウム(SIG-SLUD),人工知能学会,pp. 51-56,2015年As a method of determining the pull-in utterance, a method that is described in advance as a rule is considered. Specifically, there is a rule for deciding the utterance content by filling an appropriate word in a blank template. As a method of creating the rule, there are a method of manually creating the rule and a method of using a known failure detection technique (for example, see Reference 3). In the method using the failure detection technique, it is determined whether or not the dialogue is broken for the utterance of the second agent following the utterance of the first agent. At this time, if it is determined that the dialogue has not failed, it can be said that the utterance of the second agent is an utterance that is easy for the dialogue system to understand, and is appropriate as a pull-in utterance.
[Reference 3] Hiroaki Sugiyama, "Detection of Chat Dialog Breakdown by Combining Data with Different Characteristics," 6th Dialog System Symposium (SIG-SLUD), AI Society, pp. 51-56, 2015
また、ルールを事前に用意しておく方法ではなく、対話を行いながら都度引き込み発話の内容を決定する方法も考えられる。この方法では、対話の途中でその時点までの対話履歴に対して破綻検出を行い、次の対話装置の発話が対話破綻を起こさないように第二のエージェントの発話を決定する。この方法であれば、より長い対話履歴を用いることができるため、よりその発話に適切な引き込み発話の内容を決定することができる。 Also, instead of preparing the rules in advance, a method of determining the content of the pull-in utterance each time while having a dialogue may be considered. In this method, failure detection is performed on the dialog history up to that point in the middle of the dialog, and the utterance of the second agent is determined so that the utterance of the next dialog device does not cause the dialog failure. With this method, since a longer dialogue history can be used, it is possible to determine the content of the pull-in utterance more appropriate for the utterance.
対話装置11は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置11は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置11に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、対話装置11の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
The
入力部1は、ユーザの発話を対話システム10が取得するためのインターフェースである。言い換えれば、入力部1は、ユーザが発話を対話システム10へ入力するためのインターフェースである。例えば、入力部1はユーザの発話音声を収音して音声信号とするマイクロホンである。入力部1は、収音したユーザの発話音声の音声信号を、音声認識部2へ入力する。
The
音声認識部2は、入力部1が収音したユーザの発話音声の音声信号をユーザの発話内容を表すテキストに変換する。音声認識部2は、ユーザの発話内容を表すテキストを、発話決定部3へ入力する。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
The voice recognition unit 2 converts the voice signal of the user's uttered voice picked up by the
発話決定部3は、入力されたユーザの発話内容を表すテキストに基づいて、対話システム10からの発話内容を表すテキストを決定する。発話決定部3は、決定した発話内容を表すテキストを、音声合成部4へ入力する。また、対話システム10が引き込み発話の代わりに非言語的な行動を行う場合には、発話決定部3は、入力されたユーザの発話内容を表すテキストに基づいて、対話システム10からユーザへ提示する非言語的な行動の内容を表す情報を決定する。この場合、発話決定部3は、決定した行動の内容を表す情報を、提示部5へ入力する。
The
音声合成部4は、発話決定部3が決定した発話内容を表すテキストを、発話内容を表す音声信号に変換する。音声合成部4は、発話内容を表す音声信号を、提示部5へ入力する。音声合成の方法は既存のいかなる音声合成技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
The
提示部5は、発話決定部3が決定した発話内容もしくは非言語的な行動をユーザへ提示するためのインターフェースである。例えば、提示部5は、人間の形を模して製作された人型ロボットである。この人型ロボットは、発話決定部3が決定した発話内容を表すテキストを音声合成部4が音声信号に変換した発話内容を表す音声信号を、例えば頭部に搭載したスピーカから発音する、すなわち、発話を提示する。また、この人型ロボットは、発話決定部3が決定した非言語的な行動の内容を表す情報に従って筺体を動作させることで非言語的な行動を実行する、すなわち、行動を提示する。提示部5を人型ロボットとした場合には、対話に参加する人格ごとに一台の人型ロボットを用意する。以下では、二人の人格が対話に参加する例として、二台の人型ロボット5−1および5−2が存在するものとする。
The
入力部1は提示部5と一体として構成してもよい。例えば、提示部5を人型ロボットとした場合、人型ロボットの頭部にマイクロホンを搭載し、入力部1として利用することも可能である。
The
以下、図2を参照して、第一実施形態の対話方法の処理手続きを説明する。 Hereinafter, the processing procedure of the dialogue method according to the first embodiment will be described with reference to FIG.
ステップS11において、人型ロボット5−1は、ある発話である第一発話の内容を表す音声をスピーカから出力する。第一発話の内容を表すテキストは、発話決定部3が、例えば、あらかじめ定められ発話決定部3内の図示しない記憶部に記憶された定型文から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。直前までの発話内容に応じて発話内容を決定する技術は、従来の対話システムにおいて用いられているものを利用すればよく、例えば、非特許文献2に記載されたシナリオ対話システムや非特許文献3または4に記載された雑談対話システムなどを用いることができる。発話決定部3がシナリオ対話システムにおいて用いられている技術を用いる場合は、例えば、発話決定部3は、直前の5発話程度を含む対話について、各発話に含まれる単語や各発話を構成する焦点語と発話決定部3内の図示しない記憶部に記憶された各シナリオに含まれる単語や焦点語との単語間距離が所定の距離より近いシナリオを選択し、選択したシナリオに含まれるテキストを選択することにより第一発話の内容を表すテキストを決定する。発話決定部3が雑談対話システムにおいて用いられている技術を用いる場合は、発話決定部3は、例えば、ユーザの発話に含まれる単語をトリガーとして、あらかじめ記述して発話決定部3内の図示しない記憶部に記憶しておいたルールに従って第一発話の内容を表すテキストを決定してもよいし、ユーザの発話に含まれる単語と共起関係や係り受け関係にある単語に基づいて自動的にルールを生成し、そのルールに従って第一発話の内容を表すテキストを決定してもよい。
In step S11, the humanoid robot 5-1 outputs a voice representing the content of the first utterance, which is a certain utterance, from the speaker. The text representing the content of the first utterance may be arbitrarily selected by the
ステップS12において、人型ロボット5−2は、第一発話に対するユーザの発話を取得するための条件に対応する行動(以下、引き込み行動と呼ぶ)を行う。引き込み行動は、上述した引き込み発話を含み、例えば、視線または身体の向きや手足の動作など非言語的な行動をも含む。引き込み行動の内容は、発話決定部3が、例えば、第一発話の内容と同様にして、あらかじめ定められ発話決定部3内の図示しない記憶部に記憶された定型的な行動の中から任意に選択してもよいし、直前までの発話内容に応じて決定してもよい。ユーザの発話を取得するための条件は、A.ユーザの発話における非言語行動に関する条件と、B.ユーザの発話の内容に関する条件に分類することができる。A.ユーザの発話における非言語行動に関する条件は、A1.ユーザの発話のタイミングに関する条件、すなわち、音声認識部2がユーザの発話を受け付け可能となるタイミングよりも早くユーザが発話してしまうことを回避するための条件や、A2.ユーザの発話の音量や方向に関する条件、すなわち、音声認識部2がユーザの発話を音声認識することが不可能な音量で入力部1がユーザの発話音声を収音することを回避するための条件などである。B.ユーザの発話の内容に関する条件は、音声認識部2がより高精度にユーザの発話を音声認識するため、もしくは、ユーザの発話の内容が実行中のシナリオで想定する範囲外となりシナリオの続行に失敗することを回避するための条件である。
In step S12, the humanoid robot 5-2 performs an action (hereinafter, referred to as a pull-in action) corresponding to the condition for acquiring the user's utterance with respect to the first utterance. The pull-in action includes the above-mentioned pull-in utterance, and also includes non-verbal actions such as the line of sight or the orientation of the body and the movement of the limbs. The content of the pull-in action is arbitrarily determined by the
A1.ユーザの発話のタイミングに対応する行動は、具体的には、A1−1.所望のタイミングの模範回答を人型ロボットが先に行う、A1−2.ユーザの発話が所望のタイミングになるように人型ロボットが視線を動かす、などが挙げられる。A2.ユーザの発話の音量や方向に関する条件に対応する行動は、声が小さいユーザに対しては、より大きな音量での模範回答を人型ロボットが先に行うなどが挙げられる。B.ユーザの発話の内容に対応する行動は、具体的には、B−1.発話の長さを所望の長さに制御した発話を人型ロボットが先に行う、B−2.発話の詳細度を所望の水準に制御した発話を人型ロボットが先に行う、B−3.文法の難易度を所望の水準に制御した発話を人型ロボットが先に行う、B−4.発話中の固有名詞の有無を制御した発話を人型ロボットが先に行う、B−5.発話の口語らしさの度合いを所望の水準に制御した発話を人型ロボットが先に行う、などが挙げられる。 A1. The action corresponding to the user's utterance timing is specifically A1-1. The humanoid robot first gives an exemplary response at a desired timing. A1-2. For example, a humanoid robot moves its line of sight so that a user's utterance comes at a desired timing. A2. As for the action corresponding to the condition regarding the volume and direction of the user's utterance, for a user with a small voice, the humanoid robot first gives a model answer with a larger volume. B. The action corresponding to the content of the user's utterance is specifically B-1. The humanoid robot first performs an utterance in which the utterance length is controlled to a desired length, B-2. The humanoid robot first performs an utterance in which the detail level of the utterance is controlled to a desired level, B-3. The humanoid robot first performs an utterance in which the difficulty level of grammar is controlled to a desired level, B-4. The humanoid robot first utters while controlling the presence or absence of proper nouns during utterance, B-5. For example, a humanoid robot may first perform an utterance in which the degree of colloquial utterance is controlled to a desired level.
上記したユーザの発話を取得するための条件に対応する行動の具体例は、任意に組み合わせることが可能である。例えば、A1.ユーザの発話のタイミングとB.ユーザの発話の内容との両方に対応する行動を行うものとして、B−1.発話の長さを所望の長さに制御した発話を、A1−1.所望のタイミングで人型ロボットが先に行ってもよい。また、例えば、B.ユーザの発話の内容に対応する行動を行うものとして、B−2.発話の詳細度とB−4.発話中の固有名詞の有無を同時に制御した発話を人型ロボットが先に行ってもよい。 The specific examples of the actions corresponding to the conditions for acquiring the utterance of the user described above can be arbitrarily combined. For example, A1. User's utterance timing and B. As an action that corresponds to both the content of the user's utterance, B-1. A utterance in which the utterance length is controlled to a desired length is referred to as A1-1. The humanoid robot may go first at a desired timing. Also, for example, B.I. As an action that corresponds to the content of the user's utterance, B-2. Utterance detail level and B-4. The humanoid robot may first perform the utterance in which the presence or absence of the proper noun in the utterance is controlled at the same time.
以下、ユーザの発話を取得するための条件に対応する行動について、具体例を挙げながら説明する。ここで、Rは人型ロボットを表し、Hはユーザを表す。Rの後に続く数字は人型ロボットの識別子である。「R1」は人型ロボット5−1が発話することを表し、「R2」は人型ロボット5−2が発話することを表す。なお、人型ロボットが誰に話かける意図であるかは、例えば、人型ロボットの頭部や視線の動きにより表出するようにしてもよいし、表出しなくてもよい。 Hereinafter, the action corresponding to the condition for acquiring the utterance of the user will be described with reference to specific examples. Here, R represents a humanoid robot and H represents a user. The number following R is the humanoid robot identifier. "R1" represents that the humanoid robot 5-1 speaks, and "R2" represents that the humanoid robot 5-2 speaks. It should be noted that the intention of the humanoid robot to talk to may be expressed by the movement of the head or the line of sight of the humanoid robot, or may not be expressed.
A1−1.所望のタイミングの模範回答を人型ロボットが先に行う場合の具体例を以下に示す。これは、音声認識部2が音声認識を開始するタイミングが遅くなることがあり、例えばユーザ発話の音声認識に失敗したり、ユーザ発話の先頭部分が欠けた音声認識結果となったりすることを避けるために行うものである。 A1-1. A specific example of the case where the humanoid robot first gives a model response at a desired timing is shown below. This is because the timing at which the voice recognition unit 2 starts the voice recognition may be delayed, and for example, the voice recognition of the user's utterance fails, or the voice recognition result in which the leading part of the user's utterance is missing is avoided. This is what you do.
R1:「どんな食べ物が好きですか?」(※質問=第一発話)
R2:「そば」(※模範回答=行動)
H:「ラーメン」R1: "What kind of food do you like?" (* Question = First utterance)
R2: "Soba" (* model answer = action)
H: "Ramen"
A1−2.所望のタイミングになるように人型ロボットが視線を動かす場合の具体例を以下に示す。これも、A1−1と同様に、音声認識部2が音声認識を開始するタイミングが遅くなることによる問題を回避するために行うものである。 A1-2. A specific example of the case where the humanoid robot moves its line of sight so as to have a desired timing is shown below. Similar to A1-1, this is also performed in order to avoid the problem that the timing at which the voice recognition unit 2 starts voice recognition is delayed.
R1:「どんな食べ物が好きですか?」(※質問=第一発話)
R2:(ユーザへ視線を向ける)(※行動)
H:「ラーメン」R1: "What kind of food do you like?" (* Question = First utterance)
R2: (Gazes at the user) (* Action)
H: "Ramen"
上記の例では、ユーザへ視線を向ける人型ロボットをR2としたが、R1がユーザへ視線を向ける行動を行ってもよいし、R1およびR2以外の他の人型ロボットがユーザへ視線を向ける行動を行ってもよい。 In the above example, the humanoid robot that directs the line of sight to the user is R2, but R1 may perform the action of directing the line of sight to the user, or a humanoid robot other than R1 and R2 directs the line of sight to the user. You may take action.
B−1.発話の長さを所望の長さに制御した発話を人型ロボットが先に行う場合の具体例を以下に示す。ユーザの発話が長過ぎたり短過ぎたりすると、音声認識部2の認識率が低下する場合がある。そのため、ユーザが適切な長さで発話するように引き込むために、ユーザが発話する前に人型ロボットが所望の長さの模範回答を発話する。 B-1. A specific example of the case where the humanoid robot first performs the utterance in which the utterance length is controlled to the desired length is shown below. If the utterance of the user is too long or too short, the recognition rate of the voice recognition unit 2 may decrease. Therefore, the humanoid robot utters an exemplary answer of a desired length before the user speaks in order to draw in the user to speak in an appropriate length.
以下は、従来どおり引き込むための行動を行わず、ユーザの発話が短過ぎるため対話に失敗する例である。 The following is an example in which the user does not perform the action to draw in as usual and the dialogue fails because the user's utterance is too short.
R1:「どんな食べ物が好きですか?」
H:「そば」(※ユーザの発話が一単語のみであるため、文脈情報が利用できず音声認識が困難である。)R1: "What kind of food do you like?"
H: "Soba" (* Since the user utters only one word, context information cannot be used and voice recognition is difficult.)
以下は、従来どおり引き込むための行動を行わず、ユーザの発話が長過ぎるため対話に失敗する例である。 The following is an example in which the dialogue is failed because the user's utterance is too long without performing the action to draw in as usual.
R1:「どんな食べ物が好きですか?」
H:「あー、最近だと●●店っていう城陽のほうにあるラーメン屋がだいぶおいしかったかなあ、だいぶ並んだけど。」(※ユーザの発話に含まれる単語が多すぎるため、すべての単語を誤りなく音声認識することは困難である。)R1: "What kind of food do you like?"
H: "Ah, recently, I think the Ramen restaurant near the Joyo store was quite delicious, but there are quite a lot of them." (* All the words are incorrect because the user's utterances are too many. Without voice recognition is difficult.)
以下は、ユーザの発話より先に人型ロボットが模範回答を発話する例である。 The following is an example in which the humanoid robot speaks a model answer before the user speaks.
R1:「どんな食べ物が好きですか?」
R2:「ラーメンが好きです。」
H:「そばが好きです。」(※ユーザの発話が人型ロボットの模範回答に引き込まれて周辺単語が付加されるため認識率が向上する。)R1: "What kind of food do you like?"
R2: "I like ramen."
H: "I like buckwheat noodles." (* The recognition rate improves because the user's utterance is drawn into the model response of the humanoid robot and peripheral words are added.)
B−2.発話の詳細度を所望の水準に制御した発話を人型ロボットが先に行う場合の具体例を以下に示す。ユーザの発話が詳細過ぎたり簡易過ぎたりすると、適切な返答が生成できない場合がある。そのため、ユーザが適切な詳細度で発話するように引き込むために、ユーザが発話する前に人型ロボットが所望の詳細度で模範回答を発話する。 B-2. A specific example of the case where the humanoid robot first performs the utterance in which the detail level of the utterance is controlled to a desired level is shown below. If the user's utterance is too detailed or too simple, an appropriate response may not be generated. Therefore, in order to attract the user to speak with an appropriate level of detail, the humanoid robot utters a model answer with a desired level of detail before the user speaks.
以下は、「今夜の予定は?」という発話に対して、従来どおり引き込むための行動を行わず、ユーザの発話が簡易過ぎるため対話に失敗する例である。 The following is an example in which a dialogue fails because the user's utterance is too simple for the utterance "Tonight's schedule?"
R1:「今夜の予定は?」
H:「飲んで寝る」
R1:「水を飲みますか?」(※ユーザの発話の一部が省略されているため意味を正しく解釈できなかった。)R1: "What are your plans for tonight?"
H: "Drink and sleep"
R1: "Do you drink water?" (* The meaning could not be correctly interpreted because part of the user's utterance was omitted.)
以下は、従来どおり引き込むための行動を行わず、ユーザの発話が詳細過ぎるため対話に失敗する例である。 The following is an example in which the user's utterance is too detailed and the dialogue fails because the user does not take action as usual.
R1:「今夜の予定は?」
H:「気分が沈みがちだからおねえちゃんのいる飲み屋に行ってパーっと遊ぶ」
R1:「どこに沈みますか?」(※ユーザの発話の話題の焦点がどこにあるか理解できなかった。)R1: "What are your plans for tonight?"
H: "I tend to feel depressed, so I go to the bar where my sister is and play with me."
R1: “Where do you sink?” (* I could not understand where the focus of the topic of the user's utterance was.)
以下は、ユーザの発話より先に人型ロボットが模範回答を発話する例である。 The following is an example in which the humanoid robot speaks a model answer before the user speaks.
R1:「今夜の予定は?」
R2:「映画館に映画を観に行きます。」
H:「飲み屋にお酒を飲みに行きます。」(※ユーザの発話が人型ロボットの模範回答に引き込まれて、適切な粒度で話題を特定する単語が含まれているため、正しくユーザの発話を解釈することができる。)R1: "What are your plans for tonight?"
R2: "I will go to the movie theater to watch a movie."
H: "I'm going to have a drink at a bar." (* Since the user's utterance is drawn into the model answer of the humanoid robot and contains words that identify the topic with an appropriate granularity, You can interpret the utterance.)
以下は、「この間旅行に行ってきたよ」という発話に対して、従来どおり引き込むための行動を行わず、ユーザの発話が簡易過ぎるため対話に失敗する例である。 The following is an example in which a dialogue fails because the user's utterance is too simple for the utterance "I went to travel during this time" without performing the action to draw in as usual.
R1:「この間旅行に行ってきたよ」
H:「どのあたり?」
R1:「あたりです」(※ユーザの発話が一般的な単語のみであり話題の焦点を見つけることができなかった。)R1: "I've been on a trip recently"
H: "Which area?"
R1: “It's around” (* I couldn't find the focus of the topic because the user uttered only general words.)
以下は、従来どおり引き込むための行動を行わず、ユーザの発話が詳細過ぎるため対話に失敗する例である。 The following is an example in which the user's utterance is too detailed and the dialogue fails because the user does not take action as usual.
R1:「この間旅行に行ってきたよ」
H:「私はサーリセルカに行きました」
R1:(沈黙)(※ユーザの発話の話題が詳細過ぎるため適切な返答を生成できなかった。)R1: "I've been on a trip recently"
H: "I went to Saariselka"
R1: (silence) (* The user's utterance topic was too detailed to generate an appropriate response.)
以下は、ユーザの発話より先に人型ロボットが模範回答を発話する例である。 The following is an example in which the humanoid robot speaks a model answer before the user speaks.
R1:「この間旅行に行ってきたよ」
R2(→R1):「アメリカに行ったんだっけ?」
R1(→H):「うん。あなたはどこか行った?」
H:「フィンランドに行ったよ」(※ユーザの発話の話題が適度に詳細であり返答を生成できる。)R1: "I've been on a trip recently"
R2 (→ R1): "Did you go to America?"
R1 (→ H): "Yeah. Did you go somewhere?"
H: "I went to Finland" (* The topic of the user's utterance is reasonably detailed and a reply can be generated.)
B−3.文法の難易度を所望の水準に制御した発話を人型ロボットが先に行う場合の具体例を以下に示す。ユーザの発話が所望の文法でないと、適切な返答が生成できない場合がある。そのため、ユーザが所望の難易度の文法で発話するように引き込むために、ユーザが発話する前に人型ロボットが所望の文法で模範回答を発話する。 B-3. A specific example of the case where the humanoid robot first performs the utterance in which the difficulty level of the grammar is controlled to a desired level is shown below. If the user's utterance does not have the desired grammar, an appropriate reply may not be generated. Therefore, in order to attract the user to speak in a grammar of a desired difficulty level, the humanoid robot utters a model answer in a desired grammar before the user speaks.
以下は、述語項構造を発話生成のキーとする場合の例である。模範回答により引き込みを行わないと、上述の詳細過ぎる例のように発話が崩れてしまい、ユーザの発話内容を解釈できない場合がある。なお、下記の例において、NPは名詞句を、Adjは形容詞句を、VPは動詞句を表す。 The following is an example when the predicate term structure is used as a key for utterance generation. If the drawing is not performed by the model response, the utterance may be distorted as in the above-described detailed example, and the user's utterance content may not be interpreted. In the following examples, NP represents a noun phrase, Adj represents an adjective phrase, and VP represents a verb phrase.
R1:「どんな食べ物が好きですか?」
R2:「ぼくは(NP)/あっさりした(Adj)/ラーメンが(NP)/好きです(VP)」
H:「私は(NP)/さっぱりした(Adj)/そばが(NP)/好きです(VP)」R1: "What kind of food do you like?"
R2: "I'm (NP) / Simple (Adj) / Ramen (NP) / I like (VP)"
H: “I am (NP) / refreshed (Adj) / soba (NP) / I like (VP)”
以下は、名詞を発話生成のキーとする場合の例である。 The following is an example in which a noun is used as a key for utterance generation.
R1:「どんな食べ物が好きですか?」
R2:「あっさりした(Adj)/ラーメン(NP)」
H:「さっぱりした(Adj)/そばかな(NP)」R1: "What kind of food do you like?"
R2: “Simple (Adj) / Ramen (NP)”
H: “Refreshing (Adj) / Soba Kana (NP)”
B−4.発話中の固有名詞の有無を制御した発話を人型ロボットが先に行う場合の具体例を以下に示す。ユーザの発話に固有名詞が含まれると、話題を容易に同定することができるため、以降の対話を扱いやすい場合が多い。 B-4. A specific example of the case where the humanoid robot first performs the utterance in which the presence or absence of the proper noun in the utterance is controlled is shown below. If the user's utterance includes a proper noun, the topic can be easily identified, and thus the subsequent dialogue is often easy to handle.
以下は、固有名詞をなしとする場合の例である。 The following is an example when the proper noun is used.
R1:「どんなラーメンが好き?」
R2:「ぼくはあっさりしたのが好きかな」
H:「私はこってりかな」R1: "What kind of ramen do you like?"
R2: "I wonder if I like being light"
H: "I'm overweight"
以下は、固有名詞をありとする場合の例である。 The following is an example in which proper nouns are used.
R1:「どんなラーメンが好き?」
R2:「ぼくは●●店のこってりが好きだよ」
H:「私は▲▲店とかが好きかな」R1: "What kind of ramen do you like?"
R2: "I like the thick ● ● stores."
H: "I wonder if I like the store."
B−5.発話の口語らしさの度合いを所望の水準に制御した発話を人型ロボットが先に行う場合の具体例を以下に示す。ここで、「口語らしさ」とは、例えば、助詞の欠落、語尾の変化、多義語の増加、口語的間投詞や副詞などの増加、などが挙げられる。口語らしさの度合いが低いほど音声認識や発話理解の精度が上がる。一方、口語らしさの度合いが高いほどユーザに対してフランクな印象を与えることができる。 B-5. A specific example of the case where the humanoid robot first performs the utterance in which the degree of colloquiality of the utterance is controlled to a desired level is shown below. Here, the "spokenness" includes, for example, missing particles, changes in endings, an increase in polysemous words, and an increase in colloquial interjections and adverbs. The lower the degree of colloquialism, the higher the accuracy of speech recognition and speech understanding. On the other hand, the higher the degree of colloquialism is, the more Frank impression can be given to the user.
以下は、口語らしさの度合いが低い場合の例である。 The following is an example when the degree of colloquialism is low.
R1:「どんなラーメンが好きですか?」
R2:「ぼくはあっさりしたラーメンが好きです」
H:「私はこってりしたラーメンが好きです」R1: "What kind of ramen do you like?"
R2: “I like light ramen”
H: "I like thick ramen"
以下は、口語らしさの度合いが高い場合の例である。 The following is an example when the degree of colloquialism is high.
R1:「どんなラーメンが好き?」
R2:「あっさりしたのとか好きかなあ」
H:「まあやっぱりこってりかな」R1: "What kind of ramen do you like?"
R2: "I wonder if you like it lightly"
H: "Well, I guess I'm full"
後者の例では、人型ロボットR2の発話は、助詞「が」の欠落、口語的な語尾、「ラーメン」を「の」に置き換えなどが含まれ、口語らしさの度合いが高く、ユーザHの発話も、間投詞「まあ」の増加、比較副詞「やっぱ」の増加、口語的な語尾、「ラーメン」を「の」に置き換えなどが含まれ、口語らしさの度合いが高い。 In the latter example, the utterance of the humanoid robot R2 includes a missing particle "ga", colloquial endings, replacement of "ramen" with "no", and the likeness of colloquialism is high, and the utterance of the user H is high. Also, the degree of colloquialism is high, including the increase in the interjection "Well", the increase in the comparative adverb "Yappa", the colloquial ending, and the replacement of "Ramen" with "No".
ステップS13において、マイクロホン1は、引き込み行動の後にユーザが発した発話を受け付ける。以下、この発話をユーザ発話と呼ぶ。音声認識部2は、マイクロホン1が収音したユーザ発話の音声信号を音声認識し、音声認識結果として得られたテキストをユーザ発話の内容を表すテキストとして発話決定部3へ入力する。
In step S13, the
以降は、ユーザと対話システム10との間でユーザ発話の内容を話題とした対話が続行される。例えば、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システム10との間で実行されるように、対話システム10は、シナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、対話システム10は、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を行う人型ロボットは、何れか1つの人型ロボットであっても複数の人型ロボットであってもよい。
After that, the dialogue with the content of the user's utterance as a topic is continued between the user and the
<第二実施形態>
第一実施形態では、対話システム10がユーザの発話を正確に理解できるように、引き込み現象を利用して、ユーザの発話を対話システム10が取得するための条件を満たす範囲に引き込むように構成した。第二実施形態では、引き込み現象を利用せずに、ユーザの発話を所望の範囲に限定させる構成を説明する。ユーザの発話を対話システム10が想定する範囲に限定させることができれば、対話システム10はユーザの発話に対して適切な応答をできる可能性が高くなる。例えば、ユーザが必ず肯定または否定(「Yes / No」)を発話するようにできれば、対話システム10はユーザの発話に対して必ず適切な応答をすることができる。<Second embodiment>
In the first embodiment, in order for the
以下、図3を参照して、第二実施形態の対話方法の処理手続きを説明する。 Hereinafter, the processing procedure of the dialogue method of the second embodiment will be described with reference to FIG.
ステップS21において、マイクロホン1は、ユーザが発した発話を受け付ける。以下、この発話を第一ユーザ発話と呼ぶ。音声認識部2は、マイクロホン1が収音した第一ユーザ発話の音声信号を音声認識し、音声認識結果として得られたテキストを第一ユーザ発話の内容を表すテキストとして発話決定部3へ入力する。
In step S21, the
ステップS22において、人型ロボット5−1は、第一ユーザ発話の内容を表すテキストに基づいて発話決定部3が決定した発話の内容を表す音声をスピーカから出力する。以下、この発話を限定発話と呼ぶ。限定発話は、ユーザの発話を所望の範囲に限定させるための発話である。所望の範囲としては、例えば、C−1.ユーザの発話を相槌に限定させる、C−2.ユーザの発話を肯定または否定(例えば、「Yes / No」)に限定させる、などが挙げられる。
In step S22, the humanoid robot 5-1 outputs a voice representing the content of the utterance determined by the
以下、ユーザの発話を所望の範囲に限定させるための発話について、具体例を挙げながら詳細に説明する。具体例の表記方法については第一実施形態と同様である。なお、具体例における※1は第一ユーザ発話に相当し、※2は限定発話に相当する。 Hereinafter, utterances for limiting the utterances of the user to a desired range will be described in detail with reference to specific examples. The notation method of the specific example is the same as that of the first embodiment. Note that * 1 in the specific example corresponds to the first user utterance, and * 2 corresponds to the limited utterance.
C−1.ユーザの発話を相槌に限定させる場合の具体例を以下に示す。例えば、第一ユーザ発話の内容を表す語を含み、第一ユーザ発話の内容を確認する質問を限定発話として発話することで、ユーザが相槌を返す可能性が高まる。 C-1. A specific example in which the user's utterance is limited to Azuma is shown below. For example, by uttering a question that confirms the content of the first user utterance as a limited utterance that includes a word that represents the content of the first user utterance, the possibility that the user will return a hammer is increased.
R:「何が好き?」
H:「読書が好き」(※1)
R:「本を読むのが好きなんだね」(※2)
H:「うん」R: "What do you like?"
H: "I like reading" (* 1)
R: “I like reading books,” (* 2)
H: "Yes"
C−2.ユーザの発話を肯定または否定に限定させる場合の具体例を以下に示す。例えば、第一ユーザ発話の内容に関連する語を含むクローズ質問を限定発話とすることで、ユーザは肯定または否定で回答する可能性が高まる。なお、クローズ質問とは、例えば「Yes / No」や「A or B or C」のように回答範囲が限定される質問である。逆に、いわゆる5W1H(いつ(When)、どこで(Where)、だれが(Who)、なにを(What)、なぜ(Why)、どのように(How))のように自由に回答できる質問はオープン質問と呼ばれる。 C-2. A specific example of limiting the user's utterance to positive or negative is shown below. For example, the closed question including the word related to the content of the first user's utterance is set as the limited utterance, so that the user is more likely to answer in the affirmative or the negative. The closed question is a question whose answer range is limited, such as “Yes / No” or “A or B or C”. On the other hand, what is called 5W1H (When, Where, Who, What, What, Why, How) Called open question.
R:「何が好き?」
H:「読書が好き」(※1)
R:「漫画を読むのも好き?」(※2)
H:「うん」R: "What do you like?"
H: "I like reading" (* 1)
R: "Do you like reading manga?" (* 2)
H: "Yes"
ステップS23において、マイクロホン1は、限定発話の後にユーザが発した発話を受け付ける。以下、この発話を第二ユーザ発話と呼ぶ。音声認識部2は、マイクロホン1が収音した第二ユーザ発話の音声信号を音声認識し、音声認識結果として得られたテキストを第二ユーザ発話の内容を表すテキストとして発話決定部3へ入力する。
In step S23, the
以降は、ユーザと対話システム10との間で第二ユーザ発話の内容を話題とした対話が続行される。例えば、シナリオ対話システムにおいて用いられている技術により選択したシナリオに沿った対話がユーザと対話システム10との間で実行されるように、対話システム10は、シナリオ対話システムにおいて用いられている技術により決定したシナリオ発話の発話内容を表す音声をスピーカから出力する。また、例えば、対話システム10は、ユーザの発話に基づいて雑談対話システムにおいて用いられている技術により決定した雑談発話の発話内容を表す音声をスピーカから出力する。以降の発話を行う人型ロボットは、何れか1つの人型ロボットであっても複数の人型ロボットであってもよい。
After that, the dialogue with the content of the second user utterance as a topic is continued between the user and the
<変形例>
上述した実施形態では、エージェントとしてロボットを用いて音声による対話を行う例を説明したが、上述した実施形態のロボットは身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」(登録商標)や「2ちゃんねる」(登録商標)のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。<Modification>
In the above-described embodiment, an example in which a robot is used as an agent to perform a dialogue by voice has been described. However, even if the robot of the above-described embodiment is a humanoid robot having a body or the like, it is a robot having no body or the like. It may be. Further, the dialogue technology of the present invention is not limited to these, and it is also possible to adopt a form in which dialogue is performed using an agent that does not have a physical body such as a humanoid robot and does not have a vocalization mechanism. As such a form, for example, there is a form in which an agent displayed on the screen of a computer is used for dialogue. More specifically, in a group chat, such as "LINE" (registered trademark) and "2 channel" (registered trademark), in which a plurality of accounts interact by text messages, the user's account and the dialog device account interact with each other. It is also possible to apply to the form which performs. In this form, the computer having the screen displaying the agent needs to be in the vicinity of a person, but the computer and the dialogue device may be connected via a network such as the Internet. That is, the present dialogue system can be applied not only to a dialogue in which a speaker such as a person and a robot actually face each other but also to a conversation in which the speakers communicate with each other via a network.
変形例の対話システム20は、図4に示すように、入力部1、発話決定部3、および提示部5を備える。図4の例では、変形例の対話システム20は1台の対話装置21からなり、変形例の対話装置21は、入力部1、発話決定部3、および提示部5を備える。
As shown in FIG. 4, the
変形例の対話装置は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置がスマートフォンであるものとして説明する。提示部5はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いて入力部1へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部3はユーザのアカウントからの投稿に基づいて対話装置からの発話内容を決定し、各仮想アカウントを通じてグループチャットへ投稿する。なお、スマートフォンに搭載されたマイクロホンと音声認識機能を用い、ユーザが発声により入力部1へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカと音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカから出力する構成としてもよい。
The interaction device of the modified example is, for example, a mobile terminal such as a smartphone or a tablet, or an information processing device such as a desktop or laptop personal computer. Hereinafter, it is assumed that the interactive device is a smartphone. The
上記のように構成することにより、この発明の対話技術によれば、ユーザの発話の前に対話システムが発話を取得するための条件に対応する行動を行うことで、ユーザの発話を対話システムが取得するための条件を満たす範囲に引き込むことができ、ユーザは対話システムとの対話を長く続けることができるようになる。 With the above configuration, according to the dialogue technique of the present invention, the dialogue system performs the action corresponding to the condition for the dialogue system to acquire the utterance before the utterance of the user. It is possible to pull into the range that satisfies the condition for obtaining, and the user can continue the dialogue with the dialogue system for a long time.
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 Although the embodiments of the present invention have been described above, the specific configuration is not limited to these embodiments, and even if the design is appropriately changed without departing from the gist of the present invention, Needless to say, it is included in the present invention. The various kinds of processing described in the embodiments may be executed not only in time series according to the order described, but also in parallel or individually according to the processing capacity of the device that executes the processing or the need.
[プログラム、記録媒体]
上記実施形態で説明した対話装置における各種の処理機能をコンピュータによって実現する場合、対話装置が有すべき機能の処理内容はプログラムによって記述される。また、上記変形例で説明した対話システムにおける各種の処理機能をコンピュータによって実現する場合、対話システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記対話装置および対話システムにおける各種の処理機能がコンピュータ上で実現される。[Program, recording medium]
When various processing functions in the dialog device described in the above embodiment are realized by a computer, processing contents of functions that the dialog device should have are described by a program. Further, when various processing functions in the dialog system described in the above modification are realized by a computer, the processing contents of the functions that the dialog system should have are described by a program. By executing this program on a computer, various processing functions of the dialog device and dialog system are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded in a computer-readable recording medium. The computer-readable recording medium may be any recording medium such as a magnetic recording device, an optical disc, a magneto-optical recording medium, or a semiconductor memory.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded. Further, the program may be stored in a storage device of a server computer and transferred from the server computer to another computer via a network to distribute the program.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, the program recorded on a portable recording medium or the program transferred from the server computer in its own storage device. Then, when executing the process, this computer reads the program stored in its own storage device and executes the process according to the read program. As another execution form of this program, a computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be sequentially executed. In addition, a configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer May be It should be noted that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to a computer but has the property of defining computer processing).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the present apparatus is configured by executing a predetermined program on a computer, but at least a part of the processing contents may be implemented by hardware.
Claims (7)
入力部が、ユーザが発した発話である第一ユーザ発話を受け付ける第一受付ステップと、
提示部が、上記第一ユーザ発話に基づいて決定された上記ユーザの発話を所定の範囲に限定させるための発話である限定発話を提示する提示ステップと、
上記入力部が、上記限定発話の後に上記ユーザが発した発話である第二ユーザ発話を受け付ける第二受付ステップと、
を含み、
上記限定発話は、上記第一ユーザ発話の内容に関連する語を含み、かつ、上記第一ユーザ発話の内容を確認する質問であり、
かつ、
上記第一ユーザ発話に含まれる上記第一ユーザ発話の内容を表す名詞を含まず、かつ、当該名詞の意味を表す文章表現を含むクローズ質問である、
対話方法。 A dialogue method performed by a dialogue system for dialogue with a user,
A first receiving step in which the input unit receives a first user utterance, which is an utterance uttered by the user,
A presentation step in which the presentation unit presents a limited utterance that is an utterance for limiting the utterance of the user determined based on the first user utterance to a predetermined range;
A second reception step in which the input unit receives a second user utterance that is an utterance made by the user after the limited utterance,
Only including,
The limited utterance is a question including a word related to the content of the first user utterance, and confirming the content of the first user utterance,
And,
It is a closed question that does not include a noun that represents the content of the first user utterance included in the first user utterance, and that includes a sentence expression that represents the meaning of the noun.
How to interact.
上記所定の範囲は、肯定または否定を意図する内容である、
対話方法。 The interaction method according to claim 1, wherein
The predetermined range is a content intended to be affirmative or negative,
How to interact.
上記所定の範囲は、肯定を意図する内容である、
対話方法。 The interaction method according to claim 1 or 2, wherein
The predetermined range is a content intended to be affirmative,
How to interact.
ユーザが発した発話である第一ユーザ発話と、上記ユーザの発話を所定の範囲に限定させるための発話である限定発話の後に上記ユーザが発した発話である第二ユーザ発話と、を受け付ける入力部と、
上記第一ユーザ発話に基づいて上記限定発話を決定する発話決定部と、
上記発話決定部が決定した上記限定発話を提示する提示部と、
を含み、
上記限定発話は、上記第一ユーザ発話の内容に関連する語を含み、かつ、上記第一ユーザ発話の内容を確認する質問であり、
かつ、
上記第一ユーザ発話に含まれる上記第一ユーザ発話の内容を表す名詞を含まず、かつ、当該名詞の意味を表す文章表現を含むクローズ質問である、
対話システム。 An interactive system for interacting with a user,
Input for accepting a first user utterance that is an utterance issued by a user and a second user utterance that is an utterance issued by the user after a limited utterance that is an utterance for limiting the utterance of the user to a predetermined range Department,
An utterance determination unit that determines the limited utterance based on the first user utterance,
A presentation unit that presents the limited utterance determined by the utterance determination unit,
Only including,
The limited utterance is a question including a word related to the content of the first user utterance, and confirming the content of the first user utterance,
And,
It is a closed question that does not include a noun that represents the content of the first user utterance included in the first user utterance, and that includes a sentence expression that represents the meaning of the noun.
Dialog system.
ユーザが発した発話である第一ユーザ発話に基づいて上記ユーザの発話を所定の範囲に限定させるための発話である限定発話を決定する発話決定部
を含み、
上記限定発話は、上記第一ユーザ発話の内容に関連する語を含み、かつ、上記第一ユーザ発話の内容を確認する質問であり、
かつ、
上記第一ユーザ発話に含まれる上記第一ユーザ発話の内容を表す名詞を含まず、かつ、当該名詞の意味を表す文章表現を含むクローズ質問である、
対話装置。 An interactive device for determining an utterance presented by an interactive system including at least an input unit for receiving an utterance of a user and a presentation unit for presenting the utterance,
Look including an utterance determination unit which determines a limited speech which is spoken in order to limit the utterance of the user in a predetermined range based on the first user utterance is a speech generated by a user,
The limited utterance is a question including a word related to the content of the first user utterance, and confirming the content of the first user utterance,
And,
It is a closed question that does not include a noun that represents the content of the first user utterance included in the first user utterance, and that includes a sentence expression that represents the meaning of the noun.
Dialogue device.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016101225 | 2016-05-20 | ||
JP2016101225 | 2016-05-20 | ||
PCT/JP2017/018794 WO2017200079A1 (en) | 2016-05-20 | 2017-05-19 | Dialog method, dialog system, dialog device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017200079A1 JPWO2017200079A1 (en) | 2018-12-27 |
JP6682104B2 true JP6682104B2 (en) | 2020-04-15 |
Family
ID=60326305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018518378A Active JP6682104B2 (en) | 2016-05-20 | 2017-05-19 | Dialogue method, dialogue system, dialogue device, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6682104B2 (en) |
WO (1) | WO2017200079A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210319790A1 (en) * | 2018-07-20 | 2021-10-14 | Sony Corporation | Information processing device, information processing system, information processing method, and program |
US20220319516A1 (en) * | 2019-10-03 | 2022-10-06 | Nippon Telegraph And Telephone Corporation | Conversation method, conversation system, conversation apparatus, and program |
WO2021064948A1 (en) * | 2019-10-03 | 2021-04-08 | 日本電信電話株式会社 | Interaction method, interactive system, interactive device, and program |
JP6978624B1 (en) * | 2021-03-30 | 2021-12-08 | ミッドナイトブレックファスト株式会社 | Sentence writing device, writing method and information processing system |
WO2023281580A1 (en) * | 2021-07-05 | 2023-01-12 | 日本電信電話株式会社 | Information presentation method, information presentation device, and information presentation program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5286062B2 (en) * | 2008-12-11 | 2013-09-11 | 日本電信電話株式会社 | Dialogue device, dialogue method, dialogue program, and recording medium |
JP5715526B2 (en) * | 2010-08-12 | 2015-05-07 | 本田技研工業株式会社 | Dialog processing device, dialog processing method, and dialog processing program |
JP2016001242A (en) * | 2014-06-11 | 2016-01-07 | 日本電信電話株式会社 | Question sentence creation method, device, and program |
-
2017
- 2017-05-19 WO PCT/JP2017/018794 patent/WO2017200079A1/en active Application Filing
- 2017-05-19 JP JP2018518378A patent/JP6682104B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JPWO2017200079A1 (en) | 2018-12-27 |
WO2017200079A1 (en) | 2017-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6682104B2 (en) | Dialogue method, dialogue system, dialogue device, and program | |
JP6818280B2 (en) | Dialogue system, dialogue method, dialogue device, and program | |
JP6719741B2 (en) | Dialogue method, dialogue device, and program | |
JP6719739B2 (en) | Dialogue method, dialogue system, dialogue device, and program | |
JP6719740B2 (en) | Interactive method, interactive system, interactive device, and program | |
JP6970413B2 (en) | Dialogue methods, dialogue systems, dialogue devices, and programs | |
JP6719747B2 (en) | Interactive method, interactive system, interactive device, and program | |
JP6842095B2 (en) | Dialogue methods, dialogue systems, dialogue devices, and programs | |
JP6699010B2 (en) | Dialogue method, dialogue system, dialogue device, and program | |
JP6864326B2 (en) | Dialogue methods, dialogue systems, dialogue devices, and programs | |
JP6551793B2 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JPWO2017200081A1 (en) | Acquisition method, generation method, system thereof and program | |
Mubin et al. | You just do not understand me! Speech Recognition in Human Robot Interaction | |
JP6601625B2 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JP6647636B2 (en) | Dialogue method, dialogue system, dialogue device, and program | |
JP6610965B2 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
JP6755509B2 (en) | Dialogue method, dialogue system, dialogue scenario generation method, dialogue scenario generator, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6682104 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |