CN115335898A - 信息处理设备、交互式机器人、控制方法 - Google Patents

信息处理设备、交互式机器人、控制方法 Download PDF

Info

Publication number
CN115335898A
CN115335898A CN202180023765.5A CN202180023765A CN115335898A CN 115335898 A CN115335898 A CN 115335898A CN 202180023765 A CN202180023765 A CN 202180023765A CN 115335898 A CN115335898 A CN 115335898A
Authority
CN
China
Prior art keywords
user
conversation
utterance
users
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180023765.5A
Other languages
English (en)
Inventor
中山凌辅
阿部玄
吉户妙织
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115335898A publication Critical patent/CN115335898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47FSPECIAL FURNITURE, FITTINGS, OR ACCESSORIES FOR SHOPS, STOREHOUSES, BARS, RESTAURANTS OR THE LIKE; PAYING COUNTERS
    • A47F10/00Furniture or installations specially adapted to particular types of service systems, not otherwise provided for
    • A47F10/06Furniture or installations specially adapted to particular types of service systems, not otherwise provided for for restaurant service systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/26Pc applications
    • G05B2219/2642Domotique, domestic, home control, automation, smart house
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本技术涉及能够实现双方之间的无缝通信的信息处理设备、交互式机器人和控制方法。根据本技术的一个方面的信息处理设备分析通过网络进行对话的两个用户的各自的话语,话语由两个用户使用的各自的交互式机器人检测,并且根据两个用户之间的对话状况从各自的交互式机器人输出对话辅助音频,对话辅助音频是用于为对话提供辅助的音频。该技术可以应用于控制由进行远程对话的两个人使用的交互式机器人的操作的服务器。

Description

信息处理设备、交互式机器人、控制方法
技术领域
本技术涉及使两个人能够彼此顺畅地通信的信息处理设备、交互式机器人和控制方法。
背景技术
近年来,已经广泛使用用于通过语音响应于用户的语音查询来帮助用户的交互式代理。通过与具有这样的交互式代理功能的装置交谈,用户能够收听天气预报、重放音乐和查看日程表。
在PTL 1中描述了一种交互式代理***,其交互式地收集个人信息,并根据所收集的个人信息向各个用户提出例如适当的产品。
在NPL 1中公开了通过被称为匹配器的第三方进行视频通话的匹配服务。
[引用列表]
[专利文献]
[PTL 1]
日本专利特开第2008-52449号。
[非专利文献]
[NPL 1]
“伊对(Yi Dui)”,因特网,<URL https://www.520yidui.com/>,于2020年3月16日搜索。
发明内容
[技术问题]
常规的交互式代理***通常在用户和***处于1:1的关系时例如对来自用户的问题作出响应。
鉴于上述情况,本技术被提出以使两个人能够彼此顺畅地通信。
[问题的解决方案]
根据本技术的一方面,提供了一种信息处理设备,包括:分析部,其被配置成对由通过网络进行对话的两个用户生成的并且由两个用户使用的各自的交互式机器人检测到的话语进行分析;以及控制部,其被配置成根据两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,对话辅助语音是为对话提供辅助的语音。
根据本技术的另一方面,提供了一种交互式机器人,包括:供应部,其被配置成向用户供应酒精饮料;以及对话控制部,其被配置成:检测在供应酒精饮料之后用户的话语,将检测到的话语的语音数据发送至被配置成对用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备,并且输出根据两个用户之间的对话状况从信息处理设备发送的对话辅助语音,对话辅助语音是为对话提供辅助的语音。
本技术的一个方面执行以下处理:对由通过网络进行对话的两个用户生成的并且由两个用户分别使用的交互式机器人检测到的话语进行分析;以及根据两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,对话辅助语音是为对话提供辅助的语音。
本技术的另一方面执行以下处理:向用户供应酒精饮料;检测在供应酒精饮料之后用户的话语,并将检测到的话语的语音数据发送至对用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备。此外,本技术的另一方面执行以下处理:使根据两个用户之间的对话状况从信息处理设备发送的对话辅助语音被输出,对话辅助语音是为对话提供辅助的语音。
附图说明
[图1]图1是示出根据本技术的实施方式的语音通信***的示例配置的图。
[图2]图2是示出辅助话语的示例输出的图。
[图3]图3是示出实现对话辅助功能的AI的示例的图。
[图4]图4是示出对话状况的图。
[图5]图5是示出交互式代理设备的外观的放大透视图。
[图6]图6是示出安装有瓶子的示例的图。
[图7]图7是示出显示酒精饮料饮用记录的示例的图。
[图8]图8是示出显示对话记录的示例的图。
[图9]图9是示出用户A与用户B之间的对话的具体示例的图。
[图10]图10是示出从图9继续的用户A与用户B之间的对话的具体示例的图。
[图11]图11是示出从图10继续的用户A与用户B之间的对话的具体示例的图。
[图12]图12是示出用户C与用户D之间的对话的具体示例的图。
[图13]图13是示出从图12继续的用户C与用户D之间的对话的具体示例的图。
[图14]图14是示出用户A与用户B之间的对话的具体示例的图。
[图15]图15是示出从图14继续的用户A与用户B之间的对话的具体示例的图。
[图16]图16是示出用户A与用户B之间的对话的具体示例的图。
[图17]图17是示出匹配的示例的图。
[图18]图18是示出交互式代理设备的示例配置的框图。
[图19]图19是示出通信管理服务器的硬件配置的示例的框图。
[图20]图20是示出通信管理服务器的功能配置的示例的框图。
[图21]图21是示出由通信管理服务器执行的处理的流程图。
[图22]图22是示出由交互式代理设备执行的处理的流程图。
[图23]图23是示出使用交互式代理设备的示例的图。
具体实施方式
<本技术的概述>
根据本技术的管理语音通信***的服务器是通过使用基于AI(人工智能)的对话辅助功能在两个人之间建立顺畅对话的信息处理设备。对话辅助功能输出***的话语,并提示参与对话的用户生成话语。
例如,测量参与对话的两个人中的每一个人的话语时间段。在一个用户的话语时间段与另一个用户的话语时间段不同的情况下,***生成话语,以提示具有相对短的话语时间段的用户生成话语。从预设阶段中选择由***要说出的短语。例如,***输出包括用户的账户名的短语诸如“你觉得怎么样,A先生/女士?”作为***的话语。
此外,测量两个人之间的对话中的静默时间段。在两个人在诸如10秒的预定时间段内保持静默的情况下,***生成话语以提供新话题。例如,从新闻网站提取标题为表示两个用户共同感兴趣的话题的最新文章,并且提供与这样的文章相关的内容作为新话题。
更具体地,根据本技术的语音通信***被配置为处于2:1的用户与AI关系,并且适于使用AI,以便起到帮助用户彼此通信的作用。例如适于输入和输出语音的专用硬件被准备并设置在每个用户附近。此外,例如用于确认对话存档和详细设置的功能由安装在每个用户所拥有的智能手机或其他移动终端中的专用应用来提供。
现在将描述用于实现本技术的实施方式。描述将按以下顺序生成。
1.语音通信***的配置
2.交互式代理设备的外观配置
3.关于专用应用
4.包括辅助话语的对话的具体示例
5.设备的示例配置
6.设备的操作
7.其他
<语音通信***的配置>
图1是示出根据本技术的实施方式的语音通信***的示例配置的图。
图1中描绘的语音通信***被配置成使得两个交互式代理设备1即交互式代理设备1A和1B通过网络21彼此连接。诸如因特网的网络21还具有与其连接的通信管理服务器11。
用户A使用的交互式代理设备1A安装在例如用户A的家中。类似地,用户B使用的交互式代理设备1B安装在例如用户B的家中。尽管在图1中描绘了两个交互式代理设备1,但是更多数量的交互式代理设备1实际上连接至网络21。
在图1的示例中,用户A和用户B各自具有移动终端2A和2B例如智能手机。移动终端2A和2B也连接至网络21。
交互式代理设备1具有交互式代理功能,因此能够与用户建立语音通信。交互式代理设备1包括例如用于检测用户的语音的麦克风和用于输出另一用户的语音的扬声器。当交互式代理设备1与通信管理服务器11协作时,根据需要实现交互式代理设备1中包含的代理功能。在交互式代理设备1与通信管理服务器11之间发送和接收各种类型的信息。
交互式代理设备1中包含的代理功能在两个匹配的用户之间建立对话。图1中描绘的用户A和用户B是由通信管理服务器11匹配的用户。
用户A的语音由交互式代理设备1A采集,并通过通信管理服务器11被发送至交互式代理设备1B。交互式代理设备1B输出通过通信管理服务器11发送的用户A的语音。
类似地,用户B的语音由交互式代理设备1B采集,并通过通信管理服务器11被发送至交互式代理设备1A。交互式代理设备1A输出通过通信管理服务器11发送的用户B的语音。这使得用户A和用户B能够在他们各自的家中彼此进行远程对话。
当用户A和用户B参与对话时,用于辅助(帮助)他们彼此对话的话语作为***的话语从通信管理服务器11被发送至交互式代理设备1A和交互式代理设备1B,并且分别从交互式代理设备1A和交互式代理设备1B输出。在听到***的话语时,用户A和用户B适当地对***的话语做出反应。
更具体地,通信管理服务器11不仅具有匹配进行对话的两个人的功能,而且还具有分析两个人之间的对话状况并根据他们之间的对话状况给出用于辅助他们彼此进行对话的话语的对话辅助功能。由通信管理服务器11通过使用对话辅助功能从交互式代理设备1输出的话语在下文中根据需要被称为辅助话语。辅助话语是为对话提供辅助的对话辅助语音。
图2是示出辅助话语的示例输出的图。
图2的上部描绘了主动参与对话的用户A和用户B的状况。尽管例如在图2中未描绘交互式代理设备1,但是每个用户的话语被从用户使用的交互式代理设备1发送至对话伙伴使用的交互式代理设备1,然后被输出。
在如图2的中部所示用户A与用户B之间的对话暂停的情况下,如图2的下部所示,从交互式代理设备1A和1B输出辅助话语。在图2的示例中,输出的是提示用户A和用户B关于用户A和用户B都感兴趣的“棒球”彼此对话的辅助话语。这使得用户A和用户B通过谈论“棒球”来恢复对话。
如上所述,通信管理服务器11分析对话状况,例如以检查对话是否暂停,并根据分析结果输出辅助话语。通过为通信管理服务器11准备的AI实现对话辅助功能。例如由交互式代理设备1的制造商管理通信管理服务器11。
图3是示出实现对话辅助功能的AI的示例的图。
如图3的上部所示,在通信管理服务器11中准备对话辅助AI。对话辅助AI是实现对话辅助功能的AI。对话辅助AI是包括例如神经网络的推理模型,其输入对话状况和关于用户A和用户B中的每一个的个人信息诸如关于个人偏好的信息,然后输出要作为话题提供的内容。对话状况包括例如用户A和用户B中的每一个的话语和静默(对话在其期间暂停的时间段)中的每一个的时间段。
形成对话辅助AI的推理模型是通过使用例如指示各种对话状况的信息、关于各种用户的个人信息以及关于从新闻网站获得的新闻文章的信息来执行机器学习而生成的。
如虚线#1和#2所示,交互式代理设备1A和交互式代理设备1B二者连接至对话辅助AI。基于从交互式代理设备1A和交互式代理设备1B发送的信息,对话辅助AI分析两个人之间的对话状况,并根据需要行使对话辅助功能以提供话题。
应当注意,如图3的下部所示,用户A和用户B通过使用他们自己的安装有专用应用的移动终端2来提前输入简档信息例如感兴趣的话题(对话的事件和话题)。当用户A和用户B激活专用应用并且例如通过输入账户信息来执行登录操作时,确认由通信管理服务器11与账户信息相关联地管理的关于用户A和用户B的简档信息。
使用上述对话辅助功能的两个人之间的对话是在两个用户在他们自己的家中饮用由交互式代理设备1制备的酒精饮料的情况下进行的。更具体地,交互式代理设备1具有根据用户请求提供酒精饮料的功能。根据在由两个用户各自的交互式代理设备1向两个用户提供酒精饮料之后所保持的对话状况来输出辅助话语。
用户A和用户B在饮用由交互式代理设备1制备的酒精饮料时,以一对一的方式彼此对话。根据对话状况,根据需要,将作为第三方的话语的辅助话语***到用户A与用户B之间以一对一的方式进行的对话中。因此,所产生的情况类似于如图4所示的用户A和用户B前面的调酒师在适当的时间加入对话的情况。
用户A和用户B接收由辅助话语提供的支持以在饮用酒精饮料时进行对话,并且能够彼此顺畅地通信。
应当注意,图4描绘了用户A和用户B彼此并排坐着的情况。然而,实际上,用户A和用户B在他们自己的家中并与交互式代理设备1交谈。交互式代理设备1(通过扮演在适当的时间加入以一对一的方式进行的对话的调酒师的角色而产生在酒吧中的感觉)也可以被称为调酒师机器人。
<交互式代理设备的外观>
图5是示出交互式代理设备1的外观的放大透视图。
如图5所示,交互式代理设备1具有壳体51,壳体51被定形成类似于具有逐渐倾斜的顶表面的垂直长矩形平行六面体。凹部51A形成在壳体51的顶表面中。如图6中的箭头所示,装满威士忌或其他酒精饮料的瓶子61安装在凹部51A中。
此外,在壳体51的下前部中形成有矩形开口51B。开口51B用作玻璃杯62的出口。当玻璃杯62被放置在开口51B中并且用户请求酒精饮料时,瓶子61中的酒精饮料被倒入玻璃杯62中。在壳体51中另外设置有服务器机构,以自动地将酒精饮料倒入玻璃杯62中。
在瓶子61被清空的情况下,用户能够通过将新输送的瓶子61安装在凹部51A中而继续使用交互式代理设备1。例如,用于定期输送瓶子61的酒精饮料订购服务可用作交互式代理设备1的用户的服务。
在壳体51的侧表面中形成有例如用于冰和诸如水和碳酸水的调酒用的饮料的入口。通过发出语音请求来指定制备酒精饮料的方式,用户能够尝试各种制备的酒精饮料,例如“直饮”、“加冰块”和“加苏打水”。配方数据被存储在交互式代理设备1中,并且用于控制服务器机构,以便再现调酒师将酒精饮料倒入玻璃杯的方式。
<关于专用应用>
如前所述,语音通信***的专用应用安装在每个移动终端2中。专用应用例如由交互式代理设备1的制造商准备。
用户操作专用应用以注册简档信息,例如年龄、地址和个人偏好。注册的简档信息被发送至通信管理服务器11,并且与用户的帐户信息相关联地被管理。
图7和图8是示出专用应用的示例屏幕的图。
针对专用应用的屏幕准备酒精饮料饮用记录选项卡T1和对话记录选项卡T2。在点击酒精饮料饮用记录选项卡T1的情况下,如图7所示,酒精饮料饮用记录出现在屏幕上。在图7的示例中,指示例如酒精饮料饮用的日期和时间、这种饮用的量以及制备酒精饮料的方式的信息被显示为酒精饮料饮用记录。
同时,在点击对话记录选项卡T2的情况下,如图8所示,对话记录出现在屏幕上。在图8的示例中,指示诸如对话伙伴的名字、对话的日期和时间以及表示对话内容的标签的多条信息被显示为对话记录。
基于由通信管理服务器11管理的信息来实现显示上述酒精饮料饮用记录和对话记录的功能。专用应用与通信管理服务器11通信,并根据从通信管理服务器11发送的信息显示各种类型的屏幕。
<包括辅助话语的对话的具体示例>
现在将描述语音通信***中两个人之间进行的对话的具体示例。
1.基于对话状况的辅助话语
(1)基于话语时间段的辅助话语
例如,在用户B的话语时间段比用户A的话语时间段长的情况下,使用固定短语输出以下辅助话语,以向用户A提供对话的话题。
“你觉得怎么样,A先生/女士?”(询问A先生/女士对B先生/女士的谈话的看法的话语)
“你喜欢什么,A先生/女士?”(向A先生/女士提问的话语)
“你最近在干什么,A先生/女士?”(改变对话的话题的话语)
在用户A的话语时间段与用户B的话语时间段明显不同的情况下,或者更具体地,在用户B的话语时间段大于总话语时间段的80%的情况下,输出上面的辅助话语。应当注意,在辅助话语的具体示例中,“A先生/女士”表示用户A,而“B先生/女士”表示用户B。
(2)基于静默时间段的辅助话语
在两个用户在预定时间段(例如10秒)内都没有交谈的情况下,输出以下辅助话语以提供对话的话题。
“你知道(新闻标题)吗?”(继续或深入本话题的话语)
“我对(新闻标题)感兴趣”(提供信息的话语)
通过在网站上搜索与最近10分钟对话中最常用的单词相关的新闻文章并且使辅助话语包括例如在新闻网站中突出显示的最新新闻文章的标题,来生成上面的辅助话语。
图9至图11是示出用户A与用户B之间的对话的具体示例的图。
在图9至图11中,用户A的话语被描绘在左栏中,而用户B的话语被描绘在右栏中。在通信管理服务器11的控制下从交互式代理设备1输出的***的话语(***话语)被描绘在中心栏中。***话语包括上述辅助话语。对于示出对话的其他具体示例的稍后参考的附图也是如此。
例如,当从交互式代理设备1A输出诸如“A先生/女士,B先生/女士想要与你谈谈”的***话语S1时,用户A与用户B之间的对话开始,并且用户A响应于***话语S1同意与用户B进行对话。
***话语S1用于向用户A通知用户B想要与被选择作为对话伙伴的用户A开始对话。当由用户B例如从由通信管理服务器11发现为匹配的对话伙伴候选中选择用户A时,输出***话语S1。
由通信管理服务器11进行的匹配例如基于由个人用户预先注册的诸如“经济”和“娱乐”的感兴趣的话题来执行。可替选地,匹配可以基于除了预先注册的话题之外的信息例如在对话伙伴选择时输入的文本数据来执行。这使得个人用户能够选择对相同话题感兴趣的用户作为对话伙伴。
在图9的示例中,在时间t1与时间t2之间的间隔期间从用户A生成“你好,很高兴认识你”的话语,然后在时间t2与时间t3之间的间隔期间从用户B生成“也很高兴认识你,A先生/女士,你也对棒球感兴趣,不是吗?”的话语。用户A的语音数据通过通信管理服务器11从交互式代理设备1A发送至交互式代理设备1B,并作为用户A的话语从交互式代理设备1B输出。同时,用户B的语音数据通过通信管理服务器11从交互式代理设备1B发送至交互式代理设备1A,并作为用户B的话语从交互式代理设备1A输出。
在通信管理服务器11中,用户A的话语时间段和用户B的话语时间段各自被测量为用户A的话语状况和用户B的话语状况。在图9中心的条形部分内,阴影部分表示用户A的话语时间段,而浅色部分表示用户B的话语时间段。这同样适用于其他附图。
此外,通信管理服务器11从用户A和用户B的话语中提取关键字作为用户A的话语状况和用户B的话语状况。图9中用框包围的单词由通信管理服务器11提取为关键字。
在时间t3处和时间t3之后,用户A和用户B交替地生成话语,并在用户A与用户B之间继续进行对话。在图9和图10的示例中,用户B比用户A交谈更长的时间段。
在用户A的话语时间段与用户B的话语时间段之间的差大于阈值的情况下,如图10所示,在时间t12处输出诸如“你喜欢什么,A先生/女士?”的***话语S2。***话语S2是为了向用户A提供对话的话题通过使用固定短语输出的辅助话语。例如,在用户B的话语时间段大于两个用户的总话语时间段的80%的情况下,输出上面的辅助话语。
***话语S2的语音数据从通信管理服务器11被发送至交互式代理设备1A和交互式代理设备1B二者,并作为辅助话语从交互式代理设备1A和交互式代理设备1B二者输出。在听到向用户A提供对话的话题的***话语S2时,用户A在时间t13与时间t14之间的间隔期间生成诸如“嗯,我喜欢东京斯克鲁纳猎鹰(Sukuruna Hayabusas)”的话语。
通信管理服务器11能够通过向具有相对短的话语时间段的用户A提供交谈的机会并针对用户B的话语时间段调整用户A的话语时间段来在用户A与用户B之间建立顺畅的通信。
在听到辅助话语时,用户A和用户B在时间t14与时间t17之间的间隔期间交替地生成话语以彼此对话。
在如图11的上部所示用户A和用户B保持静默以在预定时间段(例如10秒)内暂停他们对话的情况下,输出诸如“你对‘Toto在2019年赢得中央联赛冠军的可能性’有何看法?”的***话语S3。***话语S3是为了向两个用户提供对话的话题在持续静默之后输出的辅助话语。
如上所述,通信管理服务器11另外测量例如用户A和用户B在其期间保持静默的时间段作为用户A和用户B的话语状况。
在输出***话语S3以向用户A和用户B提供对话的话题之后,用户B在时间t21与时间t22之间的间隔期间生成诸如“Keihan今年被彻底击败,但Keihan明年肯定会赢得中央联赛冠军”的话语。
通信管理服务器11能够通过提示两个静默用户生成话语以彼此对话来在他们之间建立顺畅的通信。
在听到辅助话语时,用户A和用户B在时间t22与时间t24之间的间隔期间交替地生成话语。
例如,在经过诸如一小时的预定时间段的情况下,如图11的下部所示,输出诸如“现在是结束对话的时间,非常感谢你”的***话语S4。在听到***话语S4时,用户A和用户B彼此感谢并结束他们的对话。
如上所述,通信管理服务器11在用户A和用户B彼此进行对话时分析他们之间的对话状况。然后根据对话状况,根据需要输出辅助话语。这在用户A与用户B之间建立顺畅的通信。
2.与web服务相关联的辅助话语
在从用户之间的对话中提取的单词与协调的Web服务相关联的情况下,向用户生成包含指示例如用户对协调的Web服务的使用情况的信息的辅助话语作为新话题。
(1)与音乐流媒体服务的协调
基于关于用户经常收听的歌曲的信息,输出辅助话语以提供与对话内容相关的信息作为对话的话题。关于用户经常收听的歌曲的信息例如由专用应用从提供音乐流媒体服务的服务器获取,或者从由用户安装在移动终端2中以使用音乐流媒体服务的应用获取。
(2)与购物服务的协调
基于关于用户的购物历史的信息,输出辅助话语以提供与对话内容相关的信息作为对话的话题。关于用户的购物历史的信息例如由专用应用从管理购物网站的服务器获取,或者从由用户安装在移动终端2中以进行购物的应用获取。
(3)与从Web获取的活动信息的协调
基于从Web获取的信息,输出辅助话语以提供关于与对话内容相关的活动的信息作为对话的话题。
图12和图13是示出用户C与用户D之间的对话的具体示例的图。
如图12所示,用户C与用户D之间的对话以与参照图9描述的用户A与用户B之间的对话类似的方式开始。用户C和用户D被发现是彼此匹配的对话伙伴,因为他们共同对“外国戏剧”感兴趣。
用户C和用户D在时间t1与时间t7之间的间隔期间交替地生成话语。用户C的语音数据通过通信管理服务器11从作为由用户C使用的交互式代理设备1的交互式代理设备1C被发送至交互式代理设备1D,并作为用户C的话语从交互式代理设备1D输出。交互式代理设备1D是由用户D使用的交互式代理设备1。同时,用户D的语音数据通过通信管理服务器11从交互式代理设备1D被发送至交互式代理设备1C,并作为用户D的话语从交互式代理设备1C输出。
例如,当在时间t6与时间t7之间的间隔期间谈论电影场景时,用户D生成“我明白,我也最喜欢第三季,XX故事的最后一幕非常令人印象深刻”的话语。此外,在时间t7与时间t8之间的间隔期间,用户C生成“是的,那一幕很精彩。我喜欢陌生人XXXX,最近,我经常听陌生人XXXX的原声带”的话语。
通信管理服务器11分析对话的内容,并检测指示用户C经常收听的电影的原声带的名称的单词。在此,假设用户C通过使用能够与通信管理服务器11协调的音乐流媒体服务来收听电影的原声带。
在检测到指示用户C收听的原声带的名称的单词之后,输出诸如“我听说C先生/女士本周收听了“XX故事”十多次”的***话语S12。***话语S12是基于关于用户C收听的歌曲的信息生成并且被输出以提供与对话内容相关的信息作为对话的话题的辅助话语。
***话语S12的语音数据从通信管理服务器11被发送至交互式代理设备1C和交互式代理设备1D二者,并作为辅助话语从交互式代理设备1C和交互式代理设备1D二者输出。在听到向用户D提供对话话题的***话语S12时,用户D在时间t9与时间t10之间的间隔期间生成诸如“我也听了原声带,我非常喜欢原声带中的一首歌。我反复听那首歌。”的话语。
通信管理服务器11能够通过向用户D提供关于用户C的信息以开始对话并由此提示用户D生成话语,在用户C与用户D之间建立顺畅的通信。
在听到辅助话语时,如图13所示,用户C和用户D在时间t10处和时间t10之后交替地生成话语以彼此对话。
例如,由于对在时间t10与时间t11之间的间隔期间生成的用户C的话语的分析,在检测到指示用户C购买的产品的名称的单词之后,在时间t12处输出诸如“我听说C先生/女士一周前买了杯子,衬衣是另一种流行商品。”的***话语S13。***话语S13是基于关于用户C的购物历史的信息生成并且被输出以提供与对话内容相关的信息作为对话的话题的辅助话语。
此外,在由于对对话内容的分析而识别出用户C和用户D的偏好之后,在时间t14处输出诸如“既然你们俩都喜欢“陌生人XXXX”,我建议你们参观在涩谷举行的活动”的***话语S14。***话语S14是基于从Web获取的信息生成并且被输出以提供关于与对话内容相关的活动的信息作为对话的话题的辅助话语。
在听到上述辅助话语时,用户C和用户D继续彼此对话,然后通过说再见结束他们的对话,如图13的下部所示。
如上所述,当用户C和用户D彼此对话时,通信管理服务器11分析他们的对话内容,并根据Web服务的使用情况获取与对话内容相关的信息。此外,输出辅助话语以提供基于Web服务的使用情况获取的信息作为对话的话题。这在用户C与用户D之间建立顺畅的通信。
3.根据酒精饮料的剩余量的辅助话语
根据用户正在饮用的酒精饮料的剩余量输出以下辅助话语。
(1)用于结束对话的辅助话语(两个用户都喝完了酒精饮料的情况)
(2)用于提供另一杯酒精饮料的辅助话语(一个用户喝完一杯酒精饮料,而另一个用户剩下多半杯酒精饮料的情况)
例如,用户使用的玻璃杯62设置有用于检测酒精饮料的剩余量的传感器。指示由传感器检测到的酒精饮料的剩余量的信息由交互式代理设备1获取并被发送至通信管理服务器11。
可替选地,可以通过分析由附接至交互式代理设备1的相机拍摄的图像来检测酒精饮料的剩余量。用于检测酒精饮料的剩余量的图像分析可以由交互式代理设备1执行或者由通信管理服务器11执行。
图14和图15是示出彼此对话的用户A与用户B之间的对话的具体示例的图。
图14中描绘的对话与参照图9描述的用户A与用户B之间的对话相同。在图14的左端处描绘了用户A饮用的酒精饮料的剩余量的时间序列。此外,在图14的右端处描绘了用户B饮用的酒精饮料的剩余量的时间序列。通信管理服务器11根据从用户A和用户B使用的交互式代理设备1分别发送的信息来识别酒精饮料的剩余量。
在图14的示例中,在时间t10处,当用户A的话语结束时,用户A的酒精饮料的剩余量为80%,而用户B的酒精饮料的剩余量为50%。
在时间t10处和时间t10之后,如图15所示,用户A和用户B交替地生成话语。在图15的示例中,在预定的静默时间段(例如10秒)之后输出与参照图11描述的辅助话语相同的***话语S22。
在时间t24处,当用户B生成话语时,如图15的右端所示,用户B的酒精饮料的剩余量为0%。在这种情况下,在时间t24处输出诸如“B先生/女士,再来一杯酒精饮料怎么样?”的***话语S23。***话语S23是为了提供另一杯酒精饮料而生成的辅助话语。
***话语S23的语音数据从通信管理服务器11被发送至交互式代理设备1A和交互式代理设备1B二者,并作为辅助话语从交互式代理设备1A和交互式代理设备1B二者输出。在听到***话语S23时,用户B能够请求另一杯酒精饮料并使其由交互式代理设备1B制备。应当注意,在时间t24处,用户A的酒精饮料的剩余量为60%,即,用户A剩下多半杯酒精饮料,如图15的左端所示。
响应于仅一个用户喝完一杯酒精饮料的情况,通信管理服务器11能够通过向具有空玻璃杯的那个用户提供另一杯酒精饮料并由此调整两个用户的酒精饮料饮用进度来在用户A与用户B之间建立顺畅的通信。通常,喝完一杯酒精饮料的用户无法停止思考空玻璃杯,并无法集中于对话。然而,通信管理服务器11能够避免这种情况的发生。
图15中描绘的用户A与用户B之间的对话根据例如在用户A和用户B的玻璃杯被清空的时刻输出的辅助话语而结束。
4.情绪分析结果的使用示例
基于用户的话语分析用户的情绪,并根据情绪分析的结果执行以下过程。在通信管理服务器11中包含情绪分析功能(情绪分析引擎)。基于例如用户讲话的时间长度、用户倾听的时间长度以及用户话语中包括的关键字来分析用户的情绪。
(1)输出辅助话语,以向有消极情绪的用户提供可能会给用户带来积极情绪的话题。例如,由辅助话语提供关于具有消极情绪的用户感兴趣的主题的话题。
(2)根据由于情绪分析而识别的用户的个性和偏好,用户与将是最佳对话伙伴的另一用户匹配。在这种情况下,例如,基于紧接在情绪从消极变为积极之前生成的话语来分析用户的个性和偏好。基于对话期间的情绪变化分析用户的个性和偏好,并在下一次对话匹配时,将用户与可能给两个用户都带来积极情绪的另一个用户进行匹配。
(3)基于情绪分析的结果来控制IoT(物联网)装置。除了交互式代理设备1之外,可由交互式代理设备1控制的IoT装置被安装在用户所在的空间中。例如,能够调节亮度和色温的LED照明装置被安装为IoT装置。
通信管理服务器11通过向交互式代理设备1发送控制命令通过交互式代理设备1控制IoT装置的操作。通信管理服务器11对IoT装置的操作控制可以通过向移动终端2发送控制命令通过移动终端2来行使。
图16是示出用户A与用户B之间的对话的具体示例的图。
图16中描绘的对话基本上与参照图9描绘的用户A与用户B之间的对话相同。在用户A的话语右边描绘的波形表示用户A在对话期间的情绪。在用户B的话语左边描绘的波形表示用户B在对话期间的情绪。代表情绪的阴影波形表示消极情绪,而代表情绪的浅色波形表示积极情绪。每个波形的幅度表示指示情绪强度的情绪值。
在图16的示例中,用户B在时间t1与时间t2之间的间隔、在时间t3与时间t4之间的间隔期间以及在时间t5与时间t6之间的间隔期间生成话语。在每个这样的间隔期间,用户B的情绪是积极的。
同时,用户A在每个短间隔期间即在时间t2与时间t3之间的间隔期间、在时间t4与时间t5之间的间隔期间以及在时间t6与时间t7之间的间隔期间生成话语。在时间t2与时间t3之间的间隔期间以及在时间t4与时间t5之间的间隔期间,用户A的情绪是消极的。在时间t6与时间t7之间的间隔期间,用户A的情绪是积极的。
基于每个话语,通信管理服务器11分析例如用户的个性和偏好以及对话状况。用户B的特征的估计指示例如用户B在长时间段内说话,在短时间段内倾听,并且经常具有积极的情绪。用户B的特征的估计还指示用户B喜欢交谈并对例如“棒球”的话题感兴趣。
同时,用户A的特征的估计指示例如用户A在短时间段内说话并在长时间段内倾听。此外,当用户A在时间t5与时间t6之间的间隔期间倾听用户B的话语时,用户A的情绪变为积极的情绪。因此,估计用户A对名字为“Takamori”的棒球球员感兴趣,该棒球球员的名字作为关键字包含在用户B的话语中。
在上面的情况下,在时间t7处输出诸如“我查看了关于名字为“Takamori”的球员的最新新闻”的***话语S31。***话语S31是用于提供可能产生积极情绪的对话话题的辅助话语。在输出***话语S31之后,输出***话语以传送作为搜索结果找到的最新新闻文章的内容。
以上述方式,通信管理服务器11能够将用户A的情绪改变为积极的情绪,并且随后在用户A与用户B之间建立顺畅的通信。
图17是示出匹配的示例的图。
在该示例中,由通信管理服务器11根据与各种用户的对话历史估计的用户A的基本特征被认为指示用户A不善于倾听他人,但可能积极参与关于用户A感兴趣的话题的对话。
此外,假设基于在上述情绪变化时生成的话语的内容,用户A对与职业棒球相关的话题中的一些特定话题例如“新秀之王”、“选秀”和“甲子园”感兴趣。
在上面的情况下,以图17所示的概括方式谈论要点,使得每个话语相对较短。因此,针对对职业棒球球员的训练感兴趣的用户C执行匹配。根据用户A和用户C的个性和偏好来执行用户A与用户C之间的匹配,这些个性和偏好例如基于对话中每个用户的情绪来估计。
当例如从交互式代理设备1A输出诸如“A先生/女士,C先生/女士想要与你交谈”的***话语S41时,用户A与用户C之间的对话开始,并且在听到***话语S41时,用户A同意开始与用户C的对话。
以上述方式,通信管理服务器11能够根据用户的个性和偏好执行关于最佳用户的匹配。通信管理服务器11保存关于可能是最佳的用户组合的信息。
应当注意,在对话内容为积极内容的情况下,基于情绪分析的结果进行LED照明装置控制,以调整更亮的灯光。此外,在对话内容为消极内容的情况下,进行LED照明装置控制以调整柔和的昏暗光线。例如,关于爱好、家庭或恋情事件的对话内容被认为是积极的,而关于咨询、担忧或葬礼的对话内容被认为是消极的。
以上述方式,通信管理服务器11能够根据对话内容调整用户周围的环境。
<设备的示例配置>
现在将描述图1中描绘的语音通信***中包括的设备的配置。
-交互式代理设备1的配置
图18是示出交互式代理设备1的示例配置的框图。
交互式代理设备1被配置成使得扬声器52、麦克风102、通信部103和酒精饮料供应部104连接至控制部101。
控制部101包括CPU(中央处理单元)、ROM(只读存储器)和RAM(随机存取存储器)。控制部101通过允许CPU执行预定程序来控制交互式代理设备1的整体操作。
控制部101执行预定程序以实现代理功能部111、对话控制部112、装置控制部113和传感器数据获取部114。
代理功能部111实现交互式代理设备1的代理功能。例如,代理功能部111执行通过用户的语音请求的各种类型的任务,并通过合成的语音向用户呈现任务执行的结果。例如,代理功能部111执行用于检查天气预报和制备酒精饮料的各种类型的任务。代理功能根据需要通过与诸如通信管理服务器11的外部服务器进行通信来实现。
对话控制部112控制用户与被选择为对话伙伴的另一用户之间的对话。例如,对话控制部112控制通信部103,以将从麦克风102提供的用户的语音数据发送至通信管理服务器11。发送至通信管理服务器11的语音数据被发送至作为对话伙伴的用户所使用的交互式代理设备1。
此外,在通信部103接收到从通信管理服务器11发送的作为对话伙伴的用户的语音数据的情况下,基于从通信部103提供的语音数据,对话控制部112使扬声器52输出作为对话伙伴的用户的话语。
在通信部103接收到从通信管理服务器11发送的***话语的语音数据的情况下,基于从通信部103提供的语音数据,对话控制部112使扬声器52输出***话语。
装置控制部113控制通信部103,以向作为控制目标的外部装置发送控制命令,并由此控制外部装置的操作。基于从通信管理服务器11发送的信息,装置控制部113根据前面提到的用户的情绪来执行例如对IoT装置的控制。
传感器数据获取部114控制通信部103,以接收从附接至玻璃杯62的传感器发送的传感器数据。从附接至玻璃杯62的传感器发送指示例如酒精饮料的剩余量的传感器数据。传感器数据获取部114将指示酒精饮料的剩余量的信息发送至通信管理服务器11。传感器数据获取部114用作根据从附接至玻璃杯62的传感器发送的传感器数据来检测用户的酒精饮料的剩余量的检测部。
麦克风102检测用户的话语,并将检测到的用户的话语的语音数据输出至控制部101。
通信部103包括例如与连接至网络21的装置通信的网络接口、建立短距离无线通信的这样的无线通信接口诸如无线LAN和蓝牙(注册商标)接口、或者其他接口。通信部103向通信管理服务器11发送和从通信管理服务器11接收各种类型的数据例如语音数据。此外,通信部103向与交互式代理设备1安装在同一空间中的外部设备(例如作为控制目标的装置和/或附接至玻璃杯62的传感器)发送和从外部设备接收各种类型的数据。
在代理功能部111的控制下,酒精饮料供应部104将酒精饮料从瓶子61倒入玻璃杯62中。上述酒精饮料供应机构由酒精饮料供应部104实现。酒精饮料供应部104根据配方数据制备酒精饮料。指示如何以适合于饮用风格的方式制备酒精饮料的信息被包括在由控制部101保存的配方数据中。
-通信管理服务器11的配置
图19是示出通信管理服务器11的硬件配置的示例的框图。
CPU 201、ROM 202和RAM 203通过总线204互连。
总线204还连接至输入/输出接口205。输入/输出接口205连接至输入部206和输出部207。输入部206包括例如键盘和鼠标。输出部207包括例如显示器和扬声器。
此外,输入/输出接口205连接至存储部208、通信部209和驱动器210。存储部208包括例如硬盘或非易失性存储器。通信部209包括例如网络接口。驱动器210驱动可移除介质211。
通信管理服务器11包括具有上述配置的计算机。通信管理服务器11可以包括多个计算机,而不是单个计算机。
图20是示出通信管理服务器11的功能配置的示例的框图。
如图20所示,在通信管理服务器11中实现控制部221。控制部221包括简档管理部231、匹配部232、Web服务分析部233、机器人控制部234、对话分析部235、情绪分析部236、酒精饮料饮用进度分析部237和***话语生成部238。当由图19中描绘的CPU 201执行预定程序时,实现图20中描绘的组件部中的至少一些组件部。
简档管理部231管理关于使用语音通信***的每个用户的简档信息。由简档管理部231管理的简档信息不仅包括通过使用专用应用注册的信息,而且还包括关于例如基于对话内容识别的对话期间的情绪和用户的特征的信息。
例如,基于由简档管理部231管理的简档信息,匹配部232执行关于作为对话伙伴的用户的匹配。关于由匹配部232匹配的用户的信息被提供给Web服务分析部233和机器人控制部234。
Web服务分析部233分析彼此对话的用户如何使用Web服务。例如,Web服务分析部233从安装在移动终端2中的专用应用获取关于Web服务的使用情况的信息,并分析所获取的信息。
通过分析所获取的信息,Web服务分析部233确认关于例如用户通过使用音乐流媒体服务收听的歌曲和用户通过使用购物网站购买的产品的信息。由Web服务分析部233进行的分析的结果被提供给***话语生成部238。基于Web服务分析部233进行的分析的结果,如参照图12和图13所描述的,与Web服务协调地生成辅助话语。
机器人控制部234控制交互式代理设备1,交互式代理设备1是由参与对话的用户使用的调酒师机器人。例如,机器人控制部234控制通信部209,以将从一个用户的交互式代理设备1接收到的语音数据发送至另一个用户的交互式代理设备1。由机器人控制部234接收到的用户话语的语音数据被提供给对话分析部235和情绪分析部236。
此外,机器人控制部234将由***话语生成部238生成的***话语的语音数据发送至参与对话的两个用户的交互式代理设备1,并使交互式代理设备1输出***话语。
此外,在从交互式代理设备1发送指示酒精饮料的剩余量的信息的情况下,机器人控制部234将由通信部209接收到的指示酒精饮料的剩余量的信息输出至酒精饮料饮用进度分析部237。机器人控制部234与交互式代理设备1通信,并执行各种类型的处理,例如,通过交互式代理设备1控制IoT装置。
基于从机器人控制部234提供的语音数据,对话分析部235分析话语状况,例如参与对话的每个用户的话语时间段和静默时间段。此外,对话分析部235通过分析对话内容来分析话语中包括的关键字。由对话分析部235进行的分析的结果被提供给***话语生成部238。基于由对话分析部235进行的分析的结果,如参照图9至图11所描述的,根据对话状况生成辅助话语。
基于从机器人控制部234提供的语音数据,情绪分析部236分析参与对话的每个用户的情绪。由情绪分析部236进行的分析的结果被提供给***话语生成部238。基于由情绪分析部236进行的分析的结果,如参照图16所描述的,根据情绪生成辅助话语。
基于从机器人控制部234提供的信息,酒精饮料饮用进度分析部237分析参与对话的每个用户的酒精饮料饮用进度。如前所述,从交互式代理设备1发送的指示酒精饮料的剩余量的信息是从附接至玻璃杯62的传感器发送的传感器数据。基于从附接至玻璃杯62的传感器发送的传感器数据,执行由酒精饮料饮用进度分析部237对每个用户的酒精饮料饮用进度进行的分析。
由酒精饮料饮用进度分析部237进行的分析的结果被提供给***话语生成部238。基于由酒精饮料饮用进度分析部237进行的分析的结果,如参照图14和图15所描述的,根据酒精饮料的剩余量生成辅助话语。
基于由Web服务分析部233、对话分析部235、情绪分析部236和酒精饮料饮用进度分析部237进行的分析的结果,***话语生成部238生成辅助话语,并将所生成的辅助话语的语音数据提供给机器人控制部234。此外,***话语生成部238根据需要生成除辅助话语之外的***话语,并将所生成的***话语的语音数据提供给机器人控制部234。
<设备的操作>
下面描述如上所述配置的通信管理服务器11和交互式代理设备1的基本操作。
-通信管理服务器11的操作
首先,下面参照图21的流程图描述由通信管理服务器11执行的处理。
在步骤S1中,匹配部232参考由简档管理部231管理的简档信息执行关于作为对话伙伴的用户的匹配,并使匹配的用户开始彼此对话。
在步骤S2中,机器人控制部234向参与对话的用户所使用的交互式代理设备1发送用户话语的语音数据并从交互式代理设备1接收用户话语的语音数据。
在步骤S3中,对话分析部235基于话语的语音数据分析两个用户之间的对话状况。
在步骤S4中,***话语生成部238基于对话状况的分析结果确定是否需要辅助话语。
在步骤S4中确定需要辅助话语的情况下,处理进行至步骤S5。在步骤S5中,***话语生成部238生成辅助话语,并使机器人控制部234将所生成的辅助话语的语音数据发送至每个用户的交互式代理设备1。
在步骤S6中,机器人控制部234确定是否结束对话。
在步骤S6中确定对话没有结束的情况下,处理返回到步骤S2以重复上述步骤。类似地,在步骤S4中确定不需要辅助话语的情况下,重复步骤S2及之后的步骤。
在步骤S6中确定对话结束的情况下,处理终止。
-交互式代理设备1的操作
接下来,下面参照图22的流程图描述由交互式代理设备1执行的处理。
在步骤S11中,麦克风102检测用户的话语。
在步骤S12中,对话控制部112将从麦克风102提供的用户的话语的语音数据发送至通信管理服务器11。
在步骤S13中,对话控制部112确定是否从通信管理服务器11发送作为对话伙伴的用户的话语的语音数据或***话语的语音数据。
在步骤S13中确定发送语音数据的情况下,处理进行至步骤S14。在步骤S14中,在对话控制部112的控制下,扬声器52输出作为对话伙伴的用户的话语或***话语。
在步骤S15中确定对话结束的情况下,处理终止。
上述处理使得交互式代理设备1的用户能够例如通过使用由交互式代理设备1制备的酒精饮料作为晚间饮品,在家中容易地享受与另一用户的对话。例如,即使在对话暂停的情况下,用户也能够在通信管理服务器11提供的帮助下与对话伙伴建立顺畅的通信。
特别地,独自生活的老年人难以外出。如图23所示,通过使用交互式代理设备1作为用于与远方的人进行对话的通信工具,独自生活的老年人能够消除孤独感。
为了容易地与对话伙伴谈论您的焦虑和担忧,需要为您提供满足以下条件的环境:其中对话伙伴是好的倾听者,将保护你的个人信息,并得到他人的信任,以及其中保证您不会亲自与对话伙伴见面,您有第三方作为中间人,等等。交互式代理设备1使其用户能够容易地在家中构建这样的环境。
此外,通过使用专用应用,用户能够例如管理酒精消费和查看对话记录。
<其他>
假设通信管理服务器11包括图20中描绘的所有组件部。然而,可替选地,通信管理服务器11可以包括图20中描绘的组件部中的至少一些组件部。
假设交互式代理设备1供应酒精饮料。然而,可替选地,交互式代理设备1可以供应诸如咖啡、茶或果汁的其他饮料。此外,交互式代理设备1可以供应膳食。当供应膳食时,每个用户能够在用餐的同时享受与另一个用户的对话。
-关于程序
上述一系列处理可以由硬件或由软件来执行。在通过软件执行一系列处理的情况下,将软件中包括的程序从程序记录介质安装在例如并入专用硬件的计算机上或通用个人计算机等上。
要安装的程序被记录并提供在诸如光盘(CD-ROM(光盘只读存储器)、DVD(数字多功能盘))或半导体存储器的可移除介质上。此外,可以通过诸如局域网、因特网或数字广播***的有线或无线传输介质来提供程序。程序可以预先安装在ROM或存储部中。
应当注意,要由计算机执行的程序可以按照本说明书中描述的时间顺序来执行处理,或者响应于例如程序调用以并行方式或在所需时间点来执行处理。
在本说明书中使用的术语“***”表示多个组成元件(例如,装置和模块(部件))的集合,并且无论所有组成元件是否在同一壳体内都适用。因此,术语“***”不仅表示容纳在分开的壳体中并通过网络连接的多个设备,而且还表示包括容纳在单个壳体中的多个模块的单个设备。
应当注意,本说明书中描述的优点仅是说明性的而非限制性的。本技术可以另外提供除了本说明书中描述的优点之外的优点。
本技术的实施方式不限于上述实施方式,并且可以在不脱离本技术的范围和精神的情况下进行各种修改。
例如,本技术可以被配置用于云计算,其中一个功能由多个设备通过网络共享以便以协作方式执行处理。
此外,参照前述流程图描述的每个步骤不仅可以由一个设备执行,而且还可以由多个设备以共享的方式执行。
此外,在单个步骤中包括多个处理的情况下,这样的单个步骤中包括的多个处理不仅可以由一个设备执行,而且还可以由多个设备以共享的方式执行。
<组合配置的示例>
本技术还可以采用以下配置。
(1)一种信息处理设备,包括:
分析部,所述分析部被配置成对由通过网络进行对话的两个用户生成的并且由所述两个用户使用的各自的交互式机器人检测到的话语进行分析;以及
控制部,所述控制部被配置成根据所述两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
(2)根据上述(1)所述的信息处理设备,其中,
所述控制部根据由各自的交互式机器人向所述两个用户供应酒精饮料之后进行的对话状况使所述对话辅助语音被输出。
(3)根据上述(1)或(2)所述的信息处理设备,还包括:
匹配部,所述匹配部被配置成基于关于每个用户的简档信息执行进行对话的两个用户的匹配。
(4)根据上述(1)至(3)中任一项所述的信息处理设备,其中,
所述控制部基于所述两个用户中的每个用户的话语时间段使提示具有相对短的话语时间段的用户生成话语的对话辅助语音被输出。
(5)根据上述(1)至(4)中任一项所述的信息处理设备,其中,
在所述两个用户在预定时间段内没有生成话语的情况下,所述控制部使提示所述两个用户生成话语的对话辅助语音被输出。
(6)根据上述(1)至(5)中任一项所述的信息处理设备,其中,
所述控制部使指示网络上新闻网站中突出显示的信息内容的对话辅助语音被输出。
(7)根据上述(1)至(6)中任一项所述的信息处理设备,其中,
在与所述两个用户中的一个用户使用的Web服务相关联的单词包含在所述两个用户的话语中的情况下,所述控制部基于所述Web服务的使用情况使所述对话辅助语音被输出。
(8)根据上述(1)至(7)中任一项所述的信息处理设备,其中,
所述控制部根据基于所述两个用户之间的话语对所述两个用户的情绪进行的分析的结果使所述对话辅助语音被输出。
(9)根据上述(8)所述的信息处理设备,其中,
所述控制部使指示基于关于所述两个用户的偏好的信息识别的所述两个用户中的具有消极情绪的一个用户的偏好的对话辅助语音被输出。
(10)根据上述(1)至(9)中任一项所述的信息处理设备,其中,
根据基于所述两个用户的话语对所述两个用户的情绪进行的分析的结果,所述控制部控制与所述交互式机器人一起安装在所述两个用户所在的各自空间中的装置。
(11)根据上述(10)所述的信息处理设备,其中,
所述控制部将控制所述装置的控制命令发送至各自的交互式机器人以通过各自的交互式机器人控制所述装置,或者将所述控制命令发送至各个用户拥有的移动终端以通过各自的移动终端控制所述装置。
(12)根据上述(2)所述的信息处理设备,其中,
所述控制部根据基于指示所述两个用户中的每个用户的酒精饮料饮用进度的传感器数据进行的分析的结果来使所述对话辅助语音被输出。
(13)一种控制方法,所述控制方法用于使信息处理设备执行以下处理:
对由通过网络进行对话的两个用户生成的并且由所述两个用户分别使用的交互式机器人检测到的话语进行分析;以及
根据所述两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
(14)一种交互式机器人,包括:
供应部,所述供应部被配置成向用户供应酒精饮料;以及
对话控制部,所述对话控制部被配置成:在供应所述酒精饮料之后检测所述用户的话语,将检测到的话语的语音数据发送至被配置成对所述用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备,并且输出根据两个用户之间的对话状况从所述信息处理设备发送的对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
(15)根据上面的(14)所述的交互式机器人,还包括:
检测部,所述检测部被配置成:检测所述两个用户中的每个用户的酒精饮料的剩余量并且将指示所检测到的酒精饮料的剩余量的信息发送至所述信息处理设备,其中,
所述对话控制部使根据所述两个用户中的每个用户的酒精饮料饮用进度从所述信息处理设备发送的对话辅助语音被输出。
(16)一种控制方法,所述控制方法用于使交互式机器人执行以下处理:
向用户供应酒精饮料;
在供应所述酒精饮料之后检测所述用户的话语,并将检测到的话语的语音数据发送至对所述用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备;以及
使根据两个用户之间的对话状况从所述信息处理设备发送的对话辅助语音被输出,所述对话辅助语音是为对话提供辅助的语音。
[附图标记列表]
1A、1B:交互式代理设备
2A、2B:移动终端
11:通信管理服务器
21:网络
51:壳体
61:瓶子
62:玻璃杯
101:控制部
102:麦克风
103:通信部
104:酒精饮料供应部
111:代理功能部
112:对话控制部
113:装置控制部
114:传感器数据获取部
221:控制部
231:简档管理部
232:匹配部
233:Web服务分析部
234:机器人控制部
235:对话分析部
236:情绪分析部
237:酒精饮料饮用进度分析部
238:***话语生成部

Claims (16)

1.一种信息处理设备,包括:
分析部,所述分析部被配置成对由通过网络进行对话的两个用户生成的并且由所述两个用户使用的各自的交互式机器人检测到的话语进行分析;以及
控制部,所述控制部被配置成根据所述两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
2.根据权利要求1所述的信息处理设备,其中,
所述控制部根据由各自的交互式机器人向所述两个用户供应酒精饮料之后进行的对话状况使所述对话辅助语音被输出。
3.根据权利要求1所述的信息处理设备,还包括:
匹配部,所述匹配部被配置成基于关于每个用户的简档信息执行进行对话的两个用户的匹配。
4.根据权利要求1所述的信息处理设备,其中,
所述控制部基于所述两个用户中的每个用户的话语时间段使提示具有相对短的话语时间段的用户生成话语的对话辅助语音被输出。
5.根据权利要求1所述的信息处理设备,其中,
在所述两个用户在预定时间段内没有生成话语的情况下,所述控制部使提示所述两个用户生成话语的对话辅助语音被输出。
6.根据权利要求1所述的信息处理设备,其中,
所述控制部使指示网络上新闻网站中突出显示的信息内容的对话辅助语音被输出。
7.根据权利要求1所述的信息处理设备,其中,
在与所述两个用户中的一个用户使用的Web服务相关联的单词包含在所述两个用户的话语中的情况下,所述控制部基于所述Web服务的使用情况使所述对话辅助语音被输出。
8.根据权利要求1所述的信息处理设备,其中,
所述控制部根据基于所述两个用户之间的话语对所述两个用户的情绪进行的分析的结果使所述对话辅助语音被输出。
9.根据权利要求8所述的信息处理设备,其中,
所述控制部使指示基于关于所述两个用户的偏好的信息识别的所述两个用户中的具有消极情绪的一个用户的偏好的对话辅助语音被输出。
10.根据权利要求1所述的信息处理设备,其中,
所述控制部根据基于所述两个用户的话语对所述两个用户的情绪进行的分析的结果控制与所述交互式机器人一起安装在所述两个用户所在的各自空间中的装置。
11.根据权利要求10所述的信息处理设备,其中,
所述控制部将控制所述装置的控制命令发送至各自的交互式机器人以通过各自的交互式机器人控制所述装置,或者将所述控制命令发送至各个用户拥有的移动终端以通过各自的移动终端控制所述装置。
12.根据权利要求2所述的信息处理设备,其中,
所述控制部根据基于指示所述两个用户中的每个用户的酒精饮料饮用进度的传感器数据进行的分析的结果使所述对话辅助语音被输出。
13.一种控制方法,所述控制方法用于使信息处理设备执行以下处理:
对由通过网络进行对话的两个用户生成的并且由所述两个用户分别使用的交互式机器人检测到的话语进行分析;以及
根据所述两个用户之间的对话状况使各自的交互式机器人输出对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
14.一种交互式机器人,包括:
供应部,所述供应部被配置成向用户供应酒精饮料;以及
对话控制部,所述对话控制部被配置成:检测在供应酒精饮料之后所述用户的话语,将检测到的话语的语音数据发送至被配置成对所述用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备,并且输出根据两个用户之间的对话状况从所述信息处理设备发送的对话辅助语音,所述对话辅助语音是为对话提供辅助的语音。
15.根据权利要求14所述的交互式机器人,还包括:
检测部,所述检测部被配置成:检测所述两个用户中的每个用户的酒精饮料的剩余量并且将指示所检测到的酒精饮料的剩余量的信息发送至所述信息处理设备,其中,
所述对话控制部使根据所述两个用户中的每个用户的酒精饮料饮用进度从所述信息处理设备发送的对话辅助语音被输出。
16.一种控制方法,所述控制方法用于使交互式机器人执行以下处理:
向用户供应酒精饮料;
检测在供应酒精饮料之后所述用户的话语,并将检测到的话语的语音数据发送至对所述用户的话语和作为对话伙伴的另一用户的话语进行分析的信息处理设备;以及
使根据两个用户之间的对话状况从所述信息处理设备发送的对话辅助语音被输出,所述对话辅助语音是为对话提供辅助的语音。
CN202180023765.5A 2020-03-30 2021-03-22 信息处理设备、交互式机器人、控制方法 Pending CN115335898A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-060600 2020-03-30
JP2020060600 2020-03-30
PCT/JP2021/011574 WO2021200307A1 (ja) 2020-03-30 2021-03-22 情報処理装置、対話型ロボット、制御方法

Publications (1)

Publication Number Publication Date
CN115335898A true CN115335898A (zh) 2022-11-11

Family

ID=77928826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180023765.5A Pending CN115335898A (zh) 2020-03-30 2021-03-22 信息处理设备、交互式机器人、控制方法

Country Status (5)

Country Link
US (1) US20230147704A1 (zh)
EP (1) EP4129122A4 (zh)
JP (1) JPWO2021200307A1 (zh)
CN (1) CN115335898A (zh)
WO (1) WO2021200307A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024127956A1 (ja) * 2022-12-12 2024-06-20 国立大学法人大阪大学 対話システム、制御プログラムおよび制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
JP3920175B2 (ja) * 2002-08-29 2007-05-30 株式会社国際電気通信基礎技術研究所 通話活性化システム
JP2008052449A (ja) 2006-08-23 2008-03-06 Synapse Communications Kk 対話型エージェントシステム及び方法
US9202171B2 (en) * 2008-11-11 2015-12-01 Digideal Corporation Virtual game assistant based on artificial intelligence
US10373508B2 (en) * 2012-06-27 2019-08-06 Intel Corporation Devices, systems, and methods for enriching communications
JP5705274B2 (ja) * 2013-07-12 2015-04-22 ヤフー株式会社 情報処理装置及び方法
EP3259754B1 (en) * 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
EP3435323A4 (en) * 2016-03-24 2019-04-10 Sony Corporation INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND RECORDING MEDIUM
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system
JP7187212B2 (ja) * 2018-08-20 2022-12-12 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
US20230147704A1 (en) 2023-05-11
JPWO2021200307A1 (zh) 2021-10-07
EP4129122A4 (en) 2023-05-03
WO2021200307A1 (ja) 2021-10-07
EP4129122A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
US20220284896A1 (en) Electronic personal interactive device
US10217453B2 (en) Virtual assistant configured by selection of wake-up phrase
KR102420564B1 (ko) 정보 제공 방법 및 디바이스
US11922934B2 (en) Generating response in conversation
US11424947B2 (en) Grouping electronic devices to coordinate action based on context awareness
US11430439B2 (en) System and method for providing assistance in a live conversation
US9710613B2 (en) Guided personal companion
CN105320726B (zh) 降低对手动开始/结束点和触发短语的需求
EP3259754B1 (en) Method and device for providing information
CN114584660A (zh) 向人类操作员的升级
US11610092B2 (en) Information processing system, information processing apparatus, information processing method, and recording medium
WO2017200072A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2015531943A (ja) 聴衆を会話型広告に関与させるためのシステムおよび方法
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
WO2017200076A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2007334732A (ja) ネットワークシステム及びネットワーク情報送受信方法
US20140324458A1 (en) Method and Apparatus for Predicting Outcome of Hearing Device Implantation
JP2012042503A (ja) インターアクティブ・ビデオシステム
CN115335898A (zh) 信息处理设备、交互式机器人、控制方法
WO2021007546A1 (en) Computing devices and systems for sending and receiving voice interactive digital gifts
JP2001249924A (ja) 対話型自動説明装置および対話型自動説明方法およびこの方法の実行プログラムを記録した記録媒体
JPWO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2004184788A (ja) 音声対話システムおよびプログラム
US20240054118A1 (en) Artificial intelligence platform with improved conversational ability and personality development
JP7409628B2 (ja) 結婚式における音楽選曲のための自動選曲システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination