CN115101047B - 语音交互方法、装置、***、交互设备和存储介质 - Google Patents

语音交互方法、装置、***、交互设备和存储介质 Download PDF

Info

Publication number
CN115101047B
CN115101047B CN202211015699.XA CN202211015699A CN115101047B CN 115101047 B CN115101047 B CN 115101047B CN 202211015699 A CN202211015699 A CN 202211015699A CN 115101047 B CN115101047 B CN 115101047B
Authority
CN
China
Prior art keywords
voice
text
target
interaction
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211015699.XA
Other languages
English (en)
Other versions
CN115101047A (zh
Inventor
林雨婷
杨毅松
麦凌倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Renma Interactive Technology Co Ltd
Original Assignee
Shenzhen Renma Interactive Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Renma Interactive Technology Co Ltd filed Critical Shenzhen Renma Interactive Technology Co Ltd
Priority to CN202211015699.XA priority Critical patent/CN115101047B/zh
Publication of CN115101047A publication Critical patent/CN115101047A/zh
Application granted granted Critical
Publication of CN115101047B publication Critical patent/CN115101047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种语音交互方法、装置、***、交互设备和存储介质。所述方法应用于交互设备,交互设备与目标植物对应配置,目标植物还对应配置有对象检测器;所述方法包括:当确定对象检测器探测到有目标对象进入目标植物的预设范围时,从目标植物的待选交互文本集合中确定交互引导文本;按照与目标植物匹配的交互风格,将交互引导文本转换为语音并输出;获取目标对象对交互引导文本的语音输出进行响应时的响应信息;从待选交互文本集合中确定与响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出。上述方案,与靠近目标植物的目标对象实现智能化交互并进行植物科普信息的输出,能提高植物科普信息的输出效率。

Description

语音交互方法、装置、***、交互设备和存储介质
技术领域
本申请涉及网络技术领域,特别是涉及一种语音交互方法、装置、***、交互设备和存储介质。
背景技术
植物园吸引着许多游客来悠闲娱乐、亲近自然以及学习自然界的知识。当前主要通过以下方式进行植物信息的科普:游客阅读标识牌记载的信息,游客阅读显示屏显示的信息,园区广播播报信息,导游讲解信息。以上方式,都是游客被动地接收植物园内的科普信息,往往难以引起参观植物园的游客(特别是小朋友)的兴趣,导致科普信息的输出效率低下。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高植物园科普信息的输出效率的语音交互方法、装置、***、交互设备和存储介质。
一种语音交互方法,应用于交互设备,所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接;所述方法包括:
当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;
按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;
获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;
从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出。
在一可选实施例中,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:
从所述待选交互文本集合中确定对所述响应信息进行响应的反馈文本;
确定与所述响应信息以及所述反馈文本相匹配的目标植物科普文本;
获取与所述目标植物的特征信息对应的拟人交互角色;其中,所述特征信息基于所述目标植物的属性特征、当前状态和历史经历得到;
按照与所述拟人交互角色对应的交互风格,将所述反馈文本和所述目标植物科普文本转换为语音并输出。
在一可选实施例中,所述响应信息包括语音响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:
若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,确定所述语音输入对应的语音内容;
对所述语音内容进行关键词提取,并基于所提取的关键词确定对应的用户意图,作为所述语音响应信息。
在一可选实施例中,所述响应信息包括动作响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:
触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
提取各个视频帧中的特征点,并基于不同视频帧内特征点的动态变化特征得到所述动作响应信息。
在一可选实施例中,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:
从至少一个所述视频帧中提取所述目标对象的生物识别信息;
基于所述动作响应信息和所述生物识别信息确定所述目标对象的对象状态信息;
从所述待选交互文本集合中确定与所述对象状态信息对应的目标植物科普文本;
确定与所述对象状态信息匹配的目标交互风格;
将所述目标植物科普文本转换为语音并按照所述目标交互风格进行输出。
在一可选实施例中,所述待选交互文本集合中还包含推荐交互文本;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息之后,还包括:
基于所述响应信息确定所述目标对象的用户画像;
输出与所述用户画像对应的推荐信息。
在一可选实施例中,所述基于所述响应信息确定所述目标对象的用户画像,包括:
触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
从至少一个所述视频帧中提取所述目标对象的动作响应信息和生物识别信息;
若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,基于所述语音输入得到语音响应信息;
基于所述动作响应信息、所述语音响应信息和所述生物识别信息中的至少一项确定所述目标对象的用户画像。
在一可选实施例中,所述输出与所述用户画像对应的推荐信息,包括:
当获取到景点推荐触发指令时,从云端数据库中获取所述目标植物所在植物园中多个景点的人员密集度,并基于所述人员密集度从所述多个景点中确定待选景点;所述人员密集度基于对应景点的当前人员数以及预约人员数确定;
从所述待选景点中获取与所述用户画像匹配的目标景点;
确定与所述目标景点对应的目标推荐交互文本并输出。
在一可选实施例中,所述待选交互文本集合中还包含推荐交互文本;所述确定与所述目标景点对应的目标推荐交互文本并输出,包括:
从云端数据库中获取所述植物园的地图信息;所述地图信息中包含植物、园区、道路的位置信息;
基于所述地图信息中的植物、园区、道路的位置信息生成到达所述目标景点的路线信息;
从所述待选交互文本集合中确定与所述目标景点匹配的目标推荐交互文本;
将所述目标推荐交互文本和所述路线信息转换为语音并输出。
一种语音交互装置,应用于交互设备,所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接;所述装置包括:
引导语音获取模块,用于当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;
引导语音输出模块,用于按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;
响应信息获取模块,用于获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;
科普语音输出模块,用于从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,并将所述目标植物科普文本转换为语音并输出。
一种语音交互***,包括对象检测器、交互设备和云端服务器;所述交互设备分别与所述对象检测器和所述云端服务器通讯连接,所述对象检测器配置在目标植物上;
所述云端服务器,用于确定所述目标植物的待选交互文本集合;
所述对象检测器,用于探测对应目标植物的预设范围内的目标对象,当探测到有目标对象进入所述目标植物的预设范围时,向所述交互设备发送触发信号;
所述交互设备,用于在接收所述触发信号时,从所述云端服务器的所述待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出。
一种交互设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:当确定对象检测器探测到有目标对象进入目标植物的预设范围时,从目标植物的待选交互文本集合中确定交互引导文本;其中,待选交互文本集合中包含交互引导文本以及植物科普文本;按照与目标植物匹配的交互风格,将交互引导文本转换为语音并输出;其中,交互风格基于目标植物的特征信息确定;获取目标对象对交互引导文本的语音输出进行响应时的响应信息;从待选交互文本集合中确定与响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:当确定对象检测器探测到有目标对象进入目标植物的预设范围时,从目标植物的待选交互文本集合中确定交互引导文本;其中,待选交互文本集合中包含交互引导文本以及植物科普文本;按照与目标植物匹配的交互风格,将交互引导文本转换为语音并输出;其中,交互风格基于目标植物的特征信息确定;获取目标对象对交互引导文本的语音输出进行响应时的响应信息;从待选交互文本集合中确定与响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出。
上述语音交互方法,当确定与目标植物对应配置的对象检测器探测到有目标对象进入目标植物的预设范围时,从目标植物的待选交互文本集合中确定交互引导文本;按照与目标植物的特征信息匹配的交互风格,将交互引导文本转换为语音并输出;所输出的引导语音与目标植物匹配,能够充分吸引目标对象;进一步地,获取目标对象对交互引导文本的语音输出进行响应时的响应信息;从待选交互文本集合中确定与响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出;即,在输出引导语音之后,基于目标对象的响应状态针对性地输出植物科普文本,该科普文本不仅是目标植物的科普文本而且能够与目标对象的响应状态匹配。与靠近目标植物的目标对象实现智能化交互并进行植物科普信息的输出,能提高植物科普信息的输出效率。相应地,本申请提供的语音交互装置、***、交互设备及存储介质,也同样具有上述技术效果。
附图说明
图1为一个实施例中语音交互方法的应用环境图;
图2为一个实施例中语音交互方法的流程示意图;
图3为一个实施例中对象检测器的配置示意图;
图4为一个实施例中对目标对象进行探测的示意图;
图5为一个实施例中超声换能器管理组的示意图;
图6为一个实施例中语音交互装置的结构框图;
图7为一个实施例中语音交互***的结构框图;
图8为一个实施例中交互设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音交互方法,可以应用于如图1所示的应用环境中。该应用环境中包含交互设备101和服务器102。其中,交互设备101通过网络服务器102进行通信。该交互设备101与目标植物对应配置,另外,目标植物还对应配置有对象检测器。当确定对象检测器探测到有目标对象进入目标植物的预设范围时,交互设备从目标植物的待选交互文本集合中确定交互引导文本;按照与目标植物匹配的交互风格,交互设备将交互引导文本转换为语音并输出;获取目标对象对交互引导文本的语音输出进行响应时的响应信息;从待选交互文本集合中确定与响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出。其中,交互设备101可以但不限于是各种个人计算机、笔记本电脑、智能手机、智能机器人,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现,进一步地,服务器102可以为云端服务器。
在一个实施例中,如图2所示,提供了一种语音交互方法,应用于交互设备。其中,交互设备可以是具有语音获取、语音分析以及语音输出功能的聊天机器人,可以设置声卡、麦克风、主板等。
所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接。交互设备可以设置在目标植物的预设距离范围内,以便在目标对象靠近目标植物时更好地实现交互和植物信息的科普。进一步地,通过所建立的通讯连接,对象检测器可以在确定有目标对象靠近目标植物时向交互设备发送触发信号。
所述方法包括以下步骤:
S201,当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本。
对象检测器为能够探测一定距离范围内是否出现目标对象的检测器,可以为距离检测传感器,如:超声检测器、红外探测器等,能够实现对目标对象的无感识别。对象检测器可以设置在目标植物上,如固定安装在目标植物的树干上。设置在目标植物上的对象检测器可以如图3中的301所示。目标对象可以为行人,如:植物园的游客。
进一步地,对象检测器可以实时或者定期获取一定距离范围内的检测信号,当基于检测信号确定有行人进入探测范围时,可以判定有目标对象进入目标植物的预设范围内,此时,对象检测器向交互设备发送触发信号,以指示有游客进入目标植物的预设范围。需要说明的是,对象检测器的检测范围可以是设定形状的区域,以探测目标植物特定方向特定区域是否有目标对象进入。如图4所示,对象检测器401可以探测目标植物附近某个扇形区域否有目标对象进入。更进一步的,对象检测器也可以结合目标对象进入探测范围的时间来确定其是否成功进入目标植物的预设范围,例如:当确定有目标对象进入目标植物的预设范围且持续预设时间,则判定目标对象成功进入目标植物的预设范围。
其中,待选交互文本集合包括若干基于目标植物的特征信息、预先确定的交互文本。交互文本为与植物关联,按照目标植物的特征信息,所针对性确定的对话文本。该对话文本可以是话术、话本。一棵植物可以对应关联若干个交互文本。交互文本包括交互引导文本、植物科普文本、推荐交互文本以及其他交互文本。
其中,交互引导文本为植物附近出现目标对象时,输出的用于引导目标对象与交互设备进行交互的交互文本,可以包含若干问候语。可选的,交互引导文本可以包括与交互风格对应的交互引导话术和与目标植物的特征信息对应的交互引导话术,还可以是结合交互风格和目标植物的特征信息确定的交互引导话术。
植物科普文本为与目标植物对应、介绍目标植物科普信息的交互文本。植物科普信息包括与植物相关的自然科学信息和与植物相关的人文科学信息。其中,自然科学信息包括植物属性,如植物的种类、年龄等,人文科学信息包括植物历史经历等。
推荐交互文本为向目标对象推荐各种信息的文本,所推荐的信息可以是目标植物或植物园的植物科普信息,也可以是植物园的景点推荐信息、植物园特色服务推荐信息、游玩路线推荐信息等。
待选交互文本集合中的交互文本可以是固定文本;交互文本也可以是若干文本拼合而成的文本,例如由交互引导文本和植物科普文本按照话语逻辑拼合而成的文本;交互文本还可以是基于特定的信息生成的文本,例如,基于目标对象的用户画像生成的推荐交互文本。
可选的,所选择的用于与目标对象交互的交互文本可以与交互风格具有对应关联关系,可根据交互风格选取与交互风格适配的交互文本。
具体的,交互引导文本可包括若干不同交互风格的问候语以及若干具有不同交互风格的交互引导话术。
植物科普文本也可具有若干不同交互风格,如根据难易度划分的轻松简单的科普文本,专业详尽的科普文本;以及根据内容侧重点划分的故事型科普文本,知识介绍型科普文本,历史介绍型的科普文本等。
可选的,待选交互文本集合可以存储在云端服务器中。另外,云端服务器中还可以存储交互设备进行交互输出时的交互风格。交互设备在获取到与文本之后,按照与该文本对应的风格确定语音输出风格,进而基于该语音输出风格对交互引导文本和植物科普文本进行语音输出。进一步地,云端服务器中可以配置有数据库,称为云端数据库。该云端数据库中可以存储植物的资料、植物对应的拟人交互角色、植物的交互风格、待选交互文本集合、基础设施的位置、植物园的道路及边界等交互数据。
植物的资料包括植物的特征信息、植物的位置、植物的编号等。植物的特征信息包括属性特征、当前状态、历史经历以及其他信息,其中,属性特征为目标植物的植物类型等自然科学特征,当前状态可以为当前年龄、生长状态等,历史经历可以包括是否经历特殊自然灾害、特定重大事件等信息。
植物对应的拟人交互角色基于植物的特征信息确定。拟人交互角色包括老年人、成年人、小孩子等,可以包括不同性别对应的拟人交互角色。云端服务器可以预先基于目标植物的特征信息对该目标植物进行人物角色比拟,进而得到拟人交互角色。交互设备在启动后从云端服务器中获取该拟人交互角色,进而按照该拟人交互角色及对应的交互风格与目标对象进行交互沟通。
交互风格包括说话口音、语速、语调、音量、说话情感等。其中,说话情感包括活泼愉悦、柔和亲切、严谨认真、平易近人、热情平等,等等。
拟人交互角色具有默认的交互风格。进一步的,拟人交互角色和默认的交互风格均可以与目标植物的特征信息匹配。交互设备可以按照拟人交互角色和对应的交互风格进行语音输出。例如:对于老松树,可以按照老爷爷的口吻,平易近人的交互风格进行语音输出,对于花朵,可以按照小孩子的口吻,活泼愉悦的交互风格进行语音输出。
可选的,S201的实现过程可以为:交互设备与对象检测器进行实时通信;当对象检测器探测到目标对象进入目标植物的预设范围时,向交互设备发送触发信号;交互设备在接收到触发信号时从云端服务器中获取目标植物的待选交互文本集合,进而从目标植物的待选交互文本集合中确定交互引导文本。
S202,按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定。需要说明的是,S202可以认为是输出引导语音的过程。
可选的,交互设备从云端服务器中获取目标植物的交互风格文本,确定与该交互风格文本对应的交互风格,进而按照该交互风格对交互引导文本进行语音输出。
可选的,交互设备接收对象检测器发送的触发信号,基于该触发信号从云端服务器中获取与目标植物关联的拟人交互角色、拟人交互角色默认的交互风格及与目标植物关联的交互引导文本,按照拟人交互角色和交互风格将交互引导文本转换为语音并输出,形成拟人化、具有交互风格的交互语音以与目标对象交互。
在一可选实施例中,所述按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出,包括:从云端数据库中获取所述目标植物的属性特征、当前状态和历史经历,作为所述目标植物的特征信息;确定与所述特征信息对应的拟人交互角色;按照与所述拟人交互角色对应的交互风格,将所述交互引导文本转换为语音并输出。本实施例基于目标植物的特征信息确定拟人交互角色,进而按照拟人交互角色来对文本进行语音输出,通过更为有趣更能吸引人的方式来进行语音输出,能够获得游客更多的关注,进而可以更好地输出植物科普信息,以提高植物科普文本的输出效率。
S203,获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息。
交互设备根据交互引导文本进行语音输出之后,目标对象会有相应的响应行为以反馈响应信息。
响应行为可以包括语音响应行为和动作响应行为。
语音响应行为可以为对交互设备语音输出进行的语音答复。语音响应行为可以通过麦克风采集获取。
动作响应行为可以为对交互设备语音输出进行的动作响应,例如:径直走开、找发音源、被吓一跳、躲到家长后面、表现出很吃惊等。动作响应行为可以通过视频采集器等设备进行采集获取,如:在语音输出后的预设时间内触发视频采集器采集所述目标对象的视频帧;其中,预设时间可以根据实际情况确定,例如为1秒、2秒等,本申请实施例对此不做具体限定。视频采集器可以为具有视频或图像采集功能的器件或设备,可以通过交互设备或者植物园的监控摄像头来实现。视频采集器可与交互设备或服务器进行通信。
响应信息包括语音响应信息、动作响应信息、以及其他信息。响应信息可通过解析响应行为获得。响应信息可用于能够表征目标对象在设定时间段内的动态变化状态,该动态变化状态可以表征目标对象对输出的语音的反应。
语音响应信息可包括语音输入信息和目标对象状态信息,可通过解析语音输入信息获得。其中,语音输入信息可以包括是否有语音输入、语音输入内容、语音输入的时间等,目标对象状态信息可以包括音量、音色等生物识别信息。
动作响应信息包括目标对象状态信息及其他信息,可通过解析动作响应行为获得。目标对象状态信息包括淡定、好奇、害怕、排斥等状态信息,如:找发音源的动作可解析获得好奇的状态信息,躲到家长后面可解析获得害怕的状态信息。可通过提取各个视频帧中的特征点,并基于不同视频帧内特征点的动态变化特征得到动作响应信息。
可选的,响应信息还可包括生物识别信息。生物识别信息可通过解析目标对象的生物信息获得。生物信息可以基于视频采集器和麦克风等所采集的信息分析得到。视频采集器可采集分析目标对象的外形轮廓、面部特征、皮肤特征等生物识别信息;麦克风可采集目标对象的声音,包括音色、音调等生物识别信息。如目标对象年龄段、性别等。即,可以基于视频分析得到生物识别信息,还可以基于语音输入得到生物识别信息,还可以两者结合得到生物识别信息。
可以理解,在实际应用时,响应信息可以是语音响应信息、动作响应信息、生物识别信息中任一一种或任意多种的组合。
可以理解,解析获得响应信息的过程,可在交互设备进行,也可以是在服务器中进行。
可选的,交互设备获取目标对象进行响应时反馈的响应信息。根据响应信息,可获取目标对象对交互引导文本的语音输出的反应。
可选的,S203的实现方式可以为:交互设备在对交互引导文本进行语音输出之后,获取目标对象的响应行为,基于该响应行为得到对该语音输出的响应信息,以确定目标对象对交互引导文本的语音输出的反应。
S204,从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出。
交互设备可以基于目标对象的反应针对性地获取到目标植物科普文本,例如:当确定目标对象很害怕时,获取更为轻松的目标植物科普文本,当确定目标对象很感兴趣时,获取更为专业的目标植物科普文本。
可选的,交互设备可以按照S202确定的交互风格对目标植物科普文本进行语音输出,也可以按照默认的交互风格对目标植物科普文本进行语音输出,还可以基于响应信息确定新的交互风格并按照新的交互风格对目标植物科普文本进行语音输出。
交互风格与目标对象的响应信息具有预设的关联关系。可在交互过程中,根据目标对象的响应信息适应性调整交互风格,如基于响应信息确定当前是与小孩子交互时,可从初始的严谨认真的交互风格调整为活泼愉悦的交互风格。不同的交互风格适应的目标对象不同,若交互风格与目标对象适配,可获得更优异的交互效果,实现更友好和谐的持续交互。进一步的,可以基于响应信息调整交互风格,并基于调整后的交互风格对目标植物科普文本进行语音输出。
S204的实现过程可以为:交互设备获取响应信息,从待选交互文本集合中获取与该响应信息匹配的植物科普文本,得到目标植物科普文本,进而对目标植物科普文本进行语音输出。
可选的,在确定响应信息之后,可以基于响应信息确定反馈文本,对该反馈文本进行语音输出,之后再对目标植物科普文本进行语音输出。对于将反馈文本进行语音输出的实现过程,举例如下:在与目标对象进行初始打招呼的语音互动后,根据对目标对象的响应行为的分析得到响应信息,确定对响应信息进行响应的反馈文本,基于反馈文本反馈相应话术,进入对话节奏,进而通过故事的形式引导介绍植物特色和历史等科普知识。
进一步地,在对目标植物科普文本进行语音输出之后,还可以继续获取目标对象对该目标植物科普文本的语音输出的响应信息,进而获取新的植物科普文本并进行语音输出,直到目标对象离开或者表现出不耐烦的情绪。
上述语音交互方法中,主动发音吸引注意,通过行为分析给出对应话术,再进入引导对话流程。即,输出与目标植物匹配的引导语音,在输出引导语音之后,基于目标对象的响应状态针对性地输出植物科普文本,该科普文本不仅是目标植物的科普文本而且能够与目标对象的响应状态匹配。换句话说,利用交互设备中的语音交互***的语音分析能力,结合互动故事的形式讲解植物的科普信息,来达成游客对该部分信息的获取。与靠近目标植物的目标对象实现智能化交互并进行植物科普信息的输出,能提高植物科普信息的输出效率。
在一可选实施例中,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:从所述待选交互文本集合中确定对所述响应信息进行响应的反馈文本;确定与所述响应信息以及所述反馈文本相匹配的目标植物科普文本;获取与所述目标植物的特征信息对应的拟人交互角色;其中,所述特征信息基于所述目标植物的属性特征、当前状态和历史经历得到;按照与所述拟人交互角色对应的交互风格,将所述反馈文本和所述目标植物科普文本转换为语音并输出。
可以基于响应信息确定拟人交互角色,进而按照该拟人交互角色及对应的交互风格与目标对象进行交互沟通。
可选的,对上述实现方式举例说明如下:
假设目标植物为老松树,则预先确定其拟人交互角色为老爷爷,默认交互风格为平易近人的风格。在确定有游客靠近该老松树时,交互设备语音输出以下交互引导文本中的问候语:“这是有人来看老夫了吗。年轻人,你好呀,很高兴见到你!”。
游客说出响应语音:“呀!什么东西,吓我一跳。”
在一种实施例中,交互设备对响应语音“呀!什么东西,吓我一跳”进行语义理解获得语音输入信息,并根据语音输入信息和交互引导文本,得到回复(反馈文本):“真不好意思呀!”。
交互设备在得到交互引导文本的回复之后,衔接输出目标植物科普文本:“我是这儿的盆景,迎客苍松”。
最终,交互设备按照老爷爷的口吻和默认的交互风格输出“真不好意思呀!我是这儿的盆景,迎客苍松”。
可选的,也可以获取目标植物的基础科普文本,基于该基础科普文本和响应信息确定反馈文本,进而按照拟人交互角色对应的交互风格对该反馈文本进行输出。其中,基础科普文本为基于目标植物的特征信息确定的与目标对象的响应无关的科普文本,可以为目标植物的类型、习性、培育方式等。
上述实施例,在对交互引导文本进行语音输出之后,确定目标对象的响应信息,基于响应信息针对性确定目标植物科普文本,并确定与目标植物匹配的拟人交互角色对应的交互风格,按照该交互风格输出目标植物科普文本,使得所输出的目标植物科普文本与目标对象的相互呼应,保证植物科普信息的科普效果。
在一可选实施例中,所述响应信息包括语音响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,确定所述语音输入对应的语音内容;对所述语音内容进行关键词提取,并基于所提取的关键词确定对应的用户意图,作为所述语音响应信息。
其中,预设时间可以根据实际情况确定,例如为1秒、2秒等,本申请实施例对此不做具体限定。
可选的,在获取到语音输入时,交互设备可以基于语音输入的音量等信息以及目标对象与目标植物之间的距离确定该语音输入是否为目标对象的语音输入,进而仅对该目标对象的语音输入进行响应,而对其他的语音输入进行忽略。
可选的,除了得到用户意图,还可以基于语音输入分析目标对象的状态,例如,当语音输入为“吓死我了”,可以确定出目标对象处于惊吓状态。基于用户意图和目标对象的状态得到语音响应信息。
可选的,从待选交互文本集合中确定与语音响应信息对应的目标植物科普文本,将目标植物科普文本转换为语音并输出。
上述实施例在获取到目标对象的语音输入时,从语音输入中提取出关键词,进而确定用户意图,并将该用户意图确定为语音响应信息,之后基于该用户意图确定目标植物科普文本并进行语音输出,例如,当基于用户意图确定游客想要听某植物的历史经历时,则播放植物历史经历,能够使得所确定的目标植物科普文本与用户意图相匹配,提高语音输出后目标对象进一步反馈的可能性,进而可以进一步输出植物科普文本,提高植物科普文本的输出效率,保证植物科普信息的科普效果。
在一可选实施例中,所述响应信息包括动作响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;提取各个视频帧中的特征点,并基于不同视频帧内特征点的动态变化特征得到所述动作响应信息。
其中,预设时间可以根据实际情况确定,例如为1秒、2秒等,本申请实施例对此不做具体限定。
其中,视频采集器可以为具有视频或图像采集功能的器件或设备,可以通过交互设备的显示屏或者植物园的监控摄像头来实现。进一步地,视频采集器可以与交互设备进行网络通信。
可选的,可以通过对特定的动作进行识别,以得到动作响应信息,例如,通过对“被吓一跳”的动作进行识别,以得到动作响应信息。
在一可选实施例中,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:从至少一个所述视频帧中提取所述目标对象的生物识别信息;基于所述动作响应信息和所述生物识别信息确定所述目标对象的对象状态信息;从所述待选交互文本集合中确定与所述对象状态信息对应的目标植物科普文本;确定与所述对象状态信息匹配的目标交互风格;将所述目标植物科普文本转换为语音并按照所述目标交互风格进行输出。
可选的,可以从视频帧中提取目标对象的轮廓、身高等信息,作为生物识别信息。
其中,对象状态信息为表征目标对象对交互引导文本的语音输出进行响应的状态特征,该特征整合了动作响应信息和生物识别信息,动作响应信息能够充分表征目标对象对语音输出的响应状态,而生物识别信息能够表征目标对象的类型,通过两种信息的结合能够得到准确的目标交互风格,进而更好地引导目标对象进行更深入的交互。
可选的,对象状态信息可以在交互过程中不断变化和完善。在交互过程中,交互设备可以基于对象状态信息的变化或完善调整交互风格。对实现过程举例如下:若拟人交互角色为老爷爷,基于生物识别信息确定初始对象状态信息,当基于初始对象状态信息确定目标对象为小孩时,则可以以轻快热情的语音语调对引导交互文本进行语音输出;基于动作响应信息对初始对象状态信息进行更新后确定目标对象比较害怕后,则可以按照慈祥柔和的语音语调进行语音输出,以舒缓目标对象的害怕情绪。
上述实施例,通过对目标对象进行视频采集并对所采集的视频进行特征分析,进而特征分析结果确定动作响应信息,该动作响应信息能够表征目标对象在设定时间段内的动态变化状态,该动态变化状态可以表征目标对象对交互引导文本的反应,结合动作响应信息和生物识别信息可以得到相匹配的目标植物科普文本,可以提高语音输出后目标对象进一步反馈的可能性,进而可以进一步输出植物科普文本,提高植物科普文本的输出效率,保证植物科普信息的科普效果。
可选的,还可以结合语音响应信息、动作响应信息和生物识别信息一起来确定目标对象的对象状态信息。
在一可选实施例中,所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息之后,还包括:基于所述响应信息确定所述目标对象的用户画像;输出与所述用户画像对应的推荐信息。
其中,推荐信息为向目标对象推荐的各种信息,可以是目标植物或植物园的植物科普信息,也可以是植物园的景点推荐信息、植物园特色服务推荐信息、游玩路线推荐信息等。
响应信息能够在一定程度上反应目标对象对交互引导文本的语音输出的反应,可以据此得到用户画像。通过对响应信息的分析,可以获得目标对象的性格、爱好、游玩目的等信息,进而得到用户画像。例如,从以下语音输入中提取出用户画像并确定与用户画像对应的推荐信息:若目标对象输入“我喜欢孙悟空,我喜欢去西天取经”,可知目标对象比较活泼,更适合去热闹的景点。若目标对象输入“我喜欢猪八戒,我喜欢待在高老庄”,可知目标对象比较安静,更适合去安静的景点。
上述实施例,基于响应信息生成目标对象的用户画像,进而基于该用户画像针对性地生成推荐信息,以向其推荐信息。在保证植物科普效率的基础上,能够进一步与目标对象互动,实现与目标对象的智能交互。
在一可选实施例中,所述基于所述响应信息确定所述目标对象的用户画像,包括:触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;从至少一个所述视频帧中提取所述目标对象的动作响应信息和生物识别信息;若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,基于所述语音输入得到语音响应信息;基于所述动作响应信息、所述语音响应信息和所述生物识别信息中的至少一项确定所述目标对象的用户画像。
可选的,可以对所采集的目标对象的图像进行图像分析,在图像中确定包含目标对象的目标区域,进而对目标区域进行二值化处理,对二值化处理后的目标区域进行边缘特征提取,进而基于所提取的边缘特征得到目标对象对应的性别、年龄等生物识别信息。
动作响应信息、语音响应信息和生物识别信息都能够在一定程度上表征目标对象的特征。上述实施例,基于动作响应信息、语音响应信息和生物识别信息中的至少一项确定用户画像,基于该用户画像确定推荐信息,可以准确地向目标对象推荐其感兴趣的推荐信息。
在一可选实施例中,交互设备可以集成IDS(Intrusion Detection System,入侵检测***)信息发布屏,该IDS信息发布屏可以获取附近目标对象的图像以及语音输入,通过AI(Artificial Intelligence,人工智能)分析的方式确定目标对象的用户画像,向目标对象输出与用户画像匹配的推荐信息,以通过AI语音交互技术与游客进行语音互动,提供自助导览查询功能。
在一可选实施例中,所述输出与所述用户画像对应的推荐信息,包括:当获取到景点推荐触发指令时,从云端数据库中获取所述目标植物所在植物园中多个景点的人员密集度,并基于所述人员密集度从所述多个景点中确定待选景点;所述人员密集度基于对应景点的当前人员数以及预约人员数确定;从所述待选景点中获取与所述用户画像匹配的目标景点;确定与所述目标景点对应的目标推荐交互文本并输出。其中,目标推荐交互文本可以从待选交互文本集合中获得。
可选的,交互设备可以在云端服务器获取每个景点的实时人数和景点人数负载,当游客咨询的景点人多时,可以提醒不要前去,也可以提醒游客提前预约。
可选的,交互设备在与游客交互过程中,可以取得游客的用户画像,基于用户画像,选择适配的植物进行推荐,给出替代建议,如:四月有桃花、梨花、紫罗兰、油菜花等。桃花是热门景点,人多限流,可以向游客推荐:“油菜花花语和你特别适配”,“某棵松树的故事和气质和你特别搭”,“某个位置或建筑特别适合拍照”,实行游客分流,且基于用户画像,分流的景点也能适配游客。
上述实施例,结合植物园中景点的状态来确定与目标对象的用户画像匹配的目标景点,所推荐的目标景点不仅能够吸引目标对象,而且可以在一定程度上起到引流和景点导流的作用,保证植物园人员的合理流动。
在一可选实施例中,所述待选交互文本集合中还包含推荐交互文本;所述确定与所述目标景点对应的目标推荐交互文本并输出,包括:从云端数据库中获取所述植物园的地图信息;所述地图信息中包含植物、园区、道路的位置信息;基于所述地图信息中的植物、园区、道路的位置信息生成到达所述目标景点的路线信息;从所述待选交互文本集合中确定与所述目标景点匹配的目标推荐交互文本;将所述目标推荐交互文本和所述路线信息转换为语音并输出。
可选的,在与游客的交互过程中,交互设备获取目标对象的兴趣和需求,生成用户画像,基于用户画像为目标对象规划行程。如目标对象听故事听了许久,直到听完,说明目标对象对听故事很感兴趣,则交互设备可以规划听故事路线;如目标对象对故事没兴趣,没听完,直接打断并问拍照地点,说明目标对象对拍照很感兴趣,则交互设备可以规划拍照热门路线;如目标对象对奇花异草珍稀植物感兴趣,则交互设备可以规划植物路线;对于带孩子的家长,交互设备可以规划小孩子的作业路线;交互设备还可以根据需求规划最短到当季花海的路线,节省目标对象找路的时间;有些园区内的小景点要收费,交互设备基于用户画像确定是否避开收费景点,免得白走路等。交互设备还可以进行路线规划,根据目标对象查询的多个地点,保持对多个查询地点的记录,结合多个地点的当前状况,形成最优路径规划建议。
另外,交互设备还可以提供其他功能,例如:植物园内细化景点的门票、食物等的查询预订及服务预约(热门限流景点预约)等,有关植物园的疑问解答等。
上述实施例中,确定用户画像和景点的当前状态,以结合植物园的地图信息生成路线信息,进而帮助目标对象进行路线规划,即,基于语音交互使得目标对象获得信息的优化服务。
在一可选实施例中,所述对象检测器包括超声换能器阵列,设置在所述目标植物上;所述当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本之前,还包括:触发所述超声换能器阵列向所述目标植物的设定形状范围的区域发射超声波;当所述超声换能器阵列接收到超声回波信号时,对所述超声回波信号进行特征分析;当基于特征分析的结果确定所述设定形状范围的区域存在目标对象时,判定有目标对象进入所述目标植物的预设范围。
其中,设定形状范围可以为扇形、矩形等。
上述实施例,基于超声换能器阵列实现对目标对象的检测,能够在目标对象一进入目标植物的预设范围时就快速地生成触发信号,进而向目标对象进行交互引导文本的输出。
在一可选实施例中,目标植物的数量可以为多个,这些目标植物可以分别具有独立的通信信道,以与对应的交互设备进行通信。而与这些目标植物进行通信的交互设备可以集中在一个交互设备中,也可以集中在多个交互设备或者每棵目标植物对应一个交互设备。
在一可选实施例中,所述目标植物为多个,每棵目标植物上分别配置有至少一组超声换能器阵列;所述当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本,包括:当多组超声换能器阵列探测到有多个对象进入多棵目标植物的预设范围时,确定所述多棵目标植物与对应对象之间的距离;在所述多棵目标植物中确定所述距离处于预设距离范围的待选目标植物,从所述待选目标植物对应的待选交互文本集合中确定交互引导文本。
可选的,一个超声换能器可以向一定的扇形区域发射超声波,一组超声换能器阵列包含多个超声换能器,能够向更大的扇形区域发射超声波,通过这样的方式,可以实现对目标植物特定方向的大范围检测,只要有目标对象进入这个大范围,即进行引导交互。
可选的,一个交互设备可以与多组超声换能器阵列进行通信,即,一个交互设备可以对多棵目标植物进行管控。这些超声换能器阵列可以构成一个超声换能器管理组(如图5中的虚线圈所示,可以简称为管理组),即,该交互设备对超声换能器管理组中的超声换能器阵列进行监管,当某一组超声换能器检测到有目标对象进入靠近目标植物时,对其进行响应,进而将交互引导文本转换为语音并输。通过这样的方式,能够有效节约植物园中交互设备的数量,还能保证对目标植物的充分监控,提高植物科普文本的输出效率。
可选的,组成一个管理组的超声换能器阵列与目标交互设备之间的距离可以小于设定距离。如图5所示,圆圈内的超声换能器阵列501与目标交互设备502之间的距离均小于设定距离,而圆圈外的超声换能器阵列503与目标交互设备502之间的距离大于设定距离,因此不在该管理组内。进一步地,超声换能器阵列503可以与另一目标交互设备进行通信。通过管理组的方式能够对植物园中数量众多的植物进行有序管控,同时在有目标对象进入对应的管控范围时进行积极交互,提高植物科普文本的输出效率。
上述实施例,交互设备与多组超声换能器阵列进行通信,当其中一组超声换能器阵列确定有目标对象靠近目标植物时,向目标对象进行交互引导文本的输出;而当有多组超声换能器阵列确定有目标对象靠近目标植物时,则基于这些目标对象与对应目标植物的范围来确定需要优先交互的待选目标植物,进而向目标对象进行交互引导文本的输出。既能实现对多棵目标植物的集中管控,还能在出现多个目标对象时进行有序地交互响应。另外,当有多个目标对象靠近目标植物时,基于一定的距离范围阈值来确定引导语音输出的时机,即,仅对处于预设区域范围内的目标对象进行引导语音输出,因为人离树太近的话,忽然有说话可能会被吓,人离树太远又可能并不知道是对自己说话,一个合适的距离说话对人更为友好,使得人更容易接受进一步的植物科普。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于与上述实施例中的语音交互方法相同的思想,本发明还提供语音交互装置,该装置可用于执行上述语音交互方法。为了便于说明,语音交互装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在一个实施例中,如图6所示,提供了一种语音交互装置600,该装置可以采用软件模块或硬件模块,或者是二者的结合成为交互设备的一部分,应用于交互设备,所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接;包括:
引导语音获取模块601,用于当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;
引导语音输出模块602,用于按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;
响应信息获取模块603,用于获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;
科普语音输出模块604,用于从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,并将所述目标植物科普文本转换为语音并输出。
上述语音交互装置中,输出与目标植物匹配的引导语音,在输出引导语音之后,基于目标对象的响应状态针对性地输出植物科普文本,该科普文本不仅是目标植物的科普文本而且能够与目标对象的响应状态匹配。与靠近目标植物的目标对象实现智能化交互并进行植物科普信息的输出,能提高植物科普信息的输出效率。
在一可选实施例中,科普语音输出模块,包括:
反馈文本确定子模块,用于从所述待选交互文本集合中确定对所述响应信息进行响应的反馈文本;
第一科普文本确定子模块,用于确定与所述响应信息以及所述反馈文本相匹配的目标植物科普文本;
交互角色确定子模块,用于获取与所述目标植物的特征信息对应的拟人交互角色;其中,所述特征信息基于所述目标植物的属性特征、当前状态和历史经历得到;
第一科普文本输出子模块,用于按照与所述拟人交互角色对应的交互风格,将所述反馈文本和所述目标植物科普文本转换为语音并输出。
在一可选实施例中,所述响应信息包括语音响应信息;响应信息获取模块,包括:
语音内容确定子模块,用于若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,确定所述语音输入对应的语音内容;
用户意图确定子模块,用于对所述语音内容进行关键词提取,并基于所提取的关键词确定对应的用户意图,作为所述语音响应信息。
在一可选实施例中,所述响应信息包括动作响应信息;响应信息获取模块,包括:
视频采集子模块,用于触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
视频特征提取子模块,用于提取各个视频帧中的特征点,并基于不同视频帧内特征点的动态变化特征得到所述动作响应信息。
在一可选实施例中,科普语音输出模块,包括:
生物特征确定子模块,用于从至少一个所述视频帧中提取所述目标对象的生物识别信息;
状态信息确定子模块,用于基于所述动作响应信息和所述生物识别信息确定所述目标对象的对象状态信息;
第二科普文本确定子模块,用于从所述待选交互文本集合中确定与所述对象状态信息对应的目标植物科普文本;
交互风格确定子模块,用于确定与所述对象状态信息匹配的目标交互风格;
第二科普文本输出子模块,用于将所述目标植物科普文本转换为语音并按照所述目标交互风格进行输出。
在一可选实施例中,所述装置还包括:
用户画像确定模块,用于基于所述响应信息确定所述目标对象的用户画像;
推荐信输出模块,用于输出与所述用户画像对应的推荐信息。
在一可选实施例中,用户画像确定模块,包括:
视频采集子模块,用于触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
信息提取子模块,用于从至少一个所述视频帧中提取所述目标对象的动作响应信息和生物识别信息;
语音响应提取子模块,用于若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,基于所述语音输入得到语音响应信息;
用户画像确定子模块,用于基于所述动作响应信息、所述语音响应信息和所述生物识别信息中的至少一项确定所述目标对象的用户画像。
在一可选实施例中,推荐信输出模块,包括:
待选景点确定子模块,用于当获取到景点推荐触发指令时,从云端数据库中获取所述目标植物所在植物园中多个景点的人员密集度,并基于所述人员密集度从所述多个景点中确定待选景点;所述人员密集度基于对应景点的当前人员数以及预约人员数确定;
目标景点确定子模块,用于从所述待选景点中获取与所述用户画像匹配的目标景点;
推荐信输出子模块,用于确定与所述目标景点对应的目标推荐交互文本并输出。
在一可选实施例中,所述待选交互文本集合中还包含推荐交互文本;推荐信输出子模块,包括:
地图信息获取单元,用于从云端数据库中获取所述植物园的地图信息;所述地图信息中包含植物、园区、道路的位置信息;
路线信息生成单元,用于基于所述地图信息中的植物、园区、道路的位置信息生成到达所述目标景点的路线信息;
推荐文本确定单元,用于从所述待选交互文本集合中确定与所述目标景点匹配的目标推荐交互文本;
推荐文本输出单元,用于将所述目标推荐交互文本和所述路线信息转换为语音并输出。
关于语音交互装置的具体限定可以参见上文中对于语音交互方法的限定,在此不再赘述。上述语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于交互设备中的处理器中,也可以以软件形式存储于交互设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,如图7所示,提供一种语音交互***,包括对象检测器701、交互设备702和云端服务器703;所述交互设备分别与所述对象检测器和所述云端服务器通讯连接,所述对象检测器配置在目标植物上;
所述云端服务器,用于确定所述目标植物的待选交互文本集合;
所述对象检测器,用于探测对应目标植物的预设范围内的目标对象,当探测到有目标对象进入所述目标植物的预设范围时,向所述交互设备发送触发信号;
所述交互设备,用于在接收所述触发信号时,从所述云端服务器的所述待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出。
在一个实施例中,提供了一种交互设备,该交互设备可以是终端,其内部结构图可以如图8所示。该交互设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该交互设备的处理器用于提供计算和控制能力。该交互设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。该交互设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音交互方法。该交互设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该交互设备的输入装置可以是显示屏上覆盖的触摸层,也可以是交互设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的交互设备的限定,具体的交互设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种语音交互方法,其特征在于,应用于交互设备,所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接;所述方法包括:
当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;
按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;
获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;
从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出;
所述按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出,包括:获取所述目标植物的属性特征、当前状态和历史经历,作为所述目标植物的特征信息;确定与所述特征信息对应的拟人交互角色;按照与所述拟人交互角色对应的交互风格,将所述交互引导文本转换为语音并输出。
2.根据权利要求1所述的方法,其特征在于,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:
从所述待选交互文本集合中确定对所述响应信息进行响应的反馈文本;
确定与所述响应信息以及所述反馈文本相匹配的目标植物科普文本;
获取与所述目标植物的特征信息对应的拟人交互角色;其中,所述特征信息基于所述目标植物的属性特征、当前状态和历史经历得到;
按照与所述拟人交互角色对应的交互风格,将所述反馈文本和所述目标植物科普文本转换为语音并输出。
3.根据权利要求1所述的方法,其特征在于,所述响应信息包括语音响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:
若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,确定所述语音输入对应的语音内容;
对所述语音内容进行关键词提取,并基于所提取的关键词确定对应的用户意图,作为所述语音响应信息。
4.根据权利要求1所述的方法,其特征在于,所述响应信息包括动作响应信息;所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息,包括:
触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
提取各个视频帧中的特征点,并基于不同视频帧内特征点的动态变化特征得到所述动作响应信息。
5.根据权利要求4所述的方法,其特征在于,所述从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出,包括:
从至少一个所述视频帧中提取所述目标对象的生物识别信息;
基于所述动作响应信息和所述生物识别信息确定所述目标对象的对象状态信息;
从所述待选交互文本集合中确定与所述对象状态信息对应的目标植物科普文本;
确定与所述对象状态信息匹配的目标交互风格;
将所述目标植物科普文本转换为语音并按照所述目标交互风格进行输出。
6.根据权利要求1所述的方法,其特征在于,所述获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息之后,还包括:
基于所述响应信息确定所述目标对象的用户画像;
输出与所述用户画像对应的推荐信息。
7.根据权利要求6所述的方法,其特征在于,所述基于所述响应信息确定所述目标对象的用户画像,包括:
触发视频采集器在语音输出后的预设时间内采集所述目标对象的视频帧;
从至少一个所述视频帧中提取所述目标对象的动作响应信息和生物识别信息;
若在语音输出后的预设时间内获取到对所述交互引导文本的语音输出进行响应的语音输入,基于所述语音输入得到语音响应信息;
基于所述动作响应信息、所述语音响应信息和所述生物识别信息中的至少一项确定所述目标对象的用户画像。
8.根据权利要求6或7所述的方法,其特征在于,所述输出与所述用户画像对应的推荐信息,包括:
当获取到景点推荐触发指令时,从云端数据库中获取所述目标植物所在植物园中多个景点的人员密集度,并基于所述人员密集度从所述多个景点中确定待选景点;所述人员密集度基于对应景点的当前人员数以及预约人员数确定;
从所述待选景点中获取与所述用户画像匹配的目标景点;
确定与所述目标景点对应的目标推荐交互文本并输出。
9.根据权利要求8所述的方法,其特征在于,所述待选交互文本集合中还包含推荐交互文本;所述确定与所述目标景点对应的目标推荐交互文本并输出,包括:
从云端数据库中获取所述植物园的地图信息;所述地图信息中包含植物、园区、道路的位置信息;
基于所述地图信息中的植物、园区、道路的位置信息生成到达所述目标景点的路线信息;
从所述待选交互文本集合中确定与所述目标景点匹配的目标推荐交互文本;
将所述目标推荐交互文本和所述路线信息转换为语音并输出。
10.一种语音交互装置,其特征在于,应用于交互设备,所述交互设备与目标植物对应配置,所述目标植物还对应配置有对象检测器,所述交互设备与所述对象检测器通讯连接;所述装置包括:
引导语音获取模块,用于当确定所述对象检测器探测到有目标对象进入所述目标植物的预设范围时,从所述目标植物的待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;
引导语音输出模块,用于按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;
响应信息获取模块,用于获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;
科普语音输出模块,用于从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,并将所述目标植物科普文本转换为语音并输出;
所述引导语音输出模块,还用于获取所述目标植物的属性特征、当前状态和历史经历,作为所述目标植物的特征信息;确定与所述特征信息对应的拟人交互角色;按照与所述拟人交互角色对应的交互风格,将所述交互引导文本转换为语音并输出。
11.一种语音交互***,其特征在于,包括对象检测器、交互设备和云端服务器;所述交互设备分别与所述对象检测器和所述云端服务器通讯连接,所述对象检测器配置在目标植物上;
所述云端服务器,用于确定所述目标植物的待选交互文本集合;
所述对象检测器,用于探测对应目标植物的预设范围内的目标对象,当探测到有目标对象进入所述目标植物的预设范围时,向所述交互设备发送触发信号;
所述交互设备,用于在接收所述触发信号时,从所述云端服务器的所述待选交互文本集合中确定交互引导文本;其中,所述待选交互文本集合中包含交互引导文本以及植物科普文本;按照与所述目标植物匹配的交互风格,将所述交互引导文本转换为语音并输出;其中,所述交互风格基于所述目标植物的特征信息确定;获取所述目标对象对所述交互引导文本的语音输出进行响应时的响应信息;从所述待选交互文本集合中确定与所述响应信息对应的目标植物科普文本,将所述目标植物科普文本转换为语音并输出;
所述交互设备,还用于获取所述目标植物的属性特征、当前状态和历史经历,作为所述目标植物的特征信息;确定与所述特征信息对应的拟人交互角色;按照与所述拟人交互角色对应的交互风格,将所述交互引导文本转换为语音并输出。
12.一种交互设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。
13.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述方法的步骤。
CN202211015699.XA 2022-08-24 2022-08-24 语音交互方法、装置、***、交互设备和存储介质 Active CN115101047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015699.XA CN115101047B (zh) 2022-08-24 2022-08-24 语音交互方法、装置、***、交互设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015699.XA CN115101047B (zh) 2022-08-24 2022-08-24 语音交互方法、装置、***、交互设备和存储介质

Publications (2)

Publication Number Publication Date
CN115101047A CN115101047A (zh) 2022-09-23
CN115101047B true CN115101047B (zh) 2022-11-04

Family

ID=83299947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015699.XA Active CN115101047B (zh) 2022-08-24 2022-08-24 语音交互方法、装置、***、交互设备和存储介质

Country Status (1)

Country Link
CN (1) CN115101047B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271891B (zh) * 2022-09-29 2022-12-30 深圳市人马互动科技有限公司 基于互动小说的产品推荐方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6394872B1 (en) * 1999-06-30 2002-05-28 Inter Robot Inc. Embodied voice responsive toy
CN208446149U (zh) * 2018-01-23 2019-02-01 张天娇 一种植物情感表达互动装置
CN109658916A (zh) * 2018-12-19 2019-04-19 腾讯科技(深圳)有限公司 语音合成方法、装置、存储介质和计算机设备
CN112822445A (zh) * 2021-01-05 2021-05-18 张晓燕 一种幼儿自主探索课程辅助***
CN113378706A (zh) * 2021-06-10 2021-09-10 浙江大学 一种辅助儿童观察植物和学习生物多样性的绘画***
CN114793678A (zh) * 2022-03-22 2022-07-29 青岛绿世界园林景观工程有限公司 一种智能型综合微生态景观及控制***
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、***、交互设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW552539B (en) * 2000-09-29 2003-09-11 Sony Corp Agent system, agent transaction method, data providing device, and data recording medium
CN111290682A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6394872B1 (en) * 1999-06-30 2002-05-28 Inter Robot Inc. Embodied voice responsive toy
CN208446149U (zh) * 2018-01-23 2019-02-01 张天娇 一种植物情感表达互动装置
CN109658916A (zh) * 2018-12-19 2019-04-19 腾讯科技(深圳)有限公司 语音合成方法、装置、存储介质和计算机设备
CN112822445A (zh) * 2021-01-05 2021-05-18 张晓燕 一种幼儿自主探索课程辅助***
CN113378706A (zh) * 2021-06-10 2021-09-10 浙江大学 一种辅助儿童观察植物和学习生物多样性的绘画***
CN114793678A (zh) * 2022-03-22 2022-07-29 青岛绿世界园林景观工程有限公司 一种智能型综合微生态景观及控制***
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、***、交互设备和存储介质

Also Published As

Publication number Publication date
CN115101047A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN110313152B (zh) 用于智能助理计算机的用户注册
US20200126566A1 (en) Method and apparatus for voice interaction
US20200016745A1 (en) Data Processing Method for Care-Giving Robot and Apparatus
JP6552123B2 (ja) 応答要求装置
US10643235B2 (en) Using environment and user data to deliver advertisements targeted to user interests, e.g. based on a single command
CN110427472A (zh) 智能客服匹配的方法、装置、终端设备及存储介质
CN108231059A (zh) 处理方法和装置、用于处理的装置
CN106941619A (zh) 基于人工智能的节目提醒方法、装置以及***
US11250857B1 (en) Polling with a natural language interface
CN109176535A (zh) 基于智能机器人的交互方法及***
CN109313935B (zh) 信息处理***、存储介质和信息处理方法
CN116484318B (zh) 一种演讲训练反馈方法、装置及存储介质
CN107480766B (zh) 多模态虚拟机器人的内容生成的方法和***
CN115101047B (zh) 语音交互方法、装置、***、交互设备和存储介质
CN108899036A (zh) 一种语音数据的处理方法及装置
CN109278051A (zh) 基于智能机器人的交互方法及***
CN115101048B (zh) 科普信息交互方法、装置、***、交互设备和存储介质
JP2010224715A (ja) 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体
US20210193165A1 (en) Computer apparatus and method implementing combined sound recognition and location sensing
EP4385009A1 (en) Conversational artificial intelligence system in a virtual reality space
Boyle et al. The ecology of musical performance: Towards a robust methodology
Battesti et al. “The sound of society”: A method for investigating sound perception in Cairo
Bell et al. ‘Never mind the bullocks’: animating the go-along interview through creative nonfiction
CN110309470A (zh) 一种基于空气成像的虚拟新闻主播***及其实现方法
CN114283820A (zh) 多角色语音的交互方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant