CN110134235B - 一种引导式互动的方法 - Google Patents

一种引导式互动的方法 Download PDF

Info

Publication number
CN110134235B
CN110134235B CN201910339023.8A CN201910339023A CN110134235B CN 110134235 B CN110134235 B CN 110134235B CN 201910339023 A CN201910339023 A CN 201910339023A CN 110134235 B CN110134235 B CN 110134235B
Authority
CN
China
Prior art keywords
user
information
voice
age
guided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910339023.8A
Other languages
English (en)
Other versions
CN110134235A (zh
Inventor
王健
苏战
余圳铭
刘卫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zib Artificial Intelligence Technology Co ltd
Original Assignee
Guangzhou Zib Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zib Artificial Intelligence Technology Co ltd filed Critical Guangzhou Zib Artificial Intelligence Technology Co ltd
Priority to CN201910339023.8A priority Critical patent/CN110134235B/zh
Publication of CN110134235A publication Critical patent/CN110134235A/zh
Application granted granted Critical
Publication of CN110134235B publication Critical patent/CN110134235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Educational Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种引导式互动的方法,包括:采集用户输入的语音信息;获取用户的用户特征信息;根据所采集的语音信息和用户的用户特征信息,获取相应的引导指令,并根据引导指令从预存的引导模板库中,调取出与所采集的语音信息和用户特征信息相应的引导模板;引导模板中包括至少一个引导式语句;依次播放引导模板中的引导式语句,通过调取不同的引导模板,引导用户学习,提高用户的学习效率。

Description

一种引导式互动的方法
技术领域
本发明涉及引导教育技术领域,特别涉及一种引导式互动的方法。
背景技术
用户在学***台进行学***台一般只是根据某一种特定的学***台一般在播放完与知识点相应的音视频后,就会直接将问题及问题对应的结果直接显示给用户,由于缺乏引导式的思考,使得用户在学习过程中,不能对问题及问题结果对应的知识点,进行足够深刻理解,同时,由于引导模式较为固定,不能对其用户实现个性化的培养,使得用户学习的效率低下。
发明内容
本发明提供一种引导式互动的方法,用以通过调取不同的引导模板,引导用户学习,提高用户的学习效率。
本发明实施例提供一种引导式互动的方法,包括:
采集用户输入的语音信息;
获取所述用户的用户特征信息;
根据所采集的语音信息和所述用户的用户特征信息,获取相应的引导指令,并根据所述引导指令从预存的引导模板库中,调取出与所采集的语音信息和用户特征信息相应的引导模板;
所述引导模板中包括至少一个引导式语句;
依次播放所述引导模板中的引导式语句。
在一种可能实现的方式中,所述依次播放所述引导模板中的引导式语句,包括:
所述引导模板中存储有预先设定好的语句播放顺序;
按照所述预先设定好的语句播放顺序对所述引导模板中的引导式语句进行播放。
在一种可能实现的方式中,所述依次播放所述引导模板中的引导式语句,包括:
所述引导模板中存储有预先设定好的与所述引导式语句相应的问答数据库,当所述用户回答所述引导模板所播放的引导式语句时,获取所述用户所回答的当前的引导式语句对应的回答结果,根据所述问答数据库,播放与所述问答结果相应的下个引导式语句;
统计所述用户所回答的引导式语句的数量,判断所述用户所回答的引导式语句的数量是否小于预设数量,若是,继续播放供所述用户回答的所述引导式语句,否则,播放结束。
在一种可能实现的方式中,
根据所采集的语音信息和所述用户的用户特征信息,获取相应的引导指令前,需对所述用户输入的语音信息进行判断,包括:
将采集到用户所输入的语音信息进行等间隔时间的划分,并将划分后的语音信息进行播放,且所述用户判断所播放的拆分后的语音信息是否正确,若是,根据预先存储的标准语音数据库,对划分后的语音信息进行识别,并判断所划分后的语音信息的特征值与所诉标准语音数据库中相应的标准语音信息的特征值是否匹配,若是,则对所采集到的语音信息中的引导指令进行提取;
否则,删除所采集的用户所输入的语音信息,并重新进行语音信息的采集。
在一种可能实现的方式中,
对划分后的语音信息进行识别过程中,对所识别的语音信息进行降噪处理,包括:
对每个等间隔时间划分后的语音信息进行帧处理;
获取采集所述用户输入的语音信息的交互端的位置信息,并从预先存储的位置地图库中,调取与所述位置信息相应的位置地图;
根据所述位置地图获取所述交互端所处的预设区域,获取所述预设区域的预选场景;
获取所采集所述用户输入的语音信息中的环境噪音信号;
根据所述环境噪音信号从所述预选场景中确定出所述目标场景,根据预先存储的降噪参数数据库,查找与所述目标场景对应的环境降噪参数;
根据所述环境降噪参数,从所采集所述用户输入的语音信息中分离出用户语音;
获取分离后的所述用户语音中所述用户对应的最小频率阈值和最大频率阈值;
获取分离后的所述用户语音中的平稳的噪声谱;
基于谱减算法将所述获取的所述最小频率阈值和最大频率阈值,及平稳的噪声谱生成相应的有效信息,并消除所述有效信息的随机噪声。
在一种可能实现的方式中,
所述等间隔时间是由采集所述用户语音信息的互动端根据所述用户的语速自定义设置的。
在一种可能实现的方式中,
所述依次播放所述引导模板中的引导式语句时,需对所述引导式语句对应的引导资料的播放进度进行调节和记录,包括:
对播放所述引导资料的互动端的显示屏进行预设区域块的划分,每个区域块上都有其对应的调节精度;
记录所述用户在每个所述区域块的调节操作,并根据每个区域块上的所述调节精度确定所述调节操作对应的快进快退时间,所述调节操作包括调节角度和调节长度,其中,所述调节长度是调节起点到终点的距离;
所述引导资料的播放进度是从当前播放时刻跳转到根据所述调节操作所对应的快进快退时间所对应的播放时刻,并对所述调节操作后的所述播放时刻进行记录。
在一种可能实现的方式中,
所述用户特征信息还包括,用户对话属性,
所述用户对话属性是根据所述用户与互动端的虚拟人的对话内容获取的,所述对话属性的获取,包括:
记录所述用户与所述虚拟人的对话内容,并从所述对话内容中获得相应的对话问答信息;
根据所述用户与所述虚拟人的对话时间的先后,从所记录所述用户与所述虚拟人的对话内容中,筛选出所述用户的回复内容,并对所筛选出的回复内容进行等级属性频率划分,当所述回复内容所属的属性频率大于或等于预设频率时,确定该属性频率对应的回复内容的属性为所述用户对话属性;
其中,当所述用户与所述虚拟人进行对话时,所述虚拟人基于所述用户对话属性,并根据预先存储的对话数据库获得相应的预设回复内容,同时对所述对话数据库进行更新;
若所述虚拟人无法获取到相应的预设回复内容,则所述虚拟人主动中断聊天,并输出相关提示信息到互动端。
在一种可能实现的方式中,
所述用户与所述虚拟人进行对话的步骤包括:
服务器接收所述交互端生成的所述用户输入的回复内容;
根据对话数据库确定所接收的所述用户输入的回复内容对应的所述虚拟人的预设回复内容;
所述服务器将所述预设回复内容发送到所述交互端,供所述虚拟人回复;
其中,所述用户与所述虚拟人进行对话之前,需要对所述用户的身份进行验证,其包括:
注册所述用户的注册服务器发送所述用户的身份信息给确认服务器,所述确认服务器将所述用户的身份信息储存到用户信息数据库中,所述用户与确认服务器之间约定用户登录服务器的身份凭证;
通过加密密钥存储管理服务器分配加密密钥给所述交互端,所述交互端得到加密密钥后对所述用户的身份信息A进行加密,用户服务器从加密密钥存储管理服务器中取出的加密密钥B,按照约定协议将B划分为B1、B2、B3、B4四部分,其中,B1是用来与密码原文串行组合的一段字节串;B2是用来进行加密的密钥,其长度由传统加密算法所使用的密钥长度决定;B3是用来由散列算法库中所包含的散列算法的数量决定使用的散列算法;B4是用来是由加密算法库中所包含的加密算法的数量决定使用的加密算法;
将最终密文传输到所述确认服务器,所述最终密文是由所述交互端将身份信息A和B1串行组合得到BB,根据B3的值调用散列算法库中相应标号的散列算法对BB计算其散列值为Bb,根据B4的值调用加密算法库中相同值标号的加密算法并使用密钥B2对Bb进行加密,加密后的密文记为Ba,Ba即为加密后的最终密文;
认证所述确认服务器通过所述第一通信模块接收到由所述交互端发来的最终密文Ba,根据加密密钥B4从所述确认服务器的加密算法库中查找到相应的解密算法,结合加密密钥B2,解密得到第一散列值Bb;所述确认服务器,还用于从所述用户数据库中取出所述用户注册的身份信息A,并通过与所述交互端相同的方法计算其散列值,即将身份信息A与B1串行组合后使用与B3的值相同编号的散列值算法对其计算散列值,得到第二散列值Bb’;所述确认服务器比较第一散列值Bb与第二散列值Bb’是否相同,若相同,则认证成功;否则,认证失败;所述确认服务器将认证结果发送到所述交互端,所述认证结果包括:认证成功、认证失败。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种引导式互动的方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种引导式互动的方法,如图1所示,包括:
步骤1:采集用户输入的语音信息;
步骤2:获取用户的用户特征信息;
步骤3:根据所采集的语音信息和用户的用户特征信息,获取相应的引导指令,并根据引导指令从预存的引导模板库中,调取出与所采集的语音信息和用户特征信息相应的引导模板;
引导模板中包括至少一个引导式语句;
步骤4:依次播放引导模板中的引导式语句。
在本实施例中,引导指令例如可以是根据获取的所采集的语音信息和用户的用户特征信息得到的用户年龄指令,并根据用户年龄指令调取相应的引导模板,具体过程如下:
首先将采集到的语音信息经过处理得到用户的语音矩阵,所述语音矩阵为将采集到的语音信息,根据相同时间间隔段进行切割,并提取每段语音的音调、音频、分贝等指标的值,组成相应的矩阵,并且根据用户的用户特征信息得到用户的信息矩阵,所述用户特征矩阵为将采集到的用户特征保存为图片,然后提取图片中的像素点的值形成相应的矩阵,再将像素点的值进行灰度化处理,得到相应的用户的信息特征,将得到的矩阵利用下列公式估算出用户的大致年龄:
Figure BDA0002040128660000071
其中S为估算的用户年龄,
Figure BDA0002040128660000072
为用户的语音矩阵,Vn为语音矩阵中的第n个语音信息,n为语音信息的总个数,
Figure BDA0002040128660000073
为语音信息最大化矩阵,Vnmax为语音矩阵中的第n个语音信息在实际中的最大值,(C1C2…Cn)为整合矩阵,Cn为语音矩阵中的第n个语音信息在整个语音中所占的比重的百分比,p为语音对年龄的转化因子,k为基准年龄值,t为用户信息对年龄的转化因子,m为用户信息的总个数,
Figure BDA0002040128660000074
为用户信息矩阵,
Figure BDA0002040128660000075
为基准年龄用户的用户信息矩阵。
其中,语音对年龄的转化因子,可由用户的平均年龄以及语音矩阵的平均值求得,用户信息对年龄的转化因子,可由用户的平均年龄以及用户信息矩阵的平均值求得。
根据方程估算得到用户年龄后对年龄分类,确定用户年龄指令,并调取相应的引导模板,包括:将估算得到的用户年龄分成四个阶段,每个阶段都存在一个中间年龄,代入如下算式:
min(|S-S1|,|S-S2|,|S-S3|,|S-S4|)
其中S1,S2,S3,S4为每个阶段的中间年龄,根据取得的值找到其对应的中间值,即可确定出用户的年龄阶段,从而获得用户年龄指令,根据用户的年龄阶段所对应的用户年龄指令调取出对应的引导模块进行输出。
其中,用户特征信息例如可以是用户人脸图像、用户兴趣点等;
引导式语句例如可以是用于引导用户的问句、用于引导用户的语句等。
其中,引导式语句的设定是以启发用户思维和培养兴趣为目标的,例如十个用户听完司马光砸缸的故事,可能会根据所获取的用户年龄提问出6~7个不同的问题,不同年龄的用户所回答的问题会有所不同。
上述技术方案的有益效果是:通过调取不同的引导模板,引导用户学习,提高用户的学习效率。
本发明实施例提供一种引导式互动的方法,依次播放引导模板中的引导式语句,包括:
引导模板中存储有预先设定好的引导式语句的语句播放顺序;
按照预先设定好的语句播放顺序对引导模板中的引导式语句进行播放。
上述技术方案中,预先设定好的语句顺序,例如可以是按照问题的难易程度进行排序的,使得用户在学习过程中由易到难的学习,便于理解。
上述技术方案的有益效果是:通过预先设定好语句顺序,方便用户由浅入深的学习。
本发明实施例提供一种引导式互动的方法,依次播放引导模板中的引导式语句,包括:
引导模板中存储有预先设定好的与引导式语句相应的问答数据库,当用户回答引导模板所播放的引导式语句时,获取用户所回答的当前的引导式语句对应的回答结果,根据问答数据库,播放与问答结果相应的下个引导式语句;
统计用户所回答的引导式语句的数量,判断用户所回答的引导式语句的数量是否小于预设数量,若是,继续播放供用户回答的引导式语句,否则,播放结束。
上述技术方案中,引导式语句所播放的顺序与上个实施例中引导式语句的播放顺序不同,上个实施例是按照预先设定好的顺序播放引导式语句,而上述技术方案是根据用户所回答的当前的引导式语句对应的回答结果,根据问答数据库,播放与问答结果相应的下个引导式语句;
前者是基于设定好的引导顺序,引导用户学习,引导方式较为单一;后者是基于用户的回答结果,并按照与回答结果相应的引导式语句,引导用户学习,引导方式较为多变。
需要说明的是,在上述技术方案中,播放第一个引导式语句时,例如可以是播放的难易程度最简单的引导式语句,根据用户对第一个引导式语句的答复,判断用户对第一个引导式语句所提出问题的掌握情况,并根据其判断情况,获取相应的下个引导式语句,其好处是,根据用户的掌握情况,来提供相应的引导式语句,可以有效的针对用户本体,进行有效引导。
其中,用户只有回答完所有的引导式语句,播放才会结束,其好处是,避免用户漏答,可提高用户对知识的获取。
上述技术方案的有益效果是:相对于上个实施例,其引导的方式更加灵活,进一步提高用户的学习效率。
本发明实施例提供一种引导式互动的方法,根据所采集的语音信息和用户的用户特征信息,获取相应的引导指令前,需对用户输入的语音信息进行判断,包括:
将采集到用户所输入的语音信息进行等间隔时间的划分,并将划分后的语音信息进行播放,且用户判断所播放的拆分后的语音信息是否正确,若是,根据预先存储的标准语音数据库,对划分后的语音信息进行识别,并判断所划分后的语音信息的特征值与所诉标准语音数据库中相应的标准语音信息的特征值是否匹配,若是,则对所采集到的语音信息中的引导指令进行提取;
否则,删除所采集的用户所输入的语音信息,并重新进行语音信息的采集。
上述技术方案中,标准语音数据库中存储有不同语种,及其相对应标准音频数据的映射表;且由于用户的语速不一致,因此通过等间隔时间划分其语音信息,并再次播放,可确保其划分的正确性、及采集的语音的清晰度,将等间隔时间控制在可识别的范围之内,可提高语音识别的精确性。
上述技术方案的有益效果是:通过对采集的语音信息两次判断,确保所采集的语音信息是完整的、准确的。
本发明实施例提供一种引导式互动的方法,对划分后的语音信息进行识别过程中,对所识别的语音信息进行降噪处理,包括:
对每个等间隔时间划分后的语音信息进行帧处理;
获取采集用户输入的语音信息的交互端的位置信息,并从预先存储的位置地图库中,调取与位置信息相应的位置地图;
根据位置地图获取交互端所处的预设区域,获取预设区域的预选场景;
获取所采集用户输入的语音信息中的环境噪音信号;
根据环境噪音信号从预选场景中确定出目标场景,根据预先存储的降噪参数数据库,查找与目标场景对应的环境降噪参数;
根据环境降噪参数,从所采集用户输入的语音信息中分离出用户语音;
获取分离后的用户语音中用户对应的最小频率阈值和最大频率阈值;
获取分离后的用户语音中的平稳的噪声谱;
基于谱减算法将获取的最小频率阈值和最大频率阈值,及平稳的噪声谱生成相应的有效信息,并消除有效信息的随机噪声。
上述技术方案中,降噪参数数据库存储有预选场景和与之对应的降噪参数,其中,降噪参数包括噪音谱参数和降噪算法。噪音谱参数是根据采集到的噪音样本,对相同场景下的噪音样本进行训练得到的。降噪算法包括但不限于梳状滤波法、维纳滤波法、卡尔曼滤波法、谱减法、自适应滤波法、最小均方误差估计法、人工神经网络法等算法。
上述技术方案中,位置信息包括交互端所在的经度值和纬度值,对位置信息的获取是通过用户对其交互端进行触发后获取的。
需要说明的是,预选区域中记录有预设场景,预选区域的准确度直接影响到确定出的场景的正确率,进而会影响到调用参数的匹配程度,最终影响语音降噪的效果,因此选择准确度较高的地图。
根据环境噪音信号从预选场景中确定出目标场景,其实现方法,例如可以是,从预选区域中确定出包括交互端所在地点的第一区域;将第一区域中所占面积最大的场景确定为目标场景;根据获得的预选区域,以交互端所在位置为中心,以一定距离为半径,将此范围内的区域设定为第一区域;根据预选区域中的信息确定第一区域中存在的场景,并确定每一种场景在第一区域所占面积的百分比;将面积所占百分比最大的场景确定为该交互端所处的场景,即目标场景。
因为不同场景下的噪音具有不同的特点,针对不同场景下的噪音特征不同,所以需要对不同场景下的语音信号利用不同的算法进行降噪;例如,对于舞厅、KTV等音乐噪音较多的场景,与之对应的降噪算法可以为维纳滤波法。
上述技术方案中,获取分离后的用户语音中的平稳的噪声谱,例如可以包括在所延迟的预定时间间隔中获取在最小频率阈值和最大频率阈值范围内的平稳的噪声谱。例如,为了获取平稳的噪声谱,必须保证前面的15ms中,没有频率大于最大频率阈值的随机噪声。通过这种方式,可以消除随机噪声谱的干扰。
上述技术方案的有益效果是:通过对采集的语音信息进行降噪处理,避免外界噪音对其造成影响,从而使得获取的语音信息,更加清晰。
优选地,等间隔时间是由采集用户语音信息的互动端根据用户的语速自定义设置的。
本发明实施例提供一种引导式互动的方法,依次播放引导模板中的引导式语句时,需对引导式语句对应的引导资料的播放进度进行调节和记录,包括:
对播放引导资料的互动端的显示屏进行预设区域块的划分,每个区域块上都有其对应的调节精度;
记录用户在每个区域块的调节操作,并根据每个区域块上的调节精度确定调节操作对应的快进快退时间,调节操作包括调节角度和调节长度,其中,调节长度是调节起点到终点的距离;
引导资料的播放进度是从当前播放时刻跳转到根据调节操作所对应的快进快退时间所对应的播放时刻,并对调节操作后的播放时刻进行记录。
上述技术方案中,在显示屏上划分多个区域块,每个区域块对应的调节精度不同,当在显示屏进行调节的过程中,若调节方向与区域块预设的快进快退的方向不平行时,则将其调节长度投射到所属区域块设置的快进快退方向上,并按照调节角度和调节长度计算跳转后的播放时刻。
上述技术方案的有益效果是:播放的引导资料时,用户通过在显示屏上进行调节播放进度,方便用户对引导资料的学习。
本发明实施例提供一种引导式互动的方法,用户特征信息还包括,用户对话属性,
用户对话属性是根据用户与互动端的虚拟人的对话内容获取的,对话属性的获取,包括:
记录用户与虚拟人的对话内容,并从对话内容中获得相应的对话问答信息;
根据用户与虚拟人的对话时间的先后,从所记录用户与虚拟人的对话内容中,筛选出用户的回复内容,并对所筛选出的回复内容进行等级属性频率划分,当回复内容所属的属性频率大于或等于预设频率时,确定该属性频率对应的回复内容的属性为用户对话属性;
其中,当用户与虚拟人进行对话时,虚拟人基于用户对话属性,并根据预先存储的对话数据库获得相应的预设回复内容,同时对对话数据库进行更新;
若虚拟人无法获取到相应的预设回复内容,则虚拟人主动中断聊天,并输出相关提示信息到互动端。
上述技术方案中,对话数据库中存储有与用户回复内容对应的对话场景,且预设回复内容与对话场景是一一对应,还记录各类用户与虚拟人的对话信息,针对不同的对话信息,做出不同的、符合用户语言风格、情感风格、背景知识与记忆的回复。
对用户的回复内容,进行等级属性频率划分,例如,假设用户的回复内容有10条,其中8条属于言语直白型内容,2条属于言语委婉型内容,则判定虚拟人的预设回复内容应属于言语直白型内容。
上述技术方案的有益效果是:通过对用户对话属性的判断,可以调取出更加合理的引导模板,引导用户学习。
本发明实施例提供一种引导式互动的方法,用户与虚拟人进行对话的步骤包括:
服务器接收交互端生成的用户输入的回复内容;
根据对话数据库确定所接收的用户输入的回复内容对应的虚拟人的预设回复内容;
服务器将预设回复内容发送到交互端,供虚拟人回复;
其中,用户与虚拟人进行对话之前,需要对用户的身份进行验证,其包括:
注册用户的注册服务器发送用户的身份信息给确认服务器,确认服务器将用户的身份信息储存到用户信息数据库中,用户与确认服务器之间约定用户登录服务器的身份凭证;
通过加密密钥存储管理服务器分配加密密钥给交互端,交互端得到加密密钥后对用户的身份信息A进行加密,用户服务器从加密密钥存储管理服务器中取出的加密密钥B,按照约定协议将B划分为B1、B2、B3、B4四部分,其中,B1是用来与密码原文串行组合的一段字节串;B2是用来进行加密的密钥,其长度由传统加密算法所使用的密钥长度决定;B3是用来由散列算法库中所包含的散列算法的数量决定使用的散列算法;B4是用来是由加密算法库中所包含的加密算法的数量决定使用的加密算法;
将最终密文传输到确认服务器,最终密文是由交互端将身份信息A和B1串行组合得到BB,根据B3的值调用散列算法库中相应标号的散列算法对BB计算其散列值为Bb,根据B4的值调用加密算法库中相同值标号的加密算法并使用密钥B2对Bb进行加密,加密后的密文记为Ba,Ba即为加密后的最终密文;
认证确认服务器通过第一通信模块接收到由交互端发来的最终密文Ba,根据加密密钥B4从确认服务器的加密算法库中查找到相应的解密算法,结合加密密钥B2,解密得到第一散列值Bb;确认服务器,还用于从用户数据库中取出用户注册的身份信息A,并通过与交互端相同的方法计算其散列值,即将身份信息A与B1串行组合后使用与B3的值相同编号的散列值算法对其计算散列值,得到第二散列值Bb’;确认服务器比较第一散列值Bb与第二散列值Bb’是否相同,若相同,则认证成功;否则,认证失败;确认服务器将认证结果发送到交互端,认证结果包括:认证成功、认证失败。
上述技术方案中,交互端包括但不限于,机器人、手机、笔记本等交互设备;身份凭证包括但不限于,指纹、身份证号码、姓名等,其用户的身份进行验证的方式可以是指纹识别、扫描识别、密码识别等。
该技术方案的有益效果是:避免无关人员对交互端的使用,降低交互端被损坏的可能性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种引导式互动的方法,其特征在于,包括:
采集用户输入的语音信息;
获取所述用户的用户特征信息;
根据所采集的语音信息和所述用户的用户特征信息,获取相应的引导指令,并根据所述引导指令从预存的引导模板库中,调取出与所采集的语音信息和用户特征信息相应的引导模板;
所述引导模板中包括至少一个引导式语句;
依次播放所述引导模板中的引导式语句;
引导指令是根据获取的所采集的语音信息和用户的用户特征信息得到的用户年龄指令,并根据用户年龄指令调取相应的引导模板,具体过程如下:
首先将采集到的语音信息经过处理得到用户的语音矩阵,所述语音矩阵为将采集到的语音信息,根据相同时间间隔段进行切割,并提取每段语音的音调、音频、分贝指标的值,组成相应的矩阵,并且根据用户的用户特征信息得到用户的信息矩阵,所述用户的信息矩阵为将采集到的用户特征保存为图片,然后提取图片中的像素点的值形成相应的矩阵,再将像素点的值进行灰度化处理,得到相应的用户的信息特征,将得到的矩阵利用下列公式估算出用户的大致年龄:
Figure 164898DEST_PATH_IMAGE001
其中
Figure 613197DEST_PATH_IMAGE002
为估算的用户年龄,
Figure 720830DEST_PATH_IMAGE003
为用户的语音矩阵,
Figure 148663DEST_PATH_IMAGE004
为语音矩阵中的第n个语音信 息,n为语音信息的总个数,
Figure 494193DEST_PATH_IMAGE005
为语音信息最大化矩阵,
Figure 582235DEST_PATH_IMAGE006
为语音矩阵中的第n个 语音信息在实际中的最大值,
Figure 177165DEST_PATH_IMAGE007
为整合矩阵,
Figure 907223DEST_PATH_IMAGE008
为语音矩阵中的第n个语音信 息在整个语音中所占的比重的百分比,p为语音对年龄的转化因子,
Figure 841681DEST_PATH_IMAGE009
为基准年龄值,
Figure 366203DEST_PATH_IMAGE010
为用 户信息对年龄的转化因子,m为用户信息的总个数,
Figure 949894DEST_PATH_IMAGE011
为用户信息矩阵,
Figure 218064DEST_PATH_IMAGE012
为基准年 龄用户的用户信息矩阵;
其中,语音对年龄的转化因子,由用户的平均年龄以及语音矩阵的平均值求得,用户信息对年龄的转化因子,由用户的平均年龄以及用户信息矩阵的平均值求得;
根据公式估算得到用户年龄后对年龄分类,确定用户年龄指令,并调取相应的引导模板,包括:将估算得到的用户年龄分成四个阶段,每个阶段都存在一个中间年龄,代入如下算式:
Figure 272608DEST_PATH_IMAGE013
其中
Figure 968031DEST_PATH_IMAGE014
为每个阶段的中间年龄,根据取得的值找到其对应的中间值,即 可确定出用户的年龄阶段,从而获得用户年龄指令,根据用户的年龄阶段所对应的用户年 龄指令调取出对应的引导模块进行输出。
2.如权利要求1所述的方法,其特征在于,
所述依次播放所述引导模板中的引导式语句,包括:
所述引导模板中存储有预先设定好的引导式语句的语句播放顺序;
按照所述预先设定好的语句播放顺序对所述引导模板中的引导式语句进行播放。
3.如权利要求1所述的方法,其特征在于,所述依次播放所述引导模板中的引导式语句,包括:
所述引导模板中存储有预先设定好的与所述引导式语句相应的问答数据库,当所述用户回答所述引导模板所播放的引导式语句时,获取所述用户所回答的当前的引导式语句对应的回答结果,根据所述问答数据库,播放与所述回答结果相应的下个引导式语句;
统计所述用户所回答的引导式语句的数量,判断所述用户所回答的引导式语句的数量是否小于预设数量,若是,继续播放供所述用户回答的所述引导式语句,否则,播放结束。
4.如权利要求1所述的方法,其特征在于,根据所采集的语音信息和所述用户的用户特征信息,获取相应的引导指令前,需对所述用户输入的语音信息进行判断,包括:
将采集到用户所输入的语音信息进行等间隔时间的划分,并将划分后的语音信息进行播放,且所述用户判断所播放的拆分后的语音信息是否正确,若是,根据预先存储的标准语音数据库,对划分后的语音信息进行识别,并判断所划分后的语音信息的特征值与所述标准语音数据库中相应的标准语音信息的特征值是否匹配,若是,则对所采集到的语音信息中的引导指令进行提取;
否则,删除所采集的用户所输入的语音信息,并重新进行语音信息的采集。
5.如权利要求4所述的方法,其特征在于,对划分后的语音信息进行识别过程中,对所识别的语音信息进行降噪处理,包括:
对每个等间隔时间划分后的语音信息进行帧处理;
获取采集所述用户输入的语音信息的交互端的位置信息,并从预先存储的位置地图库中,调取与所述位置信息相应的位置地图;
根据所述位置地图获取所述交互端所处的预设区域,获取所述预设区域的预选场景;
获取所采集所述用户输入的语音信息中的环境噪音信号;
根据所述环境噪音信号从所述预选场景中确定出目标场景,根据预先存储的降噪参数数据库,查找与所述目标场景对应的环境降噪参数;
根据所述环境降噪参数,从所采集所述用户输入的语音信息中分离出用户语音;
获取分离后的所述用户语音中所述用户对应的最小频率阈值和最大频率阈值;
获取分离后的所述用户语音中的平稳的噪声谱;
基于谱减算法将所述获取的所述最小频率阈值和最大频率阈值,及平稳的噪声谱生成相应的有效信息,并消除所述有效信息的随机噪声。
6.如权利要求4所述的方法,其特征在于,
所述等间隔时间是由采集所述用户语音信息的交互端根据所述用户的语速自定义设置的。
7.如权利要求1所述的方法,其特征在于,所述依次播放所述引导模板中的引导式语句时,需对所述引导式语句对应的引导资料的播放进度进行调节和记录,包括:
对播放所述引导资料的交互端的显示屏进行预设区域块的划分,每个区域块上都有其对应的调节精度;
记录所述用户在每个所述区域块的调节操作,并根据每个区域块上的所述调节精度确定所述调节操作对应的快进快退时间,所述调节操作包括调节角度和调节长度,其中,所述调节长度是调节起点到终点的距离;
所述引导资料的播放进度是从当前播放时刻跳转到根据所述调节操作所对应的快进快退时间所对应的播放时刻,并对所述调节操作后的所述播放时刻进行记录。
8.如权利要求1所述的方法,其特征在于,所述用户特征信息还包括,用户对话属性,
所述用户对话属性是根据所述用户与交互端的虚拟人的对话内容获取的,所述对话属性的获取,包括:
记录所述用户与所述虚拟人的对话内容,并从所述对话内容中获得相应的对话问答信息;
根据所述用户与所述虚拟人的对话时间的先后,从所记录所述用户与所述虚拟人的对话内容中,筛选出所述用户的回复内容,并对所筛选出的回复内容进行等级属性频率划分,当所述回复内容所属的属性频率大于或等于预设频率时,确定该属性频率对应的回复内容的属性为所述用户对话属性;
其中,当所述用户与所述虚拟人进行对话时,所述虚拟人基于所述用户对话属性,并根据预先存储的对话数据库获得相应的预设回复内容,同时对所述对话数据库进行更新;
若所述虚拟人无法获取到相应的预设回复内容,则所述虚拟人主动中断聊天,并输出相关提示信息到交互端。
9.如权利要求8所述的方法,其特征在于,所述用户与所述虚拟人进行对话的步骤包括:
服务器接收所述交互端生成的所述用户输入的回复内容;
根据对话数据库确定所接收的所述用户输入的回复内容对应的所述虚拟人的预设回复内容;
所述服务器将所述预设回复内容发送到所述交互端,供所述虚拟人回复。
10.如权利要求8所述的方法,其特征在于,所述用户与所述虚拟人进行对话的步骤包括:
服务器接收所述交互端生成的所述用户输入的回复内容;
根据对话数据库确定所接收的所述用户输入的回复内容对应的所述虚拟人的预设回复内容;
所述服务器将所述预设回复内容发送到所述交互端,供所述虚拟人回复;
其中,所述用户与所述虚拟人进行对话之前,需要对所述用户的身份进行验证,其包括:
注册所述用户的注册服务器发送所述用户的身份信息给确认服务器,所述确认服务器将所述用户的身份信息储存到用户信息数据库中,所述用户与确认服务器之间约定用户登录服务器的身份凭证;
通过加密密钥存储管理服务器分配加密密钥给所述交互端,所述交互端得到加密密钥后对所述用户的身份信息A进行加密,用户服务器从加密密钥存储管理服务器中取出的加密密钥B,按照约定协议将B划分为B1、B2、B3、B4四部分,其中,B1是用来与密码原文串行组合的一段字节串;B2是用来进行加密的密钥,其长度由传统加密算法所使用的密钥长度决定; B3是用来由散列算法库中所包含的散列算法的数量决定使用的散列算法;B4是用来是由加密算法库中所包含的加密算法的数量决定使用的加密算法;
将最终密文传输到所述确认服务器,所述最终密文是由所述交互端将身份信息A和B1串行组合得到BB,根据B3的值调用散列算法库中相应标号的散列算法对BB计算其散列值为Bb,根据B4的值调用加密算法库中相同值标号的加密算法并使用密钥B2对Bb进行加密,加密后的密文记为Ba,Ba即为加密后的最终密文;
认证所述确认服务器通过第一通信模块接收到由所述交互端发来的最终密文Ba,根据加密密钥B4从所述确认服务器的加密算法库中查找到相应的解密算法,结合加密密钥B2,解密得到第一散列值Bb;所述确认服务器,还用于从用户数据库中取出所述用户注册的身份信息A,并通过与所述交互端相同的方法计算其散列值,即将身份信息A与B1串行组合后使用与B3的值相同编号的散列值算法对其计算散列值,得到第二散列值Bb’;所述确认服务器比较第一散列值Bb与第二散列值Bb’是否相同,若相同,则认证成功;否则,认证失败;所述确认服务器将认证结果发送到所述交互端,所述认证结果包括:认证成功、认证失败。
CN201910339023.8A 2019-04-25 2019-04-25 一种引导式互动的方法 Active CN110134235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910339023.8A CN110134235B (zh) 2019-04-25 2019-04-25 一种引导式互动的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910339023.8A CN110134235B (zh) 2019-04-25 2019-04-25 一种引导式互动的方法

Publications (2)

Publication Number Publication Date
CN110134235A CN110134235A (zh) 2019-08-16
CN110134235B true CN110134235B (zh) 2022-04-12

Family

ID=67571150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910339023.8A Active CN110134235B (zh) 2019-04-25 2019-04-25 一种引导式互动的方法

Country Status (1)

Country Link
CN (1) CN110134235B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610627A (zh) * 2019-09-29 2019-12-24 苏州思必驰信息科技有限公司 启发式诗词学习方法及装置
CN112085422B (zh) * 2020-10-28 2021-06-22 杭州环研科技有限公司 一种基于人工智能的环保在线服务***
CN112967010A (zh) * 2021-02-07 2021-06-15 中国工商银行股份有限公司 基于数字人引导的业务办理方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话***及其实现方法
CN104036786A (zh) * 2014-06-25 2014-09-10 青岛海信信芯科技有限公司 一种语音降噪的方法及装置
CN105138710A (zh) * 2015-10-12 2015-12-09 金耀星 一种聊天代理***及方法
CN105515780A (zh) * 2016-01-12 2016-04-20 浙江神州量子网络科技有限公司 基于量子密钥的身份认证***和方法
CN106202165A (zh) * 2016-06-24 2016-12-07 北京小米移动软件有限公司 人机交互的智能学习方法及装置
CN108563627A (zh) * 2018-03-02 2018-09-21 北京云知声信息技术有限公司 启发式语音交互方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140089863A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话***及其实现方法
CN104036786A (zh) * 2014-06-25 2014-09-10 青岛海信信芯科技有限公司 一种语音降噪的方法及装置
CN105138710A (zh) * 2015-10-12 2015-12-09 金耀星 一种聊天代理***及方法
CN105515780A (zh) * 2016-01-12 2016-04-20 浙江神州量子网络科技有限公司 基于量子密钥的身份认证***和方法
CN106202165A (zh) * 2016-06-24 2016-12-07 北京小米移动软件有限公司 人机交互的智能学习方法及装置
CN108563627A (zh) * 2018-03-02 2018-09-21 北京云知声信息技术有限公司 启发式语音交互方法及装置

Also Published As

Publication number Publication date
CN110134235A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN110134235B (zh) 一种引导式互动的方法
JP2019212288A (ja) 情報を出力するための方法、及び装置
JP4369132B2 (ja) 話者音声のバックグランド学習
CN109726624A (zh) 身份认证方法、终端设备和计算机可读存储介质
EP0146434A1 (en) A speaker independent speech recognition process
CN106649694A (zh) 语音交互中确定用户意图的方法及装置
US20210327430A1 (en) Information processing system, and information processing method
Nawaz et al. Deep latent space learning for cross-modal mapping of audio and visual signals
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN109961152B (zh) 虚拟偶像的个性化互动方法、***、终端设备及存储介质
WO2021082861A1 (zh) 评分方法、装置、电子设备及存储介质
CN117152308B (zh) 一种虚拟人动作表情优化方法与***
CN114902217A (zh) 用于认证数字内容的***
CN106653003A (zh) 语音识别方法及装置
CN110827834A (zh) 声纹注册方法、***及计算机可读存储介质
CN112861784B (zh) 答题方法及装置
CN110931020B (zh) 一种语音检测方法及装置
CN113282509A (zh) 音色识别、直播间分类方法、装置、计算机设备和介质
CN108744498B (zh) 一种基于双vr设备的虚拟游戏快速启动方法
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
JP6589040B1 (ja) 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
CN112820265A (zh) 一种语音合成模型训练方法和相关装置
CN111933117A (zh) 语音验证方法和装置、存储介质及电子装置
CN111276113A (zh) 基于音频生成按键时间数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510000 unit on the fourth floor, 1st, 2nd, 3rd floor, west side, 1383-5, Guangzhou Avenue South, Haizhu District, Guangzhou City, Guangdong Province (office only)

Applicant after: GUANGZHOU ZIB ARTIFICIAL INTELLIGENCE TECHNOLOGY CO.,LTD.

Address before: Room a, unit 1902, 374-2, Beijing Road, Yuexiu District, Guangzhou, Guangdong 510000

Applicant before: GUANGZHOU ZIB ARTIFICIAL INTELLIGENCE TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant