CN111883131A - 语音数据的处理方法及装置 - Google Patents
语音数据的处理方法及装置 Download PDFInfo
- Publication number
- CN111883131A CN111883131A CN202010855563.4A CN202010855563A CN111883131A CN 111883131 A CN111883131 A CN 111883131A CN 202010855563 A CN202010855563 A CN 202010855563A CN 111883131 A CN111883131 A CN 111883131A
- Authority
- CN
- China
- Prior art keywords
- emotion
- content
- voice
- processed
- pushed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000008451 emotion Effects 0.000 claims abstract description 323
- 238000004458 analytical method Methods 0.000 claims abstract description 108
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 19
- 238000012937 correction Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 13
- 230000008909 emotion recognition Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 abstract description 10
- 230000002452 interceptive effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003203 everyday effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请的实施例提供了一种语音数据的处理方法及装置。该语音数据的处理方法包括:对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;根据所述意图信息、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。本申请实施例的技术方案可以根据用户当前的情感状态进行响应,以向用户提供更人性化的交互体验。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种语音数据的处理方法及装置。
背景技术
随着人工智能的发展以及人们对交互体验要求的不断提高,智能交互方式已经逐渐替代传统的人机交互方式。在目前的技术方案中,现有的智能交互方案仅能大概分析出用户语音的语义内容,从而作出相应的回应。然而,其无法根据用户当前的情感,分析出用户的情绪需求。因此,如何根据用户当前的情感作出响应,进而向用户提供更人性化的交互体验成为了亟待解决的技术问题。
发明内容
本申请的实施例提供了一种语音数据的处理方法及装置,进而至少在一定程度上可以根据用户当前的情感作出响应,从而向用户提供更人性化的交互体验。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种语音数据的处理方法,该方法包括:
对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;
对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;
根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;
根据所述意图信息、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
根据本申请实施例的一个方面,提供了一种语音数据的处理装置,该装置包括:
意图分析模块,用于对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;
情感分析模块,用于对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;
匹配度计算模块,用于根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;
信息确定模块,用于根据所述访问意图、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
在本申请的一些实施例中,基于前述方案,情感分析模块被配置为:根据所述待处理语音进行情感识别,得到所述待处理语音对应于各预设情感类型的情感匹配值;根据所述待处理语音对应于各预设情感类型的情感匹配值,生成所述待处理语音的情感分析向量,将所述情感分析向量作为情感分析结果。
在本申请的一些实施例中,基于前述方案,情感分析模块被配置为:将所述待推送内容的情感特征向量与所述情感分析向量相乘,得到所述待推送内容与所述待处理语音之间的情感匹配度。
在本申请的一些实施例中,基于前述方案,信息确定模块被配置为:根据所述意图信息,确定对所述待处理语音的应答信息;根据所述待处理语音的发送方的兴趣特征向量与所述待推送内容的内容特征向量,计算所述待推送内容与所述待处理语音的发送方之间的内容匹配度;根据所述情感匹配度和所述内容匹配度,确定所述待推送内容中的目标推送内容;对所述应答信息和所述目标推送内容进行结合,生成针对所述待处理语音的反馈信息。
在本申请的一些实施例中,基于前述方案,信息确定模块被配置为:获取所述情感匹配度对应的重要性权重,以及所述内容匹配度对应的重要性权重;根据所述情感匹配度及其对应的重要性权重和所述内容匹配度及其对应的重要性权重,计算所述待推送内容的推荐值;从所述待推送内容中选取推荐值最大的待推送内容作为目标推送内容。
在本申请的一些实施例中,基于前述方案,意图分析模块被配置为:对待处理语音进行语音识别,得到与所述待处理语音对应的文本信息;对所述文本信息进行分词,得到所述文本信息所包含的关键词;将所述关键词与各个领域中预设的关键词模板进行匹配,确定所述文本信息与所述各个领域的意图匹配度;根据所述意图匹配度,确定与所述待处理语音对应的意图信息。
在本申请的一些实施例中,基于前述方案,意图分析模块被配置为:将所述关键词与各个领域中预设的关键词模板进行比对,确定所述各个领域中包含有所述关键词的目标关键词模板;获取各目标关键词模板中包含的关键词在对应的领域中的相关性权重;计算各目标关键词模板中包含的关键词的相关性权重之和,得到所述文本信息与所述各个领域之间的意图匹配度。
在本申请的一些实施例中,基于前述方案,情感分析模块还被配置为:采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值;根据所述待推送内容对应于各预设情感类型的情感匹配值,生成所述待推送内容对应的情感特征向量,并将所述情感特征向量分别与所述待推送内容进行关联。
在本申请的一些实施例中,基于前述方案,在采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值之后,情感分析模块还被配置为:根据对所述情感匹配值的修正请求,显示情感匹配值修正界面;根据所述情感匹配值修正界面获取到的针对情感匹配值的修正信息,对所述待推送内容对应于各预设情感类型的情感匹配值进行修正,得到所述待推送内容对应于各预设情感类型的修正后的情感匹配值。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的语音数据的处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的语音数据的处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供的语音数据的处理方法。
在本申请的一些实施例所提供的技术方案中,通过对待处理语音进行意图分析,确定该待处理语音对应的意图信息,并对待处理语音进行情感分析,得到待处理语音的情感分析结果,根据情感分析结果和待推送内容的情感特征向量,计算待推送内容与待处理语音之间的情感匹配度,再根据意图信息、情感匹配度和待推送内容,确定针对待处理语音的反馈信息。由此,可以根据待处理语音的情感分析结果,计算与各待推送内容的情感匹配度,从而确定针对待处理语音的反馈信息,以对待处理语音的发送方的情感作出响应,向用户提供更人性化的交互体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图;
图2示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图;
图3示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S220的流程示意图;
图4示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图;
图5示出了根据本申请的一个实施例的图4的语音数据的处理方法中步骤S430的流程示意图;
图6示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S210的流程示意图;
图7示出了根据本申请的一个实施例的图6的语音数据的处理方法中步骤S630的流程示意图;
图8示出了根据本申请的一个实施例的语音数据的处理方法中还包括的确定待推送内容的情感特征向量的流程示意图;
图9示出了根据本申请的一个实施例的语音数据的处理方法中还包括的修正待推送内容的情感匹配值的流程示意图;
图10示出了可以适用本申请实施例的技术方案的示例性***架构的示意图;
图11示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图;
图12示出了根据本申请的一个实施例的语音数据的处理装置的框图;
图13示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构可以包括具有语音信号收集模块的终端设备101、网络102以及服务器103。其中,上述具有语音信号收集模块的终端设备101可以是手机、便携式计算机、平板电脑、耳麦、麦克风等终端设备;网络102用以在终端设备101和服务器103之间提供通信链路的介质,网络102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。在本公开的实施例中,终端设备101和服务器103之间的网络102可以是无线通信链路,具体地可以是移动网络。
应该理解的,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要,可以具有任意数目的终端设备、网络和服务器。
需要说明的,服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本公开的一个实施例中,用户朝向具有语音信号收集模块的终端设备101发送待处理语音,服务器103可以对待处理语音进行意图分析,确定待处理语音对应的意图信息,并对待处理语音进行情感分析,得到待处理语音的情感分析结果,再根据情感分析结果和待推送内容的情感特征向量,计算待推送内容与待处理语音之间的情感匹配度,从而根据意图信息、情感匹配度和待推送内容,确定针对待处理语音的反馈信息。服务器103可以将该反馈信息向终端设备101进行发送,以使该终端设备101向用户进行反馈该反馈信息。
需要说明的是,本申请实施例所提供的语音数据的处理方法一般由服务器103执行,相应地,语音数据的处理装置一般设置于服务器103中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的语音数据的处理方法的方案。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图。参照图2所示,该语音数据的处理方法至少包括步骤S210至步骤S240,详细介绍如下:
在步骤S210中,对待处理语音进行意图分析,确定所述待处理语音对应的意图信息。
其中,意图分析可以是用于解析待处理语音对应的访问意图的处理过程,从而知晓发送方的请求目的,例如该待处理语音的发送方想要聊天、查询天气、观看视频或者听音乐等。
在本申请的一个实施例中,待处理语音的发送方可以朝着具有语音收集模块的终端设备发出语音,通过该语音收集模块收集待处理语音。在获取到待处理语音之后,可以对该待处理语音进行语音识别,并根据语音识别的结果进行意图分析,从而确定该待处理语音对应的意图信息。
在步骤S220中,对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果。
其中,情感分析可以是用于解析待处理语音对应的情感类型的处理过程,从而知晓待处理语音的发送方当前的情感,例如生气、开心、伤心或者恐惧等。
在本申请的一个实施例中,可以对待处理语音进行解析,获取该待处理语音所包含的声音特征,该声音特征可以包括但不限于语速以及音调等。应该理解的,人在不同情感状态下,说话的语速以及音调也对应该改变,例如在生气时,人的语速会变慢,音调会变得低沉,若在开心时,则语速会较快,音调也会变高,等等。之后,将所获取到的声音特征结合该待处理语音对应的语音识别结果进行情感分析,确定该待处理语音所对应的情感状态,从而得到该待处理语音对应的情感分析结果。
在步骤S230中,根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度。
其中,待推送内容可以是用以供用户进行获取的各种资源,其可以是各种形式的资源,例如该待推送内容可以包括但不限于音频资源、视频资源或者文字资源等等。在一示例中,待推送内容可以是预先下载并存储于本地,以供后续获取;在其他示例中,待推送内容也可以是实时从网络中进行获取,从而节省存储资源。
情感特征向量可以是用于表示待推送内容与各个情感类型之间的匹配度的向量信息。该情感特征向量中可以包含对应的待推送内容与各个情感类型之间的匹配度,例如,某一待推送内容与愤怒的情感类型的匹配度为0.2,与开心的情感类型的匹配度为0.8,等等。
在本申请的一个实施例中,可以预先对待推送内容进行情感识别,从而得到待推送内容与各个情感类型对应的匹配度,并根据该待推送内容与各个情感类型的匹配度生成对应的情感特征向量。将该情感特征向量与对应的待推送内容进行关联,以备后续查询。在一示例中,可以根据待推送内容的标识信息(例如编号等)和情感特征向量建立对应关系表,在获取时,可以根据待推送内容的标识信息通过查询该对应关系表,以获取该待推送内容的情感特征向量。
在本申请的一个实施例中,在获取各待推送内容的情感特征向量之后,可以分别将其与待处理语音的情感分析结果进行匹配,从而计算得到待处理语音与各待推送内容之间的情感匹配度。应该理解的,情感匹配度越高,则表示二者的契合度越高,情感匹配度越低则表示二者的契合度越低。
在步骤S240中,根据所述意图信息、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
在本申请的一个实施例中,根据待处理语音对应的意图信息可以确定待处理语音的发送方想要访问的领域,例如聊天、听音乐、看视频或者听小说等等。根据发送方所想要访问的领域,可以在与该领域对应的待推送内容中选取与该待处理语音的情感匹配度最高的待推送内容作为目标推送内容,并根据该目标推送内容生成针对该待处理语音的反馈信息。
例如待处理语音为“我今天不开心,想听歌”,对其进行意图分析,可以知晓该待处理语音的发送方是想听音乐,再结合该待处理语音以及其所包含的声音特征进行情感分析,分析出该发送方当前的情感较大可能为伤心。由此,可以在音乐领域中选取与该情感较为匹配的待推送内容-歌曲《暖暖》作为目标推送内容,根据该目标推送内容,生成针对该待处理语音的反馈信息-“主人每天都要开心哦,要不要听一首梁静茹的《暖暖》呢?”,服务器可以将该反馈信息向终端设备进行发送,终端设备则可以通过语音播放或者视频显示等方式向该发送方传输该反馈信息。该发送方则可以根据该反馈信息继续操作,例如该发送方说“可以”,则服务器获取歌曲《暖暖》,并由终端设备进行播放,等等。
在图2所示的实施例中,通过对待处理语音进行意图分析和情感分析,对应确定该待处理语音对应的意图信息和情感分析结果。并根据该情感分析结果以及各待推送内容的情感特征向量,计算各待推送内容与待处理语音之间的情感匹配度。再根据该意图信息、情感匹配度以及待推送内容,确定针对该待处理语音的反馈信息。由此,在进行智能交互时,能够不仅限于待处理语音的文字信息,还可以结合发送方的情感类型,向该发送方反馈与其情感相匹配的信息,使得能够对发送方当前的情感作出响应,进而可以向发送方提供更人性化的交互体验。
基于图2所示的实施例,图3示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S220的流程示意图。参照图3所示,步骤S220至少包括步骤S310至步骤S320,详细介绍如下:
在步骤S310中,根据所述待处理语音进行情感识别,得到所述待处理语音对应于各预设情感类型的情感匹配值。
在本申请的一个实施例中,本领域技术人员可以预先设定多个情感类型,例如预设情感类型可以包括但不限于开心、喜爱、惊喜、中性、哀伤、恐惧以及愤怒等。在对待处理语音进行情感识别时,可以输出该待处理语音与各个预设情感类型相对应的情感匹配值。应该理解的,同一个待处理语音可以对应于多个预设情感类型,只是二者之间的情感匹配值可能相同也可能不同,例如某一待处理语音对应于各预设情感类型(开心、喜爱、惊喜、中性、哀伤、恐惧以及愤怒)的情感匹配值分别为:0.2、0.3、0.6、0.3、0.1、0.2和0.1,等等。
在步骤S320中,根据所述待处理语音对应于各预设情感类型的情感匹配值,生成所述待处理语音的情感分析向量,将所述情感分析向量作为情感分析结果。
在本申请的一个实施例中,根据待处理语音对应于各预设情感类型的情感匹配值,可以将其按照预定格式进行排列,生成该待处理语音对应的情感分析向量。例如待处理语音A对应的情感分析特征向量为:[开心,喜爱,惊喜,中性,哀伤,恐惧,愤怒]=[0.2,0.3,0.6,0.3,0.1,0.2,0.1],等等。
在其他示例中,也可以根据待处理语音对应于各预设情感类型的情感匹配值,进行编码,例如将该情感匹配值转换成二进制或者十进制等,再按照预定格式将所转换得到的数值进行排列,得到该待处理语音所对应的情感分析向量,以将该情感分析向量作为该待处理语音的情感分析结果。
在图3所示的实施例中,通过对待处语音进行情感分析,得到该待处理语音对应于各预设情感类型的情感匹配值,再根据该情感匹配值生成对应的情感分析向量。由此,可以使得对待处理语音的情感分析能够覆盖该待处理语音的情感的可能性,避免输出单一可能从而造成情感的误判等情况。
基于图2和图3所示的实施例,在本申请的一个实施例中,根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度,包括:
将所述待推送内容的情感特征向量与所述情感分析向量相乘,得到所述待推送内容与所述待处理语音之间的情感匹配度。
在该实施例中,将各个待推送内容的情感特征向量分别与待处理语音的情感分析向量相乘,从而计算得到该待推送内容与待处理语音之间的情感匹配度。例如待推送内容的情感特征向量为[1,0,1,0,1,1,1],待处理语音对应的情感分析向量为[0,1,1,1,0,1,0],将二者对应位置上的进行相乘,再将各位置上的乘积进行相加即得到二者之间的情感匹配度,即1*0+0*1+1*1+0*1+1*0+1*1+1*0=2。
应该理解的,若二者对应于同一情感类型的情感匹配值越高,则计算所得到的情感匹配度也就越高。由此,可以将该情感匹配度作为评价待推送内容与待处理语音对应的情感类型是否相似或相同的标准,同时设置有多个预设情感类型,也提高了情感匹配度计算的准确性。
基于图2所示的实施例,图4示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S240的流程示意图。参照图4所示,步骤S240至少包括步骤S410至步骤S440,详细介绍如下:
在步骤S410中,根据所述意图信息,确定对所述待处理语音的应答信息。
在本申请的一个实施例中,可以对应于每个领域预先设定多个应答模板以对待处理语音进行应答,避免机械式回应。例如在音乐领域中可以设定“每天都要开心哦,要不要听一首XXX”以及“让我们一起来听一首XXX,好吗?”,等等,在视频领域中可以设定“XXX今日播放量为XXX,要一起来看吗?”以及“今天新上映了XXX,要看吗?”,等等。由此,根据待处理语音的意图信息,可以在对应的领域中选取相应的应答模板作为应答信息,从而避免直接向用户推荐某一待推送内容,使用户觉得回答过于生硬,保证了用户的交互体验。
在步骤S420中,根据所述待处理语音的发送方的兴趣特征向量与所述待推送内容的内容特征向量,计算所述待推送内容与所述待处理语音的发送方之间的内容匹配度。
其中,兴趣特征向量可以是用于描述用户对某一类型的内容的兴趣度的向量信息。应该理解的,即使在同一领域中,不同的待推送内容也可以具有不同的类型,例如在音乐领域中将音乐按照情感进行分类可以分为伤感音乐、怀旧音乐、快乐音乐、治愈音乐以及放松音乐等等;在视频领域中可以将视频分为悬疑、动作、爱情、惊悚以及科幻等。应该理解的,不同用户对不同类型的内容的兴趣度并不相同,应优先推荐用户所感兴趣的内容,提高用户体验。
在本申请的一个实施例中,可以预先获取待处理语音的发送方的历史访问记录,并根据该历史访问记录,生成该发送方的兴趣特征向量。在一示例中,可以统计在历史访问记录中,该发送方访问不同类型的内容的次数占总访问次数的比例,以得到该发送方对不同类型的内容的兴趣度,并根据该兴趣度生成该发送方的兴趣特征向量。
此外,还可以预先对每一待推送内容进行内容识别,得到该待推送内容对应于不同类型的匹配度,从而生成该待推送内容的内容特征向量。并将该内容特征向量与相应的待推送内容进行关联,以便后续获取。
将所获取到的兴趣特征向量以及待推送内容的内容特征向量进行相乘,从而计算得到各个待推送内容与待处理语音的发送方的内容匹配度。应该理解的,内容匹配度越高,则表示该待推送内容更符合待处理语音的发送方的兴趣要求。
在步骤S430中,根据所述情感匹配度和所述内容匹配度,确定所述待推送内容中的目标推送内容。
在本申请的一个实施例中,可以分别将各个待推送内容的情感匹配度以及内容匹配度进行相加,得到各个待推送内容的推荐值,从该待推送内容选取推荐值最大的待推送内容作为目标推送内容。应该理解的,该目标推送内容为最符合待处理语音的发送方的情感需求以及兴趣要求的内容,保证了所推送内容的精确性。
在步骤S440中,对所述应答信息和所述目标推送内容进行结合,生成针对所述待处理语音的反馈信息。
在本申请的一个实施例中,应答信息中可以包含有供目标推送内容进行填空的槽位,可以将目标推送内容填入相应的槽位中,从而形成针对该待处理语音的反馈信息。例如所选取的应答信息为“每天都要开心哦,要不要听一首XXX”,目标推送内容为歌曲《暖暖》,则对二者进行结合得到的反馈信息为:每天都要开心哦,要不要听一首梁静茹的《暖暖》?,等等。
由此,通过计算待推送内容与待处理语音的发送方之间的内容匹配度,并综合考虑内容匹配度以及情感匹配度,从待推送内容中选取目标推送内容,使得该目标推送内容既能满足该发送方的情感需求同时也能够满足该发送方的兴趣要求,保证了该目标推送内容的精确性,提高了用户体验。
基于图2和图4所示的实施例,图5示出了根据本申请的一个实施例的图4的语音数据的处理方法中步骤S430的流程示意图。参照图5所示,步骤S430至少包括步骤S510至步骤S530,详细介绍如下:
在步骤S510中,获取所述情感匹配度对应的重要性权重,以及所述内容匹配度对应的重要性权重。
在本申请的一个实施例中,可以预先对情感匹配度以及内容匹配度设定对应的重要性权重,以体现该情感匹配度以及内容匹配度的重要性。在实际需要中,若着重考虑与待处理语音的发送方的情感需求,则可以设置情感匹配度的重要性权重大于内容匹配度的重要性权重,若着重考虑该发送方的兴趣要求,则可以设置内容匹配度的重要性权重大于情感匹配度的重要性权重,等等。本领域技术人员可以根据实际需要设定对应的重要性权重,本申请对此不做特殊限定。
在步骤S520中,根据所述情感匹配度及其对应的重要性权重和所述内容匹配度及其对应的重要性权重,计算所述待推送内容的推荐值。
在本申请的一个实施例中,根据待推送内容对应的情感匹配度及对应的重要性权重、内容匹配度及对应的重要性权重进行加权和运算,计算得到该待推送内容的推荐值。例如情感匹配度为Se,其对应的重要性权重为Ie,内容匹配度为Si,其对应的重要性权重为Ii,则推荐值Sr=Se*Ie+Si*Ii。
在步骤S530中,从所述待推送内容中选取推荐值最大的待推送内容作为目标推送内容。
在本申请的一个实施例中,根据计算所得到的待推送内容的推荐值,选取待推送内容中推荐值最高的待推送内容作为目标推送内容,以保证该目标推送内容的精确度。
在其他示例中,也可以选取多个待推送内容作为目标推送内容,例如推荐值排前二或者前三的待推送内容,由此多个目标推送内容可以供待处理语音的发送方进行选择,以满足该发送方的实际需求。
基于图2所示的实施例,图6示出了根据本申请的一个实施例的图2的语音数据的处理方法中步骤S210的流程示意图。参照图6所示,步骤S210至少包括步骤S610至步骤S640,详细介绍如下:
在步骤S610中,对待处理语音进行语音识别,得到与所述待处理语音对应的文本信息。
在该实施例中,根据所获取到的待处理语音,对该待处理语音进行语音识别,可以将待处理语音对应的音频信号转换为对应的文本信息。
在步骤S620中,对所述文本信息进行分词,得到所述文本信息所包含的关键词。
在本申请的一个实施例中,根据所识别到的文本信息,对该文本信息进行分词,并去除掉其中的无意义词汇,例如主语以及结构助词等,得到该文本信息所包含的关键词。例如语音识别得到待处理语音对应的文本信息为“我想知道最近上映的电影”,则对其分词可以得到“我”、“想”、“知道”、“最近”、“上映”、“的”以及“电影”,将无意义词汇进行去除后得到该文本信息所包含的关键词即“想”、“知道”、“最近”、“上映”以及“电影”等。
在步骤S630中,将所述关键词与各个领域中预设的关键词模板进行匹配,确定所述文本信息与所述各个领域的意图匹配度。
其中,关键词模板可以是用于解析用户的请求目的的模板,本领域技术人员可以根据不同领域,预先设定对应的关键词匹配模板,例如在音乐领域中,关键词模板可以预设为“我想听XXX(歌手)的歌”、“我想听点XXX(情感类型)的音乐”,等等;在视频领域中,关键词模板可以预设为“我想看XXX(演员)的电影”、“XXX(时间)上映的电影有哪些”,等等。
在本申请的一个实施例中,将待处理语音的文本信息中所包含的关键词与各个领域中的关键词模板进行匹配,以确定与该关键词相匹配的关键词模板,得到文本信息与各个领域之间的意图匹配度。
在步骤S640中,根据所述意图匹配度,确定与所述待处理语音对应的意图信息。
在本申请的一个实施例中,根据文本信息与各个领域之间的意图匹配度,可以确定待处理语音的发送方所想要访问的领域,例如文本信息与音乐领域之间的意图匹配度较高,则表明该发送方想要听音乐,若文本信息与视频领域之间的意图匹配度较高,则表明该发送方想要看视频,等等。
在图6所示的实施例中,通过对待处理语音进行语音识别,得到该待处理语音对应的文本信息,并根据该文本信息进行分词得到其所包含的关键词,再将该关键词与各领域中的关键词模板进行匹配,得到该文本信息与各领域之间的意图匹配度,以根据该意图匹配度,确定该待处理语音对应的意图信息,使得能够充分理解用户需求,保证了意图信息确定的准确性。
基于图2和图6所示的实施例,图7示出了根据本申请的一个实施例的图6的语音数据的处理方法中步骤S630的流程示意图。参照图7所示,步骤S630至少包括步骤S710至步骤S730,详细介绍如下:
在步骤S710中,将所述关键词与各个领域中预设的关键词模板进行比对,确定所述各个领域中包含有所述关键词的目标关键词模板。
在本申请的一个实施例中,将文本信息中所包含的关键词与各个领域中预设的关键词模板进行比对,确定在各个领域中包含有该关键词的关键词模板,并将其识别为目标关键词模板。
在步骤S720中,获取各目标关键词模板中包含的关键词在对应的领域中的相关性权重。
其中,相关性权重可以是用于表示关键词模板中所包含的关键词在对应领域中的重要性程度的信息。
应该理解的,相同的关键词在不同领域中可以具有不同的相关性权重,例如,在视频领域中,“视频”、“电影”以及“剧情”等关键词的相关性权重应该大于其在音乐领域中的相关性权重,在音乐领域中,“听”、“歌曲”以及“歌手”等关键词的相关性权重应该大于其在视频领域中的相关性权重,等等。
在本申请的一个实施例中,可以预先对各个关键词在不同的领域中设定相关性权重,并建立关键词在不同领域中的相关性权重的对应关系表。由此,在后续获取时,可以通过查询该对应关系表,查询到该关键词在对应领域里的相关性权重。
在本申请的一个实施例中,可以针对多个领域,收集各个领域在实际使用过程中所可能出现的语料,例如“我要听音乐”、“我想听XXX的歌曲”、“我要看视频”、“我想看最近上映的电影”,等等。并对所获取到的语料进行分词,得到各个领域对应的语料中所包含的关键词。并统计每一关键词在对应领域的语料中所出现的次数,进而确定每一关键词在对应领域的语料中出现的次数占该领域的语料数量的比例,从而得到每一关键词在该领域中的相关性权重。
在步骤S730中,计算各目标关键词模板中包含的关键词的相关性权重之和,得到所述文本信息与所述各个领域之间的意图匹配度。
在本申请的一个实施例中,根据在各个领域中所确定的目标关键词模板,以及各个目标关键词模板中包含的关键词的相关性权重,在每一领域中,计算该领域中的目标关键词模板中所包含的关键词的相关性权重之和,从而得到该领域与待处理语音对应的文本信息的意图匹配度。
由此,根据该意图匹配度进行比较,则可以确定待处理语音的发送方所想访问的领域,进而确定待处理语音对应的意图信息,保证了意图信息确定的准确性。
基于图2所示的实施例,图8示出了根据本申请的一个实施例的语音数据的处理方法中还包括的确定待推送内容的情感特征向量的流程示意图。参照图8所示,确定待推送内容的情感特征向量至少包括步骤S810至步骤S820,详细介绍如下:
在步骤S810中,采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值。
在本申请的一个实施例中,可以根据预先训练的神经网络模型对每一待推送内容进行情感匹配,以使该神经网络模型输出该待推送内容对应于各预设情感类型的情感匹配值。需要说明的,该神经网络模型可以是现有的情绪识别模型,本申请在此不再赘述。
如下表所示:
表1
在步骤S820中,根据所述待推送内容对应于各预设情感类型的情感匹配值,生成所述待推送内容对应的情感特征向量,并将所述情感特征向量分别与所述待推送内容进行关联。
在本申请的一个实施例中,可以将待推送内容对应于各个预设情感类型的情感匹配值按照预定格式进行排列,从而生成该待推送内容对应的情感特征向量,生成方法可以如上文所述,本申请在此不再赘述。
在图8所示的实施例中,采用神经网络模型对待推送内容进行情感匹配,可以大大提高情感匹配的效率,且可以保证情感匹配的准确性。
基于图2和图8所示的实施例,图9示出了根据本申请的一个实施例的语音数据的处理方法中还包括的修正待推送内容的情感匹配值的流程示意图。参照图9所示,修正待推送内容的情感匹配值至少包括步骤S910至步骤S920,详细介绍如下:
在步骤S910中,根据对所述情感匹配值的修正请求,显示情感匹配值修正界面。
在本申请的一个实施例中,对情感匹配值的修正请求可以是用以请求修正待推送内容的情感匹配值的信息。在一示例中,本领域技术人员可以通过点击终端设备的显示界面上的特定区域(例如“修正情感匹配值”按键等)生成并发送对情感匹配值的修正请求。
当服务器接收到该修正请求时,则可以在终端设备的显示界面上显示情感匹配值修正界面,该修正界面中可以包含待推送该内容与各个预设情感类型的情感匹配值的对应关系。本领域技术人员可以选择其一以确定所欲修正的待推送内容。并通过终端设备所配置的输入设备(例如输入键盘或者触控式显示屏等)输入正确的情感匹配值,例如将待推送内容A对应于恐惧的情感匹配值由0.2修改为0.1,等等。
在步骤S920中,根据所述情感匹配值修正界面获取到的针对情感匹配值的修正信息,对所述待推送内容对应于各预设情感类型的情感匹配值进行修正,得到所述待推送内容对应于各预设情感类型的修正后的情感匹配值。
在本申请的一个实施例中,根据修正界面所获取到的针对情感匹配的修正信息,更新待推送内容对应于各预设情感类型的情感匹配值。以备后续根据该情感匹配值生成该待推送内容对应的情感特征向量。
在图9所示的实施例中,通过设置情感匹配值修正界面,便于本领域技术人员对待推送内容的情感匹配值进行审核以及修正,进而保证了待推送内容对应的情感匹配值的准确性,以便于后续能够精确推荐。
基于上述实施例的技术方案,以下介绍本申请实施例的一个具体应用场景:
请参考图10和图11,图10示出了可以适用本申请实施例的技术方案的示例性***架构的示意图。图11示出了根据本申请的一个实施例的语音数据的处理方法的流程示意图。
参照图10所示,该***架构可以包括终端设备、AI接入层、情感分析***、技能中控层、领域层以及内容推荐***。
请参考图10和图11,在本申请的一个实施例中,终端设备可以将语音收集模块所获取到的待处理语音向AI接入层进行发送,AI接入层将待处理语音发送至情感分析***,该情感分析***则可以采用预先训练的神经网络模型对待处理语音进行情感分析,以得到该待处理语音对应的情感分析结果,并将情感分析结果反馈至AI接入层。
同时,AI接入层也能够对待处理语音进行意图分析,以得到该待处理语音对应的意图信息,AI接入层将待处理语音对应的意图信息以及情感分析结果向技能中控层进行发送。
技能中控层可以根据待处理语音对应的意图信息从领域层中确定待处理语音的发送方所欲访问的目标领域(例如音乐、视频、聊天或者其他领域等),并从领域层中获取对应的应答信息。再将该意图信息以及情感分析结果向内容推荐***进行发送,使内容推荐***可以根据二者从待推送内容中选取目标推送内容,并根据该应答信息以及目标推送内容生成针对该待处理语音的反馈信息。内容推荐***将该反馈信息向技能中控平台进行反馈,并最终发送至终端设备中向待处理语音的发送方进行反馈。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的语音数据的处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的语音数据的处理方法的实施例。
图12示出了根据本申请的一个实施例的语音数据的处理装置的框图。
参照图12所示,根据本申请的一个实施例的语音数据的处理装置,包括:
意图分析模块1210,用于对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;
情感分析模块1220,用于对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;
匹配度计算模块1230,用于根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;
信息确定模块1240,用于根据所述访问意图、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
在本申请的一些实施例中,基于前述方案,情感分析模块1220被配置为:根据所述待处理语音进行情感识别,得到所述待处理语音对应于各预设情感类型的情感匹配值;根据所述待处理语音对应于各预设情感类型的情感匹配值,生成所述待处理语音的情感分析向量,将所述情感分析向量作为情感分析结果。
在本申请的一些实施例中,基于前述方案,情感分析模块1220被配置为:将所述待推送内容的情感特征向量与所述情感分析向量相乘,得到所述待推送内容与所述待处理语音之间的情感匹配度。
在本申请的一些实施例中,基于前述方案,信息确定模块1240被配置为:根据所述意图信息,确定对所述待处理语音的应答信息;根据所述待处理语音的发送方的兴趣特征向量与所述待推送内容的内容特征向量,计算所述待推送内容与所述待处理语音的发送方之间的内容匹配度;根据所述情感匹配度和所述内容匹配度,确定所述待推送内容中的目标推送内容;对所述应答信息和所述目标推送内容进行结合,生成针对所述待处理语音的反馈信息。
在本申请的一些实施例中,基于前述方案,信息确定模块1240被配置为:获取所述情感匹配度对应的重要性权重,以及所述内容匹配度对应的重要性权重;根据所述情感匹配度及其对应的重要性权重和所述内容匹配度及其对应的重要性权重,计算所述待推送内容的推荐值;从所述待推送内容中选取推荐值最大的待推送内容作为目标推送内容。
在本申请的一些实施例中,基于前述方案,意图分析模块1210被配置为:对待处理语音进行语音识别,得到与所述待处理语音对应的文本信息;对所述文本信息进行分词,得到所述文本信息所包含的关键词;将所述关键词与各个领域中预设的关键词模板进行匹配,确定所述文本信息与所述各个领域的意图匹配度;根据所述意图匹配度,确定与所述待处理语音对应的意图信息。
在本申请的一些实施例中,基于前述方案,意图分析模块1210被配置为:将所述关键词与各个领域中预设的关键词模板进行比对,确定所述各个领域中包含有所述关键词的目标关键词模板;获取各目标关键词模板中包含的关键词在对应的领域中的相关性权重;计算各目标关键词模板中包含的关键词的相关性权重之和,得到所述文本信息与所述各个领域之间的意图匹配度。
在本申请的一些实施例中,基于前述方案,情感分析模块1220还被配置为:采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值;根据所述待推送内容对应于各预设情感类型的情感匹配值,生成所述待推送内容对应的情感特征向量,并将所述情感特征向量分别与所述待推送内容进行关联。
在本申请的一些实施例中,基于前述方案,在采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值之后,情感分析模块1220还被配置为:根据对所述情感匹配值的修正请求,显示情感匹配值修正界面;根据所述情感匹配值修正界面获取到的针对情感匹配值的修正信息,对所述待推送内容对应于各预设情感类型的情感匹配值进行修正,得到所述待推送内容对应于各预设情感类型的修正后的情感匹配值。
图13示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
需要说明的是,图13示出的电子设备的计算机***仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图13所示,计算机***包括中央处理单元(Central Processing Unit,CPU)1301,其可以根据存储在只读存储器(Read-Only Memory,ROM)1302中的程序或者从存储部分1308加载到随机访问存储器(Random Access Memory,RAM)1303中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1303中,还存储有***操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output,I/O)接口1305也连接至总线1304。
以下部件连接至I/O接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时,执行本申请的***中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;
对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;
根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;
根据所述意图信息、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
2.根据权利要求1所述的方法,其特征在于,对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果,包括:
根据所述待处理语音进行情感识别,得到所述待处理语音对应于各预设情感类型的情感匹配值;
根据所述待处理语音对应于各预设情感类型的情感匹配值,生成所述待处理语音的情感分析向量,将所述情感分析向量作为情感分析结果。
3.根据权利要求2所述的方法,其特征在于,根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度,包括:
将所述待推送内容的情感特征向量与所述情感分析向量相乘,得到所述待推送内容与所述待处理语音之间的情感匹配度。
4.根据权利要求1所述的方法,其特征在于,根据所述意图信息、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息,包括:
根据所述意图信息,确定对所述待处理语音的应答信息;
根据所述待处理语音的发送方的兴趣特征向量与所述待推送内容的内容特征向量,计算所述待推送内容与所述待处理语音的发送方之间的内容匹配度;
根据所述情感匹配度和所述内容匹配度,确定所述待推送内容中的目标推送内容;
对所述应答信息和所述目标推送内容进行结合,生成针对所述待处理语音的反馈信息。
5.根据权利要求4所述的方法,其特征在于,根据所述情感匹配度和所述内容匹配度,确定所述待推送内容中的目标推送内容,包括:
获取所述情感匹配度对应的重要性权重,以及所述内容匹配度对应的重要性权重;
根据所述情感匹配度及其对应的重要性权重和所述内容匹配度及其对应的重要性权重,计算所述待推送内容的推荐值;
从所述待推送内容中选取推荐值最大的待推送内容作为目标推送内容。
6.根据权利要求1所述的方法,其特征在于,对待处理语音进行意图分析,确定所述待处理语音对应的意图信息,包括:
对待处理语音进行语音识别,得到与所述待处理语音对应的文本信息;
对所述文本信息进行分词,得到所述文本信息所包含的关键词;
将所述关键词与各个领域中预设的关键词模板进行匹配,确定所述文本信息与所述各个领域的意图匹配度;
根据所述意图匹配度,确定与所述待处理语音对应的意图信息。
7.根据权利要求6所述的方法,其特征在于,将所述关键词与各个领域中预设的关键词模板进行匹配,确定所述文本信息与所述各个领域的意图匹配度,包括:
将所述关键词与各个领域中预设的关键词模板进行比对,确定所述各个领域中包含有所述关键词的目标关键词模板;
获取各目标关键词模板中包含的关键词在对应的领域中的相关性权重;
计算各目标关键词模板中包含的关键词的相关性权重之和,得到所述文本信息与所述各个领域之间的意图匹配度。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值;
根据所述待推送内容对应于各预设情感类型的情感匹配值,生成所述待推送内容对应的情感特征向量,并将所述情感特征向量分别与所述待推送内容进行关联。
9.根据权利要求8所述的方法,其特征在于,在采用预训练的神经网络模型对所述待推送内容进行情感匹配,得到所述待推送内容对应于各预设情感类型的情感匹配值之后,所述方法还包括:
根据对所述情感匹配值的修正请求,显示情感匹配值修正界面;
根据所述情感匹配值修正界面获取到的针对情感匹配值的修正信息,对所述待推送内容对应于各预设情感类型的情感匹配值进行修正,得到所述待推送内容对应于各预设情感类型的修正后的情感匹配值。
10.一种语音数据的处理装置,其特征在于,包括:
意图分析模块,用于对待处理语音进行意图分析,确定所述待处理语音对应的意图信息;
情感分析模块,用于对所述待处理语音进行情感分析,得到所述待处理语音的情感分析结果;
匹配度计算模块,用于根据所述情感分析结果和待推送内容的情感特征向量,计算所述待推送内容与所述待处理语音之间的情感匹配度;
信息确定模块,用于根据所述访问意图、所述情感匹配度和所述待推送内容,确定针对所述待处理语音的反馈信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010855563.4A CN111883131B (zh) | 2020-08-20 | 2020-08-20 | 语音数据的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010855563.4A CN111883131B (zh) | 2020-08-20 | 2020-08-20 | 语音数据的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883131A true CN111883131A (zh) | 2020-11-03 |
CN111883131B CN111883131B (zh) | 2023-10-27 |
Family
ID=73203606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010855563.4A Active CN111883131B (zh) | 2020-08-20 | 2020-08-20 | 语音数据的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883131B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158052A (zh) * | 2021-04-23 | 2021-07-23 | 平安银行股份有限公司 | 聊天内容推荐方法、装置、计算机设备及存储介质 |
CN113470644A (zh) * | 2021-06-29 | 2021-10-01 | 读书郎教育科技有限公司 | 一种基于语音识别的智能语音学习方法及装置 |
CN113763947A (zh) * | 2021-01-15 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种语音意图识别方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148039A (ja) * | 2005-11-28 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 音声翻訳装置および音声翻訳方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN109829117A (zh) * | 2019-02-27 | 2019-05-31 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
TW201937344A (zh) * | 2018-03-01 | 2019-09-16 | 鴻海精密工業股份有限公司 | 智慧型機器人及人機交互方法 |
US20190295533A1 (en) * | 2018-01-26 | 2019-09-26 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
CN110705308A (zh) * | 2019-09-18 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音信息的领域识别方法、装置、存储介质及电子设备 |
CN111028827A (zh) * | 2019-12-10 | 2020-04-17 | 深圳追一科技有限公司 | 基于情绪识别的交互处理方法、装置、设备和存储介质 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111475714A (zh) * | 2020-03-17 | 2020-07-31 | 北京声智科技有限公司 | 一种信息推荐的方法、装置、设备和介质 |
-
2020
- 2020-08-20 CN CN202010855563.4A patent/CN111883131B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148039A (ja) * | 2005-11-28 | 2007-06-14 | Matsushita Electric Ind Co Ltd | 音声翻訳装置および音声翻訳方法 |
US20190295533A1 (en) * | 2018-01-26 | 2019-09-26 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
TW201937344A (zh) * | 2018-03-01 | 2019-09-16 | 鴻海精密工業股份有限公司 | 智慧型機器人及人機交互方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
CN109829117A (zh) * | 2019-02-27 | 2019-05-31 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
CN110705308A (zh) * | 2019-09-18 | 2020-01-17 | 平安科技(深圳)有限公司 | 语音信息的领域识别方法、装置、存储介质及电子设备 |
CN111028827A (zh) * | 2019-12-10 | 2020-04-17 | 深圳追一科技有限公司 | 基于情绪识别的交互处理方法、装置、设备和存储介质 |
CN111312245A (zh) * | 2020-02-18 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 一种语音应答方法、装置和存储介质 |
CN111475714A (zh) * | 2020-03-17 | 2020-07-31 | 北京声智科技有限公司 | 一种信息推荐的方法、装置、设备和介质 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763947A (zh) * | 2021-01-15 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种语音意图识别方法、装置、电子设备及存储介质 |
CN113763947B (zh) * | 2021-01-15 | 2024-04-05 | 北京沃东天骏信息技术有限公司 | 一种语音意图识别方法、装置、电子设备及存储介质 |
CN113158052A (zh) * | 2021-04-23 | 2021-07-23 | 平安银行股份有限公司 | 聊天内容推荐方法、装置、计算机设备及存储介质 |
CN113470644A (zh) * | 2021-06-29 | 2021-10-01 | 读书郎教育科技有限公司 | 一种基于语音识别的智能语音学习方法及装置 |
CN113470644B (zh) * | 2021-06-29 | 2023-09-26 | 读书郎教育科技有限公司 | 一种基于语音识别的智能语音学习方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111883131B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844586B (zh) | 新闻推荐方法和装置 | |
CN110446057B (zh) | 直播辅助数据的提供方法、装置、设备及可读介质 | |
US20180121547A1 (en) | Systems and methods for providing information discovery and retrieval | |
CN109086439B (zh) | 信息推荐方法及装置 | |
CN111883131B (zh) | 语音数据的处理方法及装置 | |
JP6967059B2 (ja) | 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム | |
CN109165302A (zh) | 多媒体文件推荐方法及装置 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
US20180167678A1 (en) | Interactive media system | |
CN102567447A (zh) | 信息处理装置和方法、信息处理***及程序 | |
WO2020181783A1 (zh) | 用于发送信息的方法和装置 | |
CN111209477A (zh) | 一种信息推荐的方法及装置、电子设备、存储介质 | |
CN111753126B (zh) | 用于视频配乐的方法和装置 | |
CN108509442B (zh) | 搜索方法和装置、服务器以及计算机可读存储介质 | |
CN111767259A (zh) | 内容分享的方法、装置、可读介质和电子设备 | |
CN110971973A (zh) | 一种视频推送方法、装置及电子设备 | |
CN107483595B (zh) | 信息推送方法和装置 | |
CN112000872A (zh) | 基于用户向量的推荐方法、模型的训练方法及装置 | |
CN114282115A (zh) | 一种内容推荐方法 | |
CN111125501B (zh) | 用于处理信息的方法和装置 | |
CN114363103A (zh) | 一种处理会议信息的方法、装置及计算机可读介质 | |
JP2020173776A (ja) | 映像を生成するための方法および装置 | |
CN113066479A (zh) | 一种评测模型的方法和装置 | |
CN116911928B (zh) | 一种基于创意特征的广告推荐模型的训练方法及装置 | |
CN117708304B (zh) | 数据库问答方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |