CN107464566A - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN107464566A
CN107464566A CN201710861589.8A CN201710861589A CN107464566A CN 107464566 A CN107464566 A CN 107464566A CN 201710861589 A CN201710861589 A CN 201710861589A CN 107464566 A CN107464566 A CN 107464566A
Authority
CN
China
Prior art keywords
information
voice messaging
entity
user
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710861589.8A
Other languages
English (en)
Inventor
孙孝雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710861589.8A priority Critical patent/CN107464566A/zh
Publication of CN107464566A publication Critical patent/CN107464566A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法和装置,其中,方法包括:获取用户输入的语音信息;基于命名实体识别***识别出语音信息中的实体信息;获取用户输入语音信息时的语速信息和音量信息;以及基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息。本发明实施例的语音识别方法,通过获取用户输入的语音信息,并基于命名实体识别***识别出语音信息中的实体信息,再获取用户输入语音信息时的语速信息和音量信息,以及基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息,从而将情感信息作为语音识别的重要因素,帮助提高语音识别的准确率,更加符合用户的真实需求。

Description

语音识别方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种语音识别方法和装置。
背景技术
随着科技的不断进步,语音识别技术取得了显著的进步,智能化时代的到来,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。目前,语音识别主要是解析用户说话的内容,理解用户的意图,从而与用户进行简单的交互,例如接收用户的语音指令,执行一些简单的操作,或者与用户进行简单的对话。但是,当用户输入一句语音,如“给我播放一首歌曲”时,目前的语音识别***,通常只会为用户说话的内容进行解析,根据解析结果随机推荐一首歌曲,而用户在说话时还包括更多的信息,并没用充分的加以利用,因此无法理解更深层次的用户的行为意图。
发明内容
本发明提供一种语音识别方法和装置,以解决上述技术问题中的至少一个。
本发明实施例提供一种语音识别方法,包括:获取用户输入的语音信息;基于命名实体识别***识别出所述语音信息中的实体信息;获取所述用户输入所述语音信息时的语速信息和音量信息;以及基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息。
可选的,基于命名实体识别***识别出所述语音信息中的实体信息,包括:对所述语音信息进行分析,获得分析结果;根据所述分析结果识别出所述实体信息。
可选的,对所述语音信息进行分析,获得分析结果,包括:对所述语音信息进行预处理、分词、词性标注处理,以获得所述分析结果。
可选的,基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息,包括:将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型;基于预设情感词典,通过所述深度学习情感分析模型识别出所述情感信息。
可选的,在获取用户输入的语音信息之后,还包括:对所述语音信息进行语义解析,并生成语义解析结果;根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。
本发明另一实施例提供一种语音识别装置,包括:第一获取模块,用于获取用户输入的语音信息;识别模块,用于基于命名实体识别***识别出所述语音信息中的实体信息;第二获取模块,用于获取所述用户输入所述语音信息时的语速信息和音量信息;以及情感分析模块,用于基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息。
可选的,所述识别模块,用于:对所述语音信息进行分析,获得分析结果;根据所述分析结果识别出所述实体信息。
可选的,所述识别模块,具体用于:对所述语音信息进行预处理、分词、词性标注处理,以获得所述分析结果。
可选的,所述情感分析模块,用于:将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型;基于预设情感词典,通过所述深度学习情感分析模型识别出所述情感信息。
可选的,所述装置还包括:语义解析模块,用于在获取用户输入的语音信息之后,对所述语音信息进行语义解析,并生成语义解析结果;反馈模块,用于根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。
本发明还一实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述的语音识别方法。
本发明又一实施例提供一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行本发明第一方面实施例所述的语音识别方法。
本发明实施例提供的技术方案可以包括以下有益效果:
通过获取用户输入的语音信息,并基于命名实体识别***识别出所述语音信息中的实体信息,再获取所述用户输入所述语音信息时的语速信息和音量信息,以及基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息,从而将情感信息作为语音识别的重要因素,帮助提高语音识别的准确率,更加符合用户的真实需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的语音识别方法的流程图;
图2是根据本发明另一个实施例的语音识别方法的流程图;
图3是基于深度学习的情感分析***框架示意图;
图4是根据本发明一个实施例的语音识别装置的结构框图;
图5是根据本发明另一个实施例的语音识别装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音识别方法和装置。
图1是根据本发明一个实施例的语音识别方法的流程图。
如图1所示,该语音识别方法包括:
S101,获取用户输入的语音信息。
目前,语音识别主要是解析用户说话的内容,理解用户的意图,从而与用户进行简单的交互,例如接收用户的语音指令,执行一些简单的操作,或者与用户进行简单的对话。但是,当用户输入一句语音,如“给我播放一首歌曲”时,目前的语音识别***,通常只会为用户说话的内容进行解析,根据解析结果随机推荐一首歌曲,而用户在说话时还包括更多的信息利于情感信息等,并没用充分的加以利用,因此无法理解更深层次的用户的行为意图。
为此,本发明提出一种语音识别方法,能够将情感信息作为特征融合至语音识别中,从而能够更精准地理解用户的意图。情感分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。因此,本发明基于深度学习技术,结合语音识别***中的语速,音量等特征进行综合分析,从而准确地获取用户的情感信息。
在本发明的一个实施例中,可获取用户输入的语音信息。
S102,基于命名实体识别***识别出语音信息中的实体信息。
其中,命名实体识别***(Named Entity Recognition,NER),主要用于识别文本中具有特定意义的实体,例如人名、地名、机构名、专有名词等。
在本发明的一个实施例中,,可对语音信息进行分析,获得分析结果,然后根据分析结果识别出实体信息。具体地,可对语音信息进行预处理、分词、词性标注等处理,从而获得分析结果。
S103,获取用户输入语音信息时的语速信息和音量信息。
在获取用户输入的语音信息时,同时还可获取语音信息对应的语速信息和音量信息。其中,语速信息和音量信息可定义为double类型,取值范围可用数字表示,如0-15。应当理解的是,针对步骤S103与步骤S101,本发明并不限定两者的执行先后顺序。
S104,基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息。
在获取上述信息之后,可将实体信息、语速信息和音量信息作为特征信息输入至深度学习情感分析模型,然后可基于预设情感词典,通过深度学习情感分析模型识别出情感信息,例如识别出该语音信息对应的情感信息为高兴。
其中,深度学习情感分析模型可为一个卷积神经网络CNN模型。预设情感词典为通过以下几个情感词典融合整理生成,1褒贬词及其近义词、2汉语情感词极值表、3清华大学李军中文褒贬义词典、4情感词典及其分类、5情感词汇本体、6台湾大学NTUSD简体中文情感词典以及7知网HowNet情感词典。
在本发明的另一实施例中,如图2所示,语音识别方法还可包括以下步骤:
S105,对语音信息进行语义解析,并生成语义解析结果。
S106,根据语义解析结果和情感信息向用户反馈与语音信息相对应的结果信息。
在本实施例中,可以运用自然语言理解(Natural Language Understanding,NLU)技术来对语音信息进行语义解析。在获得语义解析结果之后,再结合分析获得的情感信息,从而对用户的意图进行深度的解析,最终向用户反馈相应的结果信息。
下面以一个具体示例进行详细说明。
如图3所示,图3为一个基于深度学习的情感分析***框架示意图。
首先,用户进行语音输入“给我播放一首歌曲”,此时可通过命名实体识别NER来识别出对应的实体信息“歌曲”。其中,可先将语音转换为文本,再对文本进行预处理、分词、词性标注等处理,然后输出至NER中进行识别。之后,利用语音识别技术,获得语速信息和音量信息。语速信息和音量信息可定义为double类型,取值范围可用数字表示,如0-15。数字越大,表示语速越快或者音量越大。在此之后,可将实体信息、语速信息和音量信息整理为特征信息,输入深度学习情感分析模型,利用整合好的情感词典,分析出语音信息对应的情感信息为高兴。此时,再结合语义解析,从而分析出用户的意图为想要获取高兴的歌曲,因此可智能地向用户推送一首欢快的歌曲进行播放,更加符合用户的需求。
本发明实施例的语音识别方法,通过获取用户输入的语音信息,并基于命名实体识别***识别出语音信息中的实体信息,再获取用户输入语音信息时的语速信息和音量信息,以及基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息,从而将情感信息作为语音识别的重要因素,帮助提高语音识别的准确率,更加符合用户的真实需求。
为了实现上述实施例,本发明还提出了一种语音识别装置,图4是根据本发明一个实施例的语音识别装置的结构框图,如图4所示,该装置包括第一获取模块410、识别模块420、第二获取模块430以及情感分析模块440。
其中,第一获取模块410,用于获取用户输入的语音信息。
识别模块420,用于基于命名实体识别***识别出语音信息中的实体信息。
第二获取模块430,用于获取用户输入语音信息时的语速信息和音量信息。
情感分析模块440,用于基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息。
此外,如图5所示,该装置还可包括语义解析模块450和反馈模块460。
语义解析模块450,用于在获取用户输入的语音信息之后,对语音信息进行语义解析,并生成语义解析结果。
反馈模块460,用于根据语义解析结果和情感信息向用户反馈与语音信息相对应的结果信息。
需要说明的是,前述对语音识别方法的解释说明,也适用于本发明实施例的语音识别装置,本发明实施例中未公布的细节,在此不再赘述。
本发明实施例的语音识别装置,通过获取用户输入的语音信息,并基于命名实体识别***识别出语音信息中的实体信息,再获取用户输入语音信息时的语速信息和音量信息,以及基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息,从而将情感信息作为语音识别的重要因素,帮助提高语音识别的准确率,更加符合用户的真实需求。
为了实现上述实施例,本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例的语音识别方法。
为了实现上述实施例,本发明还提供一种终端设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器用于执行本发明第一方面实施例的语音识别方法。
例如,计算机程序可被处理器执行以完成以下步骤的语音识别方法:
S101’,获取用户输入的语音信息。
S102’,基于命名实体识别***识别出语音信息中的实体信息。
S103’,获取用户输入语音信息时的语速信息和音量信息。
S104’,基于深度学习情感分析模型,根据实体信息、语速信息和音量信息,识别出语音信息对应的情感信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音识别方法,其特征在于,包括:
获取用户输入的语音信息;
基于命名实体识别***识别出所述语音信息中的实体信息;
获取所述用户输入所述语音信息时的语速信息和音量信息;以及
基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息。
2.如权利要求1所述的方法,其特征在于,基于命名实体识别***识别出所述语音信息中的实体信息,包括:
对所述语音信息进行分析,获得分析结果;
根据所述分析结果识别出所述实体信息。
3.如权利要求2所述的方法,其特征在于,对所述语音信息进行分析,获得分析结果,包括:
对所述语音信息进行预处理、分词、词性标注处理,以获得所述分析结果。
4.如权利要求1所述的方法,其特征在于,基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息,包括:
将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型;
基于预设情感词典,通过所述深度学习情感分析模型识别出所述情感信息。
5.如权利要求1所述的方法,其特征在于,在获取用户输入的语音信息之后,还包括:
对所述语音信息进行语义解析,并生成语义解析结果;
根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。
6.一种语音识别装置,其特征在于,包括:
第一获取模块,用于获取用户输入的语音信息;
识别模块,用于基于命名实体识别***识别出所述语音信息中的实体信息;
第二获取模块,用于获取所述用户输入所述语音信息时的语速信息和音量信息;以及
情感分析模块,用于基于深度学习情感分析模型,根据所述实体信息、所述语速信息和所述音量信息,识别出所述语音信息对应的情感信息。
7.如权利要求6所述的装置,其特征在于,所述识别模块,用于:
对所述语音信息进行分析,获得分析结果;
根据所述分析结果识别出所述实体信息。
8.如权利要求7所述的装置,其特征在于,所述识别模块,具体用于:
对所述语音信息进行预处理、分词、词性标注处理,以获得所述分析结果。
9.如权利要求6所述的装置,其特征在于,所述情感分析模块,用于:
将所述实体信息、所述语速信息和所述音量信息作为特征信息输入至深度学习情感分析模型;
基于预设情感词典,通过所述深度学习情感分析模型识别出所述情感信息。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:
语义解析模块,用于在获取用户输入的语音信息之后,对所述语音信息进行语义解析,并生成语义解析结果;
反馈模块,用于根据所述语义解析结果和所述情感信息向所述用户反馈与所述语音信息相对应的结果信息。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-5任一项所述的语音识别方法。
12.一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于执行权利要求1-5任一项所述的语音识别方法。
CN201710861589.8A 2017-09-21 2017-09-21 语音识别方法和装置 Pending CN107464566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710861589.8A CN107464566A (zh) 2017-09-21 2017-09-21 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710861589.8A CN107464566A (zh) 2017-09-21 2017-09-21 语音识别方法和装置

Publications (1)

Publication Number Publication Date
CN107464566A true CN107464566A (zh) 2017-12-12

Family

ID=60552962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710861589.8A Pending CN107464566A (zh) 2017-09-21 2017-09-21 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN107464566A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521500A (zh) * 2018-03-13 2018-09-11 努比亚技术有限公司 一种语音场景控制方法、设备及计算机可读存储介质
CN108806671A (zh) * 2018-05-29 2018-11-13 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108920129A (zh) * 2018-07-27 2018-11-30 联想(北京)有限公司 信息处理方法和信息处理***
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN110895658A (zh) * 2018-09-13 2020-03-20 珠海格力电器股份有限公司 信息处理方法及装置、机器人
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
CN111091810A (zh) * 2019-12-19 2020-05-01 佛山科学技术学院 基于语音信息的vr游戏人物表情控制方法及存储介质
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、***及机器人
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
CN112437956A (zh) * 2018-07-25 2021-03-02 Lg 电子株式会社 语音识别***
CN113409790A (zh) * 2020-03-17 2021-09-17 Oppo广东移动通信有限公司 语音转换方法、装置、终端及存储介质
US20220084525A1 (en) * 2020-09-17 2022-03-17 Zhejiang Tonghuashun Intelligent Technology Co., Ltd. Systems and methods for voice audio data processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
US20150255087A1 (en) * 2014-03-07 2015-09-10 Fujitsu Limited Voice processing device, voice processing method, and computer-readable recording medium storing voice processing program
CN106683672A (zh) * 2016-12-21 2017-05-17 竹间智能科技(上海)有限公司 一种基于情感和语义的智能对话方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150255087A1 (en) * 2014-03-07 2015-09-10 Fujitsu Limited Voice processing device, voice processing method, and computer-readable recording medium storing voice processing program
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN106683672A (zh) * 2016-12-21 2017-05-17 竹间智能科技(上海)有限公司 一种基于情感和语义的智能对话方法及***

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN108521500A (zh) * 2018-03-13 2018-09-11 努比亚技术有限公司 一种语音场景控制方法、设备及计算机可读存储介质
CN108806671A (zh) * 2018-05-29 2018-11-13 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN108806671B (zh) * 2018-05-29 2019-06-28 杭州认识科技有限公司 语义分析方法、装置及电子设备
CN112437956A (zh) * 2018-07-25 2021-03-02 Lg 电子株式会社 语音识别***
CN112437956B (zh) * 2018-07-25 2024-03-26 Lg 电子株式会社 语音识别***
CN108920129A (zh) * 2018-07-27 2018-11-30 联想(北京)有限公司 信息处理方法和信息处理***
US11062708B2 (en) 2018-08-06 2021-07-13 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for dialoguing based on a mood of a user
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
CN110895658A (zh) * 2018-09-13 2020-03-20 珠海格力电器股份有限公司 信息处理方法及装置、机器人
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、***及机器人
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
CN111091810A (zh) * 2019-12-19 2020-05-01 佛山科学技术学院 基于语音信息的vr游戏人物表情控制方法及存储介质
CN113409790A (zh) * 2020-03-17 2021-09-17 Oppo广东移动通信有限公司 语音转换方法、装置、终端及存储介质
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备
US20220084525A1 (en) * 2020-09-17 2022-03-17 Zhejiang Tonghuashun Intelligent Technology Co., Ltd. Systems and methods for voice audio data processing

Similar Documents

Publication Publication Date Title
CN107464566A (zh) 语音识别方法和装置
WO2021104099A1 (zh) 一种基于情景感知的多模态抑郁症检测方法和***
Ghosh et al. Fracking sarcasm using neural network
Gibbon et al. Handbook of multimodal and spoken dialogue systems: Resources, terminology and product evaluation
Schuller et al. Cross-corpus acoustic emotion recognition: Variances and strategies
Nguyen et al. Generative spoken dialogue language modeling
Bertero et al. Deep learning of audio and language features for humor prediction
US20220245354A1 (en) Automated classification of emotio-cogniton
Johar Emotion, affect and personality in speech: The Bias of language and paralanguage
CN107679033A (zh) 文本断句位置识别方法和装置
CN107464555A (zh) 向包含语音的音频数据添加背景声音
Blache et al. Creating and exploiting multimodal annotated corpora: the ToMA project
CN110297906B (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
Singh et al. An efficient language-independent acoustic emotion classification system
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
Saha et al. Emotion aided dialogue act classification for task-independent conversations in a multi-modal framework
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN114120985A (zh) 智能语音终端的安抚交互方法、***、设备及存储介质
CN117349427A (zh) 一种面向舆情事件应对的人工智能多模态内容生成***
CN116612541A (zh) 一种多模态情感识别方法、装置及存储介质
CN116092472A (zh) 一种语音合成方法和合成***
Gibbon et al. Representation and annotation of dialogue
Christodoulides et al. Automatic detection and annotation of disfluencies in spoken French corpora
Alm The role of affect in the computational modeling of natural language
Bawden et al. Towards the generation of dialogue acts in socio-affective ECAs: a corpus-based prosodic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212