CN111583907B - 信息处理方法、装置及存储介质 - Google Patents

信息处理方法、装置及存储介质 Download PDF

Info

Publication number
CN111583907B
CN111583907B CN202010295558.2A CN202010295558A CN111583907B CN 111583907 B CN111583907 B CN 111583907B CN 202010295558 A CN202010295558 A CN 202010295558A CN 111583907 B CN111583907 B CN 111583907B
Authority
CN
China
Prior art keywords
text
voice
feature
features
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010295558.2A
Other languages
English (en)
Other versions
CN111583907A (zh
Inventor
吴泽伦
崔世起
谢巧菁
魏晨
秦斌
王刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010295558.2A priority Critical patent/CN111583907B/zh
Publication of CN111583907A publication Critical patent/CN111583907A/zh
Priority to US17/033,715 priority patent/US11355100B2/en
Priority to EP20200538.5A priority patent/EP3896598A1/en
Application granted granted Critical
Publication of CN111583907B publication Critical patent/CN111583907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种信息处理方法、装置及存储介质。包括:获取当前音频,并得到当前音频对应的当前文本;基于语义分析模型所包含的语音特征提取部分对当前音频进行特征提取,获取当前音频的语音特征;基于语义分析模型所包含的文本特征提取部分对当前文本进行特征提取,获取当前文本的文本特征;利用语义分析模型所包含的分类部分对语音特征和文本特征进行语义分类处理,得到分类结果;当分类结果表明当前音频为拒绝识别的音频时,拒绝识别当前音频。这样,能够更加精确地确定出当前音频所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结;能够降低误响应的概率,还能够减少不必要的语义分析过程。

Description

信息处理方法、装置及存储介质
技术领域
本公开涉及计算机通信领域,尤其涉及一种信息处理方法、装置及存储介质。
背景技术
在人机对话的过程中,全双工主要是指为了达到流畅、自然以及拟人化对话体验而使用的技术手段。目前,全双工技术可以应用于音频交互中的“一次唤醒,连续对话”、“边听边说,随时打断”等各个应用场景,以使音频交互的过程更加流畅。
目前,音频交互技术已经能够应用于各种不同的电子设备,例如,移动终端、电视、智能音箱等。在基于电子设备进行音频交互的过程中,电子设备接收到的音频请求量极大,但并不是所有接收到的音频请求都是用户真实想要表达的请求,这时,可能会存在误唤醒、对接收到无关的音频请求以及用户无意识的自言自语进行响应等误响应的情况。
发明内容
本公开提供一种信息处理方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种信息处理方法,应用于电子设备,包括:
获取当前音频,并得到所述当前音频对应的当前文本;
基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;
基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
可选的,所述利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果,包括:
对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
可选的,所述语音特征包括:语气特征、语调特征和/或语速特征。
可选的,所述方法还包括:
基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
可选的,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
可选的,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
根据本公开实施例的第二方面,提供一种信息处理装置,应用于电子设备,包括:
文本获取模块,配置为获取当前音频,并得到所述当前音频对应的当前文本;
语音提取模块,配置为基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;
文本提取模块,配置为基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
第一分类模块,配置为利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
拒识模块,配置为当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
可选的,所述第一分类模块,包括:
拼接子模块,配置为对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
分类子模块,配置为利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
可选的,所述语音特征包括:语气特征、语调特征和/或语速特征。
可选的,所述装置还包括:
转换模块,配置为基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
卷积计算模块,配置为基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
提取模块,配置为利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
可选的,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述文本提取模块,包括:
分析子模块,配置为基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
提取子模块,配置为获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
可选的,所述装置还包括:
确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
第二分类模块,配置为利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
根据本公开实施例的第三方面,提供一种信息处理装置,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述第一方面中的信息处理方法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述第一方面中的信息处理方法中的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开在人机交互前,可以根据获取的当前音频得到对应的当前文本,基于语义分析模型对从当前音频提取出的语音特征和从当前文本提取出的文本特征进行语义分类得到分类结果,并在分类结果表征当前音频为拒绝识别的音频时,拒绝识别当前音频。
本公开中的技术方案,第一方面,可以将语义分析模型所包含的语音特征提取部分、文本特征提取部分和分类部分作为三个相互独立的部分,相较于仅基于一个网络模型既进行语音特征的提取,又进行文本特征的提取,本公开实施例中能够基于各个独立的部分使语音特征和文本特征的提取并行进行,能够提高语义分析模型对数据的处理速度;第二方面,通过同时对语音特征和文本特征进行分析处理,相较于仅对文本或者语音进行语义分析,能够将对语音进行分析的结果和对文本进行分析的结果相结合,能更加精确地确定出当前音频所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率;第三方面,不需要对拒绝识别的当前音频进行响应,不仅能够降低误响应的概率,还能够减少不必要的语义分析过程。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种信息处理方法的流程图。
图2A是根据一示例性实施例示出的另一种信息处理方法的流程图。
图2B是根据一示例性实施例示出的一种模型结构示意图。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图。
图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
图5是根据一示例性实施例示出的全双工整体架构示意图。
图6是根据一示例性实施例示出的信息处理装置框图。
图7是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息处理方法的流程图,如图1所示,该方法主要包括以下步骤:
在步骤101中,获取当前音频,并得到当前音频对应的当前文本;
在步骤102中,基于语义分析模型所包含的语音特征提取部分对当前音频进行特征提取,获取当前音频的语音特征;
在步骤103中,基于语义分析模型所包含的文本特征提取部分对当前文本进行特征提取,获取当前文本的文本特征;
在步骤104中,利用语义分析模型所包含的分类部分对语音特征和文本特征进行语义分类处理,得到分类结果;
在步骤105中,当分类结果表明当前音频为拒绝识别的音频时,拒绝识别当前音频。
本公开实施例中的信息处理方法可以应用于电子设备,其中,电子设备包括移动终端和固定终端。这里,移动终端包括手机、笔记本电脑、平板电脑、可穿戴式电子设备、智能音箱等,固定终端包括个人计算机、电视等。
本公开实施例中,可以在电子设备上安装用于进行人机交互的应用程序,在使用的过程中,当该应用程序接收到用户输入的交互请求时,可以基于电子设备上的音频采集组件采集当前音频。其中,当前音频可以是用户输入的包括语音请求的音频信息,用于进行人机交互的应用程序包括语音助手。
例如,以电子设备是智能音箱为例,可以基于智能音箱所包含的音频采集组件采集用户输入的当前音频。在采集到当前音频之后,可以利用语义分析模型所包含的语音特征提取部分对当前音频进行特征提取,获取当前音频的语音特征。同时,还可以基于智能音箱所包含的处理器利用文本转换机制得到当前音频对应的当前文本,在得到当前文本之后,可以利用语义分析模型的文本特征提取部分对当前文本进行特征提取,获取当前文本的文本特征。利用语义分析模型所包含的分类部分对语音特征和文本特征进行语义分类处理,得到分类结果;当分类结果表明当前音频为拒绝识别的音频时,拒绝识别当前音频;当分类结果表明当前音频不为拒绝识别的音频时,则基于处理器对当前音频进行语义分析,得到分析结果,并基于智能音箱所包含的音频输出组件输出与分析结果对应的响应信息。
本公开实施例中,语音特征可以包括用于表征所述当前音频所包含的语音信息的发音的特征,例如,语音信息的声调特征、音量特征、以及语速特征等。这里,在电子设备接收到当前音频之后,还可以基于语音识别技术将当前音频所包含语音信息由语音格式转换为文本格式,得到当前文本,而当前文本特征则可以是基于语义分析模型所包含的文本特征提取部分从当前文本中所提取的文本内容相关的特征。例如,可以基于自动语音识别技术(Automatic Speech Recognition,ASR)对当前音频所包含的语音信息进行格式转换,将当前音频所包含的语音信息由语音格式转换为文本格式,得到当前文本,然后再基于文本特征提取部分进行文本内容的提取。
在其他可选的实施例中,该方法还包括:在电子设备获取到当前音频之后,获取所述当前音频所包含的当前语音;将所述当前语音输入所述语义分析模型所包含的语音特征提取部分,基于所述语音特征提取部分对所述当前语音进行特征提取,获取当前语音的语音特征。这里,语音特征还可以包括当前音频包含的当前语音的语义特征,例如,当前语音所要表达的含义、以及当前语音的长度等特征。在其他可选的实施例中,所述语音特征包括:语气特征、语调特征和/或语速特征。
在得到当前文本之后,可以将当前文本输入语义分析模型所包含的文本特征提取部分,并基于语义分析模型所包含的特征提取部分对当前文本进行特征提取,获得当前文本的文本特征。这里,语义分析模型所包含的文本特征提取部分可以基于预训练模型构建而成。例如,可以基于构建而成的文本特征提取部分提取当前文本的字面含义特征和上下文特征,在提取到当前文本的字面含义特征和上下文特征之后,可以利用语义分析模型所包含的分类部分对该字面含义特征、上下文特征、以及语音特征进行语义分类处理,得到分类结果。
在其他可选的实施例中,在基于语义分析模型所包含的文本特征提取部分提取到文本特征之后,可以利用语义分析模型所包含的分类部分对该文本特征和语音特征进行语义分类处理,得到分类结果。语义分析模型所包含的分类部分可以根据经过预处理的训练集(已预知类别的文档)学习建模构建出来的分类器,其可以基于预先训练好的深度学习网络构建而成。例如,语义分析模型的分类部分可以基于预先训练好的神经网络模型构建而成,神经网络模型可以包括卷积神经网络(Convolutional Neural Network,CNN)。在其他可选的实施例中,还可以利用设定测试集文档按照设定测试方法对构建好的分类器进行性能测试,并不断反馈学习,以提高该分类器的性能。
这里,可以利用语义分析模型所包含的分类部分对语音特征和文本特征进行语义分类处理,得到分类结果。其中,分类结果用于表征当前音频是否为拒绝识别的语音,例如,可以基于语义分析模型所包含的分类部分输出两种分类结果。其中,两种分类结果包括:拒绝识别当前音频的第一分类结果和不拒绝识别当前音频的第二分类结果。
以将语音特征和文本特征输入语义分析模型所包含的分类部分,并基于分类部分输出两种分类结果为例,则可以分别得到两种分类结果的概率,并将概率最高的分类结果作为最终的分类结果。例如,如果输出第一分类结果的概率是0.3,输出第二分类结果的概率是0.7,则表明不拒绝识别当前音频;如果输出第一分类结果的概率是0.7,输出第二分类结果的概率是0.3,则表明拒绝识别当前音频。这里,概率值可以基于softmax函数对语义分析模型所包含的分类部分所输出的数值进行归一化处理得到,其中,当语义分析模型的分类部分是基于预先训练好的神经网络模型构建而成时,分类部分可以是神经网络模型的全连接层。
本公开实施例中,在人机交互前,可以根据获取的当前音频得到对应的当前文本,基于语义分析模型对从当前音频提取出的语音特征和文本特征进行语义分类得到分类结果,并在分类结果表征当前音频为拒绝识别的语音时,拒绝识别当前音频。第一方面,可以将语义分析模型所包含的语音特征提取部分、文本特征提取部分和分类部分作为三个相互独立的部分,相较于仅基于一个网络模型既进行语音特征的提取,又进行文本特征的提取,本公开实施例中能够基于各个独立的部分使语音特征和文本特征的提取并行进行,能够提高语义分析模型对数据的处理速度;第二方面,通过同时对语音特征和文本特征进行分析处理,相较于仅对文本或者语音进行语义分析,能够将对语音进行分析的结果和对文本进行分析的结果相结合,能更加精确地确定出当前音频所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率;第三方面,不需要对拒绝识别的当前音频进行响应,不仅能够降低误响应的概率,还能够减少不必要的语义分析过程。
其他可选的实施例中,所述利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果,包括:
对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
这里,在分别确定出语音特征和文本特征之后,可以确定出表征语音特征的语音特征向量,以及表征文本特征的文本特征向量,将语音特征向量和文本特征向量进行拼接处理,得到拼接特征向量,并将拼接特征向量输入到语义分析模型所包含的分类部分,利用该分类模型对拼接特征向量进行语音分类处理,得到分类结果。
这里,可以将语音特征向量确定为第一特征向量;将文本特征向量确定为第二特征向量。本公开实施例中,可以基于concat()方法对第一特征向量和第二特征向量进行拼接处理,得到拼接特征向量,这里,基于concat()方法不会改变第一特征向量和第二特征向量,而仅会返回被连接的第一特征向量和第二特征向量的一个副本(拼接特征向量),例如,可以在第一特征向量的末尾位置拼接第二特征向量,以得到拼接特征向量。
再例如,如果第一特征向量和第二特征向量属于线性向量,第一特征向量为m维,第二特征向量为n维,在对第一特征向量和第二特征向量进行拼接之后得到的拼接特征向量可以为m+n维的特征向量。如果第一特征向量和第二特征向量属于矩阵式向量,则可以将第一特征向量中第x行第y列的特征向量与第二特征向量中第x行第y列的特征向量进行拼接,直至将第一特征向量和第二特征向量中所有的特征向量均进行拼接为止,就可以得到拼接特征向量,其中,m、n、x和y均为正整数。
在其他可选的实施例中,当拼接特征向量的维度较高时,还可以对拼接特征向量进行降维处理,其中,降维处理用于将高维数组压缩成低维数组。这里,可以基于设定降维算法对拼接特征向量进行降维处理,设定降维算法包括以下至少之一:线性降维算法、主成分分析(Principal Component Analysis,PCA)算法、多维缩放(Multiple DimensionalScaling,MDS)算法、线性判别分析(Linear Discriminant Analysis,LDA)算法、局部线性嵌入(Locally Linear Embedding,LLE)算法。
以基于线性降维算法对拼接特征向量进行线性降维为例,可以通过对拼接特征向量进行线性变换,将拼接特征向量映射到比拼接特征向量的维度低的维度空间中表示。例如,如果确定出拼接特征向量X为d维,则可以经过线性变换公式将d维的X进行降维得到d’维目标特征向量X’,其中,d’<d,得到的目标特征向量X’中的特征是拼接特征向量X中特征的线性组合。线性变换公式为:
X’=WTX (1);
公式(1)中,W是变换矩阵,X是拼接后的特征向量,X’是目标特征向量,变换矩阵W可以看成是d’个d维基向量。
在其他可选的实施例中,当语义分析模型所包含的分类部分是基于预先训练好的神经网络模型构建而成时,可以将拼接特征向量输入卷积神经网络的分类部分,利用卷积神经网络的分类部分对拼接特征向量进行分类处理。例如,将拼接特征向量输入卷积神经网络的全连接层进行加权求和,并将加权求和的结果输入softmax函数,利用softmax函数输入的数值进行归一化处理得到表征分类结果的概率值。
在其他可选的实施例中,所述方法还包括:
基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
这里,当语义分析模型所包含的语音特征提取部分是基于预先训练好的卷积神经网络构建而成时,可以将基于向量转换机制得到的语音特征向量输入语音特征提取部分所包含的卷积层,对卷积层所包含的卷积核与语音特征向量进行卷积计算,得到卷积运算值。例如,可以预先设置卷积核的尺寸,然后对卷积核和与该卷积核一样大的区域的语音特征向量进行卷积计算之后,就向其他区域移动,接着计算,直至把所有的语音特征向量都覆盖到为止,这样,就能够通过设定的卷积核,得到卷积运算值。在得到卷积运算值之后,可以基于语音特征提取部分所包含的池化层对卷积运算值进行最大池化,得到信息量最大的语音特征向量,以提取出语音特征的语音特征向量。本公开实施例中,可以基于卷积神经网络从语音特征中提取出语音特征向量,并将提取出的语音特征向量作为分类的依据,能够提高音频拒识的智能性和精确度。
在其他可选的实施例中,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
这里,当前文本的字面含义特征是指当前文本所包含的各字词的字面含义所携带的语义信息,例如,如果当前文本是“这个苹果真好”,基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指一种水果,也可以指苹果手机;如果当前文本是“这个苹果真好吃”,则基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指一种水果;如果当前文本是“这个苹果真好用”,则基于当前文本中各字词的字面含义所携带的语义信息可以确定出词语中“苹果”可以指苹果手机。当前文本的上下文可以是指与当前文本相邻的文本,例如,如果当前文本的当前所在的位置是m,则当前文本的上文可以指第m-n个文本,下文可以指第m+n个文本,其中,m和n分别为正整数。这里,当前文本和当前文本的上下文可以是句子、词语或者字符。例如,当前文本为“天气怎么样”,当前文本的上文是“今天”,下文是“穿什么比较合适”。
这里,在基于语义分析模型对当前文本中各字词进行语义分析之前,可以基于设定分词算法对当前文本进行分词处理,得到基于词表示的文本内容。例如,当前文本包含“今天天气真好”,对当前文本进行分词的结果可以为“今天天气真好”。其中,设定分词算法包括以下至少之一:基于字符串匹配的分词算法、基于理解的分词算法、基于统计的分词算法。
基于设定分词算法对当前文本进行分词处理之后,可以得到包含有至少一个字词的文本内容,这时,可以基于语义分析模型对文本内容所包含的字词进行处理,得到当前文本中各个字词的的字面含义特征。这里,在获取待当前文本时,还可以获取文本特征提取部分对当前文本的相邻文本提取的特征,作为上下文特征,并基于语义分析模型对该上下文特征进行处理,得到上下文特征向量。本公开实施例中,通过获取当前文本的字面含义特征和上下文特征,并对字面含义特征和上下文特征进行分析处理,相较于仅对当前文本的字面特征含义进行语义分析,能够结合当前文本的上下文确定出当前文本的语言环境,进而精确地确定出当前文本所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结果,减少误响应的概率。
在其他可选的实施例中,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
由于当前文本可能代表多重含义,本公开实施例中,可以基于知识图谱将当前文本所能代表的含义(候选文本)全面展现出来,这时,可以确定当前文本与候选文本之间的相关度,并确定出相关度最大的候选文本(知识数据),进而得到知识数据特征。在得到知识数据特征之后,可以利用语义分析模型的分类部分对表征字面含义特征、上下文特征的特征向量、语音特征向量、以及知识数据特征进行语义分类处理,得到分类结果。本公开实施例中,通过引入知识图谱,能够提高提取特征的多样性,减少因为所提取的特征过于单一而影响最终的分类结果。
在其他可选的实施例中,所述利用语义分析模型所包含的分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果,得到所述分类结果,包括:
对表征语音特征的语音特征向量、所述文本特征的文本特征向量,以及所述知识数据所对应的知识特征向量进行拼接处理,得到输入到所述语义分析模型的目标特征向量;
利用语义分析模型所包含的分类部分对所述目标特征向量进行语义分类处理,得到所述分类结果。
本公开实施例中,可以基于concat()方法对语音特征向量、文本特征向量和知识特征向量进行拼接处理,得到目标特征向量,基于concat()方法不会改变语音特征向量、文本特征向量和知识特征向量,而仅会返回被连接的语音特征向量、文本特征向量和知识特征向量的一个副本(目标特征向量),例如,可以在语音特征向量的末尾位置拼接文本特征向量,并在文本特征向量的末尾位置拼接知识特征向量,以得到目标特征向量。
图2A是根据一示例性实施例示出的另一种信息处理方法的流程图,如图2A所示,可以将当前音频分别输入拒识模块201a和接收模块202a。基于拒识模块201a确定是否对当前音频进行拒绝识别,当拒识模块201a确定拒绝识别当前音频时,则拒绝识别当前音频;基于接收模块202a确定是否对当前音频进行响应,当接收模块202a确定响应当前音频时,则可以对当前音频进行语义分析,并根据分析结果确定对应的响应信息。
图2B是根据一示例性实施例示出的一种模型结构示意图,如图2B所示,本公开实施例中,可以将第一卷积神经网络所包含的特征提取部分作为语音特征提取部分,这里,第一卷积神经网络包括卷积层201b和池化层202b,在进行语音特征提取的过程中,可以将表征语音特征的语音特征向量输入第一卷积神经网络的卷积层201b,与卷积层201b中的卷积核进行卷积计算,得到卷积运算值,并将卷积运算值输入第一卷积神经网络的池化层202b进行最大池化,得到信息量最大的语音特征向量,以提取出语音特征的语音特征向量。
本公开实施例中,可以将第二卷积神经网络中的卷积层和池化层替换为BERT模型203b,将BERT模型203b作为语义分析模型的文本特征提取部分,在实现的过程中,可以基于BERT模型203b对当前文本进行特征提取,得到当前文本所对应的文本特征向量,并将基于BERT模型203b输出的开始位置的特征向量,作为提取的文本特征向量。在其他可选的实施例中,还可以将第一卷积神经网络、第二神经网络或者不同于所述第一神经网络和所述第二神经网络的第三神经网络的分类部分作为语义分析模型的分类部分,共同构成语义分析模型。
本公开实施例中,在提取出语音特征向量、文本特征向量和知识特征向量之后,可以将提取的语音特征向量、文本特征向量、与知识特征向量进行拼接,得到目标特征向量,并将目标特征向量输入分类部分,利用分类部分对目标特征向量进行分类处理。例如,将目标特征向量输入分类部分所包含的全连接层进行加权求和,并将加权求和的结果输入softmax函数,利用softmax函数输入的数值进行归一化处理得到表征分类结果的概率值。
在其他可选的实施例中,该信息处理方法能够适用于多个应用场景中,例如,可以用于对用户的身份进行识别、对音乐的播放进行调节、对视频的播放进行调节以及对电台的播放进行调节等各个应用场景。在各个场景下,用户的语音请求量会达到很高,但并不是所有接收到的语音请求都是用户真实想要请求的,可能会存在误唤醒、无关的人声、以及用户无意识的自言自语等,无效的语音请求占比甚至高达10%。
图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图,如图3所示,在将当前音频输入语音端点检测模块301(Voice Activity Detection,VAD)之后,可以基于VAD技术过滤掉非人声;然后再将过滤掉非人声的当前音频输入声纹拒识模块302进行声纹认证,并在声纹认证失败时拒绝识别当前音频;在声纹认证成功时,将认证成功的当前音频输入ASR拒识模块303,并基于ASR拒识模块303过滤掉不清晰和置信度低于设定置信度的音频信息;将基于ASR拒识模块303过滤的当前音频输入语音拒识模块304和语义拒识模块305,并基于语音拒识模块304和语义拒识模块305过滤掉不相关的音频信息、无意义的音频信息以及无意图的音频信息,这样,就能得到拒识/响应结果。在其他可选的实施例中,各个拒识模块之间可以以串联的方式连接。如图4所示,图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。
图5是根据一示例性实施例示出的全双工整体架构示意图,如图5所示,可以将语音请求输入第一中控模块,基于第一中控模块对语音请求进行自动语音识别、语音分析服务、以及判不停服务,然后将语音请求输入第二中控模块,基于第二中控模块对语音请求进行拒识服务,并在不同的垂域上对该语音请求进行分处理。本公开实施例中,还可以基于语音分析服务输出的结果进行语音拒识打分,并利用分配模块基于打分结果将该语音请求分配给第二中控模块的拒识服务。
本公开实施例中,通过设置拒识模块,能够解决该不该响应用户的问题,在原来能够听得清、听得懂、结果满足用户需求的基础上,更加智能化的实现不乱搭话。在其他可选的实施例中,经过日志的挖掘,发现在连续对话的应用场景下,不相关的人声占比大约15%,而基于本公开实施例所提出的技术方案,能够减少不相关的人声的输入,且本公开实施例所提及的拒识模块还能减少误唤醒的概率。
图6是根据一示例性实施例示出的信息处理装置框图。如图6所示,所述装置应用于电子设备,该信息处理装置600主要包括:
文本获取模块601,配置为获取当前音频,并得到所述当前音频对应的当前文本;
语音提取模块602,配置为基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;
文本提取模块603,配置为基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
第一分类模块604,配置为利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
拒识模块605,配置为当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
在其他可选的实施例中,所述第一分类模块604,包括:
拼接子模块,配置为对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
分类子模块,配置为利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
在其他可选的实施例中,所述语音特征包括:语气特征、语调特征和/或语速特征。
在其他可选的实施例中,所述装置600还包括:
转换模块,配置为基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
卷积计算模块,配置为基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
提取模块,配置为利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
在其他可选的实施例中,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述文本提取模块603,包括:
分析子模块,配置为基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
提取子模块,配置为获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
在其他可选的实施例中,所述装置600还包括:
确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
第二分类模块,配置为利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理***,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WI-FI,2G或6G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得信息处理装置能够执行一种信息处理方法,所述方法应用于电子设备,包括:
获取当前音频,并得到所述当前音频对应的当前文本;
基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;
基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种信息处理方法,其特征在于,应用于电子设备,包括:
获取当前音频,并得到所述当前音频对应的当前文本;
基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;其中,所述语音特征包括所述当前音频包含的语音信息的发音特征和/或语义特征;
基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
2.根据权利要求1所述的方法,其特征在于,所述利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果,包括:
对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
3.根据权利要求1所述的方法,其特征在于,所述语音特征包括:语气特征、语调特征和/或语速特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征,包括:
基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
7.一种信息处理装置,其特征在于,应用于电子设备,包括:
文本获取模块,配置为获取当前音频,并得到所述当前音频对应的当前文本;
语音提取模块,配置为基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获取所述当前音频的语音特征;其中,所述语音特征包括所述当前音频包含的语音信息的发音特征和/或语义特征;
文本提取模块,配置为基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提取,获取所述当前文本的文本特征;
第一分类模块,配置为利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义分类处理,得到分类结果;
拒识模块,配置为当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音频。
8.根据权利要求7所述的装置,其特征在于,所述第一分类模块,包括:
拼接子模块,配置为对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量;
分类子模块,配置为利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。
9.根据权利要求7所述的装置,其特征在于,所述语音特征包括:语气特征、语调特征和/或语速特征。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
转换模块,配置为基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语音特征向量;
卷积计算模块,配置为基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算,得到卷积运算值;
提取模块,配置为利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语音特征的特征向量。
11.根据权利要求7所述的装置,其特征在于,所述文本特征包括:所述当前文本的字面含义特征和上下文特征;
所述文本提取模块,包括:
分析子模块,配置为基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词的字面含义特征;
提取子模块,配置为获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上下文特征。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得到知识数据特征;
第二分类模块,配置为利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行语义分类处理,得到分类结果。
13.一种信息处理装置,其特征在于,包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器配置为:执行时实现上述权利要求1至6中任一种信息处理方法中的步骤。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述权利要求1至6中任一种信息处理方法中的步骤。
CN202010295558.2A 2020-04-15 2020-04-15 信息处理方法、装置及存储介质 Active CN111583907B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010295558.2A CN111583907B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质
US17/033,715 US11355100B2 (en) 2020-04-15 2020-09-26 Method and electronic device for processing audio, and non-transitory storage medium
EP20200538.5A EP3896598A1 (en) 2020-04-15 2020-10-07 Method deciding whether to reject audio for processing and corresponding device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010295558.2A CN111583907B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111583907A CN111583907A (zh) 2020-08-25
CN111583907B true CN111583907B (zh) 2023-08-15

Family

ID=72124389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010295558.2A Active CN111583907B (zh) 2020-04-15 2020-04-15 信息处理方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11355100B2 (zh)
EP (1) EP3896598A1 (zh)
CN (1) CN111583907B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968625A (zh) * 2020-08-26 2020-11-20 上海依图网络科技有限公司 融合文本信息的敏感音频识别模型训练方法及识别方法
US20220108714A1 (en) * 2020-10-02 2022-04-07 Winterlight Labs Inc. System and method for alzheimer's disease detection from speech
CN112669821B (zh) * 2020-12-17 2024-04-30 中国科学技术大学 一种语音意图识别方法、装置、设备及存储介质
CN112395456B (zh) * 2021-01-20 2021-04-13 北京世纪好未来教育科技有限公司 音频数据分类方法、训练方法及装置、介质、计算机设备
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质
CN114936560A (zh) * 2022-04-11 2022-08-23 阿里巴巴(中国)有限公司 人机交互方法、智能机器人和存储介质
CN115101075A (zh) * 2022-05-05 2022-09-23 腾讯科技(深圳)有限公司 一种语音识别的方法以及相关装置
CN115503639A (zh) * 2022-10-13 2022-12-23 广州小鹏汽车科技有限公司 语音处理方法、语音交互方法、服务器及存储介质
CN115457945B (zh) * 2022-11-10 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN116089593B (zh) * 2023-03-24 2023-06-13 齐鲁工业大学(山东省科学院) 基于时序特征筛选编码模块的多回合人机对话方法和装置
CN117113974B (zh) * 2023-04-26 2024-05-24 荣耀终端有限公司 文本分段方法、装置、芯片、电子设备及介质
CN116959421B (zh) * 2023-09-21 2023-12-19 湖北星纪魅族集团有限公司 处理音频数据的方法及装置、音频数据处理设备和介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208795A (ja) * 1982-05-28 1983-12-05 富士通株式会社 音声認識に於るリジエクト方式
JPS63306499A (ja) * 1987-06-08 1988-12-14 株式会社リコー 不特定話者音声認識装置
CA2013263A1 (en) * 1990-03-28 1991-09-28 Matthew Lennig Rejection method for speech recognition
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
KR20100068530A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
CN103531197A (zh) * 2013-10-11 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种对用户语音识别结果反馈的命令词识别自适应优化方法
KR20150027592A (ko) * 2013-09-04 2015-03-12 엘지전자 주식회사 음성 인식 장치 및 그 방법
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及***
CN108320734A (zh) * 2017-12-29 2018-07-24 安徽科大讯飞医疗信息技术有限公司 语音信号处理方法及装置、存储介质、电子设备
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN110807325A (zh) * 2019-10-18 2020-02-18 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6836760B1 (en) * 2000-09-29 2004-12-28 Apple Computer, Inc. Use of semantic inference and context-free grammar with speech recognition system
US7072750B2 (en) * 2001-05-08 2006-07-04 Intel Corporation Method and apparatus for rejection of speech recognition results in accordance with confidence level
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US7657433B1 (en) * 2006-09-08 2010-02-02 Tellme Networks, Inc. Speech recognition accuracy with multi-confidence thresholds
US11290400B2 (en) * 2009-12-22 2022-03-29 Cyara Solutions Pty Ltd System and method for testing of automated contact center customer response systems
US9047871B2 (en) * 2012-12-12 2015-06-02 At&T Intellectual Property I, L.P. Real—time emotion tracking system
US9171072B2 (en) * 2013-03-13 2015-10-27 Msc Intellectual Properties B.V. System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data
US10121493B2 (en) * 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US9646606B2 (en) * 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US10902043B2 (en) * 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
US10210201B2 (en) * 2016-05-13 2019-02-19 TCL Research America Inc. Method and system for App page recommendation via inference of implicit intent in a user query
US10249294B2 (en) * 2016-09-09 2019-04-02 Electronics And Telecommunications Research Institute Speech recognition system and method
WO2018175291A1 (en) * 2017-03-20 2018-09-27 Ebay Inc. Detection of mission change in conversation
US11010595B2 (en) * 2017-03-23 2021-05-18 Samsung Electronics Co., Ltd. Facial verification method and apparatus
US10395654B2 (en) * 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
CN109285548A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、***、电子设备、和计算机存储介质
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes
CN109145219B (zh) * 2018-09-10 2020-12-25 百度在线网络技术(北京)有限公司 基于互联网文本挖掘的兴趣点有效性判断方法和装置
US11010561B2 (en) * 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN111859973B (zh) * 2019-04-08 2024-06-25 百度时代网络技术(北京)有限公司 用于生成解说词的方法和装置
CN110188194B (zh) * 2019-04-26 2020-12-01 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及***
US11501102B2 (en) * 2019-11-21 2022-11-15 Adobe Inc. Automated sound matching within an audio recording

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208795A (ja) * 1982-05-28 1983-12-05 富士通株式会社 音声認識に於るリジエクト方式
JPS63306499A (ja) * 1987-06-08 1988-12-14 株式会社リコー 不特定話者音声認識装置
CA2013263A1 (en) * 1990-03-28 1991-09-28 Matthew Lennig Rejection method for speech recognition
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
JP2005292346A (ja) * 2004-03-31 2005-10-20 Nec Corp 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
CN1725295A (zh) * 2004-07-22 2006-01-25 索尼株式会社 语音处理装置、语音处理方法、程序、和记录介质
KR20100068530A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
KR20150027592A (ko) * 2013-09-04 2015-03-12 엘지전자 주식회사 음성 인식 장치 및 그 방법
CN103531197A (zh) * 2013-10-11 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种对用户语音识别结果反馈的命令词识别自适应优化方法
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及***
CN108320734A (zh) * 2017-12-29 2018-07-24 安徽科大讯飞医疗信息技术有限公司 语音信号处理方法及装置、存储介质、电子设备
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN108509619A (zh) * 2018-04-04 2018-09-07 科大讯飞股份有限公司 一种语音交互方法及设备
CN110807325A (zh) * 2019-10-18 2020-02-18 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王可佳 ; 徐东健 ; .语音识别技术与***视音频应用.中国传媒科技.2013,(15),全文. *

Also Published As

Publication number Publication date
EP3896598A1 (en) 2021-10-20
US20210327411A1 (en) 2021-10-21
CN111583907A (zh) 2020-08-25
US11355100B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
CN111583907B (zh) 信息处理方法、装置及存储介质
CN111583919B (zh) 信息处理方法、装置及存储介质
JP6926339B2 (ja) 画像のクラスタリング方法及び装置、電子機器並びに記憶媒体
CN111259148B (zh) 信息处理方法、装置及存储介质
CN111539443B (zh) 一种图像识别模型训练方法及装置、存储介质
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
EP3852044A1 (en) Method and device for commenting on multimedia resource
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN111210844B (zh) 语音情感识别模型的确定方法、装置、设备及存储介质
CN112562675B (zh) 语音信息处理方法、装置及存储介质
CN111580773B (zh) 信息处理方法、装置及存储介质
CN112150457A (zh) 视频检测方法、装置及计算机可读存储介质
CN114333804B (zh) 音频分类识别方法、装置、电子设备及存储介质
CN111382748A (zh) 图像翻译方法、装置及存储介质
CN107135494B (zh) 垃圾短信识别方法及装置
CN112820300A (zh) 音频处理方法及装置、终端、存储介质
CN111400443B (zh) 信息处理方法、装置及存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN111274389A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN115718801A (zh) 文本处理方法、模型的训练方法、装置、设备及存储介质
CN112863499B (zh) 语音识别方法及装置、存储介质
CN115062131A (zh) 一种基于多模态的人机交互方法及装置
CN115730073A (zh) 文本处理方法、装置及存储介质
CN112801116B (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN117642817A (zh) 识别音频数据类别的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant