CN109243468B - 语音识别方法、装置、电子设备及存储介质 - Google Patents
语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109243468B CN109243468B CN201811353477.2A CN201811353477A CN109243468B CN 109243468 B CN109243468 B CN 109243468B CN 201811353477 A CN201811353477 A CN 201811353477A CN 109243468 B CN109243468 B CN 109243468B
- Authority
- CN
- China
- Prior art keywords
- language model
- personal
- reference data
- voice
- personal information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims description 37
- 238000004891 communication Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、电子设备及存储介质。该方法包括:根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;根据所述语言模型参考数据构建所述用户的个人语言模型;根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别。上述方法解决了语音识别中对用户特有高频词汇的识别难题,提高了个性化语音识别的准确率。
Description
技术领域
本发明实施例涉及语音识别技术领域,特别是涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
随着大数据、机器学习、云计算、人工智能等技术的发展,语音识别正在一步步解放用户的双手,语音输入框也大有取代鼠标、键盘之势。伴随着智能移动设备的普及,语音交互作为一种新型的人机交互方式,越来越引起整个IT(Information Technology,信息科技)业界的重视。
鉴于说话人常常来自不同的方言区、有不同的口音,说话时又有不同的方式习惯、运用不同的情感,基于深度学习的个性化语音识别应运而生。发明人在具体实施过程中,发现现有技术中的个性化语音识别主要是利用用户的语音数据进行声学模型的自适应,这种方式需要用户主动提供语音数据,而不能利用其他的信息数据。与此同时,发明人还发现每个人说话时的高频词和低频词都不一样,用户的特有高频词可能是大数据统计模型中的低频词,而目前的语音识别主要是基于大数据统计模型,统一分析所有用户的高频词,这样导致了对低频词(或者是用户特有高频词)的识别效果明显差于高频词。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法、装置、电子设备及存储介质,主要目的在于解决语音识别中对用户特有高频词汇的识别难题。
为了解决上述问题,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种语音识别方法,该方法包括:
根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;
根据所述语言模型参考数据构建所述用户的个人语言模型;
根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别。
第二方面,本发明实施例还提供一种语音识别装置,该装置包括:
参考数据获取模块,用于根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;
个人语言模型构建模块,用于根据所述语言模型参考数据构建所述用户的个人语言模型;
语音识别模块,用于根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器;以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行本发明任意实施例所述的语音识别方法。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本发明任意实施例所述的语音识别方法。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例通过在接收到用户的语音识别请求时获取与用户关联的语言模型参考数据,并根据语言模型参考数据构建用户的个人语言模型,然后根据通用语言模型和个人语言模型对用户输入的待识别语音进行语音识别,解决了语音识别中对用户特有高频词汇的识别难题,提高了个性化语音识别的准确率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的一种语音识别方法的流程图;
图2示出了本发明实施例二提供的一种语音识别方法的流程图;
图3示出了本发明实施例三提供的一种语音识别方法的流程图;
图4示出了本发明实施例四提供的一种语音识别装置的结构示意图;
图5示出了本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1是本发明实施例一提供的一种语音识别方法的流程图,可适用于针对不同用户的个性化语音识别,该方法可以由本发明实施例提供的语音识别装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如可以是移动终端的处理器中。如图1所示,本发明实施例的方法具体包括:
S110、根据用户的语音识别请求,获取与用户关联的语言模型参考数据。
例如在人机对话的应用场景下,用户向例如移动终端类的电子设备发出语音信号,电子设备接收到用户的语音后会对其进行语音识别。其中,用户首先会触发电子设备上接收语音的实体按键或虚拟按键,然后发出语音信号。
进而,语音识别请求具体可以是指的是例如触发指令之类的请求信号,如果电子设备接收到语音识别请求,则意味着电子设备将要接收用户随后输入的语音信号,并将其作为待识别语音进行语音识别。
在本步骤中,当电子设备接收到用户的语音识别请求后,会获取与用户关联的语音模型参考数据,其中,语音模型参考数据是用来构建用户的个人语言模型的。
语音模型参考数据主要包括用于指示用户个性信息的参考数据,例如用户的高频词汇数据、用户的位置信息数据、用户的操作信息数据等,其中,用户的操作信息数据可以包括用户的浏览信息数据、用户的存储信息数据等等。
具体的,语音模型参考数据的获取方式可以是在电子设备的存储信息中直接获取,也可似是在与电子设备中应用程序对应的服务器端远程获取等。
S120、根据语言模型参考数据构建用户的个人语言模型。
基于获取的用户的语言模型参考数据,构建用户的个人语言模型。也即,个人语言模型中存储有用户的语音模型参考数据,更侧重用户的个性语言。与大规模的通用语言模型相比,个人语言模型中对用户的个性语言的识别效果会更好。
S130、根据通用语言模型与个人语言模型,对用户输入的待识别语音进行语音识别。
语音识别的任务是将用户语音中的连续时间信号转变为一串离散的音节单元或单词。
在本步骤中,获取用户输入的待识别语音后,根据大规模的通用语言模型和个人语言模型对待识别语音进行识别,得到语音识别结果。具体的,可以使用大规模的通用语言模型和个人语言模型分别对待识别语音进行识别,结合分析两个语言模型的识别结果来确定与待识别语音对应的最终识别结果。
选取其中一个语言模型对待识别语音进行语音识别时,可以采用两遍解码的方法,第一遍解码时生成与待识别语音对应的候选句子列表,然后第二遍解码在候选列表中利用语言模型对候选句子进行重新打分,选出新的最佳路径,作为最终的识别结果。
本发明实施例提供的一种语音识别方法,通过在接收到用户的语音识别请求时获取与用户关联的语言模型参考数据,并根据语言模型参考数据构建用户的个人语言模型,然后根据通用语言模型和个人语言模型对用户输入的待识别语音进行语音识别,解决了语音识别中对用户特有高频词汇的识别难题,提高了个性化语音识别的准确率。
实施例二
图2是本发明实施例二提供的一种语音识别方法的流程图。在上述技术方案的基础上,本发明实施例将语言模型参考数据进行具体化:
一种具体的实施方式是,将语言模型参考数据具体为个人信息参考数据,将个人语言模型具体为个人信息语言模型;进而,将根据语言模型参考数据构建用户的个人语言模型,具体为:根据个人信息参考数据构建个人信息语言模型。
另一种具体的实施方式是,将语言模型参考数据具体为个人信息参考数据和个人对话参考数据;对应的,将个人语言模型具体为个人信息语言模型和个人对话语言模型;进而,将根据语言模型参考数据构建用户的个人语言模型,具体为:根据个人信息参考数据构建个人信息语言模型;根据个人对话参考数据构建所述个人对话语言模型。
具体的,个人信息参考数据包括下述至少一项:用户的足迹数据、存储数据以及历史操作数据。
具体的,个人对话参考数据包括下述至少一项:用户的历史对话数据和历史对话关联数据。
以其中一种具体的实施方式为例进行解释说明,如图2所示,本发明实施例提供的方法具体包括:
S210、根据用户的语音识别请求,获取与用户关联的个人信息参考数据和个人对话参考数据。
个人信息参考数据具体可以指的是用户的足迹数据、存储数据以及历史操作数据等个人信息,例如根据用户的电子设备的GPS定位功能获取用户的位置信息,根据用户的电子设备获取时间信息,根据用户的电子设备中各应用程序中存储的(或与各应用程序对应的各服务器端存储的)搜索历史记录或消费历史记录或足迹记录,根据用户的电子设备中存储的通讯录信息等等。
值得说明的是,针对上述关于个人信息参考数据的举例说明,本发明实施例不做具体限定,只要是可以用于指示用户个人信息的数据均可作为个人信息参考数据。
个人对话参考数据具体可以指的是用户的历史对话数据和历史对话关联数据等对话数据,例如是用户的历史对话信息数据、用户对话的上下文语境以及对话状态等等,通过对话管理功能获取的有关用户对话的信息数据均可作为个人对话参考数据。
S220、根据个人信息参考数据构建个人信息语言模型。
个人信息语言模型是依据用户的个人信息数据构建的,其存储的信息数据是与用户个人密切相关的。
作为本发明实施例一种可选的实施方式,可以将根据个人信息参考数据构建个人信息语言模型,具体为:获取历史构建的个人信息语言模型;根据个人信息参考数据更新所述个人信息语言模型。
在接收到用户的语音识别请求后,则获取上一次构建或更新过的个人信息语言模型,并根据重新获取的个人信息参考数据更新所述个人信息语言模型。
例如,将重新获取的个人信息参考数据和个人信息语言模型中的信息数据进行比较,确定重新获取的个人信息参考数据中的新增参考数据,并将新增参考数据添加至个人信息语言模型中。
同时,更新个人信息语言模型的操作还可以包括对个人信息语言模型中的无效信息数据进行删除操作。其中,无效信息数据可以是在利用个人信息语言模型进行语音识别时导致识别效果差的信息数据,或者是与重新获取的个人信息参考数据中的新增参考数据存在明显差异的信息数据。
S230、根据个人对话参考数据构建个人对话语言模型。
个人对话语言模型是根据个人对话参考数据构建的,与用户的对话内容相关性较大。例如,用户的上一句询问是“上海明天的天气”,那么则可以将“上海的相关新闻”和“上海的兴趣点信息”等作为个人对话参考数据去构建个人对话语言模型。
再例如,用户的上一句对话是“我要预定附近的酒店”,那么则可以附近酒店的名称、地点等信息作为个人对话参考数据去构建个人对话语言模型。
S240、根据通用语言模型、个人信息语言模型和个人对话语言模型,对用户输入的待识别语音进行语音识别。
在构建完成个人信息语言模型和个人对话语言模型之后,再结合大规模的通用语言模型,根据这三个语言模型对用户输入的语音信号进行识别。
可以是使用大规模的通用语言模型、个人信息语言模型和个人对话语言模型分别对待识别语音进行识别,结合分析三个语言模型的识别结果来确定与待识别语音对应的最终识别结果。
在上述技术方案中,通过构建与用户息息相关的个人信息语言模型和个人对话语言模型作为对用户个性语音的识别模型,可以解决语音识别中对用户特有高频词汇的识别难题,同时提高个性化语音识别的准确率。
实施例三
图3是本发明实施例三提供的一种语音识别方法的流程图。在上述技术方案的基础上,本发明实施例将根据通用语言模型与个人语言模型,对用户输入的待识别语音进行语音识别,具体为:
对接收的待识别语音进行实时分词识别,得到当前分词的至少一个基础候选词;
采用述通用语言模型与个人语言模型分别对所述基础候选词在至少一个识别路径下进行打分;
根据通用语言模型与个人语言模型对基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分;
根据与待识别语音中的各分词对应的标准候选词以及综合得分,确定与待识别语音对应的语音识别结果。
如图3所示,本发明实施例提供的方法具体包括:
S310、根据用户的语音识别请求,获取与用户关联的个人信息参考数据和个人对话参考数据。
S320、根据个人信息参考数据构建个人信息语言模型。
S330、根据个人对话参考数据构建个人对话语言模型。
关于S310~S330的解释说明请详见前述实施例,在此不再赘述。
S340、对接收的待识别语音进行实时分词识别,得到当前分词的至少一个基础候选词。
在接收到待识别语音之后,对语音数据进行实时分词识别,获得当前分词所对应的基础候选词,该基础候选词包括符合当前分词的特征的所有候选词。其中,由于同一分词特征所对应的候选词可能是一个或者多个,因此,实时分词识别过程中,当前分词所对应的基础候选词至少有一个。
可选的,当前分词的特征可以是当前分词的拼音,基础候选词可以是与当前分词的拼音相同的所有同音词的集合。例如,待识别语音为“你知道例题一怎么做吗”,当前分词为“知道”,则当前分词的特征是“zhidao”,根据该特征得到的当前分词的基础候选词可以包括“知道”、“指导”、“直道”、“指到”和“直到”等等。
本发明实施例中,通过对待识别语音进行实时分词识别,可以实现对待识别语音数据进行实时打分,进而实时展示待识别语音的中间识别结果,提高识别的实时率。
S350、采用通用语言模型、个人信息语言模型和个人对话语言模型分别对基础候选词在至少一个识别路径下进行打分。
语言模型是语音识别中非常重要的一个模块,本发明实施中采用通用语言模型、个人信息语言模型和个人对话语言模型三个语言模型进行语音识别,对个性语音的识别准确率有着很重要的影响。
识别路径包括当前分词之前的其他已经被识别的分词所组成的所有可能的词序列,由于当前分词之前的其他分词的候选词至少一个,因此,每个基础候选词至少对应一条识别路径。在本发明实施例中,得到当前分词的至少一个基础候选词后,根据当前分词之前的其他已经被识别的分词找到当前分词的所有识别路径,即为每个基础候选词所对应的识别路径,采用语言模型计算每个基础候选词在每一条识别路径下的贝叶斯概率,即得到每个基础候选词在每一条识别路径下的得分。
采用通用语言模型、个人信息语言模型和个人对话语言模型三个语言模型分别对每一个基础候选词在其对应的每一条识别路径下进行打分,得到每一个基础候选词在其对应的每一条识别路径下的三个打分结果,根据这三个语言模型的打分结果,可以得出每个基础候选词在其对应的每个识别路径下更为准确的得分,使得当前分词的识别结果的准确度更高。
S360、根据通用语言模型、个人信息语言模型和个人对话语言模型对基础候选词的打分结果,得到当前分词在至少一个识别路径下的标准候选词,以及与标准候选词对应的综合得分。
在本发明实施例中,采用采用通用语言模型、个人信息语言模型和个人对话语言模型三个语言模型分别对每一个基础候选词在其对应的每一条识别路径下进行打分之后,根据当前分词的每一个基础候选词在其对应的每一条识别路径下的三个打分结果,得到当前分词的每一个基础候选词在其对应的每一条识别路径下的综合得分。
上述综合得分表示在当前分词的识别过程中,该基础候选词在该识别路径下的最终得分,根据该综合得分可以判断该基础候选词在该路径下出现的可能性大小,以及判断该基础候选词是否会被保留下来作为当前分词的标准候选词。
具体的,为了提高语音识别的速度以及识别结果的准确度,本发明实施例根据每一个基础候选词在其对应的每一条路径下的综合得分,从当前分词的所有识别路径下的所有基础候选词中,选择较高的综合得分对应的识别路径下的基础候选词保留下来,作为当前分词的标准候选词,并将该标准候选词以及对应的综合得分进行关联储存,以参与后续对待识别语音的识别结果的选择。
进一步的,对于较低的综合得分对应的识别路径下的基础候选词,说明其出现在对应路径下的可能性较小,成为当前分词的最终识别结果的概率也比较小,因此,可以不对该识别路径下的该基础候选词及其对应的综合得分进行保存,该识别路径下的该基础候选词也不用参与对待识别语音最终识别结果的选择,从而减小了参与待识别语音识别结果选择的识别路径的数量,提高了对语音数据的识别速度。
S370、根据与待识别语音中的各分词对应的标准候选词以及综合得分,确定与待识别语音对应的语音识别结果。
具体的,当待识别语音的最后一个分词的标准候选词被确定以后,找到待识别语音的所有识别路径,并根据每条识别路径中的各分词对应的标准候选词以及综合得分,计算该识别路径中所有分词对应的标准候选词的综合得分之和,从所有识别路径中选择综合得分之和最高的识别路径,将该识别路径所对应的各个分词的标准候选词的词序列作为接收的待识别语音的语音识别结果。
本发明实施例提供的技术方案,对接收的待识别语音进行实时的分词识别,通过至少两个语言模型对当前分词的每个基础候选词在对应识别路径下进行打分,根据每个基础候选词在对应识别路径下的综合得分,确定与待识别语音对应的语音识别结果。上述技术方案通过对待识别语音进行实时分词识别和实时打分,解决了现有技术中采用两遍解码的方式进行语音识别,识别速度慢的问题,提高了语音识别的速度。
值得指出的是,上述是根据通用语言模型、个人信息语言模型和个人对话语言模型这三个语音模型对待识别语音进行语音识别为例进行解释说明。参照前述实施例,也可采用上述方法,根据通用语言模型和个人语言模型对待识别语音进行语音识别,或根据通用语言模型和个人信息语言模型对待识别语音进行语音识别,在此不再赘述。也即,在前述实施例中可以增加本实施例中采用至少两个语言模型对待识别语音进行识别的技术方案,以增加前述实施例中技术方案的有益效果。
实施例四
图4是本发明实施例四提供的一种语音识别装置的结构示意图,可适用于针对不同用户的个性化语音识别,该装置可采用软件和/或硬件的方式实现,并一般可集成在处理器中,例如可以是移动终端的处理器中。如图4所示,该装置具体包括:参考数据获取模块410、个人语言模型构建模块420和语音识别模块430,其中,
参考数据获取模块410,用于根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;
个人语言模型构建模块420,用于根据所述语言模型参考数据构建所述用户的个人语言模型;
语音识别模块430,用于根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别。
本发明实施例提供的一种语音识别装置,通过在接收到用户的语音识别请求时获取与用户关联的语言模型参考数据,并根据语言模型参考数据构建用户的个人语言模型,然后根据通用语言模型和个人语言模型对用户输入的待识别语音进行语音识别,解决了语音识别中对用户特有高频词汇的识别难题,提高了个性化语音识别的准确率。
进一步的,所述语言模型参考数据包括个人信息参考数据;
所述个人语言模型包括个人信息语言模型;
个人语言模型构建模块420,具体用于根据所述个人信息参考数据构建所述个人信息语言模型。
进一步的,所述语言模型参考数据包括:个人信息参考数据和个人对话参考数据;
所述个人语言模型包括:个人信息语言模型和个人对话语言模型;
个人语言模型构建模块420,具体用于根据所述个人信息参考数据构建所述个人信息语言模型;根据所述个人对话参考数据构建所述个人对话语言模型。
在上述技术方案的基础上,个人语言模型构建模块420具体用于获取历史构建的个人信息语言模型;根据所述个人信息参考数据更新所述个人信息语言模型。
具体的,所述个人信息参考数据包括下述至少一项:所述用户的足迹数据、存储数据以及历史操作数据。
具体的,所述个人对话参考数据包括下述至少一项:所述用户的历史对话数据和历史对话关联数据。
在上述技术方案的基础上,语音识别模块430具体包括:基础候选词获取单元、语言模型打分单元、标准候选词获取单元和语音识别结果获取单元,其中,
基础候选词获取单元,用于对接收的待识别语音进行实时分词识别,得到当前分词的至少一个基础候选词;
语言模型打分单元,用于采用所述通用语言模型与所述个人语言模型分别对所述基础候选词在至少一个识别路径下进行打分;
标准候选词获取单元,用于根据所述通用语言模型与所述个人语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
语音识别结果获取单元,用于根据与所述待识别语音中的各分词对应的标准候选词以及综合得分,确定与所述待识别语音对应的语音识别结果。
由于本发明实施例所介绍的语音识别装置为可以执行本发明实施例中的语音识别方法的装置,故而基于本发明实施例中所介绍的语音识别方法,本领域所属技术人员能够了解本发明实施例的语音识别装置的具体实施方式以及其各种变化形式,所以在此对于该语音识别装置如何实现本发明实施例中的语音识别方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中语音识别方法所采用的装置,都属于本申请所欲保护的范围。
实施例五
本发明实施例提供了一种电子设备,如图5所示,包括:至少一个处理器(processor)51;以及与所述处理器51连接的至少一个存储器(memory)52、总线53;其中,
所述处理器51、存储器52通过所述总线53完成相互间的通信;
存储器52作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种语音识别方法对应的程序指令/模块(例如,附图4所示的:参考数据获取模块410、个人语言模型构建模块420和语音识别模块430)。所述处理器51用于调用所述存储器52中的程序指令/模块,以执行上述方法实施例中一种语音识别方法中的步骤。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的一种语音识别方法,该方法包括:。
根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;
根据所述语言模型参考数据构建所述用户的个人语言模型;
根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请,而且各个实施例之间技术特征的排列组合也应落入本发明的保护范围之内。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种语音识别方法,其特征在于,包括:
根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;其中,所述语言模型参考数据包括个人信息参考数据,或者所述语言模型参考数据包括个人信息参考数据和个人对话参考数据;
根据所述语言模型参考数据构建所述用户的个人语言模型;
根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别;
在所述语言模型参考数据包括个人信息参考数据和个人对话参考数据时,所述个人语言模型包括:个人信息语言模型和个人对话语言模型;
所述根据所述语言模型参考数据构建所述用户的个人语言模型,具体包括:
根据所述个人信息参考数据构建所述个人信息语言模型;
根据所述个人对话参考数据构建所述个人对话语言模型;
所述个人对话参考数据包括下述至少一项:所述用户的历史对话数据和历史对话关联数据;
所述根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别,包括:对语音数据进行实时分词识别,获得当前分词所对应的基础候选词;所述当前分词的特征是当前分词的拼音,所述基础候选词是与当前分词的拼音相同的所有同音词的集合。
2.根据权利要求1所述的方法,其特征在于,在所述语言模型参考数据包括个人信息参考数据时,所述个人语言模型包括个人信息语言模型;
所述根据所述语言模型参考数据构建所述用户的个人语言模型,包括:
根据所述个人信息参考数据构建所述个人信息语言模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述个人信息参考数据构建个人信息语言模型,包括:
获取历史构建的个人信息语言模型;
根据所述个人信息参考数据更新所述个人信息语言模型。
4.根据权利要求1所述的方法,其特征在于,所述个人信息参考数据包括下述至少一项:所述用户的足迹数据、存储数据以及历史操作数据。
5.根据权利要求1所述的方法,其特征在于,所述根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别,包括:
对接收的待识别语音进行实时分词识别,得到当前分词的至少一个基础候选词;
采用所述通用语言模型与所述个人语言模型分别对所述基础候选词在至少一个识别路径下进行打分;
根据所述通用语言模型与所述个人语言模型对所述基础候选词的打分结果,得到所述当前分词在至少一个识别路径下的标准候选词,以及与所述标准候选词对应的综合得分;
根据与所述待识别语音中的各分词对应的标准候选词以及综合得分,确定与所述待识别语音对应的语音识别结果。
6.一种语音识别装置,其特征在于,包括:
参考数据获取模块,用于根据用户的语音识别请求,获取与所述用户关联的语言模型参考数据;其中,所述语言模型参考数据包括个人信息参考数据,或者所述语言模型参考数据包括个人信息参考数据和个人对话参考数据;
个人语言模型构建模块,用于根据所述语言模型参考数据构建所述用户的个人语言模型;
语音识别模块,用于根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别;
在所述语言模型参考数据包括个人信息参考数据和个人对话参考数据时,所述个人语言模型包括:个人信息语言模型和个人对话语言模型;
所述根据所述语言模型参考数据构建所述用户的个人语言模型,具体包括:
根据所述个人信息参考数据构建所述个人信息语言模型;
根据所述个人对话参考数据构建所述个人对话语言模型;
所述个人对话参考数据包括下述至少一项:所述用户的历史对话数据和历史对话关联数据;
所述根据通用语言模型与所述个人语言模型,对所述用户输入的待识别语音进行语音识别,包括:对语音数据进行实时分词识别,获得当前分词所对应的基础候选词;所述当前分词的特征是当前分词的拼音,所述基础候选词是与当前分词的拼音相同的所有同音词的集合。
7.一种电子设备,其特征在于,包括:
至少一个处理器;
以及与所述处理器连接的至少一个存储器、总线;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求5中任一项所述的语音识别方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至权利要求5中任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353477.2A CN109243468B (zh) | 2018-11-14 | 2018-11-14 | 语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811353477.2A CN109243468B (zh) | 2018-11-14 | 2018-11-14 | 语音识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243468A CN109243468A (zh) | 2019-01-18 |
CN109243468B true CN109243468B (zh) | 2022-07-12 |
Family
ID=65074649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811353477.2A Active CN109243468B (zh) | 2018-11-14 | 2018-11-14 | 语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243468B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817198B (zh) * | 2019-03-06 | 2021-03-02 | 广州多益网络股份有限公司 | 语音合成方法、装置及存储介质 |
CN113012685B (zh) * | 2019-12-20 | 2022-06-07 | 北京世纪好未来教育科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN113096646B (zh) * | 2019-12-20 | 2022-06-07 | 北京世纪好未来教育科技有限公司 | 音频识别方法、装置、电子设备及存储介质 |
CN111145756B (zh) * | 2019-12-26 | 2022-06-14 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN113808593A (zh) * | 2020-06-16 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 语音交互***、相关方法、装置及设备 |
CN112684913B (zh) * | 2020-12-30 | 2023-07-14 | 维沃移动通信有限公司 | 信息修正方法、装置及电子设备 |
CN113223522B (zh) * | 2021-04-26 | 2022-05-03 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN114242046B (zh) * | 2021-12-01 | 2022-08-16 | 广州小鹏汽车科技有限公司 | 语音交互方法及装置、服务器及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10049656B1 (en) * | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
CN103646646B (zh) * | 2013-11-27 | 2018-08-31 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
JP6084654B2 (ja) * | 2015-06-04 | 2017-02-22 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
CN105303794A (zh) * | 2015-11-30 | 2016-02-03 | 讯美电子科技有限公司 | 一种可通过声纹识别进行报警综合处置管理*** |
CN105489221B (zh) * | 2015-12-02 | 2019-06-14 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
KR20180074210A (ko) * | 2016-12-23 | 2018-07-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 방법 |
CN108573706B (zh) * | 2017-03-10 | 2021-06-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
-
2018
- 2018-11-14 CN CN201811353477.2A patent/CN109243468B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109243468A (zh) | 2019-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243468B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN107134279B (zh) | 一种语音唤醒方法、装置、终端和存储介质 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
CN109741735B (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
JP2016513269A (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及*** | |
CN108538294B (zh) | 一种语音交互方法及装置 | |
CN111710337B (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN115862600B (zh) | 语音识别方法、装置及车辆 | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN114822532A (zh) | 语音交互方法、电子设备和存储介质 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
US10929601B1 (en) | Question answering for a multi-modal system | |
CN111078848A (zh) | 一种用于对话机器人的输入提示方法及装置 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN113066473A (zh) | 一种语音合成方法、装置、存储介质及电子设备 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、***及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211118 Address after: 210038 8th floor, building D11, Hongfeng science and Technology Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Applicant after: New Technology Co.,Ltd. Applicant after: VOLKSWAGEN (CHINA) INVESTMENT Co.,Ltd. Address before: 100080 Room 501, 5th floor, NO.67, North Fourth Ring Road West, Haidian District, Beijing Applicant before: Beijing Yufanzhi Information Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |