CN105895103A

CN105895103A - 一种语音识别方法及装置

Info

Publication number: CN105895103A
Application number: CN201510883295.6A
Authority: CN
Inventors: 田伟森; 赵恒艺
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2015-12-03
Filing date: 2015-12-03
Publication date: 2016-08-24
Anticipated expiration: 2035-12-03
Also published as: CN105895103B

Abstract

本发明实施例提供一种语音识别方法及装置，通过接收终端发送的语音信息，获取所述语音信息的声学特征信息；将所述声学特征信息依次输入声学模型和语言模型，获取所述声学模型和所述语音模型对所述语音信息进行识别得到的初始文本信息；根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息。采用本发明实施例技术方案，针对已经识别得到的初始文本信息进行修正处理，以对所述初始文本信息中的错误进行修正，将修正后生成的最终文本信息发送至所述终端，使终端能给根据更为准确的最终文本信息，向用户提供更为精准的服务。

Description

一种语音识别方法及装置

技术领域

本发明实施例涉及语音信息处理技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别技术是让机器通过识别和理解过程将语音信号转换为相应的命令或文本的技术。目前，语音识别技术广泛应用于语音操控、语音翻译等语音交互产品。

目前，多种终端具备语音输入功能，各种安装在终端上的应用软件均需要基于语音识别结果执行相应的操作，从而生成用户所需要的信息，呈现给用户。当终端的语音识别较佳，能够准确地识别用户输入的语音信息，才能够保证提供给用户的服务更加准确。例如，终端中包含地图应用软件，用户可以通过该地图应用软件获取自当前位置至期望地点之间的路线；例如，当用户想去“北京xx饭店”，终端接收到用户输入的语音信息，即对用户输入的语音信息进行识别，得到“北京xx饭店”的文本信息，地图应用软件在地图上对“北京xx饭店”的文本信息进行搜索，并根据用户当前的位置，规划用户当前的位置至“北京xx饭店”的路线；但是当北京包含至少两个饭店名称，发音均为“xx饭店”对应的拼音时，那么地图应用软件将会呈现多个文本信息的识别结果，或者，地图应用软件将默认呈现距离用户当前位置最近的“xx饭店”，此时，用户需要对呈现的搜索结果进行手动筛选，地图应用软件根据用户手动筛选的结果，进行路线规划，或者，终端将呈现错误的路线。

由此可见，目前语音识别结果，存在错误率高的问题。

发明内容

本发明实施例提供一种语音识别方法及装置，用以解决目前语音识别结果，存在错误率高的问题。

本发明实施例提供的具体技术方案如下：

本发明实施例提供一种语音识别方法，包括：

接收终端发送的语音数据包；其中，所述语音数据包中包含语音信息；

获取所述语音信息的声学特征信息；其中，所述声学特征信息为表征所述语音信息的声音特性的信息；

将所述声学特征信息依次输入预设的声学模型和语言模型，获取对所述语音信息进行识别得到的初始文本信息；

根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息；

将所述最终文本信息发送至所述终端。

本发明实施例提供一种语音识别装置，包括：

接收单元，用于接收终端发送的语音数据包；其中，所述语音数据包中包含语音信息；

声学特征信息获取单元，用于获取所述语音信息的声学特征信息；其中，所述声学特征信息为表征所述语音信息的声音特性的信息；

初始文本信息获取单元，用于将所述声学特征信息依次输入预设的声学模型和语言模型，获取对所述语音信息进行识别得到的初始文本信息；

最终文本信息生成单元，用于根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息；

发送单元，用于将所述最终文本信息发送至所述终端。

附图说明

图1为本发明实施例中语音识别***架构示意图；

图2为本发明实施例一中语音识别流程图；

图3为本发明实施二例数据库建立流程图；

图4为本发明实施例三中语音识别装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图，对本发明实施例作进一步详细描述。

参阅图1所示，为本发明实施例中，语音识别***架构示意图，该语音识别***包含终端和服务器；其中，所述终端为具备通信功能的终端，且所述终端为具备人机交互界面的终端，如所述终端为个人计算机，平板电脑，手机等，所述终端中可以承载各种操作***，如微软操作***，安卓操作***，ios操作***等，且所述终端中可以承载各种与本终端中安装的操作***相兼容的应用软件，如地图应用软件，聊天工具应用软件等；所述服务器具备语音识别部件，语音识别修正部件，所述语音识别部件用于对所述终端发送的语音信息进行识别，所述语音识别修正部件用于对所述语音识别部件识别的结果进行修正；进一步的，所述服务器还包括声纹服务部件，TTS(TextTo Speech；从文本到语言)，数据服务部件，用户数据库等，其中，所述声纹服务部件，用于对所述终端发送的语音信息进行分析，获取初始用户信息，所述TTS，用于将最终文本信息转换为语音信息，所述数据服务部件，用于对所述声纹服务部件得到的初始用户信息进行分析，得到最终的用户信息，所述数据库用于存储所述数据服务部件分析得到的用户信息，以及所述用户信息对应的终端标识。

实施例一

参阅图2所示，本发明实施例中，服务器进行语音识别的过程，包括：

步骤200：接收终端发送的语音数据包；其中，所述语音数据包中包含语音信息。

本发明实施例中，终端通过语音采集部件，调用SDK(SoftwareDevelopment Kit；软件开发工具包)获取用户输入的语音信息；所述终端根据所述语音信息，生成语音数据包；并将所述语音数据包发送至所述服务器。

可选的，所述终端和所述服务器之间包含无线通信网络，所述终端通过所述无线通信网络将包含所述语音信息的语音数据包发送至所述服务器。

进一步的，在服务器接收到终端发送的语音数据包之后，对采集的语音信息进行去除噪声处理，以剔除所述语音信息中的干扰因素，该干扰因素为如用户输入语音信息时的背景音乐，或者背景噪音等，从而保证了获取的最终文本信息的准确性。

步骤210：获取所述语音信息的声学特征信息；其中，所述声学特征信息为表征所述语音信息的声音特性的信息。

本发明实施例中，服务器中的语音识别部件对所述语音信息进行解析，获取所述语音信息中包含的声学特征信息；其中，所述声学特征信息为一系列频谱信息，由于每一个字或者单词的发音反应在声学上均为一段频谱，不同发音的字对应的频谱不同，因此，该频谱信息能够表征语音信息的声音特性的信息。

步骤220：将所述声学特征信息依次输入预设的声学模型和语言模型，获取对所述语音信息进行识别得到的初始文本信息。

本发明实施例中，服务器中的语音识别部件将所述声学特征信息依次输入预设的声学模型和语言模型，获取所述语言模型识别得到的初始文本信息。

可选的，所述服务器中的语音识别部件将所述声学特征信息输入预设的声学模型，获取所述声学模型输出的发音模板标识；将所述发音模板标识输入所述语言模型，获取所述语言模型输出的初始文本信息。其中，所述声学模型和所述语音模型根据动态时间调整原理、隐马尔科夫原理，或者矢量量化原理，对大量训练样本进行训练得到。

具体的，所述声学模型分别将所述声学特征信息与所述声学模型中包含的各个发音模板进行匹配，并获取所述声学特征信息与所述声学模型中包含的各个发音模板之间的距离，其中，所述声学模板包括字发音模型、半音节模型或者素模型；所述声学模型从所有发音模板中，获取与所述声学特征信息中包含的每个发音距离最小的发音模板；由于声学模型中的发音模板与所述语言模型中的文本存在映射关系，因此，将所述发音模板的标识输入所述语言模型，所述语言模型即可获取与所述发音模板的标识对应的文本；

可选的，所述语言模型包含多个树状结构，每个树状结构以每一个字或者每一个发音为根节点，每一个子节点均为各个字能够组成的词组；由于每一个发音可能对应多个文本，因此，所述语言模型针对所述声学模型输出的每一个发音模板标识，均执行如下操作：查询该发音模板标识对应的每一个树状结构，并根据该发音模板标识之后的发音模板标识，获取该发音模板标识对应的文本以及该发音模板标识之后的发音模板标识对应的标识；以此类推，获取所述语音信息对应的所有文本，并根据所述所有文本，生成初始文本信息。其中，所述语言模型可以输出一个初始文本信息，也可以输出多个初始文本信息。

采用上述技术方案，由于声学模型和语言模型是根据对大量语音信息进行科学训练得到的，因此，将语音信息输入所述声学模型和语言模型，能够得到更加准确的初始文本信息。

步骤230：根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息。

本发明实施例中，所述服务器中的语音识别修正部件从所述用户数据库中提取预存的用户信息；并根据预存的用户信息，对所述初始文本信息进行修正处理；其中，所述用户信息由用户通过终端上传，和/或，由所述服务器根据对大量用户的语音信息进行识别训练得到。

可选的，所述预存的用户信息的获取方法，包括：服务器获取所述语音数据包中包含的终端的标识；从用户信息集合中查找所述终端的标识对应的用户信息；其中，所述用户信息包括历史时间点用户的位置，所述用户的年龄，或者所述用户的性别；所述用户信息集合包含终端的标识及用户信息的对应关系。

可选的，根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息，具体包括：对所述初始文本信息进行划分，获取每一个分词；针对所述分词中的位置分词，将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点，并获取查找到的历史时间点所述用户的位置，若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功，且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值，则用所述获取的用户的位置替换所述位置分词；针对所述分词中的特殊分词，根据所述用户信息中包含的用户年龄或者用户性别，对所述特殊分词进行修正处理；其中，所述特殊分词为存在同音不同义的分词。

可选的，所述当前时间点与所述历史时间点匹配，是指所述当前时间点与所述历史时间点之间的时间差小于预设时间差范围；该预设时间差范围根据具体应用场景设置。

例如，当初始文本信息为“去全聚德路况如何”，由于北京包含多家全聚德，服务器首先获取所述初始文本信息中包含的位置分词“全聚德”，服务器获取当前时间为下午18：00，服务器检测到用户曾经有三次在18:10左右位于和平门全聚德店，因此，服务器将默认为用户搜索的是“和平门全聚德”，服务器将所述初始文本信息修正为“去和平门全聚德路况如何”。

再如，当初始文本信息为“交通状况如何”，服务器将默认该初始文本信息中包含位置分词，服务器获取当前时间为下午18：00，服务器检测到用户在该时间点左右均位于“xx小区”，因此，服务器将所述初始文本信息修正为“去xx小区交通状况如何”。

还如，当初始文本信息为“玉溪怎么样”，由于“玉溪”存在同音字“羽西”，因此，服务器获取所述用户的年龄和性别，当所述用户的年龄为20-26，所述用户的性别为女性时，所述服务器将所述初始文本信息修正为“羽西怎么样”。

进一步的，当所述处理文本信息的数目为多个时，服务器可以采用上述方式，从所述初始文本信息中筛选最为准确的初始文本信息，并对所述选取的初始文本信息进行修正。

进一步的，所述服务器还可以根据发送所述语音数据包的应用软件的类型，对所述初始文本信息进行修正；例如，当用户输入的语音信息为“羽西怎么样”，由于终端正在运行的应用软件为地图应用软件时，由于“羽西”不是一个地名，因此，服务器将所述初始文本信息修正为“玉溪怎么样”。

进一步的，根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息，还包括：当本地不包含所述终端的标识对应的用户信息时，根据所述声学特征信息，确定提供所述语音信息的用户的年龄和性别；根据确定的提供所述语音信息的用户的年龄和性别，对所述初始文本信息进行修正处理，生成最终文本信息。

可选的，所述声学特征信息，确定提供所述语音信息的用户的年龄和性别，具体包括：声纹服务部件提取所述声学特征信息中的生物特征数据，其中，所述生物特征数据包含音色，音质，声调，语速等；所述声纹服务部件根据所述生物特征数据，以及所述声学模型，获取所述用户的年龄和性别。

步骤240：将所述最终文本信息发送至所述终端。

本发明实施例中，服务器将所述最终文本信息通过无线通信网络发送至所述终端。

进一步的，生成最终文本信息之后，所述服务器可以将所述最终文本信息转换为语音信息；并将所述语音信息发送给所述终端，由终端播放所述最终文本信息。

进一步的，生成最终文本信息之后，所述服务器可以根据所述最终文本信息，获取所述用户请求的服务，并生成所述用户所请求的服务对应的数据包发送至终端。其中，所述数据包可以为文本形式，也可以为语音形式。

采用上述技术方案，根据用户的个性化信息，针对已经识别得到的初始文本信息进行修正处理，以对所述初始文本信息中的错误进行修正，从而提高了语音识别的准确度；并且，将修正后生成的最终文本信息发送至所述终端，使终端能给根据更为准确的最终文本信息，向用户提供更为精准的服务。

实施例二

参阅图3所示，本发明实施例中，服务器的数据库中包含的用户信息的生成过程，包括：

步骤300：接收终端发送的语音数据包；其中，所述语音数据包中包含语音信息。

步骤310：获取所述语音信息中包含的声学特征信息。

步骤320：根据所述声学特征信息，确定提供所述语音信息的用户的年龄和性别，以及最终文本信息；根据确定的提供所述语音信息的用户的年龄和性别。

可选的，服务器还可以根据所述声学特征信息，获取环境数据，例如，时间和用户行动范围等。

步骤330：对确定的用户的年龄和性别，以及最终文本信息进行分析，并根据分析结果，生成用户信息。

可选的，所述服务器还可以根据所述环境数据，生成用户信息。

步骤340：建立所述终端的标识，及生成的用户信息之间的对应关系，将所述对应关系存储至所述用户信息集合中。

实施例三

基于上述技术方案，参阅图4所示，本发明实施例中，提供一种内存空间清理装置，包括接收单元40，声学特征信息获取单元41，初始文本信息获取单元42，最终文本信息生成单元43，以及发送单元44，其中：

接收单元40，用于接收终端发送的语音数据包；其中，所述语音数据包中包含语音信息；

声学特征信息获取单元41，用于获取所述语音信息的声学特征信息；其中，所述声学特征信息为表征所述语音信息的声音特性的信息；

初始文本信息获取单元42，用于将所述声学特征信息依次输入预设的声学模型和语言模型，获取对所述语音信息进行识别得到的初始文本信息；

最终文本信息生成单元43，用于根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息；

发送单元44，用于将所述最终文本信息发送至所述终端。

进一步的，所述语音数据包中还包含终端标识；还包括预存信息获取单元45，用于：从用户信息集合中查找所述终端的标识对应的用户信息；其中，所述用户信息包括历史时间点用户的位置，所述用户的年龄，或者所述用户的性别；所述用户信息集合包含终端的标识及用户信息的对应关系。

可选的，所述初始文本信息获取单元42，具体包括：将所述声学特征信息输入预设的声学模型，获取所述声学模型输出的发音模板标识；将所述发音模板标识输入所述语言模型，获取所述语言模型输出的初始文本信息。

可选的，所述最终文本信息生成单元43，具体用于：对所述初始文本信息进行划分，获取每一个分词；针对所述分词中的位置分词，将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点，并获取查找到的历史时间点所述用户的位置，若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功，且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值，则用所述获取的用户的位置替换所述位置分词；针对所述分词中的特殊分词，根据所述用户信息中包含的用户年龄或者用户性别，对所述特殊分词进行修正处理；其中，所述特殊分词为存在同音不同义的分词。

进一步的，所述最终文本信息生成单元43，还用于：当本地不包含所述终端的标识对应的用户信息时，根据所述声学特征信息，确定提供所述语音信息的用户的年龄和性别；根据确定的提供所述语音信息的用户的年龄和性别，对所述初始文本信息进行修正处理，生成最终文本信息。

进一步的，还包括处理单元46，用于：生成最终文本信息之后，对确定的用户的年龄和性别，以及最终文本信息进行分析，并根据分析结果，生成用户信息；建立所述终端的标识，及生成的用户信息之间的对应关系，将所述对应关系存储至所述用户信息集合中。

综上所述，本发明实施例中，通过接收终端发送的语音信息，获取所述语音信息的声学特征信息；将所述声学特征信息依次输入声学模型和语言模型，获取所述声学模型和所述语音模型对所述语音信息进行识别得到的初始文本信息；根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息。采用本发明实施例技术方案，针对已经识别得到的初始文本信息进行修正处理，以对所述初始文本信息中的错误进行修正，将修正后生成的最终文本信息发送至所述终端，使终端能给根据更为准确的最终文本信息，向用户提供更为精准的服务。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

将所述最终文本信息发送至所述终端。

2.根据权利要求1所述的方法，其特征在于，所述语音数据包中还包含终端标识；

所述预存的用户信息的获取方法，包括：

从用户信息集合中查找所述终端的标识对应的用户信息；其中，所述用户信息包括历史时间点用户的位置，所述用户的年龄，或者所述用户的性别；所述用户信息集合包含终端的标识及用户信息的对应关系。

3.根据权利要求2所述的方法，其特征在于，将所述声学特征信息依次输入预设的声学模型和语言模型，获取对所述语音信息进行识别得到的初始文本信息，具体包括：

将所述声学特征信息输入预设的声学模型，获取所述声学模型输出的发音模板标识；

将所述发音模板标识输入所述语言模型，获取所述语言模型输出的初始文本信息。

4.根据权利要求2或3所述的方法，其特征在于，根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息，具体包括：

对所述初始文本信息进行划分，获取每一个分词；针对所述分词中的位置分词，将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点，并获取查找到的历史时间点所述用户的位置，若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功，且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值，则用所述获取的用户的位置替换所述位置分词；针对所述分词中的特殊分词，根据所述用户信息中包含的用户年龄或者用户性别，对所述特殊分词进行修正处理；其中，所述特殊分词为存在同音不同义的分词。

5.根据权利要求4所述的方法，其特征在于，根据预存的用户信息，对所述初始文本信息进行修正处理，生成最终文本信息，还包括：

当本地不包含所述终端的标识对应的用户信息时，根据所述声学特征信息，确定提供所述语音信息的用户的年龄和性别；

根据确定的提供所述语音信息的用户的年龄和性别，对所述初始文本信息进行修正处理，生成最终文本信息。

6.根据权利要求5所述的方法，其特征在于，生成最终文本信息之后，所述方法还包括：

对确定的用户的年龄和性别，以及最终文本信息进行分析，并根据分析结果，生成用户信息；

建立所述终端的标识，及生成的用户信息之间的对应关系，将所述对应关系存储至所述用户信息集合中。

7.一种语音识别装置，其特征在于，包括：

发送单元，用于将所述最终文本信息发送至所述终端。

8.根据权利要求7所述的装置，其特征在于，所述语音数据包中还包含终端标识；

还包括预存信息获取单元，用于：

9.根据权利要求8所述的装置，其特征在于，所述初始文本信息获取单元，具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述最终文本信息生成单元，具体用于：

对所述初始文本信息进行划分，获取每一个分词；

针对所述分词中的位置分词，将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点，并获取查找到的历史时间点所述用户的位置，若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功，且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值，则用所述获取的用户的位置替换所述位置分词；

针对所述分词中的特殊分词，根据所述用户信息中包含的用户年龄或者用户性别，对所述特殊分词进行修正处理；其中，所述特殊分词为存在同音不同义的分词。

11.根据权利要求10所述的装置，其特征在于，所述最终文本信息生成单元，还用于：

12.根据权利要求11所述的装置，其特征在于，还包括处理单元，用于：

生成最终文本信息之后，对确定的用户的年龄和性别，以及最终文本信息进行分析，并根据分析结果，生成用户信息；