CN105895103A - 一种语音识别方法及装置 - Google Patents

一种语音识别方法及装置 Download PDF

Info

Publication number
CN105895103A
CN105895103A CN201510883295.6A CN201510883295A CN105895103A CN 105895103 A CN105895103 A CN 105895103A CN 201510883295 A CN201510883295 A CN 201510883295A CN 105895103 A CN105895103 A CN 105895103A
Authority
CN
China
Prior art keywords
user
information
participle
user profile
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510883295.6A
Other languages
English (en)
Other versions
CN105895103B (zh
Inventor
田伟森
赵恒艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201510883295.6A priority Critical patent/CN105895103B/zh
Publication of CN105895103A publication Critical patent/CN105895103A/zh
Application granted granted Critical
Publication of CN105895103B publication Critical patent/CN105895103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种语音识别方法及装置,通过接收终端发送的语音信息,获取所述语音信息的声学特征信息;将所述声学特征信息依次输入声学模型和语言模型,获取所述声学模型和所述语音模型对所述语音信息进行识别得到的初始文本信息;根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息。采用本发明实施例技术方案,针对已经识别得到的初始文本信息进行修正处理,以对所述初始文本信息中的错误进行修正,将修正后生成的最终文本信息发送至所述终端,使终端能给根据更为准确的最终文本信息,向用户提供更为精准的服务。

Description

一种语音识别方法及装置
技术领域
本发明实施例涉及语音信息处理技术领域,尤其涉及一种语音识别方法及装置。
背景技术
语音识别技术是让机器通过识别和理解过程将语音信号转换为相应的命令或文本的技术。目前,语音识别技术广泛应用于语音操控、语音翻译等语音交互产品。
目前,多种终端具备语音输入功能,各种安装在终端上的应用软件均需要基于语音识别结果执行相应的操作,从而生成用户所需要的信息,呈现给用户。当终端的语音识别较佳,能够准确地识别用户输入的语音信息,才能够保证提供给用户的服务更加准确。例如,终端中包含地图应用软件,用户可以通过该地图应用软件获取自当前位置至期望地点之间的路线;例如,当用户想去“北京xx饭店”,终端接收到用户输入的语音信息,即对用户输入的语音信息进行识别,得到“北京xx饭店”的文本信息,地图应用软件在地图上对“北京xx饭店”的文本信息进行搜索,并根据用户当前的位置,规划用户当前的位置至“北京xx饭店”的路线;但是当北京包含至少两个饭店名称,发音均为“xx饭店”对应的拼音时,那么地图应用软件将会呈现多个文本信息的识别结果,或者,地图应用软件将默认呈现距离用户当前位置最近的“xx饭店”,此时,用户需要对呈现的搜索结果进行手动筛选,地图应用软件根据用户手动筛选的结果,进行路线规划,或者,终端将呈现错误的路线。
由此可见,目前语音识别结果,存在错误率高的问题。
发明内容
本发明实施例提供一种语音识别方法及装置,用以解决目前语音识别结果,存在错误率高的问题。
本发明实施例提供的具体技术方案如下:
本发明实施例提供一种语音识别方法,包括:
接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息;
获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息;
将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息;
根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息;
将所述最终文本信息发送至所述终端。
本发明实施例提供一种语音识别装置,包括:
接收单元,用于接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息;
声学特征信息获取单元,用于获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息;
初始文本信息获取单元,用于将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息;
最终文本信息生成单元,用于根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息;
发送单元,用于将所述最终文本信息发送至所述终端。
本发明实施例提供一种语音识别方法及装置,通过接收终端发送的语音信息,获取所述语音信息的声学特征信息;将所述声学特征信息依次输入声学模型和语言模型,获取所述声学模型和所述语音模型对所述语音信息进行识别得到的初始文本信息;根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息。采用本发明实施例技术方案,针对已经识别得到的初始文本信息进行修正处理,以对所述初始文本信息中的错误进行修正,将修正后生成的最终文本信息发送至所述终端,使终端能给根据更为准确的最终文本信息,向用户提供更为精准的服务。
附图说明
图1为本发明实施例中语音识别***架构示意图;
图2为本发明实施例一中语音识别流程图;
图3为本发明实施二例数据库建立流程图;
图4为本发明实施例三中语音识别装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图,对本发明实施例作进一步详细描述。
参阅图1所示,为本发明实施例中,语音识别***架构示意图,该语音识别***包含终端和服务器;其中,所述终端为具备通信功能的终端,且所述终端为具备人机交互界面的终端,如所述终端为个人计算机,平板电脑,手机等,所述终端中可以承载各种操作***,如微软操作***,安卓操作***,ios操作***等,且所述终端中可以承载各种与本终端中安装的操作***相兼容的应用软件,如地图应用软件,聊天工具应用软件等;所述服务器具备语音识别部件,语音识别修正部件,所述语音识别部件用于对所述终端发送的语音信息进行识别,所述语音识别修正部件用于对所述语音识别部件识别的结果进行修正;进一步的,所述服务器还包括声纹服务部件,TTS(TextTo Speech;从文本到语言),数据服务部件,用户数据库等,其中,所述声纹服务部件,用于对所述终端发送的语音信息进行分析,获取初始用户信息,所述TTS,用于将最终文本信息转换为语音信息,所述数据服务部件,用于对所述声纹服务部件得到的初始用户信息进行分析,得到最终的用户信息,所述数据库用于存储所述数据服务部件分析得到的用户信息,以及所述用户信息对应的终端标识。
实施例一
参阅图2所示,本发明实施例中,服务器进行语音识别的过程,包括:
步骤200:接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息。
本发明实施例中,终端通过语音采集部件,调用SDK(SoftwareDevelopment Kit;软件开发工具包)获取用户输入的语音信息;所述终端根据所述语音信息,生成语音数据包;并将所述语音数据包发送至所述服务器。
可选的,所述终端和所述服务器之间包含无线通信网络,所述终端通过所述无线通信网络将包含所述语音信息的语音数据包发送至所述服务器。
进一步的,在服务器接收到终端发送的语音数据包之后,对采集的语音信息进行去除噪声处理,以剔除所述语音信息中的干扰因素,该干扰因素为如用户输入语音信息时的背景音乐,或者背景噪音等,从而保证了获取的最终文本信息的准确性。
步骤210:获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息。
本发明实施例中,服务器中的语音识别部件对所述语音信息进行解析,获取所述语音信息中包含的声学特征信息;其中,所述声学特征信息为一系列频谱信息,由于每一个字或者单词的发音反应在声学上均为一段频谱,不同发音的字对应的频谱不同,因此,该频谱信息能够表征语音信息的声音特性的信息。
步骤220:将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息。
本发明实施例中,服务器中的语音识别部件将所述声学特征信息依次输入预设的声学模型和语言模型,获取所述语言模型识别得到的初始文本信息。
可选的,所述服务器中的语音识别部件将所述声学特征信息输入预设的声学模型,获取所述声学模型输出的发音模板标识;将所述发音模板标识输入所述语言模型,获取所述语言模型输出的初始文本信息。其中,所述声学模型和所述语音模型根据动态时间调整原理、隐马尔科夫原理,或者矢量量化原理,对大量训练样本进行训练得到。
具体的,所述声学模型分别将所述声学特征信息与所述声学模型中包含的各个发音模板进行匹配,并获取所述声学特征信息与所述声学模型中包含的各个发音模板之间的距离,其中,所述声学模板包括字发音模型、半音节模型或者素模型;所述声学模型从所有发音模板中,获取与所述声学特征信息中包含的每个发音距离最小的发音模板;由于声学模型中的发音模板与所述语言模型中的文本存在映射关系,因此,将所述发音模板的标识输入所述语言模型,所述语言模型即可获取与所述发音模板的标识对应的文本;
可选的,所述语言模型包含多个树状结构,每个树状结构以每一个字或者每一个发音为根节点,每一个子节点均为各个字能够组成的词组;由于每一个发音可能对应多个文本,因此,所述语言模型针对所述声学模型输出的每一个发音模板标识,均执行如下操作:查询该发音模板标识对应的每一个树状结构,并根据该发音模板标识之后的发音模板标识,获取该发音模板标识对应的文本以及该发音模板标识之后的发音模板标识对应的标识;以此类推,获取所述语音信息对应的所有文本,并根据所述所有文本,生成初始文本信息。其中,所述语言模型可以输出一个初始文本信息,也可以输出多个初始文本信息。
采用上述技术方案,由于声学模型和语言模型是根据对大量语音信息进行科学训练得到的,因此,将语音信息输入所述声学模型和语言模型,能够得到更加准确的初始文本信息。
步骤230:根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息。
本发明实施例中,所述服务器中的语音识别修正部件从所述用户数据库中提取预存的用户信息;并根据预存的用户信息,对所述初始文本信息进行修正处理;其中,所述用户信息由用户通过终端上传,和/或,由所述服务器根据对大量用户的语音信息进行识别训练得到。
可选的,所述预存的用户信息的获取方法,包括:服务器获取所述语音数据包中包含的终端的标识;从用户信息集合中查找所述终端的标识对应的用户信息;其中,所述用户信息包括历史时间点用户的位置,所述用户的年龄,或者所述用户的性别;所述用户信息集合包含终端的标识及用户信息的对应关系。
可选的,根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息,具体包括:对所述初始文本信息进行划分,获取每一个分词;针对所述分词中的位置分词,将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点,并获取查找到的历史时间点所述用户的位置,若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功,且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值,则用所述获取的用户的位置替换所述位置分词;针对所述分词中的特殊分词,根据所述用户信息中包含的用户年龄或者用户性别,对所述特殊分词进行修正处理;其中,所述特殊分词为存在同音不同义的分词。
可选的,所述当前时间点与所述历史时间点匹配,是指所述当前时间点与所述历史时间点之间的时间差小于预设时间差范围;该预设时间差范围根据具体应用场景设置。
例如,当初始文本信息为“去全聚德路况如何”,由于北京包含多家全聚德,服务器首先获取所述初始文本信息中包含的位置分词“全聚德”,服务器获取当前时间为下午18:00,服务器检测到用户曾经有三次在18:10左右位于和平门全聚德店,因此,服务器将默认为用户搜索的是“和平门全聚德”,服务器将所述初始文本信息修正为“去和平门全聚德路况如何”。
再如,当初始文本信息为“交通状况如何”,服务器将默认该初始文本信息中包含位置分词,服务器获取当前时间为下午18:00,服务器检测到用户在该时间点左右均位于“xx小区”,因此,服务器将所述初始文本信息修正为“去xx小区交通状况如何”。
还如,当初始文本信息为“玉溪怎么样”,由于“玉溪”存在同音字“羽西”,因此,服务器获取所述用户的年龄和性别,当所述用户的年龄为20-26,所述用户的性别为女性时,所述服务器将所述初始文本信息修正为“羽西怎么样”。
进一步的,当所述处理文本信息的数目为多个时,服务器可以采用上述方式,从所述初始文本信息中筛选最为准确的初始文本信息,并对所述选取的初始文本信息进行修正。
进一步的,所述服务器还可以根据发送所述语音数据包的应用软件的类型,对所述初始文本信息进行修正;例如,当用户输入的语音信息为“羽西怎么样”,由于终端正在运行的应用软件为地图应用软件时,由于“羽西”不是一个地名,因此,服务器将所述初始文本信息修正为“玉溪怎么样”。
进一步的,根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息,还包括:当本地不包含所述终端的标识对应的用户信息时,根据所述声学特征信息,确定提供所述语音信息的用户的年龄和性别;根据确定的提供所述语音信息的用户的年龄和性别,对所述初始文本信息进行修正处理,生成最终文本信息。
可选的,所述声学特征信息,确定提供所述语音信息的用户的年龄和性别,具体包括:声纹服务部件提取所述声学特征信息中的生物特征数据,其中,所述生物特征数据包含音色,音质,声调,语速等;所述声纹服务部件根据所述生物特征数据,以及所述声学模型,获取所述用户的年龄和性别。
步骤240:将所述最终文本信息发送至所述终端。
本发明实施例中,服务器将所述最终文本信息通过无线通信网络发送至所述终端。
进一步的,生成最终文本信息之后,所述服务器可以将所述最终文本信息转换为语音信息;并将所述语音信息发送给所述终端,由终端播放所述最终文本信息。
进一步的,生成最终文本信息之后,所述服务器可以根据所述最终文本信息,获取所述用户请求的服务,并生成所述用户所请求的服务对应的数据包发送至终端。其中,所述数据包可以为文本形式,也可以为语音形式。
采用上述技术方案,根据用户的个性化信息,针对已经识别得到的初始文本信息进行修正处理,以对所述初始文本信息中的错误进行修正,从而提高了语音识别的准确度;并且,将修正后生成的最终文本信息发送至所述终端,使终端能给根据更为准确的最终文本信息,向用户提供更为精准的服务。
实施例二
参阅图3所示,本发明实施例中,服务器的数据库中包含的用户信息的生成过程,包括:
步骤300:接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息。
步骤310:获取所述语音信息中包含的声学特征信息。
步骤320:根据所述声学特征信息,确定提供所述语音信息的用户的年龄和性别,以及最终文本信息;根据确定的提供所述语音信息的用户的年龄和性别。
可选的,服务器还可以根据所述声学特征信息,获取环境数据,例如,时间和用户行动范围等。
步骤330:对确定的用户的年龄和性别,以及最终文本信息进行分析,并根据分析结果,生成用户信息。
可选的,所述服务器还可以根据所述环境数据,生成用户信息。
步骤340:建立所述终端的标识,及生成的用户信息之间的对应关系,将所述对应关系存储至所述用户信息集合中。
实施例三
基于上述技术方案,参阅图4所示,本发明实施例中,提供一种内存空间清理装置,包括接收单元40,声学特征信息获取单元41,初始文本信息获取单元42,最终文本信息生成单元43,以及发送单元44,其中:
接收单元40,用于接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息;
声学特征信息获取单元41,用于获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息;
初始文本信息获取单元42,用于将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息;
最终文本信息生成单元43,用于根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息;
发送单元44,用于将所述最终文本信息发送至所述终端。
进一步的,所述语音数据包中还包含终端标识;还包括预存信息获取单元45,用于:从用户信息集合中查找所述终端的标识对应的用户信息;其中,所述用户信息包括历史时间点用户的位置,所述用户的年龄,或者所述用户的性别;所述用户信息集合包含终端的标识及用户信息的对应关系。
可选的,所述初始文本信息获取单元42,具体包括:将所述声学特征信息输入预设的声学模型,获取所述声学模型输出的发音模板标识;将所述发音模板标识输入所述语言模型,获取所述语言模型输出的初始文本信息。
可选的,所述最终文本信息生成单元43,具体用于:对所述初始文本信息进行划分,获取每一个分词;针对所述分词中的位置分词,将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点,并获取查找到的历史时间点所述用户的位置,若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功,且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值,则用所述获取的用户的位置替换所述位置分词;针对所述分词中的特殊分词,根据所述用户信息中包含的用户年龄或者用户性别,对所述特殊分词进行修正处理;其中,所述特殊分词为存在同音不同义的分词。
进一步的,所述最终文本信息生成单元43,还用于:当本地不包含所述终端的标识对应的用户信息时,根据所述声学特征信息,确定提供所述语音信息的用户的年龄和性别;根据确定的提供所述语音信息的用户的年龄和性别,对所述初始文本信息进行修正处理,生成最终文本信息。
进一步的,还包括处理单元46,用于:生成最终文本信息之后,对确定的用户的年龄和性别,以及最终文本信息进行分析,并根据分析结果,生成用户信息;建立所述终端的标识,及生成的用户信息之间的对应关系,将所述对应关系存储至所述用户信息集合中。
综上所述,本发明实施例中,通过接收终端发送的语音信息,获取所述语音信息的声学特征信息;将所述声学特征信息依次输入声学模型和语言模型,获取所述声学模型和所述语音模型对所述语音信息进行识别得到的初始文本信息;根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息。采用本发明实施例技术方案,针对已经识别得到的初始文本信息进行修正处理,以对所述初始文本信息中的错误进行修正,将修正后生成的最终文本信息发送至所述终端,使终端能给根据更为准确的最终文本信息,向用户提供更为精准的服务。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (12)

1.一种语音识别方法,其特征在于,包括:
接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息;
获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息;
将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息;
根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息;
将所述最终文本信息发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述语音数据包中还包含终端标识;
所述预存的用户信息的获取方法,包括:
从用户信息集合中查找所述终端的标识对应的用户信息;其中,所述用户信息包括历史时间点用户的位置,所述用户的年龄,或者所述用户的性别;所述用户信息集合包含终端的标识及用户信息的对应关系。
3.根据权利要求2所述的方法,其特征在于,将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息,具体包括:
将所述声学特征信息输入预设的声学模型,获取所述声学模型输出的发音模板标识;
将所述发音模板标识输入所述语言模型,获取所述语言模型输出的初始文本信息。
4.根据权利要求2或3所述的方法,其特征在于,根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息,具体包括:
对所述初始文本信息进行划分,获取每一个分词;针对所述分词中的位置分词,将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点,并获取查找到的历史时间点所述用户的位置,若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功,且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值,则用所述获取的用户的位置替换所述位置分词;针对所述分词中的特殊分词,根据所述用户信息中包含的用户年龄或者用户性别,对所述特殊分词进行修正处理;其中,所述特殊分词为存在同音不同义的分词。
5.根据权利要求4所述的方法,其特征在于,根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息,还包括:
当本地不包含所述终端的标识对应的用户信息时,根据所述声学特征信息,确定提供所述语音信息的用户的年龄和性别;
根据确定的提供所述语音信息的用户的年龄和性别,对所述初始文本信息进行修正处理,生成最终文本信息。
6.根据权利要求5所述的方法,其特征在于,生成最终文本信息之后,所述方法还包括:
对确定的用户的年龄和性别,以及最终文本信息进行分析,并根据分析结果,生成用户信息;
建立所述终端的标识,及生成的用户信息之间的对应关系,将所述对应关系存储至所述用户信息集合中。
7.一种语音识别装置,其特征在于,包括:
接收单元,用于接收终端发送的语音数据包;其中,所述语音数据包中包含语音信息;
声学特征信息获取单元,用于获取所述语音信息的声学特征信息;其中,所述声学特征信息为表征所述语音信息的声音特性的信息;
初始文本信息获取单元,用于将所述声学特征信息依次输入预设的声学模型和语言模型,获取对所述语音信息进行识别得到的初始文本信息;
最终文本信息生成单元,用于根据预存的用户信息,对所述初始文本信息进行修正处理,生成最终文本信息;
发送单元,用于将所述最终文本信息发送至所述终端。
8.根据权利要求7所述的装置,其特征在于,所述语音数据包中还包含终端标识;
还包括预存信息获取单元,用于:
从用户信息集合中查找所述终端的标识对应的用户信息;其中,所述用户信息包括历史时间点用户的位置,所述用户的年龄,或者所述用户的性别;所述用户信息集合包含终端的标识及用户信息的对应关系。
9.根据权利要求8所述的装置,其特征在于,所述初始文本信息获取单元,具体用于:
将所述声学特征信息输入预设的声学模型,获取所述声学模型输出的发音模板标识;
将所述发音模板标识输入所述语言模型,获取所述语言模型输出的初始文本信息。
10.根据权利要求8或9所述的装置,其特征在于,所述最终文本信息生成单元,具体用于:
对所述初始文本信息进行划分,获取每一个分词;
针对所述分词中的位置分词,将所述从所述用户信息中查找与所述当前时间点匹配的历史时间点,并获取查找到的历史时间点所述用户的位置,若所述获取的用户的位置与所述位置分词全部或者部分匹配不成功,且所述位置分词的发音与所述获取的用户的位置发音相似度达到预设阈值,则用所述获取的用户的位置替换所述位置分词;
针对所述分词中的特殊分词,根据所述用户信息中包含的用户年龄或者用户性别,对所述特殊分词进行修正处理;其中,所述特殊分词为存在同音不同义的分词。
11.根据权利要求10所述的装置,其特征在于,所述最终文本信息生成单元,还用于:
当本地不包含所述终端的标识对应的用户信息时,根据所述声学特征信息,确定提供所述语音信息的用户的年龄和性别;
根据确定的提供所述语音信息的用户的年龄和性别,对所述初始文本信息进行修正处理,生成最终文本信息。
12.根据权利要求11所述的装置,其特征在于,还包括处理单元,用于:
生成最终文本信息之后,对确定的用户的年龄和性别,以及最终文本信息进行分析,并根据分析结果,生成用户信息;
建立所述终端的标识,及生成的用户信息之间的对应关系,将所述对应关系存储至所述用户信息集合中。
CN201510883295.6A 2015-12-03 2015-12-03 一种语音识别方法及装置 Active CN105895103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510883295.6A CN105895103B (zh) 2015-12-03 2015-12-03 一种语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510883295.6A CN105895103B (zh) 2015-12-03 2015-12-03 一种语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN105895103A true CN105895103A (zh) 2016-08-24
CN105895103B CN105895103B (zh) 2020-01-17

Family

ID=57002113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510883295.6A Active CN105895103B (zh) 2015-12-03 2015-12-03 一种语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN105895103B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682642A (zh) * 2017-01-06 2017-05-17 竹间智能科技(上海)有限公司 多面向语言行为识别方法及***
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
CN108549628A (zh) * 2018-03-16 2018-09-18 北京云知声信息技术有限公司 流式自然语言信息的断句装置及方法
CN108597495A (zh) * 2018-03-15 2018-09-28 维沃移动通信有限公司 一种处理语音数据的方法及装置
CN108682421A (zh) * 2018-04-09 2018-10-19 平安科技(深圳)有限公司 一种语音识别方法、终端设备及计算机可读存储介质
CN108831479A (zh) * 2018-06-27 2018-11-16 努比亚技术有限公司 一种语音识别方法、终端及计算机可读存储介质
CN109117484A (zh) * 2018-08-13 2019-01-01 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
CN109388699A (zh) * 2018-10-24 2019-02-26 北京小米移动软件有限公司 输入方法、装置、设备及存储介质
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN110534112A (zh) * 2019-08-23 2019-12-03 王晓佳 基于位置与时间的分布式语音识别纠错装置及方法
CN110689881A (zh) * 2018-06-20 2020-01-14 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
WO2020024582A1 (zh) * 2018-07-28 2020-02-06 华为技术有限公司 语音合成方法及相关设备
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN111402870A (zh) * 2019-01-02 2020-07-10 ***通信有限公司研究院 一种语音识别方法、装置及设备
CN111475619A (zh) * 2020-03-31 2020-07-31 北京三快在线科技有限公司 文本信息修正方法、装置、电子设备及存储介质
US10964317B2 (en) 2017-07-05 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Voice wakeup method, apparatus and system, cloud server and readable medium
CN113766171A (zh) * 2021-09-22 2021-12-07 广东电网有限责任公司 基于ai语音控制的变电消缺远程视频会诊***及方法
US11574632B2 (en) 2018-04-23 2023-02-07 Baidu Online Network Technology (Beijing) Co., Ltd. In-cloud wake-up method and system, terminal and computer-readable storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758248A (zh) * 2004-10-05 2006-04-12 微软公司 用于提供个性化搜索和信息访问的***、方法和接口
US20120215537A1 (en) * 2011-02-17 2012-08-23 Yoshihiro Igarashi Sound Recognition Operation Apparatus and Sound Recognition Operation Method
KR20120101855A (ko) * 2011-03-07 2012-09-17 (주)에이치씨아이랩 연속어 음성인식 결과 교정기 및 음성인식 결과 교정 방법
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
CN105095176A (zh) * 2014-04-29 2015-11-25 华为技术有限公司 用户设备提取文本信息中的特征信息的方法和用户设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1758248A (zh) * 2004-10-05 2006-04-12 微软公司 用于提供个性化搜索和信息访问的***、方法和接口
US20120215537A1 (en) * 2011-02-17 2012-08-23 Yoshihiro Igarashi Sound Recognition Operation Apparatus and Sound Recognition Operation Method
KR20120101855A (ko) * 2011-03-07 2012-09-17 (주)에이치씨아이랩 연속어 음성인식 결과 교정기 및 음성인식 결과 교정 방법
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN104508739A (zh) * 2012-06-21 2015-04-08 谷歌公司 动态语言模型
CN105095176A (zh) * 2014-04-29 2015-11-25 华为技术有限公司 用户设备提取文本信息中的特征信息的方法和用户设备

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682642A (zh) * 2017-01-06 2017-05-17 竹间智能科技(上海)有限公司 多面向语言行为识别方法及***
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
US10964317B2 (en) 2017-07-05 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Voice wakeup method, apparatus and system, cloud server and readable medium
CN107731229A (zh) * 2017-09-29 2018-02-23 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
US11011163B2 (en) 2017-09-29 2021-05-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for recognizing voice
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN108122555A (zh) * 2017-12-18 2018-06-05 北京百度网讯科技有限公司 通讯方法、语音识别设备和终端设备
CN108597495A (zh) * 2018-03-15 2018-09-28 维沃移动通信有限公司 一种处理语音数据的方法及装置
CN108549628A (zh) * 2018-03-16 2018-09-18 北京云知声信息技术有限公司 流式自然语言信息的断句装置及方法
CN108682421A (zh) * 2018-04-09 2018-10-19 平安科技(深圳)有限公司 一种语音识别方法、终端设备及计算机可读存储介质
US11574632B2 (en) 2018-04-23 2023-02-07 Baidu Online Network Technology (Beijing) Co., Ltd. In-cloud wake-up method and system, terminal and computer-readable storage medium
CN110689881A (zh) * 2018-06-20 2020-01-14 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
CN108831479A (zh) * 2018-06-27 2018-11-16 努比亚技术有限公司 一种语音识别方法、终端及计算机可读存储介质
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN110797014B (zh) * 2018-07-17 2024-06-07 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
WO2020024582A1 (zh) * 2018-07-28 2020-02-06 华为技术有限公司 语音合成方法及相关设备
CN109117484B (zh) * 2018-08-13 2019-08-06 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
CN109117484A (zh) * 2018-08-13 2019-01-01 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
CN109388699A (zh) * 2018-10-24 2019-02-26 北京小米移动软件有限公司 输入方法、装置、设备及存储介质
US11335348B2 (en) 2018-10-24 2022-05-17 Beijing Xiaomi Mobile Software Co., Ltd. Input method, device, apparatus, and storage medium
CN111402870B (zh) * 2019-01-02 2023-08-15 ***通信有限公司研究院 一种语音识别方法、装置及设备
CN111402870A (zh) * 2019-01-02 2020-07-10 ***通信有限公司研究院 一种语音识别方法、装置及设备
CN110047467B (zh) * 2019-05-08 2021-09-03 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110246502A (zh) * 2019-06-26 2019-09-17 广东小天才科技有限公司 语音降噪方法、装置及终端设备
CN110534112A (zh) * 2019-08-23 2019-12-03 王晓佳 基于位置与时间的分布式语音识别纠错装置及方法
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN111475619A (zh) * 2020-03-31 2020-07-31 北京三快在线科技有限公司 文本信息修正方法、装置、电子设备及存储介质
CN113766171A (zh) * 2021-09-22 2021-12-07 广东电网有限责任公司 基于ai语音控制的变电消缺远程视频会诊***及方法

Also Published As

Publication number Publication date
CN105895103B (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN105895103A (zh) 一种语音识别方法及装置
CN108447486B (zh) 一种语音翻译方法及装置
CN102243871B (zh) 作为语音识别错误预测器的用于语法适合度评估的方法和***
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别***及语音评分***
CN109410664B (zh) 一种发音纠正方法及电子设备
CN104185868B (zh) 话音认证和语音识别***及方法
CN105512228A (zh) 一种基于智能机器人的双向问答数据处理方法和***
CN108447471A (zh) 语音识别方法及语音识别装置
CN101567189A (zh) 声音识别结果修正装置、方法以及***
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN104008752A (zh) 语音识别装置及方法、以及半导体集成电路装置
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN110120221A (zh) 用于车机***的用户个性化离线语音识别方法及其***
CN109448704A (zh) 语音解码图的构建方法、装置、服务器和存储介质
CN110021293A (zh) 语音识别方法及装置、可读存储介质
CN107240394A (zh) 一种动态自适应语音分析技术以用于人机口语考试的方法及***
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
Stemmer et al. Acoustic modeling of foreign words in a German speech recognition system
US11615787B2 (en) Dialogue system and method of controlling the same
CN114528812A (zh) 一种语音识别方法、***、计算设备及存储介质
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
CN110570838A (zh) 语音流处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 301-1, Room 301-3, Area B2, Animation Building, No. 126 Animation Road, Zhongxin Eco-city, Tianjin Binhai New Area, Tianjin

Applicant after: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

Address before: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant before: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address after: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant after: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address before: 300467 Tianjin Binhai New Area, ecological city, animation Middle Road, building, No. two, B1 District, 201-427

Applicant before: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20210201

Granted publication date: 20200117

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20240201

Granted publication date: 20200117

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240313

Granted publication date: 20200117