CN113053387A

CN113053387A - 一种支持语义理解的语音录入***

Info

Publication number: CN113053387A
Application number: CN202110215699.3A
Authority: CN
Inventors: 孙琪
Original assignee: Shanghai Shengtong Information Technology Co ltd
Current assignee: Shanghai Shengtong Information Technology Co ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-29

Abstract

本发明实例提供一种支持语义理解的语音录入***，以提高语音输入的准确度。一种支持语义理解的语音录入***，主要包括语义理解模块和语音录入模块。语义理解模块的步骤为：预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。本发明实例提出了一种支持语义理解的语音录入***，在录入前收集常用文本集输入其中的语义理解模块，并进行训练学习；接受录入语音时，***可根据录入语音匹配相关的文本。因此，本发明实例的语音录入***既能提高语音录入的准确率，还能避免反复纠错修改所浪费的时间，大大提高从语音转换为文字的效率。

Description

一种支持语义理解的语音录入***

技术领域

本发明涉及语音识别技术领域，特别是涉及一种支持语义理解的语音录入***。

背景技术

智能语音技术的发展使得语音录入功能成为可能，语音录入***可以收集录入对象发出的语音信号，并将通过语音识别技术将其转换成文字输入。语音录入功能具有便捷、高效、强理解性、强互动性，可应用于日常生活、高空作业、步行与驾驶、课堂会议等各种不同的场景，解放录入对象双手，满足其不同的需求。

目前，语音识别技术原理是将输入的语音转换成声音信号，进行一系列信号处理、分帧、声学特征提取等处理，再与储存的声学模型和语音模型比照，得出识别结果。然而，由于各方面的局限性，语音录入的准确性还需要更高层次的发展。在自然语言中，单词是否出现在一个特定的点，需要通过上下文关联内容进行判断；而在语音录入过程中，当录入语音的声学特征模型对应至多个不同的文字或单词时，***会不能准确判断录入对象到底需要的是哪个文字或单词。

语义理解是自然语言处理技术的核心环节，主要采用序列标注方法，可以针对输入材料的内容判断其属于哪个领域、具体对应哪个词槽，达到充分理解语义的目的。

发明内容

针对上述问题，本发明实例提供一种支持语义理解的语音录入***，以提高语音输入的准确度。

为实现上述目的，本发明实例提供如下技术方案：

一种支持语义理解的语音录入***，主要包括语义理解模块和语音录入模块。

进一步地，用常用文本集训练语义理解模块：

对所述文本集进行预处理，具体为：

对所述文本集进行分词；

对所述文本集进行词性标注；

对所述文本集进行命名实体识别；

对所述文本集进行新词发现。

为所述文本集建立主题模型，辨析所述文本集围绕的主题，并分区储存不同主题模型的文本集。

分别提取所述各分区的所述文本集的特征，如构建词向量空间和句向量空间、给词组权重打分、计算词频域特征等：

优选地，对所述文本集进行词组权重计算，具体为：

构建词组权重打分公式；

根据所述词组权重提取所述文本集的核心词、关键词。

优选地，构建所述文本集的词向量和句向量空间。

所述特征进行筛选，选择区分度高的所述特征。

训练所述各分区的所述文本集的语言模型，储存所述语言模型。

进一步地，语音录入模块由语音接收、预处理、语音识别、保存交互部分组成：

语音接收部分：与外置收音设备连接，采集录入对象的语音信号，并输入预处理部分。

预处理部分：从所述语音接收部分接收所述语音信号，完成信号处理及特征提取，从输入信号中提取特征，并降低环境噪声、信道、说话人等因素对所述特征造成的影响，输入语音识别部分。

语音识别部分：接收所述预处理部分的所述特征，完成从声音信号到文字输出的转换，具体的：

构建统计声学模型，将所述特征与所述声学模型比对，确定对应信号；

预存标准发音词典；

调用所述语义理解模块的所述语言模型；

根据所述发音词典，使用解码器将所述语言模型与所述声学模型对应上，寻找以最大概率输出所述信号的词组，并串联成句，输入保存交互部分。

保存交互部分：保存并显示和/或输出所述语音识别部分输入的所述文字信息，提供完整的语音录入功能。

相比于现有技术，本发明实例的技术效果和优点：本发明实例提出了一种支持语义理解的语音录入***，在录入前收集常用文本集输入其中的语义理解模块，并进行训练学习；接受录入语音时，***可根据录入语音匹配相关的文本。因此，本发明实例的语音录入***既能提高语音录入的准确率，还能避免反复纠错修改所浪费的时间，大大提高从语音转换为文字的效率。

附图说明

图1为本发明实例支持语义理解的语音录入***在某具体应用场景中的流程示意图。

具体实施方式

为了便于理解和实施本发明实例，下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完善的描述。显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动成果前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

为了实现构建上述语音录入***，通过预先训练好语言模型提高语音录入的准确性和快捷性的目的，本发明提供了支持语义理解的语音录入***实例1；图1为本发明实现语音录入的实施例1的流程示意图；如图1所示，可以包括以下模块和步骤：

进一步地，用常用文本集训练语义理解模块：

对所述文本集进行预处理，具体为：

对所述文本集进行分词，可采用基于字符串匹配、全切分、由字构词、基于深度学习等方法；

对所述文本集进行词性标注；

对所述文本集进行命名实体识别；

对所述文本集进行新词发现。

为所述文本集建立主题模型，辨析所述文本集围绕的主题，可采用pLSA、LDA、NMF、HDP等方法，并分区储存不同主题模型的文本集。

优选地，对所述文本集进行词组权重计算，具体为：

构建词组权重打分公式，通过local、global、normalization公式的组合计算词组权重，可采用TF-IDF、Okapi、MI、LTU、ATC、TF-ICF等方法，或有监督机器学习+逻辑回归模型方法，获得词组权重；

根据所述词组权重提取所述文本集的核心词、关键词。

优选地，采用ffnnlm、word2vec、c-bow等方法构建所述文本集的词向量和句向量空间。

采用基尼系数、信息增益、互信息、相关系数等指标对所述特征进行筛选，选择区分度高的所述特征。

训练所述各分区的所述文本集的语言模型，可采用常用监督模型，如lr、svm、maxent、朴素贝叶斯、决策树、深度神经网络等，储存所述语言模型。

基于一阶隐马尔科夫模型构建统计声学模型，将所述特征与所述声学模型比对，确定对应信号；

预存标准发音词典；

调用所述语义理解模块的所述语言模型；

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并没有因此而理解为对本申请专利范围的限制。应当指出，本发明的各种不同的实施方式之间也可以进行随意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.本发明涉及一种支持语义理解的语音录入***，以提高语音输入的准确度。

2.如权利要求1所述一种支持语义理解的语音录入***，其特征在于，主要包括语义理解模块和语音录入模块。

3.如权利要求1所述一种支持语义理解的语音录入***，其特征在于，语义理解模块的步骤为：预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。

4.如权利要求1所述一种支持语义理解的语音录入***，其特征在于，语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。