CN113053387A - 一种支持语义理解的语音录入*** - Google Patents

一种支持语义理解的语音录入*** Download PDF

Info

Publication number
CN113053387A
CN113053387A CN202110215699.3A CN202110215699A CN113053387A CN 113053387 A CN113053387 A CN 113053387A CN 202110215699 A CN202110215699 A CN 202110215699A CN 113053387 A CN113053387 A CN 113053387A
Authority
CN
China
Prior art keywords
semantic understanding
voice
speech
input
system supporting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110215699.3A
Other languages
English (en)
Inventor
孙琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shengtong Information Technology Co ltd
Original Assignee
Shanghai Shengtong Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shengtong Information Technology Co ltd filed Critical Shanghai Shengtong Information Technology Co ltd
Priority to CN202110215699.3A priority Critical patent/CN113053387A/zh
Publication of CN113053387A publication Critical patent/CN113053387A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明实例提供一种支持语义理解的语音录入***,以提高语音输入的准确度。一种支持语义理解的语音录入***,主要包括语义理解模块和语音录入模块。语义理解模块的步骤为:预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。本发明实例提出了一种支持语义理解的语音录入***,在录入前收集常用文本集输入其中的语义理解模块,并进行训练学习;接受录入语音时,***可根据录入语音匹配相关的文本。因此,本发明实例的语音录入***既能提高语音录入的准确率,还能避免反复纠错修改所浪费的时间,大大提高从语音转换为文字的效率。

Description

一种支持语义理解的语音录入***
技术领域
本发明涉及语音识别技术领域,特别是涉及一种支持语义理解的语音录入***。
背景技术
智能语音技术的发展使得语音录入功能成为可能,语音录入***可以收集录入对象发出的语音信号,并将通过语音识别技术将其转换成文字输入。语音录入功能具有便捷、高效、强理解性、强互动性,可应用于日常生活、高空作业、步行与驾驶、课堂会议等各种不同的场景,解放录入对象双手,满足其不同的需求。
目前,语音识别技术原理是将输入的语音转换成声音信号,进行一系列信号处理、分帧、声学特征提取等处理,再与储存的声学模型和语音模型比照,得出识别结果。然而,由于各方面的局限性,语音录入的准确性还需要更高层次的发展。在自然语言中,单词是否出现在一个特定的点,需要通过上下文关联内容进行判断;而在语音录入过程中,当录入语音的声学特征模型对应至多个不同的文字或单词时,***会不能准确判断录入对象到底需要的是哪个文字或单词。
语义理解是自然语言处理技术的核心环节,主要采用序列标注方法,可以针对输入材料的内容判断其属于哪个领域、具体对应哪个词槽,达到充分理解语义的目的。
发明内容
针对上述问题,本发明实例提供一种支持语义理解的语音录入***,以提高语音输入的准确度。
为实现上述目的,本发明实例提供如下技术方案:
一种支持语义理解的语音录入***,主要包括语义理解模块和语音录入模块。
进一步地,用常用文本集训练语义理解模块:
对所述文本集进行预处理,具体为:
对所述文本集进行分词;
对所述文本集进行词性标注;
对所述文本集进行命名实体识别;
对所述文本集进行新词发现。
为所述文本集建立主题模型,辨析所述文本集围绕的主题,并分区储存不同主题模型的文本集。
分别提取所述各分区的所述文本集的特征,如构建词向量空间和句向量空间、给词组权重打分、计算词频域特征等:
优选地,对所述文本集进行词组权重计算,具体为:
构建词组权重打分公式;
根据所述词组权重提取所述文本集的核心词、关键词。
优选地,构建所述文本集的词向量和句向量空间。
所述特征进行筛选,选择区分度高的所述特征。
训练所述各分区的所述文本集的语言模型,储存所述语言模型。
进一步地,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成:
语音接收部分:与外置收音设备连接,采集录入对象的语音信号,并输入预处理部分。
预处理部分:从所述语音接收部分接收所述语音信号,完成信号处理及特征提取,从输入信号中提取特征,并降低环境噪声、信道、说话人等因素对所述特征造成的影响,输入语音识别部分。
语音识别部分:接收所述预处理部分的所述特征,完成从声音信号到文字输出的转换,具体的:
构建统计声学模型,将所述特征与所述声学模型比对,确定对应信号;
预存标准发音词典;
调用所述语义理解模块的所述语言模型;
根据所述发音词典,使用解码器将所述语言模型与所述声学模型对应上,寻找以最大概率输出所述信号的词组,并串联成句,输入保存交互部分。
保存交互部分:保存并显示和/或输出所述语音识别部分输入的所述文字信息,提供完整的语音录入功能。
相比于现有技术,本发明实例的技术效果和优点:本发明实例提出了一种支持语义理解的语音录入***,在录入前收集常用文本集输入其中的语义理解模块,并进行训练学习;接受录入语音时,***可根据录入语音匹配相关的文本。因此,本发明实例的语音录入***既能提高语音录入的准确率,还能避免反复纠错修改所浪费的时间,大大提高从语音转换为文字的效率。
附图说明
图1为本发明实例支持语义理解的语音录入***在某具体应用场景中的流程示意图。
具体实施方式
为了便于理解和实施本发明实例,下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完善的描述。显然,所描述的实例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动成果前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
为了实现构建上述语音录入***,通过预先训练好语言模型提高语音录入的准确性和快捷性的目的,本发明提供了支持语义理解的语音录入***实例1;图1为本发明实现语音录入的实施例1的流程示意图;如图1所示,可以包括以下模块和步骤:
针对上述问题,本发明实例提供一种支持语义理解的语音录入***,以提高语音输入的准确度。
一种支持语义理解的语音录入***,主要包括语义理解模块和语音录入模块。
进一步地,用常用文本集训练语义理解模块:
对所述文本集进行预处理,具体为:
对所述文本集进行分词,可采用基于字符串匹配、全切分、由字构词、基于深度学习等方法;
对所述文本集进行词性标注;
对所述文本集进行命名实体识别;
对所述文本集进行新词发现。
为所述文本集建立主题模型,辨析所述文本集围绕的主题,可采用pLSA、LDA、NMF、HDP等方法,并分区储存不同主题模型的文本集。
分别提取所述各分区的所述文本集的特征,如构建词向量空间和句向量空间、给词组权重打分、计算词频域特征等:
优选地,对所述文本集进行词组权重计算,具体为:
构建词组权重打分公式,通过local、global、normalization公式的组合计算词组权重,可采用TF-IDF、Okapi、MI、LTU、ATC、TF-ICF等方法,或有监督机器学习+逻辑回归模型方法,获得词组权重;
根据所述词组权重提取所述文本集的核心词、关键词。
优选地,采用ffnnlm、word2vec、c-bow等方法构建所述文本集的词向量和句向量空间。
采用基尼系数、信息增益、互信息、相关系数等指标对所述特征进行筛选,选择区分度高的所述特征。
训练所述各分区的所述文本集的语言模型,可采用常用监督模型,如lr、svm、maxent、朴素贝叶斯、决策树、深度神经网络等,储存所述语言模型。
进一步地,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成:
语音接收部分:与外置收音设备连接,采集录入对象的语音信号,并输入预处理部分。
预处理部分:从所述语音接收部分接收所述语音信号,完成信号处理及特征提取,从输入信号中提取特征,并降低环境噪声、信道、说话人等因素对所述特征造成的影响,输入语音识别部分。
语音识别部分:接收所述预处理部分的所述特征,完成从声音信号到文字输出的转换,具体的:
基于一阶隐马尔科夫模型构建统计声学模型,将所述特征与所述声学模型比对,确定对应信号;
预存标准发音词典;
调用所述语义理解模块的所述语言模型;
根据所述发音词典,使用解码器将所述语言模型与所述声学模型对应上,寻找以最大概率输出所述信号的词组,并串联成句,输入保存交互部分。
保存交互部分:保存并显示和/或输出所述语音识别部分输入的所述文字信息,提供完整的语音录入功能。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并没有因此而理解为对本申请专利范围的限制。应当指出,本发明的各种不同的实施方式之间也可以进行随意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (4)

1.本发明涉及一种支持语义理解的语音录入***,以提高语音输入的准确度。
2.如权利要求1所述一种支持语义理解的语音录入***,其特征在于,主要包括语义理解模块和语音录入模块。
3.如权利要求1所述一种支持语义理解的语音录入***,其特征在于,语义理解模块的步骤为:预处理、建立主题模型、提取分区特征、词组权重计算、提取关键词、构建词向量和句向量空间、筛选区分度高的特征、训练各分区语言模型、储存所述语言模型。
4.如权利要求1所述一种支持语义理解的语音录入***,其特征在于,语音录入模块由语音接收、预处理、语音识别、保存交互部分组成。
CN202110215699.3A 2021-02-26 2021-02-26 一种支持语义理解的语音录入*** Pending CN113053387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110215699.3A CN113053387A (zh) 2021-02-26 2021-02-26 一种支持语义理解的语音录入***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110215699.3A CN113053387A (zh) 2021-02-26 2021-02-26 一种支持语义理解的语音录入***

Publications (1)

Publication Number Publication Date
CN113053387A true CN113053387A (zh) 2021-06-29

Family

ID=76509173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110215699.3A Pending CN113053387A (zh) 2021-02-26 2021-02-26 一种支持语义理解的语音录入***

Country Status (1)

Country Link
CN (1) CN113053387A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160259779A1 (en) * 2015-03-06 2016-09-08 Nuance Communications, Inc. Evidence-Based Natural Language Input Recognition
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107665705A (zh) * 2017-09-20 2018-02-06 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
US20200160851A1 (en) * 2018-11-20 2020-05-21 Institute For Information Industry Semantic analysis method, semantic analysis system and non-transitory computer-readable medium
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答***及其应用方法
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、***、电子设备和存储介质
CN112382276A (zh) * 2020-10-20 2021-02-19 国网山东省电力公司物资公司 一种基于语音语义识别的电网物料信息采集方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160259779A1 (en) * 2015-03-06 2016-09-08 Nuance Communications, Inc. Evidence-Based Natural Language Input Recognition
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107665705A (zh) * 2017-09-20 2018-02-06 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
US20200160851A1 (en) * 2018-11-20 2020-05-21 Institute For Information Industry Semantic analysis method, semantic analysis system and non-transitory computer-readable medium
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111613212A (zh) * 2020-05-13 2020-09-01 携程旅游信息技术(上海)有限公司 语音识别方法、***、电子设备和存储介质
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答***及其应用方法
CN112382276A (zh) * 2020-10-20 2021-02-19 国网山东省电力公司物资公司 一种基于语音语义识别的电网物料信息采集方法及装置

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US9911413B1 (en) Neural latent variable model for spoken language understanding
CN112002308B (zh) 一种语音识别方法及装置
CN110033758B (zh) 一种基于小训练集优化解码网络的语音唤醒实现方法
US10332508B1 (en) Confidence checking for speech processing and query answering
US10388274B1 (en) Confidence checking for speech processing and query answering
US10170107B1 (en) Extendable label recognition of linguistic input
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互***
CN111145729B (zh) 语音识别模型训练方法、***、移动终端及存储介质
CN101105894B (zh) 多功能语言学习机
CN114116994A (zh) 一种迎宾机器人对话方法
CN109243460A (zh) 一种自动生成基于地方方言的讯或询问笔录的方法
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN113609264B (zh) 电力***节点的数据查询方法、装置
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
Shon et al. Leveraging pre-trained language model for speech sentiment analysis
US20040044528A1 (en) Method and apparatus for generating decision tree questions for speech processing
CN103035244A (zh) 一种可实时反馈用户朗读进度的语音跟踪方法
Wang et al. Design and implementation of an English pronunciation scoring system for pupils based on DNN-HMM
CN111968646A (zh) 一种语音识别方法及装置
CN113053387A (zh) 一种支持语义理解的语音录入***
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN114333790A (zh) 数据处理方法、装置、设备、存储介质及程序产品
Zheng [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629

RJ01 Rejection of invention patent application after publication