CN113113019A - 一种语音库生成***及方法 - Google Patents

一种语音库生成***及方法 Download PDF

Info

Publication number
CN113113019A
CN113113019A CN202110328947.5A CN202110328947A CN113113019A CN 113113019 A CN113113019 A CN 113113019A CN 202110328947 A CN202110328947 A CN 202110328947A CN 113113019 A CN113113019 A CN 113113019A
Authority
CN
China
Prior art keywords
voice
module
server
data
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110328947.5A
Other languages
English (en)
Inventor
尤文杰
邬锡敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongzhen Information Science & Technology Co ltd
Original Assignee
Shanghai Hongzhen Information Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongzhen Information Science & Technology Co ltd filed Critical Shanghai Hongzhen Information Science & Technology Co ltd
Priority to CN202110328947.5A priority Critical patent/CN113113019A/zh
Publication of CN113113019A publication Critical patent/CN113113019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种语音库生成***及方法,属于语音库***技术领域,包括客户端、语音收录***、服务器和指令输出端,所述语音收录***连接至服务器,通过语音收录***对语音数据进行收集,并且将收集到的语音数据传送至服务器中,通过服务器进行数据对比和储存,所述客户端连接至服务器,客户端将语音指令输入至服务器内进行,通过服务器对声音指令进行对比后将声音指令通过指令输出端进行输出,从而完成语音指令输出。

Description

一种语音库生成***及方法
技术领域
本发明涉及语音库***技术领域,尤其涉及一种语音库生成***及方法。
背景技术
随着语音识别技术、数字化设备以及多媒体技术的发展,语音端点检测技术得到了良好的发展,语音端点检测是在连续信号中检测出语音片段的技术,语音端点检测可以和自动语音识别***、声纹识别***相结合,为了便于用语言直接多设备下达指令需要进一步对语音库进行完善。
发明内容
本发明实施例提供一种语音库生成***及方法,以解决现有技术中的现有技术中的语音库需要进行进一步完善的技术问题。
本发明实施例采用下述技术方案:一种语音库生成***,包括客户端、语音收录***、服务器和指令输出端,所述语音收录***连接至服务器,通过语音收录***对语音数据进行收集,并且将收集到的语音数据传送至服务器中,通过服务器进行数据对比和储存,所述客户端连接至服务器,客户端将语音指令输入至服务器内进行,通过服务器对声音指令进行对比后将声音指令通过指令输出端进行输出,从而完成语音指令输出。
进一步,所述服务器由语音匹配分类模块、语音数据储存库、语音接收模块和声音对照模块组成,语音收录***连接至语音匹配分类模块,通过语音匹配分类模块能够将语音收录***收录的语音数据以及指令进行对应分类,并且将分类后的语音数据输送至语音数据储存库中进行储存,客户端发出的语音指令通过语音接收模块输入语音数据库中,通过声音对照模块将客户端输入的语音指令与语音数据储存库中的声音数据进行对照,从而适配处相对指令并且通过指令输出端进行输出。
进一步,服务器中还设有无效语音库,语音匹配分类模块与语音数据储存库均连接至无效语音库中,在语音匹配分类模块中收录的无法识别的语音输送至无效语音库中,语音数据库中对失效声音数据输入至无效语音库中,以此能够缩减无效声音数据占用语音数据储存库中的空间,管理员可以定期检查无效语音库中的声音数据进行调试。
进一步,服务器中设有错误反馈模块,当客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈,以此能够便于服务器根据客户需求进行改进。
进一步,所述语音收录***由任务部署模块和收录端组成,收录端设有若干个,通过任务部署模块对若干个收录端进行任务的部署,若干个收录端根据任务部署模块部署的任务进行声音数据录入,并将收录的声音数据输送至服务器中进行集中处理存放,以此对声音数据进行收集并学习。
进一步,在收录端处设有网络上传模块,收录端录制的声音数据通过网络上传模块输送至服务器中,以此能够大大提高收录端的收录效率,从各地收录用有不同声音数据。
一种语音库生成方法,包括以下步骤:
S1:任务部署模块对若干个收录端进行任务部署。
S2:收录端根据任务部署模块布置的任务对指定声音数据进行录制并且通过网络上传模块将声音数据上传至服务器中。
S3:通过语音匹配分类模块对声音数据进行匹配分类,并将完成分类后的声音数据传输至声音数据储存库中进行储存,其中将无法识别的语音输送至无效语音库中。
S4:客户端通过语音接收模块将指令声音输送至声音对照模块中,通过声音对照模块对直流声音与语音数据储存库中的声音数据进行对照,从而获取匹配的指令。
S5:通过指令输出端将指令声音进行输出。
S6:客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈。
本发明实施例采用的上述至少一个技术方案能够达到以下有益效果:
其一,该***通过服务器进行数据对比和储存,客户端将语音指令输入至服务器内进行,通过服务器对声音指令进行对比后将声音指令通过指令输出端进行输出,客户端发出的语音指令通过语音接收模块输入语音数据库中,通过声音对照模块将客户端输入的语音指令与语音数据储存库中的声音数据进行对照,从而适配处相对指令并且通过指令输出端进行输出。
其二,该***中设有无效语音库,语音匹配分类模块与语音数据储存库均连接至无效语音库中,在语音匹配分类模块中收录的无法识别的语音输送至无效语音库中,语音数据库中对失效声音数据输入至无效语音库中,以此能够缩减无效声音数据占用语音数据储存库中的空间,管理员可以定期检查无效语音库中的声音数据进行调试。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的***架构图;
图2为本发明中语音收录***的架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明各实施例提供的技术方案。
一种语音库生成***,包括客户端、语音收录***、服务器和指令输出端,所述语音收录***连接至服务器,通过语音收录***对语音数据进行收集,并且将收集到的语音数据传送至服务器中,通过服务器进行数据对比和储存,所述客户端连接至服务器,客户端将语音指令输入至服务器内进行,通过服务器对声音指令进行对比后将声音指令通过指令输出端进行输出,从而完成语音指令输出。
优选的,所述服务器由语音匹配分类模块、语音数据储存库、语音接收模块和声音对照模块组成,语音收录***连接至语音匹配分类模块,通过语音匹配分类模块能够将语音收录***收录的语音数据以及指令进行对应分类,并且将分类后的语音数据输送至语音数据储存库中进行储存,客户端发出的语音指令通过语音接收模块输入语音数据库中,通过声音对照模块将客户端输入的语音指令与语音数据储存库中的声音数据进行对照,从而适配处相对指令并且通过指令输出端进行输出。
优选的,服务器中还设有无效语音库,语音匹配分类模块与语音数据储存库均连接至无效语音库中,在语音匹配分类模块中收录的无法识别的语音输送至无效语音库中,语音数据库中对失效声音数据输入至无效语音库中,以此能够缩减无效声音数据占用语音数据储存库中的空间,管理员可以定期检查无效语音库中的声音数据进行调试。
优选的,服务器中设有错误反馈模块,当客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈,以此能够便于服务器根据客户需求进行改进。
优选的,所述语音收录***由任务部署模块和收录端组成,收录端设有若干个,通过任务部署模块对若干个收录端进行任务的部署,若干个收录端根据任务部署模块部署的任务进行声音数据录入,并将收录的声音数据输送至服务器中进行集中处理存放,以此对声音数据进行收集并学习。
优选的,在收录端处设有网络上传模块,收录端录制的声音数据通过网络上传模块输送至服务器中,以此能够大大提高收录端的收录效率,从各地收录用有不同声音数据。
一种语音库生成方法,包括以下步骤:
S1:任务部署模块对若干个收录端进行任务部署。
S2:收录端根据任务部署模块布置的任务对指定声音数据进行录制并且通过网络上传模块将声音数据上传至服务器中。
S3:通过语音匹配分类模块对声音数据进行匹配分类,并将完成分类后的声音数据传输至声音数据储存库中进行储存,其中将无法识别的语音输送至无效语音库中。
S4:客户端通过语音接收模块将指令声音输送至声音对照模块中,通过声音对照模块对直流声音与语音数据储存库中的声音数据进行对照,从而获取匹配的指令。
S5:通过指令输出端将指令声音进行输出。
S6:客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种语音库生成***,其特征在于:包括客户端、语音收录***、服务器和指令输出端,所述语音收录***连接至服务器,通过语音收录***对语音数据进行收集,并且将收集到的语音数据传送至服务器中,通过服务器进行数据对比和储存,所述客户端连接至服务器,客户端将语音指令输入至服务器内进行,通过服务器对声音指令进行对比后将声音指令通过指令输出端进行输出,从而完成语音指令输出。
2.根据权利要求1所述的一种语音库生成***,其特征在于:所述服务器由语音匹配分类模块、语音数据储存库、语音接收模块和声音对照模块组成,语音收录***连接至语音匹配分类模块,通过语音匹配分类模块能够将语音收录***收录的语音数据以及指令进行对应分类,并且将分类后的语音数据输送至语音数据储存库中进行储存,客户端发出的语音指令通过语音接收模块输入语音数据库中,通过声音对照模块将客户端输入的语音指令与语音数据储存库中的声音数据进行对照,从而适配处相对指令并且通过指令输出端进行输出。
3.根据权利要求1所述的一种语音库生成***,其特征在于:服务器中还设有无效语音库,语音匹配分类模块与语音数据储存库均连接至无效语音库中,在语音匹配分类模块中收录的无法识别的语音输送至无效语音库中,语音数据库中对失效声音数据输入至无效语音库中,以此能够缩减无效声音数据占用语音数据储存库中的空间,管理员可以定期检查无效语音库中的声音数据进行调试。
4.根据权利要求1所述的一种语音库生成***,其特征在于:服务器中设有错误反馈模块,当客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈,以此能够便于服务器根据客户需求进行改进。
5.根据权利要求1所述的一种语音库生成***,其特征在于:所述语音收录***由任务部署模块和收录端组成,收录端设有若干个,通过任务部署模块对若干个收录端进行任务的部署,若干个收录端根据任务部署模块部署的任务进行声音数据录入,并将收录的声音数据输送至服务器中进行集中处理存放,以此对声音数据进行收集并学习。
6.根据权利要求1所述的一种语音库生成***,其特征在于:在收录端处设有网络上传模块,收录端录制的声音数据通过网络上传模块输送至服务器中,以此能够大大提高收录端的收录效率,从各地收录用有不同声音数据。
7.基于权利要要求1-6所述的一种语音库生成***的方法,包括以下步骤:
S1:任务部署模块对若干个收录端进行任务部署;
S2:收录端根据任务部署模块布置的任务对指定声音数据进行录制并且通过网络上传模块将声音数据上传至服务器中;
S3:通过语音匹配分类模块对声音数据进行匹配分类,并将完成分类后的声音数据传输至声音数据储存库中进行储存,其中将无法识别的语音输送至无效语音库中;
S4:客户端通过语音接收模块将指令声音输送至声音对照模块中,通过声音对照模块对直流声音与语音数据储存库中的声音数据进行对照,从而获取匹配的指令;
S5:通过指令输出端将指令声音进行输出;
S6:客户端输出的声音数据与其意愿相互违和时可以通过错误反馈模块进行反馈。
CN202110328947.5A 2021-03-27 2021-03-27 一种语音库生成***及方法 Pending CN113113019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110328947.5A CN113113019A (zh) 2021-03-27 2021-03-27 一种语音库生成***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110328947.5A CN113113019A (zh) 2021-03-27 2021-03-27 一种语音库生成***及方法

Publications (1)

Publication Number Publication Date
CN113113019A true CN113113019A (zh) 2021-07-13

Family

ID=76712393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110328947.5A Pending CN113113019A (zh) 2021-03-27 2021-03-27 一种语音库生成***及方法

Country Status (1)

Country Link
CN (1) CN113113019A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000767A (zh) * 2006-01-09 2007-07-18 杭州世导科技有限公司 语音识别设备及其方法
US20090210221A1 (en) * 2008-02-20 2009-08-20 Shin-Ichi Isobe Communication system for building speech database for speech synthesis, relay device therefor, and relay method therefor
CN101847406A (zh) * 2010-05-18 2010-09-29 中国农业大学 语音识别查询方法及***
CN102708858A (zh) * 2012-06-27 2012-10-03 厦门思德电子科技有限公司 基于编组方式的语音库实现语音识别***及其方法
CN203456091U (zh) * 2013-04-03 2014-02-26 中金数据***有限公司 语音语料库的构建***
CN103927006A (zh) * 2014-04-08 2014-07-16 弗徕威智能机器人科技(上海)有限公司 一种基于机器人的资讯互动***及方法
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN109102807A (zh) * 2018-10-18 2018-12-28 珠海格力电器股份有限公司 个性化语音数据库创建***、语音识别控制***与终端
CN109389969A (zh) * 2018-10-29 2019-02-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
CN109471931A (zh) * 2018-11-22 2019-03-15 平安科技(深圳)有限公司 语料收集方法、装置、计算机设备及存储介质
CN109801628A (zh) * 2019-02-11 2019-05-24 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及***

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000767A (zh) * 2006-01-09 2007-07-18 杭州世导科技有限公司 语音识别设备及其方法
US20090210221A1 (en) * 2008-02-20 2009-08-20 Shin-Ichi Isobe Communication system for building speech database for speech synthesis, relay device therefor, and relay method therefor
CN101847406A (zh) * 2010-05-18 2010-09-29 中国农业大学 语音识别查询方法及***
CN102708858A (zh) * 2012-06-27 2012-10-03 厦门思德电子科技有限公司 基于编组方式的语音库实现语音识别***及其方法
CN203456091U (zh) * 2013-04-03 2014-02-26 中金数据***有限公司 语音语料库的构建***
CN103927006A (zh) * 2014-04-08 2014-07-16 弗徕威智能机器人科技(上海)有限公司 一种基于机器人的资讯互动***及方法
CN105206260A (zh) * 2015-08-31 2015-12-30 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN109102807A (zh) * 2018-10-18 2018-12-28 珠海格力电器股份有限公司 个性化语音数据库创建***、语音识别控制***与终端
CN109389969A (zh) * 2018-10-29 2019-02-26 百度在线网络技术(北京)有限公司 语料库优化方法及装置
CN109471931A (zh) * 2018-11-22 2019-03-15 平安科技(深圳)有限公司 语料收集方法、装置、计算机设备及存储介质
CN109801628A (zh) * 2019-02-11 2019-05-24 龙马智芯(珠海横琴)科技有限公司 一种语料收集方法、装置及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王楠: "语料库在药学英语词汇教学中的应用", 《湖北科技学院学报》 *

Similar Documents

Publication Publication Date Title
US20190327103A1 (en) Summarization system
Lim et al. Speech emotion recognition using convolutional and recurrent neural networks
WO2020238209A1 (zh) 音频处理的方法、***及相关设备
Havard et al. Speech-coco: 600k visually grounded spoken captions aligned to mscoco data set
US10956480B2 (en) System and method for generating dialogue graphs
US9595255B2 (en) Single interface for local and remote speech synthesis
US20220108698A1 (en) System and Method for Producing Metadata of an Audio Signal
CN113113019A (zh) 一种语音库生成***及方法
CN101950564A (zh) 一种远程数字化语音采集分析识别***
Xu et al. Audio-visual wake word spotting system for misp challenge 2021
KR102307249B1 (ko) 블록체인을 기반으로 한 음성 녹취 정보 저장 시스템
CN112734604A (zh) 一种提供多模态智能报案的装置及其笔录生成方法
JP2009288567A (ja) 議事録作成装置、議事録作成方法、議事録作成プログラム、議事録作成システム
JP2545914B2 (ja) 音声認識方法
CN112270922B (zh) 一种调度日志自动化填写方法及装置
US10915715B2 (en) System and method for identifying and tagging assets within an AV file
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
US11392639B2 (en) Method and apparatus for automatic speaker diarization
CN110334240B (zh) 信息处理方法、***及第一设备、第二设备
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
CN113763949A (zh) 语音识别修正方法、电子设备及计算机可读存储介质
US8831940B2 (en) Hierarchical quick note to allow dictated code phrases to be transcribed to standard clauses
CN111914777B (zh) 一种跨模态识别机器人指令的方法及***
CN111785260B (zh) 分句方法与装置、存储介质、电子设备
CN112820274B (zh) 一种语音信息识别校正方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713

RJ01 Rejection of invention patent application after publication