CN108364664A - 自动数据采集及标注的方法 - Google Patents
自动数据采集及标注的方法 Download PDFInfo
- Publication number
- CN108364664A CN108364664A CN201810103344.3A CN201810103344A CN108364664A CN 108364664 A CN108364664 A CN 108364664A CN 201810103344 A CN201810103344 A CN 201810103344A CN 108364664 A CN108364664 A CN 108364664A
- Authority
- CN
- China
- Prior art keywords
- signal
- pirate recordings
- mark
- preset
- pirate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000008859 change Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开的自动数据采集及标注的方法,包括步骤:设定采集场景;在翻录原始语音信号前添加预设的chirp信号;在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号;根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,所述处理后的翻录信号为第一预设数量的与预设角度范围对应的翻录信号;对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注。本发明能够提高语音数据的采集和标注效率,并降低人工操作带来的误差。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种自动数据采集及标注的方法。
背景技术
在语音识别领域,无论是传统的基于模板匹配方法(如基于隐马尔可夫模型)的语音识别还是基于神经网络的语音识别,都需要标注的数据来进行训练或验证。
目前,通常是采用人工进行数据录制及标注,先设定场景,然后每个角度录制一条,标注一条。导致语音数据的采集和标注效率低。
发明内容
为解决以上问题,本发明提供一种自动数据采集及标注的方法,包括:
设定采集场景;
在翻录原始语音信号前添加预设的chirp信号;
在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号;
根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,所述处理后的翻录信号为第一预设数量的与预设角度范围对应的翻录信号;
对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注。
优选的,所述在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号,实施为:
将采集板卡固定至旋转台上,设定旋转台初始角度和每次的旋转角度,所述旋转台初始角度和每次的旋转角度为使采集板卡能够处于预设采集角度范围;
循环播放原始语音信号,由旋转台上的采集板卡进行录音;
当播放完一遍原始语音信号后,将采集板卡采集的数据发送至存储设备,并按预设的每次的旋转角度旋转一次旋转台;
当旋转的次数达到第一预设数量时,停止录音,得到全部预设采集角度的翻录信号。
优选的,所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,实施为:
检测翻录信号中的预设的chirp信号;
将每一条翻录信号中预设的chirp信号及之前的数据删除,得到删除杂音的翻录信号。
优选的,所述对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注,实施为:
对任一角度的翻录信号段进行标注,所述标注包括标注内容和标注文件名,所述标注内容包括语音时间点以及相应的语音内容,所述标注文件名包括采集场景及采集角度信息;
将所述标注的标注内容进行复制,并保持标注文件名中的采集场景不变,仅改变采集角度信息,作为其它角度的翻录信号的标注;所述改变采集角度信息,为将标注文件名中的采集角度信息改为所述的其它角度信息。
优选的,所述对任一角度的翻录信号段进行标注,为对第一条翻录信号进行标注。
优选的,所述在翻录原始语音信号前添加预设的chirp信号,为开始录音后,在播放原始信号之前通过外部设备单独播放的chirp信号。
优选的,
所述在翻录原始语音信号前添加预设的chirp信号,为在播放原始信号中的开头部分之前录入预设的chirp信号;
所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,可实施为:
检测翻录信号中的预设的chirp信号;
将翻录信号中的第一个预设的chirp信号之前的数据删除,得到删除杂音的翻录信号。
本发明的一些有益效果可以包括:
通过本发明的方法,能够提高语音数据的采集和标注效率,并降低人工操作带来的误差。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种自动数据采集及标注的方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种自动数据采集及标注的方法的流程图,如图1所示,包括步骤:
步骤S101、设定采集场景;
步骤S102、在翻录原始语音信号前添加预设的chirp信号;
步骤S103、在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号;
步骤S104、根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,所述处理后的翻录信号为第一预设数量的与预设角度范围对应的翻录信号;
步骤S105、对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注。
通过设定chirp信号,在录音的时候能够检测录音中的chirp信号,从而可以通过程序自动检查并删除chirp信号之前的杂音信号,从而降低人工操作带来的误差,同时,在的预设采集角度进行录音的数据具有一定的规律性,如逐一采集时,具备时间上的周期性,因此可以根据这些规律性的特点,将已经标注的数据作采集角度上的修改就能得到新的标注,方便实现自动化,从而提高了标注的效率。
由于采集板卡的数量往往有限,难以同时从多个角度进行录音,为了解决这一问题,在本发明的一个实施例中,所述在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号,实施为:
将采集板卡固定至旋转台上,设定旋转台初始角度和每次的旋转角度,所述旋转台初始角度和每次的旋转角度为使采集板卡能够处于预设采集角度范围;
循环播放原始语音信号,由旋转台上的采集板卡进行录音;
当播放完一遍原始语音信号后,将采集板卡采集的数据发送至存储设备,并按预设的每次的旋转角度旋转一次旋转台;
当旋转的次数达到第一预设数量时,停止录音,得到全部预设采集角度的翻录信号。
对于在每个角度逐一录音的情况,录音往往是连续的,为了得到每一个角度的录音数据,需要检测每一条翻录信号中所预设的chirp信号,并据此对信号进行处理,为了解决这一问题,在本发明的一个实施例中,所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,实施为:
检测翻录信号中的预设的chirp信号;
将每一条翻录信号中预设的chirp信号及之前的数据删除,得到删除杂音的翻录信号。
为了方便的对原始录音的不同角度进行标注,需要调整标注中的录音角度数据,为了降低这一处理的难度,将需要改变的标注内容(录音角度)放入文件名中,而将不需要改变的标注内容作为文件内容,从而方便标注的处理,在本发明的一个实施例中所述对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注,实施为:
对任一角度的翻录信号段进行标注,所述标注包括标注内容和标注文件名,所述标注内容包括语音时间点以及相应的语音内容,所述标注文件名包括采集场景及采集角度信息;
将所述标注的标注内容进行复制,并保持标注文件名中的采集场景不变,仅改变采集角度信息,作为其它角度的翻录信号的标注;所述改变采集角度信息,为将标注文件名中的采集角度信息改为所述的其它角度信息。
由于全部翻录信号均对chirp信号及其之前的信号进行了删除,因此得到某一角度翻录信号的标注文件后,同时也就得到了其它角度的标注内容,唯一不同的只是标注文件名称上的角度信息,因此将第一条标注文件复制为其它角度的标注文件即可得到全部翻录信号的标注文件。
为了方便的流程化的进行标注,需要固定第一个标注的语音的位置,以及该位置应使标注的改变较为方便,在本发明的一个实施例中,所述对任一角度的翻录信号段进行标注,为对第一条翻录信号进行标注。
为了方便实现chirp信号的***,在本发明的一个实施例中,所述在翻录原始语音信号前添加预设的chirp信号,为开始录音后,在播放原始信号之前通过外部设备单独播放的chirp信号。
为了实现chirp信号的***时间上的稳定性,除了通过外部设备播放chirp信号外,还可以在播放的原始语音信号中***chirp信号,在本发明的一个实施例中,
所述在翻录原始语音信号前添加预设的chirp信号,为在播放原始信号中的开头部分之前录入预设的chirp信号;
所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,可实施为:
检测翻录信号中的预设的chirp信号;
将翻录信号中的第一个预设的chirp信号之前的数据删除,得到删除杂音的翻录信号。
通过本发明的方法,能够提高语音数据的采集和标注效率,并降低人工操作带来的误差。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种自动数据采集及标注的方法,其特征在于,包括:
设定采集场景;
在翻录原始语音信号前添加预设的chirp信号;
在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号;
根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,所述处理后的翻录信号为第一预设数量的与预设角度范围对应的翻录信号;
对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注。
2.根据权利要求1所述的方法,其特征在于,所述在第一预设数量的预设采集角度进行录音,得到不同角度的翻录信号,实施为:
将采集板卡固定至旋转台上,设定旋转台初始角度和每次的旋转角度,所述旋转台初始角度和每次的旋转角度为使采集板卡能够处于预设采集角度范围;
循环播放原始语音信号,由旋转台上的采集板卡进行录音;
当播放完一遍原始语音信号后,将采集板卡采集的数据发送至存储设备,并按预设的每次的旋转角度旋转一次旋转台;
当旋转的次数达到第一预设数量时,停止录音,得到全部预设采集角度的翻录信号。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,实施为:
检测翻录信号中的预设的chirp信号;
将每一条翻录信号中预设的chirp信号及之前的数据删除,得到删除杂音的翻录信号。
4.根据权利要求2所述的方法,其特征在于,所述对任一角度的翻录信号进行标注,并将所述标注进行复制,作为其它角度的翻录信号的标注,实施为:
对任一角度的翻录信号段进行标注,所述标注包括标注内容和标注文件名,所述标注内容包括语音时间点以及相应的语音内容,所述标注文件名包括采集场景及采集角度信息;
将所述标注的标注内容进行复制,并保持标注文件名中的采集场景不变,仅改变采集角度信息,作为其它角度的翻录信号的标注;所述改变采集角度信息,为将标注文件名中的采集角度信息改为所述的其它角度信息。
5.根据权利要求4所述的方法,其特征在于,所述对任一角度的翻录信号段进行标注,为对第一条翻录信号进行标注。
6.根据权利要求1所述的方法,其特征在于,所述在翻录原始语音信号前添加预设的chirp信号,为开始录音后,在播放原始信号之前通过外部设备单独播放的chirp信号。
7.根据权利要求1所述的方法,其特征在于,
所述在翻录原始语音信号前添加预设的chirp信号,为在播放原始信号中的开头部分之前录入预设的chirp信号;
所述根据预设的chirp信号对翻录信号进行处理,得到处理后的翻录信号,可实施为:
检测翻录信号中的预设的chirp信号;
将翻录信号中的第一个预设的chirp信号之前的数据删除,得到删除杂音的翻录信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810103344.3A CN108364664B (zh) | 2018-02-01 | 2018-02-01 | 自动数据采集及标注的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810103344.3A CN108364664B (zh) | 2018-02-01 | 2018-02-01 | 自动数据采集及标注的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108364664A true CN108364664A (zh) | 2018-08-03 |
CN108364664B CN108364664B (zh) | 2020-04-24 |
Family
ID=63004352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810103344.3A Active CN108364664B (zh) | 2018-02-01 | 2018-02-01 | 自动数据采集及标注的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108364664B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5606643A (en) * | 1994-04-12 | 1997-02-25 | Xerox Corporation | Real-time audio recording system for automatic speaker indexing |
CN1770260A (zh) * | 2004-11-01 | 2006-05-10 | 英业达股份有限公司 | 语音波形处理***及方法 |
CN104766604A (zh) * | 2015-04-02 | 2015-07-08 | 努比亚技术有限公司 | 语音数据的标记方法及装置 |
CN105263093A (zh) * | 2015-10-12 | 2016-01-20 | 深圳东方酷音信息技术有限公司 | 一种全方位声音采集装置、编辑装置及*** |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及*** |
CN107195316A (zh) * | 2017-04-28 | 2017-09-22 | 北京声智科技有限公司 | 用于远场语音识别的训练数据准备***及方法 |
CN107331402A (zh) * | 2017-06-19 | 2017-11-07 | 依偎科技(南昌)有限公司 | 一种基于双麦克风的录音方法及录音设备 |
-
2018
- 2018-02-01 CN CN201810103344.3A patent/CN108364664B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5606643A (en) * | 1994-04-12 | 1997-02-25 | Xerox Corporation | Real-time audio recording system for automatic speaker indexing |
CN1770260A (zh) * | 2004-11-01 | 2006-05-10 | 英业达股份有限公司 | 语音波形处理***及方法 |
CN104766604A (zh) * | 2015-04-02 | 2015-07-08 | 努比亚技术有限公司 | 语音数据的标记方法及装置 |
CN105263093A (zh) * | 2015-10-12 | 2016-01-20 | 深圳东方酷音信息技术有限公司 | 一种全方位声音采集装置、编辑装置及*** |
CN106710603A (zh) * | 2016-12-23 | 2017-05-24 | 上海语知义信息技术有限公司 | 利用线性麦克风阵列的语音识别方法及*** |
CN107195316A (zh) * | 2017-04-28 | 2017-09-22 | 北京声智科技有限公司 | 用于远场语音识别的训练数据准备***及方法 |
CN107331402A (zh) * | 2017-06-19 | 2017-11-07 | 依偎科技(南昌)有限公司 | 一种基于双麦克风的录音方法及录音设备 |
Non-Patent Citations (3)
Title |
---|
曹海涛: "基于时频域分析的音频信号滤波与识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
武明勤等: "一种基于shirp原子分解的语音增强方法", 《微电子学与计算机》 * |
马立新等: "适用于Chirp信号的语音消噪改进算法", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108364664B (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8966360B2 (en) | Transcript editor | |
US20240232954A1 (en) | Personal video commercial studio system | |
US20200286396A1 (en) | Following teaching system having voice evaluation function | |
US20220374192A1 (en) | Platform for producing and delivering media content | |
US20200227049A1 (en) | Method, apparatus and device for waking up voice interaction device, and storage medium | |
DE112013000760B4 (de) | Automatisches korrigieren von Sprechfehlern in Echtzeit | |
CN110211567A (zh) | 语音识别终端测评***及方法 | |
US20150235639A1 (en) | System and Method for Standardized Speech Recognition Infrastructure | |
US20200126559A1 (en) | Creating multi-media from transcript-aligned media recordings | |
US6477493B1 (en) | Off site voice enrollment on a transcription device for speech recognition | |
CN109324811B (zh) | 一种用于更新教学录播数据的装置 | |
CN107452372A (zh) | 远场语音识别模型的训练方法和装置 | |
JP2010510556A (ja) | 編集可能なオーディオストリームにおける音声の認識 | |
US10535330B2 (en) | System and method for movie karaoke | |
US20200013422A1 (en) | System, Method, and Apparatus for Morphing of an Audio Track | |
CN102881309B (zh) | 歌词文件生成方法及装置 | |
CN112114771A (zh) | 一种演示文稿播放控制方法和装置 | |
KR101389730B1 (ko) | 동영상 파일의 주제별 분할 위치 생성 방법 | |
CN108364664A (zh) | 自动数据采集及标注的方法 | |
US6042014A (en) | Method for recording and playing back information on magnetic strips and related reading/recording apparatus | |
US11423920B2 (en) | Methods and systems for suppressing vocal tracks | |
CN109197674B (zh) | 一种鸟类训练方法及装置 | |
KR20160106239A (ko) | 실시간 조율이 가능한 악보생성 어플리케이션을 구비한 모바일 단말기 | |
CN111899714A (zh) | 一种配音方法和*** | |
CN117082268B (zh) | 一种在线直播的视屏录播方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000 Applicant after: Yunzhisheng Intelligent Technology Co., Ltd. Address before: 100000 AOC mansion, floor 12, building No. 1, No. 16, Center Road, Sun Palace, Chaoyang District, Beijing Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |