CN105895102A - 录音编辑方法及录音装置 - Google Patents
录音编辑方法及录音装置 Download PDFInfo
- Publication number
- CN105895102A CN105895102A CN201510786352.9A CN201510786352A CN105895102A CN 105895102 A CN105895102 A CN 105895102A CN 201510786352 A CN201510786352 A CN 201510786352A CN 105895102 A CN105895102 A CN 105895102A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- recording
- current recording
- edited
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000012634 fragment Substances 0.000 claims abstract description 81
- 230000001755 vocal effect Effects 0.000 claims description 137
- 238000002372 labelling Methods 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 8
- 208000031481 Pathologic Constriction Diseases 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 210000001215 vagina Anatomy 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 3
- 238000010008 shearing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 231100000768 Toxicity label Toxicity 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了录音编辑方法及录音装置,通过对当前录音进行声波分析,并根据所述声波分析结果对所述当前录音进行标记,接收对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式,根据所述标记信息从标记后的所述当前录音中获取所述待编辑片段,按照所述编辑方式对所述待编辑片段进行编辑。本发明通过声纹识别对当前录音进行标记,在标记完成后基于标记用户对当前录音进行编辑,从而能够快捷地定位到待编辑片段,节省了编辑时间,提升了用户感受。
Description
技术领域
本发明涉及电子技术领域,尤其涉及一种录音编辑方法及录音装置。
背景技术
目前智能手机逐渐融入到了人们日常生活之中,不但成为日常通讯设备,也成为日常易于携带的记录设备。其中,用户通过智能手机的录音应用程序(Application,简称APP)可以对语音信息进行录制和保存,便于用户快速地保存一段难以直接记忆语音信息,并且还可以多次使用该录音。
一般,用户录制的录音文件中常常包含不需要的信息片段,这些片段既占用空间又妨碍用户查找真正所需的信息。现有的录音APP可以满足用户根据录音的实际内容对录音文件进行编辑,这需要用户对录音文件重复播放从而确定出待编辑的内容,显然这种录音编辑方式会占用用户较多的时间,使得用户体验较差。
发明内容
本发明提供一种录音编辑方法及录音装置,用于解决现有对录音进行编辑时存在浪费用户时间,影响用户体验的问题。
为了实现上述目的,本发明提供了一种录音编辑方法,包括:
对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记;
接收对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式;
根据所述标记信息从标记后的所述当前录音中选中所述待编辑片段;
按照所述编辑方式对所述待编辑片段进行编辑。
为了实现上述目的,本发明提供了一种录音装置,包括:
标记模块,用于对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记;
获取模块,用于获取对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式;
选取模块,用于根据所述标记信息从标记后的所述当前录音中选取出所述待编辑片段;
编辑模块,用于按照所述编辑方式对所述待编辑片段进行编辑。
本发明的录音编辑方法及录音装置,通过对当前录音进行声波分析,并根据所述声波分析结果对所述当前录音进行标记,接收对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式,根据所述标记信息从标记后的所述当前录音中获取所述待编辑片段,按照所述编辑方式对所述待编辑片段进行编辑。本发明通过声纹识别对当前录音进行标记,在标记完成后基于标记用户对当前录音进行编辑,从而能够快捷地定位到待编辑片段,节省了编辑时间,提升了用户感受。
附图说明
图1为本发明实施例一的录音编辑方法的流程示意图;
图2为本发明实施例一的录音编辑方法的应用示例示意图之一;
图3为本发明实施例一的录音编辑方法的应用示例示意图之二;
图4为本发明实施例一的录音编辑方法的应用示例示意图之三;
图5为本发明实施例一的录音编辑方法的应用示例示意图之四;
图6为本发明实施例一中的录音标记方法的流程示意图;
图7为本发明实施例一中的录音标记方法的应用示例示意图之一;
图8为本发明实施例一中的录音标记方法的应用示例示意图之二;
图9为本发明实施例一中的录音标记方法的应用示例示意图之三;
图10为本发明实施例一中的声纹数据库建立方法的流程示意图;
图11为本发明实施例二的录音装置的结构示意图;
图12为本发明实施例二中标记模块的结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的录音编辑方法及录音装置进行详细描述。
实施例一
如图1所示,其为本发明实施例一的录音编辑方法的流程示意图,该录音编辑方法包括:
步骤101、对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记。
用户可以通过智能手机的用户界面,开启智能手机中下载的录音APP的录音功能,录音APP开始对当前录音进行采集,在采集的过程中录音APP可以对声音进行预处理。对采集的当前录音进行声波分析,进而得到当前录音的声波分析结果,在获取到声波分析结果中包括声波特征参数。由于说话人的声纹具有唯一性,因此可以利用声纹作为区别说话人的唯一特征,进而可以根据该声波特征参数就可以对当前录音进行标记。其中,声波特征参数包括:声音的能量、共振峰、梅尔倒谱系数(Mel-frequency cepstrum coefficients,简称MFCC)以及线性预测系数(Linear Prediction Coefficients,简称LPC)。
如图2所示,其为本实施例的应用示例示意图,比如一段录音有5个说话人,分别使用左斜线、右斜线、横线、竖线以及网格进行标记说话人A、B、C、D、E。其中,当说话人A在这段录音中有两次被其他说话人分开的发言,这两段发言都会使用左斜线标记说话人A,以表明是同一个说话人的录音段落。为了用户更直观的看到说话人的不同,可以使用不同的颜色标记说话人,例如,分别使用红色、黄色、蓝色、绿色和紫色来标记说话人A、B、C、D、E。或者当说话人A在这段录音中有两次被其他说话人分开的发言,这两段发言都会使用红色标记说话人A,以表明是同一个说话人的录音段落。
步骤102、获取对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式。
进一步地,在对当前录音进行标记后,用户可以通过终端的显示界面下看到被标记的录音,这样用户就可以根据标记通过终端向录音APP方式编辑指令。其中,编辑指令中携带有待编辑片段的标记信息,以及对待编辑片段的编辑方式。编辑方式可以包括剪切选中的片段、合并选中的多个片段、或者删除选中的片段。
本实施例中,所述获取对所述当前录音进行编辑的编辑指令,包括:
首先,用户可以通过终端点击当前录的波形图形中所包含的至少一个标记,来选取相应的待编辑片段。具体地,在用户对标记进行点击后,录音APP可以检测对当前录音的波形图形所包含的至少一个待编辑片段对应的标记进行的第一点击操作。进一步地,在选中待编辑片段后,用户可以通过终端显示界面显示的编辑方式选择一个队待编辑片段进行编辑的目标编辑方式。具体地,在用户对目标编辑方式进行点击后,录音APP就可以检测对待编辑片段所采用的目标编辑方式进行的第二点击操作。当检测到第一点击操作和第二点击操作后,根据第一点击操作和第二点击操作生成编辑指令。
可选地,所述获取对所述当前录音进行编辑的编辑指令,包括:
首先,用户可以通过终端点击当前录的波形图形中所包含的至少一个标记,来选取相应的待编辑片段。具体地,在用户对标记进行点击后,录音APP可以检测对当前录音的波形图形所包含的至少一个待编辑片段对应的标记进行的第一点击操作。进一步地,在选中待编辑片段后,用户可以通过终端显示界面显示的编辑方式选择一个队待编辑片段进行编辑的目标编辑方式。具体地,在用户对目标编辑方式进行点击后,录音APP就可以检测对待编辑片段所采用的目标编辑方式进行的第二点击操作。当检测到第一点击操作和第二点击操作后,根据第一点击操作和第二点击操作生成编辑指令。
步骤103、根据所述标记信息从标记后的所述当前录音中获取所述待编辑片段。
步骤104、按照所述编辑方式对所述待编辑片段进行编辑。
在接收到编辑指令后,录音APP可以从编辑指令中获取到待编辑片段的标记信息,然后根据该标记信息从当前录音中选取到待编辑片段。录音APP可以从编辑指令中获取到对待编辑片段的编辑方式,例如将待编辑片段进行剪切、合并或者删除操作。在获取到待编辑片段后,录音APP就可以根据指示的编辑方式对其进行编辑。
如图3所示,其为本实施例的应用示例示意图,用户在编辑一段经过声纹分析标记后的录音文件时,可以清晰看到这段录音的波纹图形有不同标记区分。用户通过点击波纹图形上的某个标记就可以相应的选中该片段作为待编辑片段。如图3中所示,用户通过点击选取了横线标记的片段作为待编辑片段。在选取中待编辑片段后,用户可以在编辑菜单中点击对该待编辑片段的目标编辑方式,例如,可以点击“剪切选中片段”作为目标编辑方式,通过上述两次点击操作就可以生成对待编辑片段进行编辑的编辑指令,根据该编辑指令就能剪下这个片段。
如图4所示,其为本实施例的应用示例示意图,录音波纹图形下方有该录音的标记列表提供给用户,用户可以直接从标记列表中选择一个标记,这样就能选中该标记所代表的说话人的全部片段。比如一段录音有3个说话人,分别使用左斜线、右斜线、横线来标记说话人A、B、C。其中说话人A在这段录音中有两次被其他说话人分开的发言,这两段发言都会使用左斜线来标记。那么当用户点击标记列表中的左斜线选项时,两个片段同时都被选中,用户可以点击某个片段取消选中也可以保持选中这的片段。当选取多个片段后,当用户试图对其进行合并时,就可以从编辑方式列表中点击“合并选中片段”作为目标编辑方式。在点击操作完成后,录音APP就可以获取到编辑指令,可以将选中的多个片段被合并为一段新片段。
如图5所示,其为本实施例的应用示例示意图,用户还可以从标记列表中选中多个标记选项。图5中用户选中了左斜线和右斜线这两个标记选项,那么说话人A和说话人B的全部录音片段就可以被选中。最后点击“合并选中片段”,选中的片段即被合并为一段新片段。进一步地,用户可以从选取出的所有片段中挑选部分对话内容进行合并。
本实施例提供的录音编辑方法,通过对当前录音进行声波分析,并根据声波分析结果对所述当前录音进行标记,接收对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式,根据所述标记信息从标记后的所述当前录音中获取所述待编辑片段,按照所述编辑方式对所述待编辑片段进行编辑。本实施例通过声纹识别对当前录音进行标记,在标记完成后基于标记用户对当前录音进行编辑,从而能够快捷地定位到待编辑片段,节省了编辑时间,提升了用户感受。
在本实施例一中对当前录音进行编辑之前,首先需要对当前录音进行标记,上述实施例一中步骤101的具体过程可见下图6所示。图6为本发明实施例一中的录音标记方法的流程示意图。该录音标记方法包括以下步骤:
步骤201、采集当前录音并从所述当前录音中提取声纹特征参数。
用户可以通过智能手机的用户界面,开启智能手机中下载的录音APP的录音功能,录音APP开始对当前录音进行采集,在采集的过程中录音APP可以对声音进行预处理,例如,采集的数据进行分帧、加窗和滤波等。
进一步地,对采集的当前录音进行特征分析,进而得到当前录音的声波特征参数,其中,声波特征参数包括:声音的能量、共振峰、MFCC以及LPC。
步骤202、对所述声纹参数进行声纹聚类训练得到所述声纹参数的目标声纹模板。
本实施例中,为了识别出录音的模板,设置有声纹聚类训练器,在获取到声纹特征参数后,通过该训练器对声纹特征参数进行声纹聚类训练,就可以得到该当前录音对应的目标声纹模板。
步骤203、判断所述目标声纹模板是否为声纹数据库中的声纹模板
本实施例中,通过训练器对样本声音进行声纹聚类训练,得到了样本声音对应的样本声纹模板,使用样本声纹模板预先设置了一个声纹数据库存储在录音APP中。一般声纹数据库中存储有多个样本声纹模板,以便于用户在录音过程中进行录音标记。在获取到目标声纹模板后,录音APP可以在声纹数据库中进行查找,判断该目标声纹模板是否存在于该声纹数据库中。
如果判断结果为是,执行步骤204;否则执行步骤205。
步骤204、从所述声纹数据库中获取与所述目标声纹模板对应的目标标记信息。
在声纹数据库中不仅保存有样本声纹模板,而且还存储有与样本声纹模板对应的标记信息,一般每个样本声纹模板对应有各自的标记信息。当在声纹数据库中获取到与目标声纹模板对应的样本声纹模板时,就可以获取与该目标声纹模板对应的目标标记信息。
步骤205、生成与所述目标声纹模板对应的所述目标标记信息。
在识别出目标声纹模板并不存在与声纹数据库中之后,录音APP可以为该目标声纹模板设置一个目标标记信息,以通过该目标标记信息对该目标声纹模板进行标记。
步骤206、使用所述目标标记信息对所述当前录音进行标记。
在获取到目标标记信息后,录音APP自动使用该目标标记信息对当前录音进行标记。
本实施例中涉及的录音标记方法,通过声纹识别当前录音对应的声纹模板,利用建立的声纹数据库获取与当前录音对应的标记信息,进而对当前录音进行标记,实现了自动标记录音的功能,而且节省了用户添加标记的时间。
具体录音标记方法的应用示例示意图可参见本实施例一中图2所示,此处不再赘述。
步骤207、建立所述目标声纹模板与所述目标标记信息之间映射关系并存储在所述声纹数据库中。
步骤208、接收用户通过终端发送的备注信息。
步骤209、使用所述备注信息对所述当前录音进行备注。
步骤210、将所述备注信息更新到所述声纹数据中所述目标标记信息中。
接收用户通过终端发送的备注信息,备注信息可以为当前录音的来源名称,在终端获取到备注信息后,指示录音APP使用该备注信息对当前录音进行备注。例如,录音APP可以为当前录音对应的位置添加一个标签。进一步地,录音APP还可以将获取到的备注信息更新到声纹数据中与当前录音对应的目标声纹模板对应的目标标记信息中,以便录制的声音为当前录音对应的音源时可以再次被调用。
如图7所示,其为本实施例的应用示例示意图,当录音APP对当前录音进行自动标记后,用户可以通过终端向录音APP发送备注信息,用于给这段录音中每位说话人添加备注信息。比如,用户可以通过录音APP将用左斜线标记的说话人A备注为“张老师”。用户可为新说话人添加的备注信息,并直接与该说话人的声纹信息匹配,并作为这段录音的名称。
如图8所示,其为本实施例的应用示例示意图,当用户新建一段录音,如果其中包含已保存声音名称的说话人的录音,在声纹分析后,这位说话人的录音段落会直接标记为已保存的标记信息。比如已经保存了之前一段录音的说话人A为“张老师”,新建一段包含这个说话人的录音不会再显示说话人A的标记,而是显示“张老师”。
如图9所示,其为本实施例的应用示例示意图,录音中包含用户保存过的讲话人对应的标记信息,按照所标记的说话人,更快定位需要寻找的录音。比如用户想要寻找张老师的讲课录音,只要寻找“张老师”的标签即可。
在步骤201采集当前录音并从所述当前录音中提取声纹特征参数之前,还需要通过样本声音建立一个声纹数据库。
如图10所示,其为本发明实施例一中的声纹数据库建立方法的流程示意图,该声纹数据库建立方法包括:
步骤301、对样本声音进行分析,提取所述样本声音的所述声纹特征参数。
本实施例中,将录音APP在当前录音之前的每次录制的声音作为样本声音。在获取到每次录音后,录音APP会对录音的样本声音进行分析,提取出该样本声音的声纹特征参数,其中声纹特征参数包括:声音的能量、共振峰、MFCC以及LPC等。
步骤302、根据所述样本声音的所述声纹特征参数进行声纹聚类训练生成样本声纹模板。
为了对获取到样本声纹的声纹特征参数进行声纹聚类训练,需要进一步确定该声纹特征参数是否为同一个音源的声音,具体地,预设时间段内的所述样本声音的所述声纹特征参数,当所述预设时间内的所述样本声音的所述声纹特征参数具有相似性时,对所述样本声音的所述声纹特征参数进行声纹聚类训练生成所述样本声纹模板。如果确定出样本声纹的声纹特征参数的不具有相似性,则需要将声纹特征参数进行缓存,再判断出该声音特征参数具有相似性之后,对声纹特征参数进行声纹聚类训练生成样本声纹模板。
比如,有一段录音中有5个说话人,这5个说话人就可以做完样本声音,在通过声纹聚类训练后,可以识别出这个5个说话人分别为说话人A、B、C、D、E,并5个说话人生成相应的样本声纹模板。
步骤303、为所述样本声纹模板生成对应的样本标记信息。
在生成样本声纹模板后,为样本声音生成对应的样本标记信息,例如同一个说话人使用相同的标记进行标记。本实施例中,可以使用左斜线、右斜线、横线、竖线以及网格进行标记说话人A、B、C、D、E。
步骤304、使用所述样本声纹模板、所述样本标记信息以及所述样本声纹模板与所述样本标记信息之间的映射关系生成所述声纹数据库。
为了提高对录音标记的快捷性,本实施例中,使用样本声纹模板、所述样本标记信息以及所述样本声纹模板与所述样本标记信息之间的映射关系生成所述声纹数据库。每次对录音进行声纹聚类训练后生成的声纹模板都会作为样本声纹模板保存到声纹数据库中,而且会将对该样本声纹模板的标记信息以及两者之间的映射关系也会保存到声纹数据库中,以对声纹数据库进行更新。这样当再次遇到同一说话人的录音时,录音APP通过声纹分析,能够很迅速地对该说话人的录音进行标记,提高了录音标记的便捷性。
实施例二
如图11所示,其为本发明实施例二的录音装置的结构示意图。该装置包括:标记模块11、获取模块12、选取模块13和编辑模块14。
其中,标记模块11,用于对当前录音进行声波分析并根据声波分析结果对当前录音进行标记。
获取模块12,用于获取对当前录音进行编辑的编辑指令,编辑指令中携带待编辑片段的标记信息以及编辑方式。
选取模块13,用于根据标记信息从标记后的当前录音中选取出待编辑片段。
编辑模块14,用于按照编辑方式对待编辑片段进行编辑。
如图12所示,为本实施例二中标记模块11的一种可选地结构方式,包括:提取单元111、训练单元112、判断单元113、获取单元114、标记单元115、生成单元116、建立单元117和接收单元118。
其中,提取单元111,用于采集当前录音并从当前录音中提取声纹特征参数。
训练单元112,用于对声纹参数进行声纹聚类训练得到声纹参数的目标声纹模板。
判断单元113,用于判断目标声纹模板是否为声纹数据库中的声纹模板。
获取单元114,用于在判断单元的判断结果为是时,从声纹数据库中获取与目标声纹模板对应的目标标记信息。
标记单元115,用于使用目标标记信息对当前录音进行标记。
生成单元116,用于在判断单元113的结果为否时,生成与目标声纹模板对应的目标标记信息。
其中,建立单元116,用于在标记单元115使用目标标记信息对当前录音进行标记之后,建立目标声纹模板与目标标记信息之间映射关系并存储在声纹数据库中。
进一步地,提取单元111,还用于在采集当前录音并从当前录音中提取声纹特征参数之前,对样本声音进行分析提取样本声音的声纹特征参数。
训练单元112,还用于根据样本声音的声纹特征参数进行声纹聚类训练生成样本声纹模板。
生成单元116,还用于为样本声纹模板生成对应的样本标记信息。
建立单元117,还用于使用样本声纹模板、样本标记信息以及样本声纹模板与样本标记信息之间的映射关系生成声纹数据库。
进一步地,训练单元112,具体用于获取预设时间段内的样本声音的声纹特征参数,在预设时间内的样本声音的声纹特征参数具有相似时,对样本声音的声纹特征参数进行声纹聚类训练生成样本声纹模板。
其中,接收单元118,用于在标记单元115使用目标标记信息对当前录音进行标记之后,接收用户通过终端发送的备注信息。
标记单元115,还用于使用备注信息对当前录音进行备注。
建立单元117,还用于将备注信息更新到声纹数据中目标标记信息中。
进一步地,获取模块12,具体用于检测对当前录音的波形图形所包含的至少一个待编辑片段对应的标记进行的第一点击操作,并检测对待编辑片段所采用的目标编辑方式进行的第二点击操作以及根据检测到的第一点击操作和第二点击操作生成编辑指令。
可选地,获取模块12,具体用于检测从当前录音所包含的标记列表中选取至少一个标记进行的第一点击操作;选取的标记用于指示出待编辑片段,并检测对待编辑片段所采用的目标编辑方式进行的第二点击操作,以及根据检测到的第一点击操作和第二点击操作生成编辑指令。
本实施例提供的录音装置的各功能模块可用于执行上述实施例中所示的录音编辑方法的流程,其具体工作原理不再赘述,详见方法实施例的描述。
本实施例提供的录音装置,通过对当前录音进行声波分析,并根据声波分析结果对当前录音进行标记,接收对当前录音进行编辑的编辑指令,编辑指令中携带待编辑片段的标记信息以及编辑方式,根据标记信息从标记后的当前录音中获取待编辑片段,按照编辑方式对待编辑片段进行编辑。本实施例通过声纹识别对当前录音进行标记,在标记完成后基于标记用户对当前录音进行编辑,从而能够快捷地定位到待编辑片段,节省了编辑时间,提升了用户感受。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种录音编辑方法,其特征在于,包括:
对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记;
获取对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式;
根据所述标记信息从标记后的所述当前录音中选取出所述待编辑片段;
按照所述编辑方式对所述待编辑片段进行编辑。
2.根据权利要求1所述的录音编辑方法,其特征在于,所述对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记,包括:
采集所述当前录音并从所述当前录音中提取声纹特征参数;
对所述声纹参数进行声纹聚类训练得到所述声纹参数的目标声纹模板;
判断所述目标声纹模板是否为声纹数据库中的声纹模板;
如果判断结果为是,从所述声纹数据库中获取与所述目标声纹模板对应的目标标记信息;
使用所述目标标记信息对所述当前录音进行标记。
3.根据权利要求2所述的录音编辑方法,其特征在于,所述使用所述目标标记信息对所述当前录音进行标记之前,还包括:
如果判断结果为否,生成与所述目标声纹模板对应的所述目标标记信息。
4.根据权利要求3所述的录音编辑方法,其特征在于,所述使用所述目标标记信息对所述当前录音进行标记之后,还包括:
建立所述目标声纹模板与所述目标标记信息之间映射关系并存储在所述声纹数据库中。
5.根据权利要求1-4任一项所述的录音编辑方法,其特征在于,所述采集当前录音并从所述当前录音中提取声纹特征参数之前,包括:
对样本声音进行分析,提取所述样本声音的所述声纹特征参数;
根据所述样本声音的所述声纹特征参数进行声纹聚类训练生成样本声纹模板;
为所述样本声纹模板生成对应的样本标记信息;
使用所述样本声纹模板、所述样本标记信息以及所述样本声纹模板与所述样本标记信息之间的映射关系生成所述声纹数据库。
6.根据权利要求5所述的录音编辑方法,其特征在于,所述根据所述样本声音的所述声纹特征参数进行声纹聚类训练生成样本声纹模板包括:
获取预设时间段内的所述样本声音的所述声纹特征参数;
在所述预设时间内的所述样本声音的所述声纹特征参数具有相似性时,对所述样本声音的所述声纹特征参数进行声纹聚类训练生成所述样本声纹模板。
7.根据权利要求1-4任一项所述的录音编辑方法,其特征在于,所述使用所述目标标记信息对所述当前录音进行标记之后,还包括:
接收用户通过终端发送的备注信息;
使用所述备注信息对所述当前录音进行备注;
将所述备注信息更新到所述声纹数据中所述目标标记信息中。
8.根据权利要求1-4任一项所述的录音编辑方法,其特征在于,所述获取对所述当前录音进行编辑的编辑指令,包括:
检测对所述当前录音的波形图形所包含的至少一个所述待编辑片段对应的标记进行的第一点击操作;
检测对所述待编辑片段所采用的目标编辑方式进行的第二点击操作;
根据检测到的所述第一点击操作和所述第二点击操作生成所述编辑指令。
9.根据权利要求1-4任一项所述的录音编辑方法,其特征在于,所述获取对所述当前录音进行编辑的编辑指令,包括:
检测从所述当前录音所包含的标记列表中选取至少一个标记进行的第一点击操作;所述选取的标记用于指示出所述待编辑片段;
检测所述待编辑片段所采用的目标编辑方式进行的第二点击操作;
根据检测到的所述第一点击操作和所述第二点击操作生成所述编辑指令。
10.一种录音装置,其特征在于,包括:
标记模块,用于对当前录音进行声波分析并根据声波分析结果对所述当前录音进行标记;
获取模块,用于获取对所述当前录音进行编辑的编辑指令,所述编辑指令中携带待编辑片段的标记信息以及编辑方式;
选取模块,用于根据所述标记信息从标记后的所述当前录音中选取出所述待编辑片段;
编辑模块,用于按照所述编辑方式对所述待编辑片段进行编辑。
11.根据权利要求10所述的录音装置,其特征在于,所述标记模块包括:
提取单元,用于采集所述当前录音并从所述当前录音中提取声纹特征参数;
训练单元,用于对所述声纹参数进行声纹聚类训练得到所述声纹参数的目标声纹模板;
判断单元,用于判断所述目标声纹模板是否为声纹数据库中的声纹模板;
获取单元,用于在所述判断单元的判断结果为是时,从所述声纹数据库中获取与所述目标声纹模板对应的目标标记信息;
标记单元,用于使用所述目标标记信息对所述当前录音进行标记。
12.根据权利要求11所述的录音装置,其特征在于,所述标记模块,还包括:
生成单元,用于在所述判断单元的结果为否时,生成与所述目标声纹模板对应的所述目标标记信息。
13.根据权利要求12所述的录音装置,其特征在于,所述标记模块,还包括:
建立单元,用于在所述标记单元使用所述目标标记信息对所述当前录音进行标记之后,建立所述目标声纹模板与所述目标标记信息之间映射关系并存储在所述声纹数据库中。
14.根据权利要求10-13任一项所述的录音装置,其特征在于,所述提取单元,还用于在采集当前录音并从所述当前录音中提取声纹特征参数之前,对样本声音进行分析提取所述样本声音的所述声纹特征参数;
所述训练单元,还用于根据所述样本声音的所述声纹特征参数进行声纹聚类训练生成样本声纹模板;
所述生成单元,还用于为所述样本声纹模板生成对应的样本标记信息;
所述建立单元,还用于使用所述样本声纹模板、所述样本标记信息以及所述样本声纹模板与所述样本标记信息之间的映射关系生成所述声纹数据库。
15.根据权利要求14所述的录音装置,其特征在于,所述训练单元,具体用于获取预设时间段内的所述样本声音的所述声纹特征参数,在所述预设时间内的所述样本声音的所述声纹特征参数具有相似时,对所述样本声音的所述声纹特征参数进行声纹聚类训练生成所述样本声纹模板。
16.根据权利要求13所述的录音装置,其特征在于,所述标记模块,还包括:
接收单元,用于在所述标记模块使用所述目标标记信息对所述当前录音进行标记之后,接收用户通过终端发送的备注信息;
所述标记单元,还用于使用所述备注信息对所述当前录音进行备注;
所述建立单元,还用于并将所述备注信息更新到所述声纹数据中所述目标标记信息中。
17.根据权利要求10-13任一项所述的录音装置,其特征在于,所述获取模块,具体用于检测对所述当前录音的波形图形所包含的至少一个所述待编辑片段对应的标记进行的第一点击操作,并检测对所述待编辑片段所采用的目标编辑方式进行的第二点击操作以及根据检测到的所述第一点击操作和所述第二点击操作生成所述编辑指令。
18.根据权利要求10-13任一项所述的录音编辑方法,其特征在于,所述获取模块,具体用于检测从所述当前录音所包含的标记列表中选取至少一个标记进行的第一点击操作;所述选取的标记用于指示出所述待编辑片段,并检测对所述待编辑片段所采用的目标编辑方式进行的第二点击操作,以及根据检测到的所述第一点击操作和所述第二点击操作生成所述编辑指令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510786352.9A CN105895102A (zh) | 2015-11-15 | 2015-11-15 | 录音编辑方法及录音装置 |
PCT/CN2016/089020 WO2017080235A1 (zh) | 2015-11-15 | 2016-07-07 | 录音编辑方法及录音装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510786352.9A CN105895102A (zh) | 2015-11-15 | 2015-11-15 | 录音编辑方法及录音装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105895102A true CN105895102A (zh) | 2016-08-24 |
Family
ID=57001979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510786352.9A Pending CN105895102A (zh) | 2015-11-15 | 2015-11-15 | 录音编辑方法及录音装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105895102A (zh) |
WO (1) | WO2017080235A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
CN107403623A (zh) * | 2017-07-31 | 2017-11-28 | 努比亚技术有限公司 | 录音内容的保存方法、终端、云服务器及可读存储介质 |
CN107481743A (zh) * | 2017-08-07 | 2017-12-15 | 捷开通讯(深圳)有限公司 | 移动终端、存储器及录音文件的编辑方法 |
CN107564531A (zh) * | 2017-08-25 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 基于声纹特征的会议记录方法、装置及计算机设备 |
CN109545200A (zh) * | 2018-10-31 | 2019-03-29 | 深圳大普微电子科技有限公司 | 编辑语音内容的方法及存储装置 |
CN110753263A (zh) * | 2019-10-29 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 视频配音方法、装置、终端及存储介质 |
CN114242120A (zh) * | 2021-11-25 | 2022-03-25 | 广东电力信息科技有限公司 | 一种基于dtmf技术的音频剪辑方法及音频标记方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116132234B (zh) * | 2023-01-09 | 2024-03-12 | 天津大学 | 利用鲸目动物哨声相位编码的水下隐蔽通信方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011160390A (ja) * | 2010-01-28 | 2011-08-18 | Akitoshi Noda | 携帯電話機の録音機能を、画面表示や非常時通信アクセス機能などに活用したシステム。 |
CN102985965A (zh) * | 2010-05-24 | 2013-03-20 | 微软公司 | 声纹标识 |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN103700370A (zh) * | 2013-12-04 | 2014-04-02 | 北京中科模识科技有限公司 | 一种广播电视语音识别***方法及*** |
-
2015
- 2015-11-15 CN CN201510786352.9A patent/CN105895102A/zh active Pending
-
2016
- 2016-07-07 WO PCT/CN2016/089020 patent/WO2017080235A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011160390A (ja) * | 2010-01-28 | 2011-08-18 | Akitoshi Noda | 携帯電話機の録音機能を、画面表示や非常時通信アクセス機能などに活用したシステム。 |
CN102985965A (zh) * | 2010-05-24 | 2013-03-20 | 微软公司 | 声纹标识 |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN103700370A (zh) * | 2013-12-04 | 2014-04-02 | 北京中科模识科技有限公司 | 一种广播电视语音识别***方法及*** |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106356067A (zh) * | 2016-08-25 | 2017-01-25 | 乐视控股(北京)有限公司 | 录音方法、装置及终端 |
CN107403623A (zh) * | 2017-07-31 | 2017-11-28 | 努比亚技术有限公司 | 录音内容的保存方法、终端、云服务器及可读存储介质 |
CN107481743A (zh) * | 2017-08-07 | 2017-12-15 | 捷开通讯(深圳)有限公司 | 移动终端、存储器及录音文件的编辑方法 |
WO2019029494A1 (zh) * | 2017-08-07 | 2019-02-14 | 捷开通讯(深圳)有限公司 | 移动终端、存储器及录音文件的编辑方法 |
CN107564531A (zh) * | 2017-08-25 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 基于声纹特征的会议记录方法、装置及计算机设备 |
CN109545200A (zh) * | 2018-10-31 | 2019-03-29 | 深圳大普微电子科技有限公司 | 编辑语音内容的方法及存储装置 |
CN110753263A (zh) * | 2019-10-29 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 视频配音方法、装置、终端及存储介质 |
CN114242120A (zh) * | 2021-11-25 | 2022-03-25 | 广东电力信息科技有限公司 | 一种基于dtmf技术的音频剪辑方法及音频标记方法 |
CN114242120B (zh) * | 2021-11-25 | 2023-11-10 | 广东电力信息科技有限公司 | 一种基于dtmf技术的音频剪辑方法及音频标记方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017080235A1 (zh) | 2017-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105895102A (zh) | 录音编辑方法及录音装置 | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
US20190370283A1 (en) | Systems and methods for consolidating recorded content | |
CN105895077A (zh) | 录音标记方法及录音装置 | |
CN1333363C (zh) | 音频信号处理设备和音频信号处理方法 | |
CN108305632A (zh) | 一种会议的语音摘要形成方法及*** | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和*** | |
CN105206258A (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
CN102436812A (zh) | 会议记录装置及利用该装置对会议进行记录的方法 | |
CN108257592A (zh) | 一种基于长短期记忆模型的人声分割方法及*** | |
RU2013140574A (ru) | Семантический микшер звуковых дорожек | |
CN109448460A (zh) | 一种背诵检测方法及用户设备 | |
CN108009303A (zh) | 基于语音识别的搜索方法、装置、电子设备和存储介质 | |
CN107025913A (zh) | 一种录音方法及终端 | |
CN108242238A (zh) | 一种音频文件生成方法及装置、终端设备 | |
Stoeger et al. | Age-group estimation in free-ranging African elephants based on acoustic cues of low-frequency rumbles | |
CN108010512A (zh) | 一种音效的获取方法及录音终端 | |
CN101185115A (zh) | 语音编辑装置、语音编辑方法和语音编辑程序 | |
CN109299290A (zh) | 一种基于知识图谱的配乐推荐方法及电子设备 | |
CN106782517A (zh) | 一种语音音频关键词过滤方法及装置 | |
Roy et al. | Fast transcription of unstructured audio recordings | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
Renwick et al. | Voices of coastal Georgia | |
CN114373478A (zh) | 歌曲音频标注与对齐模型训练方法、设备及存储介质 | |
CN113673561A (zh) | 基于多模态的音乐标签自动分类方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160824 |
|
WD01 | Invention patent application deemed withdrawn after publication |