CN105845129A - 一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** - Google Patents
一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** Download PDFInfo
- Publication number
- CN105845129A CN105845129A CN201610178500.3A CN201610178500A CN105845129A CN 105845129 A CN105845129 A CN 105845129A CN 201610178500 A CN201610178500 A CN 201610178500A CN 105845129 A CN105845129 A CN 105845129A
- Authority
- CN
- China
- Prior art keywords
- sentence
- audio
- audio frequency
- pause
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000009423 ventilation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例公开了一种在音频中切分句子的方法和***,及视频文件的字幕自动生成方法和***,包括:识别第一停顿;识别第一句子;识别第二停顿;判断音频是否结束,如未结束则重复上述识别句子/停顿的步骤,结束则结束;其中,所述停顿具有最小长度限制,所述句子具有最小长度限制,所述句子还具有最大长度限制。由此提高了语音识别率,使得全自动的字幕制作成为可能。
Description
技术领域
本发明涉及电子技术领域,具体涉及一种在音频中切分句子的方法和***,以及视频文件的字幕自动生成方法和***。
背景技术
字幕指以文字形式显示影视作品里面的对话等非影像内容,也泛指影视作品后期加工的文字,对于影视作品来说是不可缺少的。现有的字幕制作主要是由字幕制作人员人工完成,包括听写、翻译、润色、时间轴和后期等流程,效率低下,工序复杂,且需要大量的人力物力。
发明内容
因此,本发明要解决的技术问题在于现有的字幕制作效率低下,工序复杂,且需要大量的人力物力。
为此,本发明实施例提供了一种在音频中切分句子的方法,包括:
S1、识别第一停顿,所述停顿包括静音段和/或非语音段,并记录所述第一停顿的开始时间和结束时间;
S2、识别第一句子,所述句子包括语音段,并设置所述第一句子的开始时间为所述第一停顿的结束时间;
S3、识别第二停顿,并记录所述第二停顿的开始时间和结束时间,设置第一句子的结束时间为所述第二停顿的开始时间,完成所述第一句子的切分;
S4、判断音频是否结束,如未结束则重复所述步骤S2-S3,结束则执行步骤S5;
S5、结束;
其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
优选地,所述停顿的最小长度限制为2个音频段。
优选地,所述句子的最小长度限制为3个音频段。
优选地,所述句子的最大长度限制是50个音频段。
本发明实施例还提供了一种视频文件的字幕自动生成方法,包括以下步骤:
S1、提取待处理的视频文件中的音频;
S2、对所述音频中的音频段进行分类,类别包括静音、语音和非语音;
S3、用前述任一种在音频中切分句子的方法,在所述音频中切分句子;
S4、对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;
S5、根据所述文本和起止时间信息生成字幕。
优选地,在所述步骤S1中,利用ffmpeg提取音频,并通过相应的解码器讲所述音频解码为PCM数据。
优选地,在所述步骤S2中,利用Marsyas对所述音频段分类。
优选地,在所述步骤S4中,利用HTK作为识别工具对所述句子进行语音识别。
本发明实施例还提供了一种在视频中切分句子的***,包括:
停顿识别模块,用于识别包括静音段和/或非语音段的停顿,并记录停顿的开始时间和结束时间;
句子识别模块,用于识别包括语音段的句子,并设置句子的开始时间为相邻的前一个停顿的结束时间,句子的结束时间为相邻的后一个停顿的开始时间;
音频结束判断模块,用于判断音频是否结束。
其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
本发明实施例还提供了一种视频文件的字幕自动生成***,包括:
音频提取模块,用于提取所述视频文件中的音频;
音频段分类模块,用于对所述音频中的音频段进行分类,类别包括静音、语音和非语音;
句子切分模块,用于利用权利要求9所述的在视频中切分句子的***,在所述音频中切分句子;
语音识别模块,用于对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;
字幕生成模块,用于根据所述句子对应的文本和起止时间信息生成字幕。
本发明实施例在音频中切分句子的方法和***,以及视频文件的字幕自动生成方法和***,通过增加停顿最小长度限制、停顿最小长度限制和句子最大长度限制等三个变量,提高了语音识别率,使得全自动的字幕制作成为可能。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的在音频中切分句子的方法的流程图;
图2为本发明实施例的视频文件的字幕自动生成方法的流程图;
图3为本发明实施例的在视频中切分句子的***的结构框图;
图4为本发明实施例的视频文件的字幕自动生成***的结构框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施例对本发明的技术方案进行详细描述。
如图1所示,本发明实施例提供了一种在音频中切分句子的方法,包括:
S1、识别第一停顿,该停顿包括静音段和/或非语音段,并记录该第一停顿的开始时间和结束时间。
具体的,该第一停顿的开始时间可以是该音频的开始时间,结束时间可以是第一个语音段开始的时间。
S2、识别第一句子,句子包括语音段,并设置该第一句子的开始时间为该第一停顿的结束时间。
S3、识别第二停顿,并记录该第二停顿的开始时间和结束时间,设置该第一句子的结束时间为该第二停顿的开始时间,完成第一句子的切分。
S4、判断音频是否结束,如未结束则重复步骤S2-S3,结束则执行步骤S5。
S5、结束。
其中,该停顿具有最小长度限制,用于忽略短伴音信息;该句子具有最小长度限制,用于滤除掉音频中的短时无效信息;该句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
切分句子的目的是为了得到易于进行语音识别的短句,精确检测句子的开始时间与结束时间是关键,因为只有达到较高的端点检测精度,才可以做到有的放矢,实现对句子长短和数目的控制。然而,检测句子的断点容易造成两种极端情况:一是有很多极短的句子,某些长度仅为一到两个音频段。这些句子通常只包含一两个词语,甚至不包含任何有效的语音信息;二是出现若干长句,某些长达数十秒甚至几十秒,包含有若干语义完整的单元。这两种情况都会严重影响识别率。
本发明实施例的切分句子的方法通过增加上述的三个变量,停顿的最小长度限制、句子的最小长度限制和句子的最大长度限制,就可以有效的避免上述两种极端情况的发生,从而提高了语音识别率。
优选地,该停顿的最小长度限制为2个音频段。
如上所述,设置最小长度限制是为了忽略较短的伴音信息,比如说话人的瞬时换气等,以保护一句话的完整性。经过申请人的反复研究和实验,认为通过设置停顿的最小长度限制为2个音频段,使得连续语音单元中的单个非语音单元不会被视作为一个停顿,从而保护了句子的完整性。
优选地,该句子的最小长度限制为3个音频段。
具体的,句子的最小长度即句子至少要包含的语音段的个数。增加句子的最小长度限制的作用是滤除掉音频中的短时无效信息,比如说话人的轻咳等。申请人发现,通过设定最小句子为3个音频段,即忽略总长小于0.48秒的语音单元,可以有效地滤除如轻咳、叹息、换气等短时无效信息。
优选地,该句子的最大长度限制是50个音频段。
句子的长度过长,将增加语音识别的难度,降低识别率。因此,一个句子所包含的语音段的个数达到一定限度时,应采取方法使句子尽快地结束。本发明通过设置句子的最大长度为50个音频段,达到这个限度以后即使是单个非语音单元也会被视作为一个停顿,有效地限制句子的长度,提高句子的识别准确率。
如图2所示,本发明实施例还提供了一种视频文件的字幕自动生成方法,包括以下步骤:
S1、提取待处理的视频文件中的音频。
S2、对该音频中的音频段进行分类,类别包括静音、语音和非语音。
S3、用上述任一种在音频中切分句子的方法,在该音频中切分句子。
S4、对该句子进行语音识别,并记录每个句子的对应文本和起止时间信息。
S5、根据所述文本和起止时间信息生成字幕。
具体的,字幕为srt文本字幕。字幕的种类有很多种,现在比较流行的字幕格式有图形格式和文本格式两类。相对于图形格式字幕而言,文本格式字幕有尺寸小、格式简单、便于制作和修改等特点。其中srt格式的文本字幕使用最为广泛,能兼容各种常用的媒体播放器。
优选地,为了优化显示效果,方便观众观看字幕,将识别结果中较长的句子切分为多行显示。
优选地,在步骤S1中,利用ffmpeg提取音频,并通过相应的解码器讲所述音频解码为PCM数据。
优选地,在所述步骤S2中,利用Marsyas对所述音频段分类。
具体的,通过Marsyas提供的接口设定帧长为32ms,段长为0.16s,即一个音频段包含5个音频帧。
优选地,在步骤S4中,利用HTK作为识别工具对所述句子进行语音识别。
具体地,利用HTK作为大词汇量连续语音识别工具进行句子识别,最终生成若干文本文件,存储着每一个句子的识别文本结果以及对应的起止时间信息。
如图3所示,本发明实施例还提供了一种在视频中切分句子的***1,包括:
停顿识别模块2,用于识别包括静音段和/或非语音段的停顿,并记录停顿的开始时间和结束时间;
句子识别模块3,用于识别包括语音段的句子,并设置句子的开始时间为相邻的前一个停顿的结束时间,句子的结束时间为相邻的后一个停顿的开始时间;
音频结束判断模块4,用于判断音频是否结束;
其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
如图4所示,本发明实施例还提供了一种视频文件的字幕自动生成***11,包括:
音频提取模块12,用于提取所述视频文件中的音频;
音频段分类模块13,用于对所述音频中的音频段进行分类,类别包括静音、语音和非语音;
句子切分模块14,用于利用权利要求9所述的在视频中切分句子的***,在所述音频中切分句子;
语音识别模块15,用于对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;
字幕生成模块16,用于根据所述句子对应的文本和起止时间信息生成字幕。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种在音频中切分句子的方法,其特征在于,包括以下步骤:
S1、识别第一停顿,所述停顿包括静音段和/或非语音段,并记录所述第一停顿的开始时间和结束时间;
S2、识别第一句子,所述句子包括语音段,并设置所述第一句子的开始时间为所述第一停顿的结束时间;
S3、识别第二停顿,并记录所述第二停顿的开始时间和结束时间,设置第一句子的结束时间为所述第二停顿的开始时间,完成所述第一句子的切分;
S4、判断音频是否结束,如未结束则重复所述步骤S2-S3,结束则执行步骤S5;
S5、结束;
其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
2.根据权利要求1所述的方法,其特征在于,所述停顿的最小长度限制为2个音频段。
3.根据权利要求1-2所述的方法,其特征在于,所述句子的最小长度限制为3个音频段。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述句子的最大长度限制是50个音频段。
5.一种视频文件的字幕自动生成方法,其特征在于,包括以下步骤:
S1、提取待处理的视频文件中的音频;
S2、对所述音频中的音频段进行分类,类别包括静音、语音和非语音;
S3、用权利要求1-4中任一项所述的在音频中切分句子的方法,在所述音频中切分句子;
S4、对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;
S5、根据所述文本和起止时间信息生成字幕。
6.根据权利要求5所述的方法,其特征在于,在所述步骤S1中,利用ffmpeg提取音频,并通过相应的解码器讲所述音频解码为PCM数据。
7.根据权利要求5-6所述的方法,其特征在于,在所述步骤S2中,利用Marsyas对所述音频段分类。
8.根据权利要求5-7所述的方法,其特征在于,在所述步骤S4中,利用HTK作为识别工具对所述句子进行语音识别。
9.一种在视频中切分句子的***,其特征在于,包括:
停顿识别模块,用于识别包括静音段和/或非语音段的停顿,并记录停顿的开始时间和结束时间;
句子识别模块,用于识别包括语音段的句子,并设置句子的开始时间为相邻的前一个停顿的结束时间,句子的结束时间为相邻的后一个停顿的开始时间;
音频结束判断模块,用于判断音频是否结束;
其中,所述停顿具有最小长度限制,用于忽略短伴音信息;所述句子具有最小长度限制,用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制,用于限制句子的长度,提高该句的识别准确率。
10.一种视频文件的字幕自动生成***,其特征在于,包括:
音频提取模块,用于提取所述视频文件中的音频;
音频段分类模块,用于对所述音频中的音频段进行分类,类别包括静音、语音和非语音;
句子切分模块,用于利用权利要求9所述的在视频中切分句子的***,在所述音频中切分句子;
语音识别模块,用于对所述句子进行语音识别,并记录每个句子的对应文本和起止时间信息;
字幕生成模块,用于根据所述句子对应的文本和起止时间信息生成字幕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610178500.3A CN105845129A (zh) | 2016-03-25 | 2016-03-25 | 一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610178500.3A CN105845129A (zh) | 2016-03-25 | 2016-03-25 | 一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105845129A true CN105845129A (zh) | 2016-08-10 |
Family
ID=56583579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610178500.3A Pending CN105845129A (zh) | 2016-03-25 | 2016-03-25 | 一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105845129A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331844A (zh) * | 2016-08-17 | 2017-01-11 | 北京金山安全软件有限公司 | 一种媒体文件字幕的生成方法、装置及电子设备 |
CN106506335A (zh) * | 2016-11-10 | 2017-03-15 | 北京小米移动软件有限公司 | 分享视频文件的方法及装置 |
CN106504773A (zh) * | 2016-11-08 | 2017-03-15 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测*** |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106792145A (zh) * | 2017-02-22 | 2017-05-31 | 杭州当虹科技有限公司 | 一种音视频自动叠加字幕的方法和装置 |
CN107291676A (zh) * | 2017-06-20 | 2017-10-24 | 广东小天才科技有限公司 | 截断语音文件的方法、终端设备及计算机存储介质 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108062955A (zh) * | 2017-12-12 | 2018-05-22 | 深圳证券信息有限公司 | 一种智能报告生成方法、***及设备 |
CN108597521A (zh) * | 2018-05-04 | 2018-09-28 | 徐涌 | 音频角色分割与识别文字的交互***、方法、终端及介质 |
CN109005445A (zh) * | 2018-06-26 | 2018-12-14 | 卫军征 | 多媒体播放方法、***、存储介质及播放设备 |
CN109166570A (zh) * | 2018-07-24 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 一种语音切分的方法、装置、设备和计算机存储介质 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN109389999A (zh) * | 2018-09-28 | 2019-02-26 | 北京亿幕信息技术有限公司 | 一种高性能的音视频自动断句方法和*** |
CN110223697A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 人机对话方法及*** |
CN110246500A (zh) * | 2019-07-12 | 2019-09-17 | 携程旅游信息技术(上海)有限公司 | 基于录音文件的语音识别方法及*** |
CN110265027A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记***的音频传输方法 |
CN110265026A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种会议速记***以及会议速记方法 |
CN110263313A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110473519A (zh) * | 2018-05-11 | 2019-11-19 | 北京国双科技有限公司 | 一种语音处理方法及装置 |
CN110942764A (zh) * | 2019-11-15 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN111970311A (zh) * | 2020-10-23 | 2020-11-20 | 北京世纪好未来教育科技有限公司 | 会话切分方法、电子设备及计算机可读介质 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN112287914A (zh) * | 2020-12-27 | 2021-01-29 | 平安科技(深圳)有限公司 | Ppt视频段提取方法、装置、设备及介质 |
CN112820293A (zh) * | 2020-12-31 | 2021-05-18 | 讯飞智元信息科技有限公司 | 一种语音识别方法及相关装置 |
CN113207032A (zh) * | 2021-04-29 | 2021-08-03 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频增加字幕的***及方法 |
CN113225618A (zh) * | 2021-05-06 | 2021-08-06 | 阿里巴巴新加坡控股有限公司 | 一种视频剪辑方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105159870A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种精准完成连续自然语音文本化的处理***及方法 |
CN105280206A (zh) * | 2014-06-23 | 2016-01-27 | 广东小天才科技有限公司 | 一种音频的播放方法、装置 |
-
2016
- 2016-03-25 CN CN201610178500.3A patent/CN105845129A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105280206A (zh) * | 2014-06-23 | 2016-01-27 | 广东小天才科技有限公司 | 一种音频的播放方法、装置 |
CN105159870A (zh) * | 2015-06-26 | 2015-12-16 | 徐信 | 一种精准完成连续自然语音文本化的处理***及方法 |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331844A (zh) * | 2016-08-17 | 2017-01-11 | 北京金山安全软件有限公司 | 一种媒体文件字幕的生成方法、装置及电子设备 |
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
CN106528715A (zh) * | 2016-10-27 | 2017-03-22 | 广东小天才科技有限公司 | 一种音频内容校核方法及装置 |
CN106504773A (zh) * | 2016-11-08 | 2017-03-15 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测*** |
CN106506335B (zh) * | 2016-11-10 | 2019-08-30 | 北京小米移动软件有限公司 | 分享视频文件的方法及装置 |
CN106506335A (zh) * | 2016-11-10 | 2017-03-15 | 北京小米移动软件有限公司 | 分享视频文件的方法及装置 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106792145A (zh) * | 2017-02-22 | 2017-05-31 | 杭州当虹科技有限公司 | 一种音视频自动叠加字幕的方法和装置 |
CN107291676A (zh) * | 2017-06-20 | 2017-10-24 | 广东小天才科技有限公司 | 截断语音文件的方法、终端设备及计算机存储介质 |
CN107766325A (zh) * | 2017-09-27 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
US11024332B2 (en) | 2017-11-06 | 2021-06-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Cloud-based speech processing method and apparatus |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108062955A (zh) * | 2017-12-12 | 2018-05-22 | 深圳证券信息有限公司 | 一种智能报告生成方法、***及设备 |
CN108597521A (zh) * | 2018-05-04 | 2018-09-28 | 徐涌 | 音频角色分割与识别文字的交互***、方法、终端及介质 |
CN110473519B (zh) * | 2018-05-11 | 2022-05-27 | 北京国双科技有限公司 | 一种语音处理方法及装置 |
CN110473519A (zh) * | 2018-05-11 | 2019-11-19 | 北京国双科技有限公司 | 一种语音处理方法及装置 |
CN109005445A (zh) * | 2018-06-26 | 2018-12-14 | 卫军征 | 多媒体播放方法、***、存储介质及播放设备 |
CN109166570A (zh) * | 2018-07-24 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 一种语音切分的方法、装置、设备和计算机存储介质 |
CN109389999A (zh) * | 2018-09-28 | 2019-02-26 | 北京亿幕信息技术有限公司 | 一种高性能的音视频自动断句方法和*** |
CN110418208A (zh) * | 2018-11-14 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕确定方法和装置 |
CN110381388B (zh) * | 2018-11-14 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN110381389A (zh) * | 2018-11-14 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN110381388A (zh) * | 2018-11-14 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN110381389B (zh) * | 2018-11-14 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN110223697A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 人机对话方法及*** |
CN110263313A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN110265026A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种会议速记***以及会议速记方法 |
CN110265027A (zh) * | 2019-06-19 | 2019-09-20 | 安徽声讯信息技术有限公司 | 一种用于会议速记***的音频传输方法 |
CN110263313B (zh) * | 2019-06-19 | 2021-08-24 | 安徽声讯信息技术有限公司 | 一种用于会议速记的人机协同编辑方法 |
CN110265026B (zh) * | 2019-06-19 | 2021-07-27 | 安徽声讯信息技术有限公司 | 一种会议速记***以及会议速记方法 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110246500A (zh) * | 2019-07-12 | 2019-09-17 | 携程旅游信息技术(上海)有限公司 | 基于录音文件的语音识别方法及*** |
CN110942764B (zh) * | 2019-11-15 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
CN110942764A (zh) * | 2019-11-15 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种流式语音识别方法 |
WO2022037419A1 (zh) * | 2020-08-18 | 2022-02-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
US11783808B2 (en) | 2020-08-18 | 2023-10-10 | Beijing Bytedance Network Technology Co., Ltd. | Audio content recognition method and apparatus, and device and computer-readable medium |
CN111986655B (zh) * | 2020-08-18 | 2022-04-01 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN111986655A (zh) * | 2020-08-18 | 2020-11-24 | 北京字节跳动网络技术有限公司 | 音频内容识别方法、装置、设备和计算机可读介质 |
CN111970311A (zh) * | 2020-10-23 | 2020-11-20 | 北京世纪好未来教育科技有限公司 | 会话切分方法、电子设备及计算机可读介质 |
CN112287914A (zh) * | 2020-12-27 | 2021-01-29 | 平安科技(深圳)有限公司 | Ppt视频段提取方法、装置、设备及介质 |
CN112287914B (zh) * | 2020-12-27 | 2021-04-02 | 平安科技(深圳)有限公司 | Ppt视频段提取方法、装置、设备及介质 |
CN112820293A (zh) * | 2020-12-31 | 2021-05-18 | 讯飞智元信息科技有限公司 | 一种语音识别方法及相关装置 |
CN113207032A (zh) * | 2021-04-29 | 2021-08-03 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频增加字幕的***及方法 |
CN113225618A (zh) * | 2021-05-06 | 2021-08-06 | 阿里巴巴新加坡控股有限公司 | 一种视频剪辑方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845129A (zh) | 一种在音频中切分句子的方法和***及视频文件的字幕自动生成方法和*** | |
CN103035247B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN105245917B (zh) | 一种多媒体语音字幕生成的***和方法 | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
Morgan et al. | The meeting project at ICSI | |
CN108962227B (zh) | 语音起点和终点检测方法、装置、计算机设备及存储介质 | |
US9774747B2 (en) | Transcription system | |
CN109545244A (zh) | 语音评测方法、装置、电子设备及存储介质 | |
CN101751919B (zh) | 一种汉语口语重音自动检测方法 | |
US20130035936A1 (en) | Language transcription | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN106878805A (zh) | 一种混合语种字幕文件生成方法及装置 | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN110691258A (zh) | 一种节目素材制作方法、装置及计算机存储介质、电子设备 | |
CN110740275A (zh) | 一种非线性编辑*** | |
CN106373598A (zh) | 音频重播的控制方法和装置 | |
Haubold et al. | Alignment of speech to highly imperfect text transcriptions | |
Kurtic et al. | A Corpus of Spontaneous Multi-party Conversation in Bosnian Serbo-Croatian and British English. | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
Koolagudi et al. | Real life emotion classification using VOP and pitch based spectral features | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
Álvarez et al. | APyCA: Towards the automatic subtitling of television content in Spanish | |
Rabha et al. | Aspiration in fricative and nasal consonants: Properties and detection | |
Leow et al. | Language-resource independent speech segmentation using cues from a spectrogram image | |
Baum et al. | DiSCo-A german evaluation corpus for challenging problems in the broadcast domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160810 |
|
WD01 | Invention patent application deemed withdrawn after publication |