CN113490058A - 一种应用于影视后期的智能字幕匹配*** - Google Patents

一种应用于影视后期的智能字幕匹配*** Download PDF

Info

Publication number
CN113490058A
CN113490058A CN202110960220.9A CN202110960220A CN113490058A CN 113490058 A CN113490058 A CN 113490058A CN 202110960220 A CN202110960220 A CN 202110960220A CN 113490058 A CN113490058 A CN 113490058A
Authority
CN
China
Prior art keywords
subsystem
matching
movie
subtitle
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110960220.9A
Other languages
English (en)
Inventor
马晨光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN202110960220.9A priority Critical patent/CN113490058A/zh
Publication of CN113490058A publication Critical patent/CN113490058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种应用于影视后期的智能字幕匹配***,包括输入子***、识别子***、字幕匹配子***以及输出子***,所述输入子***用于进行待处理影视视频的选择及输入,所述识别子***用于进行影视视频的语音识别以及唇语识别,所述字幕匹配子***用于根据识别子***识别的数据进行影视视频字幕的自动匹配生成,所述输出子***用于进行具有字幕的影视视频的最终输出。本发明设计合理,通过语音识别配合视频唇语识别,可以实现语音识别生成的文本与视频具体场景之间进行场景字幕的自动精准匹配,大大减少了剪辑人员的工作量,从而提升了剪辑人员的工作效率。

Description

一种应用于影视后期的智能字幕匹配***
技术领域
本发明涉及影视剪辑领域,尤其涉及一种应用于影视后期的智能字幕匹配***。
背景技术
字幕是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容,也泛指影视作品后期加工的文字。在电影银幕或电视机荧光屏下方出现的解说文字以及种种文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。影视作品的对话字幕,一般出现在屏幕下方,而戏剧作品的字幕,则可能显示于舞台两旁或上方。优秀的字幕须遵循准确性、一致性、清晰性、可读性和同等性五大特性。准确性是指成品无错别字等低级错误;一致性是指字幕在形式和陈述时的一致性对观众的理解至关重要;清晰性是指音频的完整陈述,包括说话者识别以及非谈话内容,均需用字幕清晰呈现;可读性是指字幕出现的时间要足够观众阅读,和音频同步且字幕不遮盖画面本身有效内容;同等性是指字幕应完整传达视频素材的内容和意图,二者内容同等。
目前拍摄视频的时候字幕需要大量的人工输入,后期语音识别只针对语音进行识别匹配序列,难以做到匹配到具体的帧,大大增加了剪辑人员的工作量,从而影响剪辑人员的剪辑效率,存在一定的缺陷。
发明内容
本发明的目的在于提供一种应用于影视后期的智能字幕匹配***,以实现字幕与视频的精准匹配,提升剪辑人员的工作效率。
本发明是这样实现的:
一种应用于影视后期的智能字幕匹配***,包括输入子***、识别子***、字幕匹配子***以及输出子***,所述输入子***用于进行待处理影视视频的选择及输入,所述识别子***用于进行影视视频的语音识别以及唇语识别,所述字幕匹配子***用于根据识别子***识别的数据进行影视视频字幕的自动匹配生成,所述输出子***用于进行具有字幕的影视视频的最终输出。
所述识别子***包括语音识别单元和唇语识别单元,所述语音识别单元用于对影视视频中的语音进行识别并实时生成为文本,所述唇语识别单元用于对影视视频中的唇语进行逐帧识别。
所述识别子***还包括文本转换单元,所述文本转换单元用于对语音识别生成的文本进行不同语种的自由转换或配合。
所述字幕匹配子***包括校准匹配单元和字幕***单元,所述校准匹配单元用于根据唇语识别单元的唇语识别时间校准并匹配具体场景的字幕时间,所述字幕***单元用于向每个场景中***语音识别产生的文本中对应时间点的文本段。
所述字幕匹配子***还包括字幕编辑单元,所述字幕编辑单元用于对影视视频中生成的字幕进行位置、大小特性的编辑修改。
本发明通过语音识别配合视频唇语识别,可以实现语音识别生成的文本与视频具体场景之间进行场景字幕的自动精准匹配,大大减少了剪辑人员的工作量,从而提升了剪辑人员的工作效率。
附图说明
图1是本发明应用于影视后期的智能字幕匹配***结构框图。
图中,1、输入子***;2、识别子***;3、字幕匹配子***;4、输出子***;5、语音识别单元;6、唇语识别单元;7、校准匹配单元;8、字幕***单元;9、字幕编辑单元;10、文本转换单元。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
请参见附图1,一种应用于影视后期的智能字幕匹配***,包括输入子***1、识别子***2、字幕匹配子***3以及输出子***4,所述输入子***1用于进行待处理影视视频的选择及输入,所述识别子***2用于进行影视视频的语音识别以及唇语识别,所述字幕匹配子***3用于根据识别子***2识别的数据进行影视视频字幕的自动匹配生成,所述输出子***4用于进行具有字幕的影视视频的最终输出。
所述识别子***2包括语音识别单元5和唇语识别单元6,所述语音识别单元5用于对影视视频中的语音进行识别并实时生成为文本,所述唇语识别单元6用于对影视视频中的唇语进行逐帧识别。在本实施方式中,语音识别方法主要是模式匹配法,在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库,在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出;唇语识别使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征。
所述识别子***2还包括文本转换单元10,所述文本转换单元10用于对语音识别生成的文本进行不同语种的自由转换或配合。在本实施方式中,通过对文本进行不同语种的转换,剪辑人员可根据需求进行***字幕语种的选择。
所述字幕匹配子***3包括校准匹配单元7和字幕***单元8,所述校准匹配单元7用于根据唇语识别单元6的唇语识别时间校准并匹配具体场景的字幕时间,所述字幕***单元8用于向每个场景中***语音识别产生的文本中对应时间点的文本段。在本实施方式中,校准匹配单元7根据场景中唇语的识别时间来分配字幕时间,配合字幕***单元8提取的对应时间的语音识别文本,保证字幕与影视场景相匹配。
所述字幕匹配子***3还包括字幕编辑单元9,所述字幕编辑单元9用于对影视视频中生成的字幕进行位置、大小特性的编辑修改。在本实施方式中,字幕编辑单元9为字幕提供特性修改功能,编辑人员可根据实际情况对字幕的大小、位置等特性进行修改,以保证字幕的展示效果。
以下列举所述应用于影视后期的智能字幕匹配***的较优实施例,以清楚的说明本发明的内容,应当明确的是,本发明的内容并不限制于以下实施例,其他通过本领域普通技术人员的常规技术手段的改进亦在本发明的思想范围之内。
本发明实施例提出了一种应用于影视后期的智能字幕匹配***的运行流程,具体包括如下步骤:
S1、通过输入子***1选择原始带有音频和人员正面识别画面的影视视频进行***输入;
S2、识别子***2中的语音识别单元5识别影视视频中的音频,并实时转换为文本,同时识别子***2中的唇语识别单元6逐帧识别影视视频中的唇语动作;
S3、校准匹配单元7根据视频场景中唇语出现的时间校准并匹配相应的字幕时间,接着字幕***单元8调动语音识别转换的文本中相应时间点的识别文本,作为匹配场景的字幕;
S4、输出子***4将字幕匹配完成后的影视视频进行***输出。
为进一步方便对上述流程进行理解,在此进行举例说明:
以影视视频中的某一个场景为例,语音识别单元5识别到该场景中的对话语音,实时转换为文本,唇语识别单元6识别该场景中的唇语动作,识别出多套连贯的唇语动作,校准匹配单元7统计每套连贯的唇语动作的运行时间,作为字幕出现时间,接着字幕***单元8会调用对应的语音识别转换的文本作为字幕,比如一套连贯的唇语动作开始时间为视频的第三分钟,结束时间为视频的第三分钟二十秒,则字幕出现的时间为第三分钟,结束时间为第三分二十秒,字幕***单元8选择三分钟到三分二十秒语音识别产生的文本***到视频中,依次类推,直到所有的唇语连贯动作的画面中均***匹配时间的匹配文本,输出子***4进行视频输出。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,因此,凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种应用于影视后期的智能字幕匹配***,其特征在于:包括输入子***(1)、识别子***(2)、字幕匹配子***(3)以及输出子***(4),所述输入子***(1)用于进行待处理影视视频的选择及输入,所述识别子***(2)用于进行影视视频的语音识别以及唇语识别,所述字幕匹配子***(3)用于根据识别子***识别的数据进行影视视频字幕的自动匹配生成,所述输出子***(4)用于进行具有字幕的影视视频的最终输出。
2.根据权利要求1所述的应用于影视后期的智能字幕匹配***,其特征是:所述识别子***(2)包括语音识别单元(5)和唇语识别单元(6),所述语音识别单元(5)用于对影视视频中的语音进行识别并实时生成为文本,所述唇语识别单元(6)用于对影视视频中的唇语进行逐帧识别。
3.根据权利要求2所述的应用于影视后期的智能字幕匹配***,其特征是:所述识别子***(2)还包括文本转换单元(10),所述文本转换单元(10)用于对语音识别生成的文本进行不同语种的自由转换或配合。
4.根据权利要求2所述的应用于影视后期的智能字幕匹配***,其特征是:所述字幕匹配子***(3)包括校准匹配单元(7)和字幕***单元(8),所述校准匹配单元(7)用于根据唇语识别单元的唇语识别时间校准并匹配具体场景的字幕时间,所述字幕***单元(8)用于向每个场景中***语音识别产生的文本中对应时间点的文本段。
5.根据权利要求4所述的应用于影视后期的智能字幕匹配***,其特征是:所述字幕匹配子***(3)还包括字幕编辑单元(9),所述字幕编辑单元(9)用于对影视视频中生成的字幕进行位置、大小特性的编辑修改。
CN202110960220.9A 2021-08-20 2021-08-20 一种应用于影视后期的智能字幕匹配*** Pending CN113490058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110960220.9A CN113490058A (zh) 2021-08-20 2021-08-20 一种应用于影视后期的智能字幕匹配***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110960220.9A CN113490058A (zh) 2021-08-20 2021-08-20 一种应用于影视后期的智能字幕匹配***

Publications (1)

Publication Number Publication Date
CN113490058A true CN113490058A (zh) 2021-10-08

Family

ID=77946937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110960220.9A Pending CN113490058A (zh) 2021-08-20 2021-08-20 一种应用于影视后期的智能字幕匹配***

Country Status (1)

Country Link
CN (1) CN113490058A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
CN105100647A (zh) * 2015-07-31 2015-11-25 深圳市金立通信设备有限公司 一种校正字幕的方法及终端
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及***
CN107770598A (zh) * 2017-10-12 2018-03-06 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN111401101A (zh) * 2018-12-29 2020-07-10 上海智臻智能网络科技股份有限公司 基于人像的视频生成***
CN111813998A (zh) * 2020-09-10 2020-10-23 北京易真学思教育科技有限公司 一种视频数据处理方法、装置、设备及存储介质
US20200404386A1 (en) * 2018-02-26 2020-12-24 Google Llc Automated voice translation dubbing for prerecorded video
CN112714348A (zh) * 2020-12-28 2021-04-27 深圳市亿联智能有限公司 智能音视频同步方法
CN113033357A (zh) * 2021-03-11 2021-06-25 深圳市鹰硕技术有限公司 基于口型特征的字幕调整方法以及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
CN105100647A (zh) * 2015-07-31 2015-11-25 深圳市金立通信设备有限公司 一种校正字幕的方法及终端
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及***
CN107770598A (zh) * 2017-10-12 2018-03-06 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
US20200404386A1 (en) * 2018-02-26 2020-12-24 Google Llc Automated voice translation dubbing for prerecorded video
CN111401101A (zh) * 2018-12-29 2020-07-10 上海智臻智能网络科技股份有限公司 基于人像的视频生成***
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN110691204A (zh) * 2019-09-09 2020-01-14 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN111813998A (zh) * 2020-09-10 2020-10-23 北京易真学思教育科技有限公司 一种视频数据处理方法、装置、设备及存储介质
CN112714348A (zh) * 2020-12-28 2021-04-27 深圳市亿联智能有限公司 智能音视频同步方法
CN113033357A (zh) * 2021-03-11 2021-06-25 深圳市鹰硕技术有限公司 基于口型特征的字幕调整方法以及装置

Similar Documents

Publication Publication Date Title
CN105245917B (zh) 一种多媒体语音字幕生成的***和方法
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
EP3226245B1 (en) System and method to insert visual subtitles in videos
JP3844431B2 (ja) 発話認識に基づいたキャプションシステム
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
CN105704538A (zh) 一种音视频字幕生成方法及***
CN100469109C (zh) 一种数字视频字幕自动翻译方法
CA2956566C (en) Custom video content
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
EP0993197A2 (en) A method and an apparatus for the animation, driven by an audio signal, of a synthesised model of human face
CN112714348A (zh) 智能音视频同步方法
KR20010072936A (ko) 정보 스트림의 포스트-동기화
Haikuo Film translation in China: Features and technical constraints of dubbing and subtitling English into Chinese
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑***
EP3839953A1 (en) Automatic caption synchronization and positioning
US20110243447A1 (en) Method and apparatus for synthesizing speech
CN110781346A (zh) 基于虚拟形象的新闻生产方法、***、装置和存储介质
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
CN113490058A (zh) 一种应用于影视后期的智能字幕匹配***
CN113033357B (zh) 基于口型特征的字幕调整方法以及装置
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
US20220172709A1 (en) A method and system for content internationalization & localisation
Park et al. Automatic subtitles localization through speaker identification in multimedia system
KR102440890B1 (ko) 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
CN118283367A (zh) 一种可定制故事剧情的对话式视频剪辑方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination