CN115136233A - 一种基于自建模板的多模态快速转写及标注*** - Google Patents

一种基于自建模板的多模态快速转写及标注*** Download PDF

Info

Publication number
CN115136233A
CN115136233A CN202280002307.8A CN202280002307A CN115136233A CN 115136233 A CN115136233 A CN 115136233A CN 202280002307 A CN202280002307 A CN 202280002307A CN 115136233 A CN115136233 A CN 115136233A
Authority
CN
China
Prior art keywords
sentence
segment
file
boundary
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202280002307.8A
Other languages
English (en)
Other versions
CN115136233B (zh
Inventor
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Normal University
Original Assignee
Hunan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Normal University filed Critical Hunan Normal University
Publication of CN115136233A publication Critical patent/CN115136233A/zh
Application granted granted Critical
Publication of CN115136233B publication Critical patent/CN115136233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开一种基于自建模板的多模态快速转写及标注***,包括:第一获取单元获取媒体文件对应的项目工程文件;第二获取单元根据项目工程文件的目录,获取媒体文件的音频数据;分段单元根据音频数据的幅度对音频数据进行分段处理得到音频数据的句段数据;显示单元在操作界面上显示句段数据,操作界面用于提供展示界面和边界轴控件;处理单元响应于针对边界轴控件的编辑操作,对句段数据进行边界调整或者句段合并,得到处理后的句段数据,然后进行语音识别处理得到转写文本;转写单元根据转写文本更新项目工程文件;播放单元在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。

Description

一种基于自建模板的多模态快速转写及标注***
技术领域
本申请涉及语音处理技术领域,具体涉及一种基于自建模板的多模态快速转写及标注方法、基于自建模板的多模态快速转写及标注***及存储介质。
背景技术
随着计算机技术的发展,语音识别技术的应用越来越广泛。语音识别技术是从采集到的语音信息中识别出相应的语音内容,即将数字语音信息识别成相应的文本。
语音转写技术用于将语音转换成文字文本。语音转写有用于简单的单人语音转写,也有用于复杂的多人语音转写,如会议语音转写、庭审语音转写、课堂用于转写等。
但目前已有的语音转写标注工具,不能自建语言模板,扩展性差。同时,无法实现句段的快速合并以及边界微调,无法适应现实中各种场景的使用需求。例如:视频外挂字幕(*.SRT)制作、mp3音乐外挂歌词(*.LRC)制作、各类录音转写、语言听力教学、视听说教学、口语语料库建设、多媒体资源库建设、态势语研究、课堂教学多模态研究等。
发明内容
本申请实施例提供一种基于自建模板的多模态快速转写及标注方法、基于自建模板的多模态快速转写及标注***及存储介质,可以提供一种简单、方便的语音转写标注方式,可以通过自建语言模板实现语音转写标注,并能实现句段的快速合并以及边界微调,提升了转写标注效率,以适应上述各种场景的使用需求。
一方面,提供一种基于自建模板的多模态快速转写及标注方法,所述方法包括:获取待处理的媒体文件对应的项目工程文件;根据所述项目工程文件的目录,获取所述媒体文件的音频数据;根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据;在操作界面上显示所述音频数据的句段数据,所述操作界面用于提供展示界面和边界轴控件;响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;对所述处理后的句段数据进行语音识别处理得到转写文本;根据所述转写文本对所述项目工程文件进行更新,得到更新后的项目工程文件,所述更新后的项目工程文件携带所述转写文本;在所述展示界面上播放所述更新后的项目工程文件时,显示所述媒体文件和所述转写文本中与所述媒体文件的播放进度对应的文本片段。
在一些实施例中,所述响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:响应于针对所述句段数据中活动句段的第一边界轴控件的活动端的第一编辑操作,控制所述第一边界轴控件的活动端移动至第一位置;判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,所述第二边界轴控件为第二句段对应的边界轴控件,所述活动句段与所述第二句段为相邻句段;若在所述第一位置处存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,则将所述活动句段与所述第二句段进行合并处理。
在一些实施例中,在所述判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件之后,还包括:若在所述第一位置处不存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,则根据所述第一位置调整所述活动句段的边界。
在一些实施例中,所述响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:响应于针对所述句段数据中的活动句段的第一边界轴控件的活动端的第二编辑操作,控制所述第一边界轴控件的活动端移动至第二位置;判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,所述第三边界轴控件为第三句段对应的边界轴控件,所述活动句段与所述第三句段为非相邻句段;若在所述第二位置处存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,则将所述活动句段、所述第三句段、以及所述活动句段与所述第三句段之间的中间句段进行合并处理。
在一些实施例中,在所述判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件之后,还包括:若在所述第二位置处不存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,则判断所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内是否与任一所述中间句段重叠;若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内不与任一所述中间句段重叠,则根据所述第二位置调整所述活动句段的边界;或者若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内与至少一个所述中间句段重叠,则将所述活动句段、与所述目标区域存在相重叠关系的所有中间句段进行合并处理。
在一些实施例中,所述根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据,包括:根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进行分段处理,得到所述音频数据的句段数据。
在一些实施例中,所述根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进行分段处理,得到所述音频数据的句段数据,包括:获取所述音频数据的初始分段数据;判断所述初始分段数据中当前分段内的平均幅度是否大于所述噪音幅度阈值;若所述初始分段数据中当前分段内的平均幅度大于所述噪音幅度阈值,则对所述当前分段标记为有声段;对标记为有声段的所述当前分段内的音频点进行句段起点和句段终点的裁剪,以去除所述当前分段内的静音或噪声;若所述裁剪后的当前分段的起点位置与上一个分段的终点位置相同,则将所述裁剪后的当前分段和所述上一个分段进行合并;若所述裁剪后的当前分段的起点位置与所述上一个分段的终点位置不相同,则将所述裁剪后的当前分段标记为一个新的分段;遍历处理所述音频数据的初始分段数据,得到所述音频数据的句段数据。
在一些实施例中,所述获取所述音频数据的初始分段数据,包括:根据预设语言模板对所述音频数据进行初始分段处理,获取所述音频数据的初始分段数据。
在一些实施例中,所述获取待处理的媒体文件对应的项目工程文件,包括:获取待处理的媒体文件;检测所述媒体文件是否已创建对应的项目工程文件;若检测到所述媒体文件未创建对应的项目工程文件,则基于模板文件创建所述媒体文件对应的项目工程文件;或者若检测到所述媒体文件已创建对应的项目工程文件,则获取已创建的所述媒体文件对应的项目工程文件。
在一些实施例中,所述方法还包括:响应于携带目标文件类型的导出指令,从所述项目工程文件中导出与所述目标文件类型对应的导出文件,所述目标文件类型属于预设文件类型中的任一种文件类型。
在一些实施例中,所述方法还包括:响应于导入指令,获取导入文件;当所述导入文件的文件类型属于所述预设文件类型中的任一种文件类型时,将所述导入文件导入所述项目工程文件中。
在一些实施例中,所述在操作界面上显示所述音频数据的句段数据,包括:在操作界面上显示所述音频数据的句段数据的句段波形信息,以及所述句段波形信息对应的时间轴信息。
在一些实施例中,所述方法还包括:响应于隐藏波形指令,在操作界面上隐藏所述句段波形信息和所述时间轴信息。在一些实施例中,所述方法还包括:响应于针对所述句段数据中目标句段的***断点操作,在述目标句段的边界轴控件中***断点,以基于所述断点对所述目标句段进行分段处理。
在一些实施例中,所述转写文本包括所述句段数据中的每一个句段对应的文本片段,在所述对所述处理后的句段数据进行语音识别处理得到转写文本之后,还包括:响应于针对所述转写文本中的目标文本片段的修改指令,对所述目标文本片段进行修改,得到修改后的转写文本,目标文本片段为所述转写文本中的至少一个文本片段。
在一些实施例中,所述方法还包括:响应于针对所述目标文本片段的标注指令,对所述目标文本片段进行标注,得到标注后的转写文本。
另一方面,提供一种基于自建模板的多模态快速转写及标注***,所述***包括:
第一获取单元,用于获取待处理的媒体文件对应的项目工程文件;
第二获取单元,用于根据所述项目工程文件的目录,获取所述媒体文件的音频数据;
分段单元,用于根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据;
显示单元,用于在操作界面上显示所述音频数据的句段数据,所述操作界面用于提供展示界面和边界轴控件;
处理单元,用于响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;
转写单元,用于对所述处理后的句段数据进行语音识别处理得到转写文本;
更新单元,用于根据所述转写文本对所述项目工程文件进行更新,得到更新后的项目工程文件,所述更新后的项目工程文件携带所述转写文本;
播放单元,用于在所述展示界面上播放所述更新后的项目工程文件时,显示所述媒体文件和所述转写文本中与所述媒体文件的播放进度对应的文本片段。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如第一方面所述的基于自建模板的多模态快速转写及标注方法中的步骤。
另一方面,提供一种终端设备,所述终端设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如第一方面所述的基于自建模板的多模态快速转写及标注方法中的步骤。
本申请实施例提供一种基于自建模板的多模态快速转写及标注方法、基于自建模板的多模态快速转写及标注***及存储介质,通过获取待处理的媒体文件对应的项目工程文件;根据项目工程文件的目录,获取媒体文件的音频数据;根据音频数据的幅度对音频数据进行分段处理,得到音频数据的句段数据;在操作界面上显示音频数据的句段数据,操作界面用于提供展示界面和边界轴控件;响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;对处理后的句段数据进行语音识别处理得到转写文本;根据转写文本对项目工程文件进行更新,得到更新后的项目工程文件,更新后的项目工程文件携带转写文本;在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。
本申请实施例可以提供一种简单、方便的语音转写标注方式,可以通过自建多语言模板实现多种语音转写,可以在大量的语言或方言不能进行语音识别时,支持模板导入,最终实现快捷、高效的断句和转写标注,并通过拖动操作界面上显示的句段对应的边界轴控件来实现句段的快速合并,以及可以直接在操作界面上显示的句段波形对应的边界轴控件上进行水平拖动实现边界微调,提升了语音转写标注效率,以适应上述各种场景的使用需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于自建模板的多模态快速转写及标注方法的流程示意图。
图2为本申请实施例提供的第一应用场景示意图。
图3为本申请实施例提供的第二应用场景示意图。
图4为本申请实施例提供的第三应用场景示意图。
图5为本申请实施例提供的第四应用场景示意图。
图6为本申请实施例提供的第五应用场景示意图。
图7为本申请实施例提供的第六应用场景示意图。
图8为本申请实施例提供的基于自建模板的多模态快速转写及标注***的结构示意图。
图9为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种基于自建模板的多模态快速转写及标注方法、基于自建模板的多模态快速转写及标注***及存储介质。具体地,本申请实施例的基于自建模板的多模态快速转写及标注方法可以由终端设备执行,其中,该终端设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、触控屏幕、个人计算机(Personal Computer,PC)等终端设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图1至图7,图1为本申请实施例提供的基于自建模板的多模态快速转写及标注方法的流程示意图,图2至图7均为本申请实施例提供的应用场景示意图。本申请实施例的基于自建模板的多模态快速转写及标注方法可应用于本申请实施例的基于自建模板的多模态快速转写及标注***,该基于自建模板的多模态快速转写及标注***可被配置于终端设备上。该终端设备可以为终端设备,该方法包括以下步骤:
步骤110,获取待处理的媒体文件对应的项目工程文件。
在一些实施例中,获取待处理的媒体文件对应的项目工程文件,包括:获取待处理的媒体文件;检测媒体文件是否已创建对应的项目工程文件;若检测到媒体文件未创建对应的项目工程文件,则基于模板文件创建媒体文件对应的项目工程文件;或者若检测到媒体文件已创建对应的项目工程文件,则获取已创建的媒体文件对应的项目工程文件。
例如,可以提供一个目标客户端,启动该目标客户端,然后通过该目标客户端打开或者导入一个待处理的媒体文件,以获取该媒体文件。例如,媒体文件可以为音频文件或者视频文件。
例如,该目标客户端可以是基于自建模板的多模态快速转写及标注***的专为音频、视频语言材料快速转写和标注而开发的工具软件,软件可以内置普通话、汉语方言、少数民族语言等多语言模板,直接为中国语言资源保护工程的语篇转写提供支持。其中,多语言模板可以是多层标注模板。另可根据项目需要自建多语言模板,比如还可以内置不同语言对应的语言转写标注模板。另外该目标客户端还可以应用于视频外挂字幕(*.SRT)制作、mp3音乐外挂歌词(*.LRC)制作、各类录音转写、语言听力教学、视听说教学、口语语料库建设、多媒体资源库建设、态势语研究、课堂教学多模态研究等多个方面的应用场景中。
然后,通过检测存储路径中是否存在与媒体文件同名的项目工程文件,来检测媒体文件是否已创建对应的项目工程文件。其中,对于历史开启过的媒体文件,该目标客户端可以保存历史记录,以便在下一次开启该媒体文件时,直接调用历史记录对应的同名项目工程文件,只需对首次开启或者历史记录中不记载的媒体文件创建项目工程文件,可实现处理流程的优化。例如,该历史记录为目标客户端记录的历史时段内开启过的媒体文件的记录信息。
例如,若存在与媒体文件同名的项目工程文件,则确定媒体文件已创建对应的项目工程文件,进而直接获取存储路径中已创建的与媒体文件同名的项目工程文件,进而执行步骤120。
例如,若不存在与媒体文件同名的项目工程文件,则基于模板文件创建媒体文件对应的同名的项目工程文件,并加载对应的项目工程文件,进而执行步骤120。
步骤120,根据项目工程文件的目录,获取媒体文件的音频数据。
例如,启动音视频数据解析线程,根据项目工程文件的目录中记载的媒体文件信息,从媒体文件的存储路径中查找到与该目录对应的待处理的媒体文件,并基于音视频数据解析线程从媒体文件中提取出媒体文件的音频数据。
步骤130,根据音频数据的幅度对音频数据进行分段处理,得到音频数据的句段数据。
例如,在进行分段处理之前,还需要判断是否需要对音频数据进行分段处理。若判断需要对音频数据进行分段处理,则对音频数据进行分段处理,在音频数据分段结束后,将音频数据分段结束的通知发送至主线程。若判断不需要对音频数据进行分段处理,则将音频数据分段结束的通知发送至主线程。
其中,可以通过检测项目工程文件中的音频数据是否存在已划分的句段数据,来判断是否需要对音频数据进行分段处理。若存在已划分的句段数据,则判断不需要对音频数据进行分段处理。若不存在已划分的句段数据,则判断需要对音频数据进行分段处理。
在一些实施例中,根据音频数据的幅度对音频数据进行分段处理,得到音频数据的句段数据,包括:根据噪音幅度阈值和音频数据的幅度的大小关系对音频数据进行分段处理,得到音频数据的句段数据。
例如,可以根据预设分段间隔对音频数据进行初始分段处理,或者根据静音片段对音频数据进行初始分段处理。然后,再根据噪音幅度阈值和音频数据的幅度的大小关系,对音频数据进行第二分段处理,得到音频数据的句段数据。
在一些实施例中,根据噪音幅度阈值和音频数据的幅度的大小关系对音频数据进行分段处理,得到音频数据的句段数据,包括:获取音频数据的初始分段数据;判断初始分段数据中当前分段内的平均幅度是否大于噪音幅度阈值;若初始分段数据中当前分段内的平均幅度大于噪音幅度阈值,则对当前分段标记为有声段;对标记为有声段的当前分段内的音频点进行句段起点和句段终点的裁剪,以去除当前分段内的静音或噪声;若裁剪后的当前分段的起点位置与上一个分段的终点位置相同,则将裁剪后的当前分段和上一个分段进行合并;若裁剪后的当前分段的起点位置与上一个分段的终点位置不相同,则将裁剪后的当前分段标记为一个新的分段;遍历处理音频数据的初始分段数据,得到音频数据的句段数据。
在一些实施例中,获取所述音频数据的初始分段数据,包括:根据预设语言模板对音频数据进行初始分段处理,获取音频数据的初始分段数据。
例如,该预设语言模板具有句段的分段处理能力。该预设语言模板可以包括内置或者自建于目标客户端内的多语言模板来实现初始分段数据的快速创建。其中,多语言模板可以是多层标注模板。例如,该多语言模板可以为包含有不同国家语言、不同地区的方言、不同人物角色语音等对应的语言模板,比如包含有英语、普通话、少数民族语言、汉语方言、女性语音、男性语音、儿童语音等对应的语言模板。其中,内置的多语言模板可以为通过第三方软件置入的语言模板,可以通过内置多种语言模板实现多种语音转写。自建的多语言模板可以为直接创建于目标客户端内的语言模板,可以通过自建多种语言模板实现多种语音转写标注。
在一些实施例中,预设语言模板包括内置或者自建于目标客户端内的多语言模板,该多语言模板可以为包含有不同国家语言、不同地区的方言、不同人物角色语音等对应的语言模板。由于不同的说话人性别及其对应的语言可能造成不同的噪声,通过单一的噪声阈值来判断可能造成语音分段的片面性。因此,本实施例中基于当前分段的语音信号自动生成其对应的噪音幅度阈值。例如,可以内置噪音幅度阈值生成模块,将预设语言模板输入噪音幅度阈值生成模块中,自适应确定当前分段的语音信号对应的噪音幅度阈值。
具体的,本实施例中获取当前分段对应的语音信号,并拟合得到当前分段的语音信号对应的幅度分布函数为:
Figure BDA0003760104520000091
其中,x表示当前分段的语音对应的信号幅度,σ表示当前分段的语音的信号方差;
基于幅度分布函数确定当前分段的语音对应的信号标准差;
基于所述标准差、平均幅度以及预设幅度因子之间的乘积,确定当前分段的语音对应的噪音幅度阈值为:
Figure BDA0003760104520000092
其中,Tam表示噪音幅度阈值,
Figure BDA0003760104520000093
表示标准差,
Figure BDA0003760104520000094
表示平均幅度,α表示预设幅度因子。本实施例中通过上述确定噪音幅度阈值并进行语音分段的方式,可以根据语音情况自适应检测出语音中的噪声或非噪声,进而提高噪声检测和分段的精确性。
例如,可以根据预设分段间隔对音频数据进行初始分段处理,获取音频数据的初始分段数据。例如,该预设分段间隔可以为根据常规断句时间设定的间隔。
例如,可以根据静音片段对音频数据进行初始分段处理,获取音频数据的初始分段数据。例如,通过检测音频数据中的静音片段来对音频数据进行初始分段处理,基于静音片段在音频数据中的位置进行初始分段,静音片段的首端与上一初始分段的末端相连,静音片段的末端与下一初始分段的首端相连。
例如,为了避免初始分段过多,导致常规的断句语气引起的短促静音片段而将完整句子分段为多个初始分段时,可以在进行初始分段之前,先忽略短促静音片段,只采用音频长度大于预设长度的静音片段作为用于作为初始分段依据的目标静音片段。例如,可以先检测音频数据中的静音片段,然后从选取音频长度大于预设长度的静音片段作为用于作为初始分段依据的目标静音片段,然后基于目标静音片段在音频数据中的位置进行初始分段。
然后,根据噪音幅度阈值和音频数据的幅度的大小的关系,对初始分段数据进行第二分段处理。具体为,判断当前分段内的平均幅度是否是大于噪音幅度阈值;若当前分段内的平均幅度大于噪音幅度阈值,则对当前分段标记为有声段,对标记为有声段的当前分段内的音频点进行句段起点和句段终点的裁剪,以去除当前分段内的静音或噪声,若当前分段和上一个分段的起止位置相同,则将当前分段和上一个分段进行合并,将合并后的分段作为句段数据中的一个句段;若当前分段和上一个分段的起止位置不相同,则将当前分段标记为一个新的分段,可以将该新的分段作为句段数据中的一个句段。
例如,若初始分段数据中当前分段内的平均幅度不大于噪音幅度阈值,则对当前分段标记为无声段,可将该标记为无声段的当前分段放弃,不会作为句段数据中的一个句段。
步骤140,在操作界面上显示音频数据的句段数据,操作界面用于提供展示界面和边界轴控件。
例如,如图2所示,提供目标客户端的操作界面200,在操作界面200上显示音频数据的句段数据201,操作界面200用于提供展示界面202和边界轴控件203。
例如,还可以在该操作界面200显示其他编辑接口或者操作接口。比如文件、编辑、设置、帮助等接口;比如转写模式、标注模式和全文模式的操作接口;比如展示界面的播放接口等。
在一些实施例中,在操作界面上显示音频数据的句段数据,包括:在操作界面上显示音频数据的句段数据的句段波形信息,以及句段波形信息对应的时间轴信息。
在一些实施例中,该方法还包括:响应于隐藏波形指令,在操作界面上隐藏句段波形信息和时间轴信息。
例如,可以基于用户输入的指令,对句段波形信息和时间轴信息实现显示操作或者隐藏操作,显示方式灵活。
步骤150,响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据。
例如,可以通过拖动边界轴控件,来实现句段拖动操作,以进行句段边界调整处理,或者对句段合并处理。即通过拖动操作界面上显示的句段对应的边界轴控件来实现句段的快速合并,以及可以直接在操作界面上显示的句段对应的边界轴控件上进行左侧或右侧的水平拖动实现边界微调,例如,还可以在操作界面上显示句段波形,可以直接在操作界面上显示的句段波形对应的边界轴控件上进行左侧或右侧的水平拖动实现边界微调。
例如,可以右键点击边界轴控件,记录当前活动句段信息;缓存当前所有句段信息列表;响应于通过长按鼠标左键触发的拖动操作拖动边界轴控件;判断活动句段是否存在,若是,则更新临时活动句段的左边界点与右边界点;松开左键,判断上次是否是拖动操作,若是,则获取当前鼠标所在的句段;判断是否满足合并条件,若是,则合并句段,若否,则更新活动句段的边界信息。
例如,在判断是否满足合并条件时,主要是判断活动句段最终的边界点是否超过了被合并句段的相邻边界。比如,向右合并句段时,活动句段的右边界必须要超过被合并句段的左边界才能合并,且要保证两个句段不相同。向左合并句段时,活动句段的左边界必须要超过被合并句段的右边界才能合并,且要保证两个句段不相同。
例如,获取结束句段的实现逻辑是:顺序遍历整个句段列表,判断每个句段的左右边界与鼠标结束点水平方向的大小。左合并时,当某个句段的右边界大于鼠标结束的位置时,则表示此句段为结束句段;右合并时,当某个句段的左边界大于鼠标结束的位置时,则表示此句段的前一个句段为结束句段。
例如,以向右合并句段为例,在判断是否满足合并条件时,检测结束句段是否存在;若结束句段不存在,则不可以合并,不满足合并条件;若结束句段存在,则判断是否是相同的句段;若是相同的句段,则不可合并,不满足合并条件;若不是相同的句段,判断活动句段的当前右边界是否大于结束句段的左边界,若大于,则可以合并,满足合并条件;若小于,则不可合并,不满足合并条件。
例如,如图3所示的操作界面300的视图变化示意图,示出了调整句段边界的示意图。例如,用户将鼠标的悬停(hover)到需要调整的句段的第一边界轴控件3031上,终端通过检测鼠标的悬停位置,确定当前要调整的活动句段3011,然后用户可以长按鼠标左键开始拖动第一边界轴控件3031的一端边界标签,拖动到确定位置后松开鼠标左键,完成活动句段的拖动操作,活动句段3011的边界就更新为新的位置。其中,该针对第一边界轴控件3031的编辑操作可以为拖动操作、点击操作等。例如,以拖动操作为例,将未被拖动的第一边界轴控件3031的一端边界标签定义为静止端,该静止端位于位置A;将被拖动的第一边界轴控件3031的一端边界标签定义为活动端,在被拖动前,该活动端位于位置B。图3中的3-1示意图示出了拖动前的画面,图3中的3-2示意图示出了拖动后更新第一边界轴控件3031的边界位置的画面。响应于针对活动句段3011的第一边界轴控件3031的活动端的第一编辑操作,控制第一边界轴控件3031的活动端从位置B移动至位置C,以调整边界。若拖动后的活动句段的边界位不在其他句段的边界范围内,将活动句段303的边界的一端边界标签更新至位置C,即将活动字段3011的边界从AB段调整为AC段。
例如,如图4所示的操作界面400的视图变化示意图,示出了句段合并操作的示意图。例如,用户将鼠标的悬停(hover)到需要调整的句段的第一边界轴控件4031上,终端通过检测鼠标的悬停位置,确定当前要调整的活动句段4011,然后用户可以长按鼠标左键开始拖动第一边界轴控件4031的一端边界标签,拖动到确定位置后松开鼠标左键,完成活动句段的拖动操作,活动句段4011的边界就更新为新的位置。其中,该针对第一边界轴控件4031的编辑操作可以为拖动操作、点击操作等。例如,以拖动操作为例,将未被拖动的第一边界轴控件4031的一端边界标签定义为静止端,该静止端位于位置D;将被拖动的第一边界轴控件4031的一端边界标签定义为活动端,在被拖动前,该活动端位于位置E。图4中的4-1示意图示出了拖动前的画面,图4中的4-2示意图示出了拖动过程中第一边界轴控件3031的边界位置变化的画面,图4中的4-3示意图示出了拖动后句段合并的画面。响应于针对活动句段4011的第一边界轴控件4031的活动端的第一编辑操作,控制第一边界轴控件4031的活动端从位置E越过位置A移动至位置F。例如,拖动某个边界标签到其他句段内时,位于其他句段内的边界标签可以显示为与其他边界标签不同的图标,比如若控制第一边界轴控件4031的活动端从位置E越过位置A移动至位置F,以将该活动端拖动到其他句段内,此时,处于位置F的活动端的图标可呈浅蓝色小蜡烛状,而其他边界标签可显示为红色直角图标,用户松开鼠标即可实现句段合并。若拖动后的活动句段4031的边界超过了其他句段的相邻边界,即可合并与拖动后的活动句段的边界相重叠的范围内的所有句段。比如,活动句段4031的边界超过了其他句段4032的左边界(位置A),即可合并活动句段4031和其他句段4032,得到合并句段4013,该合并句段4013的边界轴控件4033的边界为DC段。
在一些实施例中,响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:响应于针对句段数据中活动句段的第一边界轴控件的活动端的第一编辑操作,控制第一边界轴控件的活动端移动至第一位置;判断在第一位置处是否存在与第一边界轴控件的活动端相重叠的第二边界轴控件,第二边界轴控件为第二句段对应的边界轴控件,活动句段与第二句段为相邻句段;若在第一位置处存在与第一边界轴控件的活动端相重叠的第二边界轴控件,则将活动句段与第二句段进行合并处理。
在一些实施例中,后端程序在处理音频数据时,为了避免合并相同的句段,在将活动句段与第二句段进行合并处理之前,还需判断活动句段与第二句段是否为相同。具体的,可以通过判断该两个句段的左边界是否相同、并且判断该两个句段的右边界是否也相同,若该两个句段的左边界相同且该两个句段的右边界也相同,则判断活动句段与第二句段为相同的句段。若该两个句段的左边界不相同和/或该两个句段的右边界不相同,则判断活动句段与第二句段不是相同的句段,从而准确区分出活动句段与第二句段,然后将活动句段与第二句段进行合并处理。
在一些实施例中,在判断在第一位置处是否存在与第一边界轴控件的活动端相重叠的第二边界轴控件之后,还包括:若在第一位置处不存在与第一边界轴控件的活动端相重叠的第二边界轴控件,则根据第一位置调整活动句段的边界。
例如,可以通过拖动操作界面上显示的句段来实现每相邻两个句段间的快速合并。在进行句段合并时,可以实现相邻两个句段的合并功能。在此基础上,如果有需要同时合并多个句段,则按照句段顺序,依次进行两两合并,即可实现任意多个句段的合并。例如,可以通过拖动相邻两个句段的边界标签触碰即可合并为一个新句段;例如,还可以通过跨越拖动某个句段的边界标签触碰其他句段的边界标签来实现合并多个句段。
请参阅图3和图4,图3示出了对句段数据进行边界调整处理的示意图,图4示出了对句段数据进行句段合并处理的示意图。
如图3所示,响应于针对句段数据中活动句段3011的第一边界轴控件3031的活动端的第一编辑操作,控制第一边界轴控件3031的活动端从位置A移动至第一位置,该第一位置为图3中的位置C。在第一位置(位置C)处不存在与第一边界轴控件3031的活动端相重叠的第二边界轴控件,则根据第一位置(位置C)调整活动句段3011的边界,即将活动字段3011的边界从AB段调整为AC段。
如图4所示,响应于针对句段数据中活动句段4011的第一边界轴控件4031的活动端的第一编辑操作,控制第一边界轴控件4031的活动端移动至第一位置,该第一位置为图4中的位置F。在第一位置(位置F)处存在与第一边界轴控件4031的活动端相重叠的第二边界轴控件4032,则将活动句段4011与第二句段4012进行合并处理,得到合并句段4013,该合并句段4013的边界轴控件4033的边界为DC段。
在一些实施例中,响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:响应于针对句段数据中的活动句段的第一边界轴控件的活动端的第二编辑操作,控制第一边界轴控件的活动端移动至第二位置;判断在第二位置处是否存在与第一边界轴控件的活动端相重叠的第三边界轴控件,第三边界轴控件为第三句段对应的边界轴控件,活动句段与第三句段为非相邻句段;若在第二位置处存在与第一边界轴控件的活动端相重叠的第三边界轴控件,则将活动句段、第三句段、以及活动句段与第三句段之间的中间句段进行合并处理。
在一些实施例中,在判断在第二位置处是否存在与第一边界轴控件的活动端相重叠的第三边界轴控件之后,还包括:若在第二位置处不存在与第一边界轴控件的活动端相重叠的第三边界轴控件,则判断第一边界轴控件的静止端位置至第二位置之间的目标区域内是否与任一中间句段重叠;若第一边界轴控件的静止端位置至第二位置之间的目标区域内不与任一中间句段重叠,则根据第二位置调整活动句段的边界;或者若第一边界轴控件的静止端位置至第二位置之间的目标区域内与至少一个中间句段重叠,则将活动句段、与目标区域存在相重叠关系的所有中间句段进行合并处理。
例如,可以通过拖动操作界面上显示的句段的边界轴控件来实现多个句段的快速合并。具体的,可以通过拖动操作合并多个句段,在拖动活动句段的第一边界轴控件后,可以将活动句段、与目标区域存在相重叠关系的所有中间句段进行合并处理,实现同时合并多个句段,该目标区域为第一边界轴控件的静止端位置至第二位置之间的区域,即拖动后的边界位置需要位于其他句段的范围内,即可合并此范围内的所有句段。
在一些实施例中,该方法还包括:响应于针对句段数据中目标句段的***断点操作,在述目标句段的边界轴控件中***断点,以基于断点对目标句段进行分段处理。
例如,可以通过***断点实现对目标句段进行分段处理,增加句段调整的灵活性。
步骤160,对处理后的句段数据进行语音识别处理得到转写文本。
例如,可以通过调用终端配置的语音识别模块或者第三方的语音识别模块来实现自动转写,以对处理后的句段数据进行语音识别处理得到转写文本。
在一些实施例中,转写文本包括句段数据中的每一个句段对应的文本片段,在对处理后的句段数据进行语音识别处理得到转写文本之后,还包括:响应于针对转写文本中的目标文本片段的修改指令,对目标文本片段进行修改,得到修改后的转写文本,目标文本片段为转写文本中的至少一个文本片段。
例如,还在自动转写生成的初始转写文本后,用户可以通过操作界面输入针对转写文本中的目标文本片段的修改指令,来实现人工更新转写文本。该修改指令可以包括修改字词、删除字词、增加字词、修改字体、修改修改字体大小、修改字体颜色等指令。
在一些实施例中,该方法还包括:响应于针对目标文本片段的标注指令,对目标文本片段进行标注,得到标注后的转写文本。
例如,可以通过操作界面输入针对目标文本片段的标注指令,对目标文本片段进行标注,得到标注后的转写文本。例如,可以对目标文本片段进行以下任意种标注:行业领域标注、内容类别标注、词性标注、依赖关系标注、实体标注、关系标注、事件标注、阅读理解标注和问答标注。
步骤170,根据转写文本对项目工程文件进行更新,得到更新后的项目工程文件,更新后的项目工程文件携带转写文本。
例如,将转写文本和媒体文件的路径一起保存在一个固定格式(.Baf)的项目工程文件中,以对项目工程文件进行更新。更新后的项目工程文件携带转写文本。
例如,在对项目工程文件进行更新时,可以初始化音频数据的波形,构造句段波形信息数组、更新句段波形信息的展示界面;保存媒体文件信息、句段数据到项目工程文件;通知媒体文件更改消息;播放器更换媒体文件;软件更新标题信息;控制器更新界面及相关控件信息。
在进行初始化时,对显示用到的内存数据,可以采用音视频数据解析线程解析的音频结果和分段处理得到的分段信息进行初始化,再对一些需要用到的参数设定默认值。
步骤180,在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。
例如,在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。还可通过展示界面上的播放控件控制播放进度。
例如,本申请实施例还提供多格式导入导出功能,可以支持Word(docx、txt、aud.txt)、Excel(xls、xlsx)、lrc、srt、json格式文件等的导入,同时支持以上文件类型以及eaf格式的文件导出。可方便进行转写文件的迁移等,以实现多格式的文件导入和文件导出。关于多格式导入导出功能,可以针对不同的文件类型和文件读写方式,提供对应的写入文件和写出文件的接口函数,以便在导入或导出文件时对不同类型的文件进行写入和写出。例如,可以同时导入Excel、srt等格式文件和对应媒体文件,数据文件可以转换为Baf格式,还可以实现多种文件格式一次可选导出。
例如,导入格式的文件类型与导入接口的对应关系可以如表1所示:
表1
文件类型 导入接口
Xls、Xlsx DoImportFile_Excel
Lrc DoImportFile_Lrc
Srt DoImportFile_Srt
Docx DoImportFile_Docx
Json DoImportFile_Json
Aud DoImportFile_Aud
Txt DoImportFile_Txt
例如,导出格式的文件类型与导出接口的对应关系可以如表2所示:
表2
文件类型 导出接口
Xls、Xlsx ExportFile_Excel
Lrc DoExportFile_LRC
Srt DoExportFile_SRT
Aud DoExportFile_Audacity
STL DoExportFile_STL
Docx、Txt DoExportFile_Txt
EAF IBAF::SaveTo
在一些实施例中,该方法还包括:响应于携带目标文件类型的导出指令,从项目工程文件中导出与目标文件类型对应的导出文件,目标文件类型属于预设文件类型中的任一种文件类型。
例如,如图5所示的文件导出的应用场景示意图,如图5中的5-1所示的文件导出界面的示意图,可以在文件导出界面上设置导出的目标文件类型等,比如目标文件类型设置为Excel,导出语言设置为普通话。执行导出指令后,可根据设置内容导出文件,比如,导出的Excel格式文件如图5中的5-2所示的内容。
例如,如图6所示的文件导出的另一应用场景示意图,如图6中的6-1所示的文件导出界面的示意图,可以在文件导出界面上设置导出的目标文件类型等,比如目标文件类型可以同时设置为Excel、Word、EAF,导出语言设置为方言。执行导出指令后,可根据设置内容导出文件,当目标文件类型同时设置为多种文件格式时,可以实现多种文件格式一次可选导出,其中,导出的Excel格式文件如图6中的6-2所示的内容。
例如,预设文件类型可以包括:Word(docx、txt、aud.txt)、Excel(xls、xlsx)、lrc、srt、json格式文件等。可以支持以上文件类型以及eaf格式的文件导出。可方便进行转写文件的迁移等,以实现多格式的文件导出。
在一些实施例中,该方法还包括:响应于导入指令,获取导入文件;当导入文件的文件类型属于预设文件类型中的任一种文件类型时,将导入文件导入项目工程文件中。
例如,如图7所示的文件导出界面的示意图,可以在文件导入界面上选择导入文件,或者导入文件与媒体文件,在导入文件的文件类型属于预设文件类型中的任一种文件类型时,将导入文件导入项目工程文件中。
例如,预设文件类型可以包括:Word(docx、txt、aud.txt)、Excel(xls、xlsx)、lrc、srt、json格式文件等。可以支持支持以上文件类型的文件导入。可方便进行转写文件的迁移等,以实现多格式的文件导入。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例通过获取待处理的媒体文件对应的项目工程文件;根据项目工程文件的目录,获取媒体文件的音频数据;根据音频数据的幅度对音频数据进行分段处理,得到音频数据的句段数据;在操作界面上显示音频数据的句段数据,操作界面用于提供展示界面和边界轴控件;响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;对处理后的句段数据进行语音识别处理得到转写文本;根据转写文本对项目工程文件进行更新,得到更新后的项目工程文件,更新后的项目工程文件携带转写文本;在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。本申请实施例可以提供一种简单、方便的语音转写方式,可以通过自建多种语言模板实现多种语音转写,并通过拖动操作界面上显示的句段对应的边界轴控件来实现句段的快速合并,以及可以直接在操作界面上显示的句段波形对应的边界轴控件上进行水平拖动实现边界微调,提升了语音转写标注效率,以适应上述各种场景的使用需求。
为便于更好的实施本申请实施例的基于自建模板的多模态快速转写及标注方法,本申请实施例还提供一种基于自建模板的多模态快速转写及标注***。请参阅图8,图8为本申请实施例提供的基于自建模板的多模态快速转写及标注***的结构示意图。其中,该基于自建模板的多模态快速转写及标注***800应用于提供图形用户界面的终端设备,该基于自建模板的多模态快速转写及标注***800可以包括:
第一获取单元801,用于获取待处理的媒体文件对应的项目工程文件;
第二获取单元802,用于根据项目工程文件的目录,获取媒体文件的音频数据;
分段单元803,用于根据音频数据的幅度对音频数据进行分段处理,得到音频数据的句段数据;
显示单元804,用于在操作界面上显示音频数据的句段数据,操作界面用于提供展示界面和边界轴控件;
处理单元805,用于响应于针对边界轴控件的编辑操作,对句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;
转写单元806,用于对处理后的句段数据进行语音识别处理得到转写文本;
更新单元807,用于根据转写文本对项目工程文件进行更新,得到更新后的项目工程文件,更新后的项目工程文件携带转写文本;
播放单元808,用于在展示界面上播放更新后的项目工程文件时,显示媒体文件和转写文本中与媒体文件的播放进度对应的文本片段。
在一些实施例中,处理单元805,可以用于:响应于针对句段数据中活动句段的第一边界轴控件的活动端的第一编辑操作,控制第一边界轴控件的活动端移动至第一位置;判断在第一位置处是否存在与第一边界轴控件的活动端相重叠的第二边界轴控件,第二边界轴控件为第二句段对应的边界轴控件,活动句段与第二句段为相邻句段;若在第一位置处存在与第一边界轴控件的活动端相重叠的第二边界轴控件,则将活动句段与第二句段进行合并处理。
在一些实施例中,处理单元805在判断在第一位置处是否存在与第一边界轴控件的活动端相重叠的第二边界轴控件之后,还可以用于:若在第一位置处不存在与第一边界轴控件的活动端相重叠的第二边界轴控件,则根据第一位置调整活动句段的边界。
在一些实施例中,处理单元805,可以用于:响应于针对句段数据中的活动句段的第一边界轴控件的活动端的第二编辑操作,控制第一边界轴控件的活动端移动至第二位置;判断在第二位置处是否存在与第一边界轴控件的活动端相重叠的第三边界轴控件,第三边界轴控件为第三句段对应的边界轴控件,活动句段与第三句段为非相邻句段;若在第二位置处存在与第一边界轴控件的活动端相重叠的第三边界轴控件,则将活动句段、第三句段、以及活动句段与第三句段之间的中间句段进行合并处理。
在一些实施例中,处理单元805在判断在第二位置处是否存在与第一边界轴控件的活动端相重叠的第三边界轴控件之后,还可以用于:若在第二位置处不存在与第一边界轴控件的活动端相重叠的第三边界轴控件,则判断第一边界轴控件的静止端位置至第二位置之间的目标区域内是否与任一中间句段重叠;若第一边界轴控件的静止端位置至第二位置之间的目标区域内不与任一中间句段重叠,则根据第二位置调整活动句段的边界;或者若第一边界轴控件的静止端位置至第二位置之间的目标区域内与至少一个中间句段重叠,则将活动句段、与目标区域存在相重叠关系的所有中间句段进行合并处理。
在一些实施例中,分段单元803,可以用于根据噪音幅度阈值和音频数据的幅度的大小关系对音频数据进行分段处理,得到音频数据的句段数据。
在一些实施例中,分段单元803在根据噪音幅度阈值和音频数据的幅度的大小关系对音频数据进行分段处理,得到音频数据的句段数据时,可以用于:获取音频数据的初始分段数据;判断初始分段数据中当前分段内的平均幅度是否大于噪音幅度阈值;若初始分段数据中当前分段内的平均幅度大于噪音幅度阈值,则对当前分段标记为有声段;对标记为有声段的当前分段内的音频点进行句段起点和句段终点的裁剪,以去除当前分段内的静音或噪声;若裁剪后的当前分段的起点位置与上一个分段的终点位置相同,则将裁剪后的当前分段和上一个分段进行合并;若裁剪后的当前分段的起点位置与上一个分段的终点位置不相同,则将裁剪后的当前分段标记为一个新的分段;遍历处理音频数据的初始分段数据,得到音频数据的句段数据。
在一些实施例中,分段单元803在获取所述音频数据的初始分段数据时,可以用于:根据预设语言模板对音频数据进行初始分段处理,获取音频数据的初始分段数据。
在一些实施例中,第一获取单元801,可以用于:获取待处理的媒体文件;检测媒体文件是否已创建对应的项目工程文件;若检测到媒体文件未创建对应的项目工程文件,则基于模板文件创建媒体文件对应的项目工程文件;或者若检测到媒体文件已创建对应的项目工程文件,则获取已创建的媒体文件对应的项目工程文件。
在一些实施例中,处理单元805,还可以用于响应于携带目标文件类型的导出指令,从项目工程文件中导出与目标文件类型对应的导出文件,目标文件类型属于预设文件类型中的任一种文件类型。
在一些实施例中,处理单元805,还可以用于:响应于导入指令,获取导入文件;
当导入文件的文件类型属于预设文件类型中的任一种文件类型时,将导入文件导入项目工程文件中。
在一些实施例中,显示单元804,可以用于在操作界面上显示音频数据的句段数据的句段波形信息,以及句段波形信息对应的时间轴信息。
在一些实施例中,显示单元804,还可以用于响应于隐藏波形指令,在操作界面上隐藏句段波形信息和时间轴信息。
在一些实施例中,处理单元805,还可以用于响应于针对句段数据中目标句段的***断点操作,在述目标句段的边界轴控件中***断点,以基于断点对目标句段进行分段处理。
在一些实施例中,转写文本包括句段数据中的每一个句段对应的文本片段,转写单元806在对处理后的句段数据进行语音识别处理得到转写文本之后,还可以用于:响应于针对转写文本中的目标文本片段的修改指令,对目标文本片段进行修改,得到修改后的转写文本,目标文本片段为转写文本中的至少一个文本片段。
在一些实施例中,转写单元806,还可以用于响应于针对目标文本片段的标注指令,对目标文本片段进行标注,得到标注后的转写文本。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解的是,***实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图8所示的***可以执行上述基于自建模板的多模态快速转写及标注方法实施例,并且***中的各个单元的前述和其它操作和/或功能分别实现上述方法实施例的相应流程,为了简洁,在此不再赘述。
相应的,本申请实施例还提供一种终端设备,该终端设备可以为终端或者服务器,该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。如图9所示,图9为本申请实施例提供的终端设备的结构示意图。该终端设备900包括有一个或者一个以上处理核心的处理器901、有一个或一个以上计算机可读存储介质的存储器902及存储在存储器902上并可在处理器上运行的计算机程序。其中,处理器901与存储器902电性连接。本领域技术人员可以理解,图中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器901是终端设备900的控制中心,利用各种接口和线路连接整个终端设备900的各个部分,通过运行或加载存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行终端设备900的各种功能和处理数据,从而对终端设备900进行整体监控。
在本申请实施例中,终端设备900中的处理器901会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能:
获取待处理的媒体文件对应的项目工程文件;根据所述项目工程文件的目录,获取所述媒体文件的音频数据;根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据;在操作界面上显示所述音频数据的句段数据,所述操作界面用于提供展示界面和边界轴控件;响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;对所述处理后的句段数据进行语音识别处理得到转写文本;根据所述转写文本对所述项目工程文件进行更新,得到更新后的项目工程文件,所述更新后的项目工程文件携带所述转写文本;在所述展示界面上播放所述更新后的项目工程文件时,显示所述媒体文件和所述转写文本中与所述媒体文件的播放进度对应的文本片段。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
在一些实施例中,如图9所示,终端设备900还包括:显示单元903、射频电路904、音频电路905、输入单元906以及电源907。其中,处理器901分别与显示单元903、射频电路904、音频电路905、输入单元906以及电源907电性连接。本领域技术人员可以理解,图9中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
显示单元903可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元903可以包括显示面板和触控面板。
射频电路904可用于收发射频信号,以通过无线通信与网络设备或其他终端设备建立无线通讯,与网络设备或其他终端设备之间收发信号。
音频电路905可以用于通过扬声器、传声器提供用户与终端设备之间的音频接口。
输入单元906可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源907用于给终端设备900的各个部件供电。在一些实施例中,电源907可以通过电源管理***与处理器901逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源907还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图9中未示出,终端设备900还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种基于自建模板的多模态快速转写及标注方法中的步骤。以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种基于自建模板的多模态快速转写及标注方法中的步骤,因此,可以实现本申请实施例所提供的任一种基于自建模板的多模态快速转写及标注方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的任一种基于自建模板的多模态快速转写及标注方法中的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序,该计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得计算机设备执行本申请实施例中的任一种基于自建模板的多模态快速转写及标注方法中的相应流程,为了简洁,在此不再赘述。
以上对本申请实施例所提供的一种基于自建模板的多模态快速转写及标注方法、基于自建模板的多模态快速转写及标注***及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法包括:
获取待处理的媒体文件对应的项目工程文件;
根据所述项目工程文件的目录,获取所述媒体文件的音频数据;
根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据;
在操作界面上显示所述音频数据的句段数据,所述操作界面用于提供展示界面和边界轴控件;
响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;
对所述处理后的句段数据进行语音识别处理得到转写文本;
根据所述转写文本对所述项目工程文件进行更新,得到更新后的项目工程文件,所述更新后的项目工程文件携带所述转写文本;
在所述展示界面上播放所述更新后的项目工程文件时,显示所述媒体文件和所述转写文本中与所述媒体文件的播放进度对应的文本片段。
2.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:
响应于针对所述句段数据中活动句段的第一边界轴控件的活动端的第一编辑操作,控制所述第一边界轴控件的活动端移动至第一位置;
判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,所述第二边界轴控件为第二句段对应的边界轴控件,所述活动句段与所述第二句段为相邻句段;
若在所述第一位置处存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,则将所述活动句段与所述第二句段进行合并处理。
3.如权利要求2所述的基于自建模板的多模态快速转写及标注方法,其特征在于,在所述判断在所述第一位置处是否存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件之后,还包括:
若在所述第一位置处不存在与所述第一边界轴控件的活动端相重叠的第二边界轴控件,则根据所述第一位置调整所述活动句段的边界。
4.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据,包括:
响应于针对所述句段数据中的活动句段的第一边界轴控件的活动端的第二编辑操作,控制所述第一边界轴控件的活动端移动至第二位置;
判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,所述第三边界轴控件为第三句段对应的边界轴控件,所述活动句段与所述第三句段为非相邻句段;
若在所述第二位置处存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,则将所述活动句段、所述第三句段、以及所述活动句段与所述第三句段之间的中间句段进行合并处理。
5.如权利要求4所述的基于自建模板的多模态快速转写及标注方法,其特征在于,在所述判断在所述第二位置处是否存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件之后,还包括:
若在所述第二位置处不存在与所述第一边界轴控件的活动端相重叠的第三边界轴控件,则判断所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内是否与任一所述中间句段重叠;
若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内不与任一所述中间句段重叠,则根据所述第二位置调整所述活动句段的边界;或者
若所述第一边界轴控件的静止端位置至所述第二位置之间的目标区域内与至少一个所述中间句段重叠,则将所述活动句段、与所述目标区域存在相重叠关系的所有中间句段进行合并处理。
6.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据,包括:
根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进行分段处理,得到所述音频数据的句段数据。
7.如权利要求6所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述根据噪音幅度阈值和所述音频数据的幅度的大小关系对所述音频数据进行分段处理,得到所述音频数据的句段数据,包括:
获取所述音频数据的初始分段数据;
判断所述初始分段数据中当前分段内的平均幅度是否大于所述噪音幅度阈值;
若所述初始分段数据中当前分段内的平均幅度大于所述噪音幅度阈值,则对所述当前分段标记为有声段;
对标记为有声段的所述当前分段内的音频点进行句段起点和句段终点的裁剪,以去除所述当前分段内的静音或噪声;
若所述裁剪后的当前分段的起点位置与上一个分段的终点位置相同,则将所述裁剪后的当前分段和所述上一个分段进行合并;
若所述裁剪后的当前分段的起点位置与所述上一个分段的终点位置不相同,则将所述裁剪后的当前分段标记为一个新的分段;
遍历处理所述音频数据的初始分段数据,得到所述音频数据的句段数据。
8.如权利要求7所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述获取所述音频数据的初始分段数据,包括:
根据预设语言模板对所述音频数据进行初始分段处理,获取所述音频数据的初始分段数据。
9.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述获取待处理的媒体文件对应的项目工程文件,包括:
获取待处理的媒体文件;
检测所述媒体文件是否已创建对应的项目工程文件;
若检测到所述媒体文件未创建对应的项目工程文件,则基于模板文件创建所述媒体文件对应的项目工程文件;或者
若检测到所述媒体文件已创建对应的项目工程文件,则获取已创建的所述媒体文件对应的项目工程文件。
10.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法还包括:
响应于携带目标文件类型的导出指令,从所述项目工程文件中导出与所述目标文件类型对应的导出文件,所述目标文件类型属于预设文件类型中的任一种文件类型。
11.如权利要求10所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法还包括:
响应于导入指令,获取导入文件;
当所述导入文件的文件类型属于所述预设文件类型中的任一种文件类型时,将所述导入文件导入所述项目工程文件中。
12.如权利要求1所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述在操作界面上显示所述音频数据的句段数据,包括:
在操作界面上显示所述音频数据的句段数据的句段波形信息,以及所述句段波形信息对应的时间轴信息。
13.如权利要求12所述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法还包括:
响应于隐藏波形指令,在操作界面上隐藏所述句段波形信息和所述时间轴信息。
14.如权利要求1述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法还包括:
响应于针对所述句段数据中目标句段的***断点操作,在述目标句段的边界轴控件中***断点,以基于所述断点对所述目标句段进行分段处理。
15.如权利要求1述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述转写文本包括所述句段数据中的每一个句段对应的文本片段,在所述对所述处理后的句段数据进行语音识别处理得到转写文本之后,还包括:
响应于针对所述转写文本中的目标文本片段的修改指令,对所述目标文本片段进行修改,得到修改后的转写文本,目标文本片段为所述转写文本中的至少一个文本片段。
16.如权利要求15述的基于自建模板的多模态快速转写及标注方法,其特征在于,所述方法还包括:
响应于针对所述目标文本片段的标注指令,对所述目标文本片段进行标注,得到标注后的转写文本。
17.一种基于自建模板的多模态快速转写及标注***,其特征在于,所述***包括:
第一获取单元,用于获取待处理的媒体文件对应的项目工程文件;
第二获取单元,用于根据所述项目工程文件的目录,获取所述媒体文件的音频数据;
分段单元,用于根据所述音频数据的幅度对所述音频数据进行分段处理,得到所述音频数据的句段数据;
显示单元,用于在操作界面上显示所述音频数据的句段数据,所述操作界面用于提供展示界面和边界轴控件;
处理单元,用于响应于针对所述边界轴控件的编辑操作,对所述句段数据进行边界调整处理或者句段合并处理,得到处理后的句段数据;
转写单元,用于对所述处理后的句段数据进行语音识别处理得到转写文本;
更新单元,用于根据所述转写文本对所述项目工程文件进行更新,得到更新后的项目工程文件,所述更新后的项目工程文件携带所述转写文本;
播放单元,用于在所述展示界面上播放所述更新后的项目工程文件时,显示所述媒体文件和所述转写文本中与所述媒体文件的播放进度对应的文本片段。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-16任一项所述的基于自建模板的多模态快速转写及标注方法中的步骤。
CN202280002307.8A 2022-05-06 2022-05-06 一种基于自建模板的多模态快速转写及标注*** Active CN115136233B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2022/091181 WO2023212920A1 (zh) 2022-05-06 2022-05-06 一种基于自建模板的多模态快速转写及标注***

Publications (2)

Publication Number Publication Date
CN115136233A true CN115136233A (zh) 2022-09-30
CN115136233B CN115136233B (zh) 2023-09-22

Family

ID=83387058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280002307.8A Active CN115136233B (zh) 2022-05-06 2022-05-06 一种基于自建模板的多模态快速转写及标注***

Country Status (2)

Country Link
CN (1) CN115136233B (zh)
WO (1) WO2023212920A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270437A1 (en) * 2007-04-26 2008-10-30 Custom Speech Usa, Inc. Session File Divide, Scramble, or Both for Manual or Automated Processing by One or More Processing Nodes
US20100080528A1 (en) * 2008-09-22 2010-04-01 Ed Yen Online video and audio editing
US20170169840A1 (en) * 2015-12-14 2017-06-15 Adobe Systems Incorporated Hybrid audio representations for editing audio content
CN108681530A (zh) * 2018-05-04 2018-10-19 北京天元创新科技有限公司 一种基于Web的公文生成方法及***
CN110740275A (zh) * 2019-10-30 2020-01-31 中央电视台 一种非线性编辑***
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN114268829A (zh) * 2021-12-22 2022-04-01 中电金信软件有限公司 视频处理方法、装置、电子设备及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657947B (zh) * 2017-09-20 2020-11-24 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
CN114420125A (zh) * 2020-10-12 2022-04-29 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270437A1 (en) * 2007-04-26 2008-10-30 Custom Speech Usa, Inc. Session File Divide, Scramble, or Both for Manual or Automated Processing by One or More Processing Nodes
US20100080528A1 (en) * 2008-09-22 2010-04-01 Ed Yen Online video and audio editing
US20170169840A1 (en) * 2015-12-14 2017-06-15 Adobe Systems Incorporated Hybrid audio representations for editing audio content
CN108681530A (zh) * 2018-05-04 2018-10-19 北京天元创新科技有限公司 一种基于Web的公文生成方法及***
CN110740275A (zh) * 2019-10-30 2020-01-31 中央电视台 一种非线性编辑***
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN114268829A (zh) * 2021-12-22 2022-04-01 中电金信软件有限公司 视频处理方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯文惠等: "面向中文AMR标注体系的兼语语料库构建及兼语结构识别", 《清华大学学报(自然科学版)》 *
孙筱;付南钧;杨炼;李凯;韩梅;: "计算机专业手语语料库的建设研究", 智能计算机与应用, no. 06 *

Also Published As

Publication number Publication date
WO2023212920A1 (zh) 2023-11-09
CN115136233B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
US20180286459A1 (en) Audio processing
CN102256049B (zh) 自动化故事生成
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
US10043519B2 (en) Generation of text from an audio speech signal
US20100003006A1 (en) Video searching apparatus, editing apparatus, video searching method, and program
US11443646B2 (en) E-Reader interface system with audio and highlighting synchronization for digital books
US20210304799A1 (en) Transcript-based insertion of secondary video content into primary video content
CN110740275B (zh) 一种非线性编辑***
WO2022001579A1 (zh) 音频处理方法、装置、设备及存储介质
JP6814871B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
CN114023301A (zh) 音频编辑方法、电子设备及存储介质
CN111653265A (zh) 语音合成方法、装置、存储介质和电子设备
CN114095782A (zh) 一种视频处理方法、装置、计算机设备及存储介质
US20230343325A1 (en) Audio processing method and apparatus, and electronic device
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
CN112040142B (zh) 用于移动终端上的视频创作的方法
US20150006174A1 (en) Information processing device, information processing method and program
US20160027471A1 (en) Systems and methods for creating, editing and publishing recorded videos
CN115136233B (zh) 一种基于自建模板的多模态快速转写及标注***
KR20210050410A (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JP2020052262A (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
JP7229296B2 (ja) 関連情報提供方法及びシステム
KR20240101711A (ko) 긴 형식의 텍스트 문서에 대한 자동화된 텍스트-음성 변환 발음 편집
CN113761865A (zh) 声文重对齐及信息呈现方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant