CN115866290A - 视频打点方法、装置、设备及存储介质 - Google Patents
视频打点方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115866290A CN115866290A CN202210610692.6A CN202210610692A CN115866290A CN 115866290 A CN115866290 A CN 115866290A CN 202210610692 A CN202210610692 A CN 202210610692A CN 115866290 A CN115866290 A CN 115866290A
- Authority
- CN
- China
- Prior art keywords
- video
- dotting
- information
- node
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 205
- 238000001514 detection method Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 6
- 238000007689 inspection Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视频打点方法、装置、设备及存储介质。该视频打点方法包括:获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;对所述待识别音频文件进行语音识别,得到音频识别结果;通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。本发明能够实现视频的智能打点,提高视频打点效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种视频打点方法、装置、设备及存储介质。
背景技术
双录(即录音录像)是银监会的硬性规定,一方面避免信托公司或者三方理财销售人员在跟客户沟通过程中出现虚假承诺、违规保本宣传的现象,另一方面也是对投资者风险承受能力、产品风险认识的再提醒,其初衷仍然是为了保护投资者。
但是由于金融市场是一个具有庞大用户受众群体的市场,任何一家公司都无法通过其自身的专营渠道完成所有金融产品的销售工作,为了提高市场的占有率,几乎所有的行方或保司都会采取自营+合作伙伴分销的方式进行多渠道销售同一个产品,在此合作模式下就面临一个合规问题,即:如果客户是通过自营渠道购买理财或保险产品,是会通过行方或保司的线上***进行交易,此过程会严格按照合规流程进行录音录像且实时做合规检测。但是合作伙伴的售卖渠道就面临不一样的情况,由于合作伙伴的技术储备及成本问题,无法为客户提供实时的合规记录能力,只能通过线下录像的方式,在交易完成后将视频上传到保司或行方的***中,这一部分的业务就面临很大的合规风险。
在双录的离线质检***中,由于合规视频是第三方销售渠道上传来的,视频的每一个节点打点信息是缺失的,因此需要操作人员人工打点,其效率十分低下,因此,亟需针对离线合规检测场景中的视频,提供的一套智能打点方案,以方便人工复检能够快速定位到视频中的不合规的节点。
发明内容
本发明的主要目的在于提供一种视频打点方法、装置、设备及存储介质,旨在实现视频的智能打点,提高视频打点效率。
为实现上述目的,本发明提供一种视频打点方法,所述视频打点方法包括:
获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
对所述待识别音频文件进行语音识别,得到音频识别结果;
通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
优选地,所述通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息的步骤之前,所述视频打点方法还包括:
获取业务流程信息,其中,所述业务流程信息包括各业务流程节点的节点编号、业务流程话术、关键词及业务流程顺序;
根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,基于所述业务流程节点编号、所述业务流程顺序和所述状态树得到所述流程状态匹配器。
优选地,所述通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息的步骤包括:
将所述流程状态匹配器的状态树中的关键词与所述音频识别结果进行匹配,得到匹配结果;
根据所述匹配结果确定得到流程锚点信息,所述流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
优选地,所述根据所述流程锚点信息确定得到视频打点信息的步骤包括:
根据所述流程锚点信息中的各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置;
获取各业务流程节点对应的节点标题,根据所述视频打点位置和所述节点标题得到视频打点信息。
优选地,所述根据所述视频打点位置和所述节点标题得到视频打点信息的步骤之前,所述视频打点方法还包括:
获取所述待打点视频对应的各业务流程节点的合规检测结果,根据所述合规检测结果确定各视频打点位置对应的打点颜色信息;
所述根据所述视频打点位置和所述节点标题得到视频打点信息的步骤包括:
根据所述视频打点位置、所述打点颜色信息和所述节点标题得到视频打点信息。
优选地,所述根据所述视频打点信息对所述待打点视频进行打点处理的步骤包括:
将所述视频打点信息绘制到视频播放器插件的进度条上,以实现对所述待打点视频的打点处理。
此外,为实现上述目的,本发明还提供一种视频打点装置,所述视频打点装置包括:
文件获取模块,用于获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
语音识别模块,用于对所述待识别音频文件进行语音识别,得到音频识别结果;
信息匹配模块,用于通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
视频打点模块,用于根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
此外,为实现上述目的,本发明还提供一种视频打点设备,所述视频打点设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的视频打点方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的视频打点方法的步骤。
本发明提供一种视频打点方法、装置、设备及存储介质,先获取待打点视频文件,从待打点视频文件中提取得到待识别音频文件;然后,对待识别音频文件进行语音识别,得到音频识别结果;接着,通过流程状态匹配器对音频识别结果进行匹配,得到流程锚点信息;进而根据流程锚点信息确定得到视频打点信息,根据视频打点信息对待打点视频进行打点处理。通过上述方式,能够实现视频的智能打点,相比于人工打点的方式,可大大提高视频打点效率。此外,在对视频进行打点后,可有助于人工复核时快速定位到视频合规检测失败的位置,进而提高人工质检效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明视频打点方法第一实施例的流程示意图;
图3为本发明视频打点装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例视频打点设备可以是服务器,也可以是PC(Personal Computer,个人计算机)、平板电脑、便携计算机等终端设备。
如图1所示,该视频打点设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的视频打点设备结构并不构成对视频打点设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及计算机程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的计算机程序,并执行以下操作:
获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
对所述待识别音频文件进行语音识别,得到音频识别结果;
通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
获取业务流程信息,其中,所述业务流程信息包括各业务流程节点的节点编号、业务流程话术、关键词及业务流程顺序;
根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,基于所述业务流程节点编号、所述业务流程顺序和所述状态树得到所述流程状态匹配器。
进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
将所述流程状态匹配器的状态树中的关键词与所述音频识别结果进行匹配,得到匹配结果;
根据所述匹配结果确定得到流程锚点信息,所述流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
根据所述流程锚点信息中的各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置;
获取各业务流程节点对应的节点标题,根据所述视频打点位置和所述节点标题得到视频打点信息。
进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
获取所述待打点视频对应的各业务流程节点的合规检测结果,根据所述合规检测结果确定各视频打点位置对应的打点颜色信息;
所述根据所述视频打点位置和所述节点标题得到视频打点信息的步骤包括:
根据所述视频打点位置、所述打点颜色信息和所述节点标题得到视频打点信息。
进一步地,处理器1001可以调用存储器1005中存储的计算机程序,还执行以下操作:
将所述视频打点信息绘制到视频播放器插件的进度条上,以实现对所述待打点视频的打点处理。
基于上述硬件结构,提出本发明视频打点方法的各实施例。
本发明提供一种视频打点方法。
参照图2,图2为本发明视频打点方法第一实施例的流程示意图。
在本实施例中,该视频打点方法包括:
步骤S10,获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
本实施例的视频打点方法是由视频打点设备实现的,该设备可以是服务器,也可以是PC(Personal Computer,个人计算机)、平板电脑、便携计算机等终端设备。
在本实施例中,首先获取待打点视频文件,待打点视频文件为智能双录质检场景下录好的视频文件,该待打点视频文件包括视频+音频文件,因此需先对待打点视频的音频部分进行提取分割,得到待识别音频文件,具体的,可通过FFMPEG(Fast Forward Mpeg,多媒体视频处理工具)将待打点视频中的音频文件抽取出来,并转换为后续语音识别算法所需的音频格式及码率,以得到待识别音频。
其中,FFMPEG是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。
步骤S20,对所述待识别音频文件进行语音识别,得到音频识别结果;
在获取到待识别音频文件之后,对待识别音频文件进行语音识别,得到音频识别结果。在进行语音识别时,可采用ASR(Automatic Speech Recognition,自动语音识别技术)算法进行识别,可调用对应的接口进行语音识别,当然,在具体实施时,还可以将待识别音频文件发送至对应的专业平台进行语音识别,进而接收到专业平台返回的音频识别结果。
该音频识别结果包括但不限于:channel_id(该句所属音轨ID)、begin_time(该句的起始时间偏移,单位为毫秒)、end_time(该句的结束时间偏移,单位为毫秒)、text(该句的识别文本结果)、emotion_value(情绪能量值1-10,值越高情绪越强烈)、silence_duration(本句与上一句之间的静音时长,单位为秒)、(speech_rate本句的平均语速,单位为每分钟字数)。
步骤S30,通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息。
在进行语音识别得到音频识别结果之后,通过流程状态匹配器对音频识别结果进行匹配,得到流程锚点信息,其中,流程状态匹配器是预先构建好的,具体的构建过程可参照下述第二实施例,此处不作赘述,流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
流程锚点信息的获取过程如下:将流程状态匹配器的状态树中的关键词与音频识别结果进行匹配,即,通过状态树识别每一个业务流程节点配置的关键字,最终算出每个业务流程节点的识别总分,如果超过预设阈值则为命中,识别总分的计算公式如下:score(识别总分)=T(设置的关键字数量)/R(识别到的关键字数量)*100%,然后,根据匹配结果即可确定出各个业务流程节点在音频识别结果中的对应的时间点(包括起始时间和结束时间),即流程锚点信息。
步骤S40,根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
在得到流程锚点信息之后,根据流程锚点信息确定得到视频打点信息,其中,视频打点信息至少包括各业务流程节点对应的视频打点位置及其节点标题,还可以包括各视频打点位置对应的打点颜色信息。
具体的,可根据流程锚点信息中的各业务流程节点在待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置,然后,获取各业务流程节点对应的节点标题,根据视频打点位置和节点标题得到视频打点信息。
进一步地,还可以获取待打点视频对应的各业务流程节点的合规检测结果,根据合规检测结果确定各视频打点位置对应的打点颜色信息,进而根据视频打点位置、打点颜色信息和节点标题得到视频打点信息。
视频打点信息的具体获取过程可参照下述第三实施例,此处不作赘述。
进一步地,步骤“根据所述视频打点信息对所述待打点视频进行打点处理”包括:
将所述视频打点信息绘制到视频播放器插件的进度条上,以实现对所述待打点视频的打点处理。
在本实施例中,在获取到视频打点信息之后,根据视频打点信息对待打点视频进行打点处理,具体的,将视频打点信息绘制到视频播放器插件的进度条上,以实现对待打点视频的打点处理。通过视频打点,可使得用户将鼠标移到视频播放条上的小点时,即通过toast(一种简易的消息提示框)提示框的方式显示出在该节点对应的视频内容,通过上述方式,可***地把视频的关键内容点标记出来,方便用户快速定位想看的内容。
本发明实施例提供一种视频打点方法,先获取待打点视频文件,从待打点视频文件中提取得到待识别音频文件;然后,对待识别音频文件进行语音识别,得到音频识别结果;接着,通过流程状态匹配器对音频识别结果进行匹配,得到流程锚点信息;进而根据流程锚点信息确定得到视频打点信息,根据视频打点信息对待打点视频进行打点处理。通过上述方式,能够实现视频的智能打点,相比于人工打点的方式,可大大提高视频打点效率。此外,在对视频进行打点后,可有助于人工复核时快速定位到视频合规检测失败的位置,进而提高人工质检效率。
进一步地,基于上述第一实施例,提出本发明视频打点方法的第二实施例。
在本实施例中,在上述步骤S30之前,所述视频打点方法还包括:
步骤A,获取业务流程信息,其中,所述业务流程信息包括各业务流程节点的节点编号、业务流程话术、关键词及业务流程顺序;
步骤B,根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,基于所述业务流程节点编号、所述业务流程顺序和所述状态树得到所述流程状态匹配器。
在本实施例中,获取业务流程信息,其中,业务流程信息包括各业务流程节点的节点编号(nodeId)、业务流程话术(Speech)、关键词(Keyword)和业务流程顺序(detailSort),此外,业务流程信息还可以包括:节点标题,业务流程信息的表达方式多为json格式的报文数据。以某一理财产品销售过程中的智能双录质检服务为例进行说明。
业务流程信息可以为:
在获取到业务流程信息后,根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,进而可基于业务流程节点编号、业务流程顺序和状态树得到流程状态匹配器。其中,有限状态机(Deterministic Finite Automaton,简称DFA)是指从一个状态通过一系列的事件转换到另一个状态,即state->event->state,它是一种用来进行对象行为建模的工具,其作用主要是描述对象在它的生命周期内所经历的状态序列,以及如何响应来自外界的各种事件。
进一步地,步骤S30可以包括:
步骤a31,将所述流程状态匹配器的状态树中的关键词与所述音频识别结果进行匹配,得到匹配结果;
步骤a32,根据所述匹配结果确定得到流程锚点信息,所述流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
在本实施例中,基于语音识别得到的音频识别结果进行流程锚点时,其具体过程如下:将流程状态匹配器的状态树中的关键词与音频识别结果进行匹配,即,通过状态树识别每一个业务流程节点配置的关键字,最终算出每个业务流程节点的识别总分,如果超过预设阈值则为命中,识别总分的计算公式如下:score(识别总分)=T(设置的关键字数量)/R(识别到的关键字数量)*100%,然后,根据匹配结果即可确定出各个业务流程节点在音频识别结果中的对应的时间点(包括起始时间和结束时间)。
本实施例中,通过有限状态机算法,将欲匹配的关键词构建成状态树,进而构建为流程状态匹配器,以便于后续通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息,即各业务流程节点在待识别音频文件中对应的时间点。通过有限状态机的方式完成业务流程的匹配识别,相比于现有的采用NLP意图识别算法进行识别,可大大提高业务流程识别的精确度和准确性,同时,无需人工配置相关规则,可以大大简化流程复杂度,提高识别效率。
进一步地,基于上述第二实施例,提出本发明视频打点方法的第三实施例。
在本实施例中,上述步骤“根据所述流程锚点信息确定得到视频打点信息”可以包括:
步骤a41,根据所述流程锚点信息中的各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置;
步骤a42,获取各业务流程节点对应的节点标题,根据所述视频打点位置和所述节点标题得到视频打点信息。
在本实施例中,视频打点信息的获取过程如下:
根据流程锚点信息中的各业务流程节点在待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置,具体的,各业务流程节点的视频打点位置包括起始打点位置和结束打点位置,起始打点位置即对应该起始时间在待打点视频中的位置,结束打点位置即对应该结束时间在待打点视频中的位置。然后,获取各业务流程节点对应的节点标题,根据视频打点位置和节点标题得到视频打点信息。
进一步地,在上述步骤“根据所述流程锚点信息确定得到视频打点信息”之前,所述视频打点方法还可以包括:
步骤a43,获取所述待打点视频对应的各业务流程节点的合规检测结果,根据所述合规检测结果确定各视频打点位置对应的打点颜色信息;
此时,步骤“根据所述视频打点位置和所述节点标题得到视频打点信息”可以包括:
根据所述视频打点位置、所述打点颜色信息和所述节点标题得到视频打点信息。
在本实施例中,还可以结合待打点视频的合规检测结果进一步完善视频打点信息,具体的,在获取到视频打点位置和节点标题的同时,可进一步获取待打点视频对应的各业务流程节点的合规检测结果,根据合规检测结果确定各视频打点位置对应的打点颜色信息,例如,若合规检测结果为通过,可用红色表示,若合规检测结果为未通过,可用白色表示。然后,根据视频打点位置、打点颜色信息和节点标题得到视频打点信息。视频打点信息可采用如下方式进行表示:
其中,beginTime表示该句的起始时间偏移,单位为毫秒;endTime该句的结束时间偏移,单位为毫秒;subject表示节点标题;pointColor表示打点颜色;emsg表示错误提示;detailSort表示流程顺序。
进一步地,基于上述第一至第三实施例,提出本发明视频打点方法的第四实施例。
在本实施例中,在上述步骤S20之前,该视频打点方法还包括:
步骤C,对所述待识别音频文件进行VAD检测,得到检测结果;
在本实施例中,在获取到待识别音频文件之后,调用算法进行语音识别之前,先对待识别音频文件进行VAD(Voice Activity Detection,语音活动检测,又称语音端点检测、语音边界检测)检测,得到检测结果,以从声音信号流中识别到静默片段。
步骤D,根据所述检测结果判断所述待识别音频文件是否为空白音频;
若所述待识别音频文件不为空白音频,则执行步骤S20:对所述待识别音频文件进行语音识别,得到音频识别结果。
在得到VAD检测结果之后,根据检测结果判断待识别音频文件是否为空白音频,即,根据检测结果检测待识别音频文件的静默片段的总时长是否大于或等于总时长与预设比例(可根据实际需要具体设定)的乘积值,若静默片段的总时长大于或等于该乘积值,则判定待识别音频文件为空白音频;若静默片段的总时长小于该乘积值,则判定待识别音频文件不为空白音频。
进一步地,若待识别音频文件不为空白音频,则继续执行步骤:对待识别音频文件进行语音识别,得到音频识别结果。具体的执行过程可参照上述第一实施例,此处不作赘述。
进一步地,若待识别音频文件为空白音频,则停止执行后续步骤,生成错误提示信息,以提示该待识别音频文件为空白音频,无需检测,以避免浪费算法资源。
本实施例中,通过对待识别音频文件进行VAD检测,可以在检测到空白音频时,不执行后续的检测,只有当检测到待识别音频文件不为空白音频时,方会进行后续的检测,通过上述方式,可在降低算法资源的浪费的同时减少企业因调用语音识别算法而造成的成本。
进一步地,基于上述第四实施例,提出本发明视频打点方法的第五实施例。
在本实施例中,在上述步骤S20之前,所述视频打点方法还包括:
步骤E,根据所述检测结果判断所述待识别音频文件的开头和/或结尾是否存在静默片段;
在本实施例中,在得到VAD检测结果,并进行空白音频的检测之后,若所述待识别音频文件不为空白音频,进一步地,可根据检测结果判断待识别音频文件的开头和/或结尾是否存在静默片段。
步骤F,若所述待识别音频文件的开头和/或结尾存在静默片段,则根据所述检测结果确定得到静默时间段;
步骤G,根据所述静默时间段对所述待识别音频文件进行截取,得到目标音频文件;
此时,步骤S20可以包括:
对所述目标识别音频文件进行语音识别,得到音频识别结果。
若待识别音频文件的开头和/或结尾存在静默片段,则根据检测结果确定得到静默时间段,即开头的静默片段和/或结尾的静默片段所对应的时间段。然后,根据静默时间段对待识别音频文件进行截取,即去掉开头和/或结尾的静默片段、保留中间部分的非静默片段,以得到目标音频文件。进而,对该目标识别音频文件进行语音识别,得到音频识别结果,并进一步执行后续的步骤,具体的执行过程可参照上述第一实施例,此处不作赘述。
通过上述方式,检测待识别音频文件的开头和/或结尾是否存在静默片段,如果存在,则将静默片段切分出去,从而进一步避免一部分算法资源的浪费,同时也进一步避免企业调用语音识别算法的费用浪费,从而可节省企业成本。
本发明还提供一种视频打点装置。
参照图3,图3为本发明视频打点装置第一实施例的功能模块示意图。
如图3所示,所述视频打点装置包括:
文件获取模块10,用于获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
语音识别模块20,用于对所述待识别音频文件进行语音识别,得到音频识别结果;
信息匹配模块30,用于通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
视频打点模块40,用于根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
进一步地,所述视频打点装置还包括:
信息获取模块,用于获取业务流程信息,其中,所述业务流程信息包括各业务流程节点的节点编号、业务流程话术、关键词及业务流程顺序;
匹配器构建模块,用于根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,基于所述业务流程节点编号、所述业务流程顺序和所述状态树得到所述流程状态匹配器。
进一步地,所述信息匹配模块30包括:
信息匹配单元,用于将所述流程状态匹配器的状态树中的关键词与所述音频识别结果进行匹配,得到匹配结果;
信息确定单元,用于根据所述匹配结果确定得到流程锚点信息,所述流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
进一步地,所述视频打点模块40包括:
打点位置确定单元,用于根据所述流程锚点信息中的各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置;
打点信息确定单元,用于获取各业务流程节点对应的节点标题,根据所述视频打点位置和所述节点标题得到视频打点信息。
进一步地,所述视频打点模块40还包括:
结果获取单元,用于获取所述待打点视频对应的各业务流程节点的合规检测结果,根据所述合规检测结果确定各视频打点位置对应的打点颜色信息;
打点信息确定单元,还用于根据所述视频打点位置、所述打点颜色信息和所述节点标题得到视频打点信息。
进一步地,所述视频打点模块40还包括:
视频打点单元,用于将所述视频打点信息绘制到视频播放器插件的进度条上,以实现对所述待打点视频的打点处理。
其中,上述视频打点装置中各个模块的功能实现与上述视频打点方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上任一项实施例所述的视频打点方法的步骤。
本发明计算机可读存储介质的具体实施例与上述视频打点方法各实施例基本相同,在此不作赘述。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如以上任一项所述的视频打点方法的步骤。
本发明计算机程序产品的具体实施例与上述视频打点方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种视频打点方法,其特征在于,所述视频打点方法包括:
获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
对所述待识别音频文件进行语音识别,得到音频识别结果;
通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
2.如权利要求1所述的视频打点方法,其特征在于,所述通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息的步骤之前,所述视频打点方法还包括:
获取业务流程信息,其中,所述业务流程信息包括各业务流程节点的节点编号、业务流程话术、关键词及业务流程顺序;
根据有限状态机算法分别将各业务流程节点的关键词构建成有限状态机的状态树,基于所述业务流程节点编号、所述业务流程顺序和所述状态树得到所述流程状态匹配器。
3.如权利要求2所述的视频打点方法,其特征在于,所述通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息的步骤包括:
将所述流程状态匹配器的状态树中的关键词与所述音频识别结果进行匹配,得到匹配结果;
根据所述匹配结果确定得到流程锚点信息,所述流程锚点信息包括各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间。
4.如权利要求3所述的视频打点方法,其特征在于,所述根据所述流程锚点信息确定得到视频打点信息的步骤包括:
根据所述流程锚点信息中的各业务流程节点在所述待识别音频文件中对应的起始时间和结束时间确定各业务流程节点的视频打点位置;
获取各业务流程节点对应的节点标题,根据所述视频打点位置和所述节点标题得到视频打点信息。
5.如权利要求4中所述的视频打点方法,其特征在于,所述根据所述视频打点位置和所述节点标题得到视频打点信息的步骤之前,所述视频打点方法还包括:
获取所述待打点视频对应的各业务流程节点的合规检测结果,根据所述合规检测结果确定各视频打点位置对应的打点颜色信息;
所述根据所述视频打点位置和所述节点标题得到视频打点信息的步骤包括:
根据所述视频打点位置、所述打点颜色信息和所述节点标题得到视频打点信息。
6.如权利要求1至5中任一项所述的视频打点方法,其特征在于,所述根据所述视频打点信息对所述待打点视频进行打点处理的步骤包括:
将所述视频打点信息绘制到视频播放器插件的进度条上,以实现对所述待打点视频的打点处理。
7.一种视频打点装置,其特征在于,所述视频打点装置包括:
文件获取模块,用于获取待打点视频文件,从所述待打点视频文件中提取得到待识别音频文件;
语音识别模块,用于对所述待识别音频文件进行语音识别,得到音频识别结果;
信息匹配模块,用于通过流程状态匹配器对所述音频识别结果进行匹配,得到流程锚点信息;
视频打点模块,用于根据所述流程锚点信息确定得到视频打点信息,根据所述视频打点信息对所述待打点视频进行打点处理。
8.一种视频打点设备,其特征在于,所述视频打点设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的视频打点方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的视频打点方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210610692.6A CN115866290A (zh) | 2022-05-31 | 2022-05-31 | 视频打点方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210610692.6A CN115866290A (zh) | 2022-05-31 | 2022-05-31 | 视频打点方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115866290A true CN115866290A (zh) | 2023-03-28 |
Family
ID=85660147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210610692.6A Pending CN115866290A (zh) | 2022-05-31 | 2022-05-31 | 视频打点方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115866290A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116886992A (zh) * | 2023-09-06 | 2023-10-13 | 北京中关村科金技术有限公司 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013049077A1 (en) * | 2011-09-26 | 2013-04-04 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files and indentifying intra-video features of interest |
CN106571137A (zh) * | 2016-10-28 | 2017-04-19 | 努比亚技术有限公司 | 一种终端语音打点控制装置及其方法 |
CN109743624A (zh) * | 2018-12-14 | 2019-05-10 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109831677A (zh) * | 2018-12-14 | 2019-05-31 | 平安科技(深圳)有限公司 | 视频脱敏方法、装置、计算机设备和存储介质 |
CN113095202A (zh) * | 2021-04-07 | 2021-07-09 | 中国工商银行股份有限公司 | 双录数据质检中的数据分段方法及装置 |
CN113723767A (zh) * | 2021-08-10 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 一种基于语音交互数据的业务流程质检方法和装置 |
-
2022
- 2022-05-31 CN CN202210610692.6A patent/CN115866290A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013049077A1 (en) * | 2011-09-26 | 2013-04-04 | Limelight Networks, Inc. | Methods and systems for generating automated tags for video files and indentifying intra-video features of interest |
CN106571137A (zh) * | 2016-10-28 | 2017-04-19 | 努比亚技术有限公司 | 一种终端语音打点控制装置及其方法 |
CN109743624A (zh) * | 2018-12-14 | 2019-05-10 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN109831677A (zh) * | 2018-12-14 | 2019-05-31 | 平安科技(深圳)有限公司 | 视频脱敏方法、装置、计算机设备和存储介质 |
CN113095202A (zh) * | 2021-04-07 | 2021-07-09 | 中国工商银行股份有限公司 | 双录数据质检中的数据分段方法及装置 |
CN113723767A (zh) * | 2021-08-10 | 2021-11-30 | 上海浦东发展银行股份有限公司 | 一种基于语音交互数据的业务流程质检方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116886992A (zh) * | 2023-09-06 | 2023-10-13 | 北京中关村科金技术有限公司 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
CN116886992B (zh) * | 2023-09-06 | 2023-12-01 | 北京中关村科金技术有限公司 | 一种视频数据的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN111741356B (zh) | 双录视频的质检方法、装置、设备及可读存储介质 | |
US7596498B2 (en) | Monitoring, mining, and classifying electronically recordable conversations | |
CN109660744A (zh) | 基于大数据的智能双录方法、设备、存储介质及装置 | |
WO2021175019A1 (zh) | 音视频录制引导方法、装置、计算机设备及存储介质 | |
CN112818674A (zh) | 带货直播的信息处理方法、装置、设备及介质 | |
CN110533288A (zh) | 业务办理流程检测方法、装置、计算机设备和存储介质 | |
CN104050221A (zh) | 用于在虚拟会议中自动记笔记的方法和*** | |
CN112233690B (zh) | 双录方法、装置、终端及存储介质 | |
CN109474843A (zh) | 语音操控终端的方法、客户端、服务器 | |
CN110598008B (zh) | 录制数据的数据质检方法及装置、存储介质 | |
CN111599359A (zh) | 人机交互方法、服务端、客户端及存储介质 | |
WO2020135756A1 (zh) | 视频段的提取方法、装置、设备及计算机可读存储介质 | |
CN109286848B (zh) | 一种终端视频信息的交互方法、装置及存储介质 | |
CN113315979A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113095204A (zh) | 双录数据质检方法、装置及*** | |
CN115866290A (zh) | 视频打点方法、装置、设备及存储介质 | |
CN111488813A (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
CN114727138B (zh) | 商品信息处理方法、装置和计算机设备 | |
CN109101964A (zh) | 确定多媒体文件中首尾区域的方法、设备及存储介质 | |
TWM578858U (zh) | 跨通路人工智慧對話式平台 | |
JP2023070631A (ja) | 情報処理方法、コンピュータプログラム、サーバ装置、端末装置及び情報処理装置 | |
WO2023272833A1 (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
KR20180073226A (ko) | 상담 이력 요약 시스템, 방법 및 컴퓨터 판독 가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |