CN112468754A - 一种基于音视频识别技术的笔录数据采集方法及装置 - Google Patents
一种基于音视频识别技术的笔录数据采集方法及装置 Download PDFInfo
- Publication number
- CN112468754A CN112468754A CN202011313876.3A CN202011313876A CN112468754A CN 112468754 A CN112468754 A CN 112468754A CN 202011313876 A CN202011313876 A CN 202011313876A CN 112468754 A CN112468754 A CN 112468754A
- Authority
- CN
- China
- Prior art keywords
- file
- video
- recording
- audio
- text file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005516 engineering process Methods 0.000 title claims abstract description 34
- 238000013518 transcription Methods 0.000 claims abstract description 68
- 230000035897 transcription Effects 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 14
- 238000009960 carding Methods 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请涉及一种基于音视频识别技术的笔录数据采集方法及装置,涉及笔录信息收录技术领域,该方法包括以下步骤:同步采集录音音频文件、录像视频文件以及笔录文本文件;根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,提升了笔录信息收录工作的准确性。
Description
技术领域
本申请涉及笔录信息收录技术领域,具体涉及一种基于音视频识别技术的笔录数据采集方法及装置。
背景技术
在司法、教育、企业员工问询、纪律管理场景,尤其是在具有问询笔录同步录像录音的场景下借助人工智能对音视频识别,需要保证笔录信息收录的准确性。
全程同步录音录像时,录音与录像是否保持同步一致,笔录内容与录音录像内容是否保持一致,笔录的录音录像时长在制作时间上是否具有一致性,均是影响智能化笔录信息收录工作准确性的关键因素。
故而,为提高笔录信息收录的准确性,现提供一种基于音视频识别技术的笔录数据采集核查技术。
发明内容
本申请提供一种基于音视频识别技术的笔录数据采集方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,提升了笔录信息收录工作的准确性。
第一方面,本申请提供了一种基于音视频识别技术的笔录数据采集方法,所述方法包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
具体的,所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
具体的,各所述笔录文本文件配有对应的音视频索引,各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。
进一步的,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,所述方法还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
进一步的,所述文件预处理流程还包括以下步骤
计算进行信息结构化梳理后的所述笔录文本文件在所述录音音频文件、所述录像视频文件以及所述笔录文本文件中的信息量占比。
优选的,在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
第二方面,本申请提供了一种基于音视频识别技术的笔录数据采集装置,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请提供的技术方案带来的有益效果包括:
本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的步骤流程图;
图2为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的原理流程图;
图3为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的事件项目的传输结构示意图;
图4为本申请实施例二提供的基于音视频识别技术的笔录数据采集装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图对本申请的实施例作进一步详细说明。
本申请实施例提供一种基于音视频识别技术的笔录数据采集方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
为达到上述技术效果,本申请的总体思路如下:
一种基于音视频识别技术的笔录数据采集方法,该方法包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
以下结合附图对本申请的实施例作进一步详细说明。
实施例一
参见图1~3所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集方法,该方法包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集方法,执行的***结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该***结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系;
笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
笔录文本文件中包括多个事件项目标记,各事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,该方法还包括以下步骤:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,文件预处理流程包括以下步骤:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
所述声源类别包括询问人、被询问人以及非人声。
进一步的,文件预处理流程还包括以下步骤:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中***笔录字幕信息,形成交叉证明。
优选的,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
本申请实施例中,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储,具体包括以下步骤:
判断当前讯问是否结束,若讯问未结束则不断循环进行同步采集和关键信息的处理工作;
当前询问结束时,归档整理,按照时间先后次序存储录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件;
记录结束时间,对笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,按照时间构成信息摘要链,并存储到服务器,防止文件被篡改。
其中,同步采集,即同步采集录音音频文件、录像视频文件以及笔录文本文件;
关键信息的处理工作,即根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
信息摘要即信息ID。
实施例二
参见图4所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集装置,该装置用于实施实施例一中的基于音视频识别技术的笔录数据采集方法,该装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集装置,还需要基于一外部***结构,该***结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该***结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系;
笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
笔录文本文件中包括多个事件项目标记,各事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,数据存储模块对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,具体包括以下流程:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,该装置还包括文件预处理模块,在数据处理模块获得笔录关键词文件、转录文本文件以及视频特征文件之前,文件预处理模块的工作流程包括:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
进一步的,文件预处理模块的工作流程还包括:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中***笔录字幕信息,形成交叉证明。
优选的,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,数据处理模块在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,具体包括以下工作流程:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于音视频识别技术的笔录数据采集方法,其特征在于,包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
2.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
3.如权利要求2所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
4.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
各所述笔录文本文件配有对应的音视频索引,各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。
5.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
6.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
7.如权利要求5所述的基于音视频识别技术的笔录数据采集方法,其特征在于,所述文件预处理流程还包括以下步骤
计算进行信息结构化梳理后的所述笔录文本文件在所述录音音频文件、所述录像视频文件以及所述笔录文本文件中的信息量占比。
8.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
9.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
10.一种基于音视频识别技术的笔录数据采集装置,其特征在于,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011313876.3A CN112468754B (zh) | 2020-11-20 | 2020-11-20 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011313876.3A CN112468754B (zh) | 2020-11-20 | 2020-11-20 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112468754A true CN112468754A (zh) | 2021-03-09 |
CN112468754B CN112468754B (zh) | 2023-04-28 |
Family
ID=74799458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011313876.3A Active CN112468754B (zh) | 2020-11-20 | 2020-11-20 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112468754B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032617A (zh) * | 2021-03-26 | 2021-06-25 | 平安银行股份有限公司 | 视讯问答流程的控制方法、装置、设备及存储介质 |
CN113079387A (zh) * | 2021-03-26 | 2021-07-06 | 平安银行股份有限公司 | 远程视讯录制方法、装置、设备及存储介质 |
CN113873191A (zh) * | 2021-10-12 | 2021-12-31 | 苏州万店掌软件技术有限公司 | 一种基于语音的视频回溯方法、装置及*** |
CN114255760A (zh) * | 2021-12-15 | 2022-03-29 | 江苏税软软件科技有限公司 | 问询记录***及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096626A1 (en) * | 2008-02-29 | 2009-09-02 | Sony Corporation | Method for visualizing audio data |
CN101763363A (zh) * | 2008-12-08 | 2010-06-30 | 新奥特硅谷视频技术有限责任公司 | 一种庭审过程中资料实时展示的方法和装置 |
CA2792600A1 (en) * | 2012-05-01 | 2013-11-01 | Mitel Networks Corporation | Multi-modal communications with conferencing and clients |
CN109688430A (zh) * | 2018-12-12 | 2019-04-26 | 北京东土科技股份有限公司 | 一种法院庭审文件回放方法、***及存储介质 |
CN110070873A (zh) * | 2019-05-07 | 2019-07-30 | 上海良相智能化工程有限公司 | 一种监察数字审讯***及设备 |
CN110378228A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 面审视频数据处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-20 CN CN202011313876.3A patent/CN112468754B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096626A1 (en) * | 2008-02-29 | 2009-09-02 | Sony Corporation | Method for visualizing audio data |
CN101763363A (zh) * | 2008-12-08 | 2010-06-30 | 新奥特硅谷视频技术有限责任公司 | 一种庭审过程中资料实时展示的方法和装置 |
CA2792600A1 (en) * | 2012-05-01 | 2013-11-01 | Mitel Networks Corporation | Multi-modal communications with conferencing and clients |
CN109688430A (zh) * | 2018-12-12 | 2019-04-26 | 北京东土科技股份有限公司 | 一种法院庭审文件回放方法、***及存储介质 |
CN110070873A (zh) * | 2019-05-07 | 2019-07-30 | 上海良相智能化工程有限公司 | 一种监察数字审讯***及设备 |
CN110378228A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 面审视频数据处理方法、装置、计算机设备和存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032617A (zh) * | 2021-03-26 | 2021-06-25 | 平安银行股份有限公司 | 视讯问答流程的控制方法、装置、设备及存储介质 |
CN113079387A (zh) * | 2021-03-26 | 2021-07-06 | 平安银行股份有限公司 | 远程视讯录制方法、装置、设备及存储介质 |
CN113873191A (zh) * | 2021-10-12 | 2021-12-31 | 苏州万店掌软件技术有限公司 | 一种基于语音的视频回溯方法、装置及*** |
CN113873191B (zh) * | 2021-10-12 | 2023-11-28 | 苏州万店掌软件技术有限公司 | 一种基于语音的视频回溯方法、装置及*** |
CN114255760A (zh) * | 2021-12-15 | 2022-03-29 | 江苏税软软件科技有限公司 | 问询记录***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112468754B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112468754A (zh) | 一种基于音视频识别技术的笔录数据采集方法及装置 | |
CN112468753B (zh) | 一种基于音视频识别技术的笔录数据采集核查方法及装置 | |
US10497378B2 (en) | Systems and methods for recognizing sound and music signals in high noise and distortion | |
CN108447501B (zh) | 一种云存储环境下基于音频字的盗版视频检测方法与*** | |
CN101821734B (zh) | 时基媒体之间的匹配的检测和分类 | |
Cano et al. | Robust sound modeling for song detection in broadcast audio | |
US6434520B1 (en) | System and method for indexing and querying audio archives | |
US7934264B2 (en) | Methods, systems, and computer program products for detecting alteration of audio or image data | |
CN103500579B (zh) | 语音识别方法、装置及*** | |
CN114297439B (zh) | 一种短视频标签确定方法、***、装置及存储介质 | |
Goldman et al. | Accessing the spoken word | |
CN112800269A (zh) | 会议记录的生成方法及装置 | |
CN115272533A (zh) | 一种基于视频结构化数据的智能图文转视频的方法及*** | |
US10958982B1 (en) | Closed-caption processing using machine learning for media advertisement detection | |
Dufour et al. | Investigation of spontaneous speech characterization applied to speaker role recognition | |
Haloi et al. | Unsupervised story segmentation and indexing of broadcast news video | |
CN116129909A (zh) | 一种基于聚类的声纹数据自动采集方法 | |
EP3996085A1 (en) | Relations between music items | |
Feki et al. | Automatic environmental sound concepts discovery for video retrieval | |
Maksimović et al. | Detection and localization of partial audio matches in various application scenarios | |
Keshtkar et al. | Determining the best proportion of music genre to be played in a radio program | |
Khemiri et al. | A generic audio identification system for radio broadcast monitoring based on data-driven segmentation | |
US20060092327A1 (en) | Story segmentation method for video | |
EP3996084B1 (en) | Determining relations between music items | |
US20230260492A1 (en) | Relations between music items |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |