CN116701635A - 培训视频文本二分类方法、装置、设备及存储介质 - Google Patents

培训视频文本二分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116701635A
CN116701635A CN202310729932.9A CN202310729932A CN116701635A CN 116701635 A CN116701635 A CN 116701635A CN 202310729932 A CN202310729932 A CN 202310729932A CN 116701635 A CN116701635 A CN 116701635A
Authority
CN
China
Prior art keywords
vector
semantic representation
representation vector
self
training video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310729932.9A
Other languages
English (en)
Inventor
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310729932.9A priority Critical patent/CN116701635A/zh
Publication of CN116701635A publication Critical patent/CN116701635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能及数字医疗技术,揭露了对医疗类视频文件进行分类的一种培训视频文本二分类方法,包括:提取待分类培训视频的声音文本,对声音文本进行分词,得到分词序列,并对分词序列进行长度补齐,得到目标分词序列;利用预设特征提取模型提取目标分词序列的语义表示向量;对语义表示向量进行多层自注意力赋权,得到最终语义表示向量;利用预设函数对最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将类别概率中最大概率对应类别作为待分类培训视频的类别。本发明还提出一种培训视频文本二分类装置、电子设备以及存储介质。本发明可以提高医疗培训视频文本分类的准确率。

Description

培训视频文本二分类方法、装置、设备及存储介质
技术领域
本发明涉及人工智能及数字医疗技术领域,尤其涉及对医疗类视频文件进行分类的一种培训视频文本二分类方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络教育的兴起,培训视频越来越普遍,例如医疗领域的科普或教育类培训视频,用户或平台通常会对培训视频进行分类,然后按照类别进行存储,便于用户使用。
医疗培训视频文本包含两种类别:一种是知识点讲解的干货内容视频,一种是医疗案例讲解的内容视频;目前一般采用传统的MLP(Multi-Layer Perceptron,多层神经网络)模型对培训视频文本进行二分类,即通过语言模型提取文本特征之后,将特征作为MLP的输入,根据特征的静态权重对文本进行二分类,缺少特征之间的信息注意力影响,导致医疗培训视频的分类结果准确率较低。
发明内容
本发明提供一种培训视频文本二分类方法、装置及计算机可读存储介质,其主要目的在于解决培训视频文本分类准确率较低的问题。
为实现上述目的,本发明提供的一种培训视频文本二分类方法,包括:
提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
利用预设特征提取模型提取所述目标分词序列的语义表示向量;
对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
可选地,所述利用对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量,包括:
利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量;
将所述第一语义表示向量传入所述多层感知模型的下一层网络,对所述第一语义表示向量进行第二次自注意力赋权,得到第二自注意力表示向量,并对所述第二自注意力表示向量进行正则化及激活处理,得到第二语义表示向量,直至经过最后一层网络,得到最终语义表示向量。
可选地,所述利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,包括:
将所述语义表示向量复制三份,得到第一语义表示向量、第二语义表示向量及第三语义表示向量;
将所述第一语义表示向量、所述第二语义表示向量及所述第三语义表示向量拼接为维度为3M的拼接向量,其中所述M为所述语义表示向量的维度;
利用预训练的多层感知模型中首层网络的参数矩阵,将所述拼接向量与所述语义表示向量进行叉乘,得到维度为3M的目标拼接向量;
将所述目标拼接向量中0到M维度的向量与M+1到2M维度的向量进行叉乘得到维度为M的中间向量;
利用softmax函数对所述中间向量进行归一化计算,得到M维的数值权重;
将所述数值权重与所述目标拼接向量中2M+1到3M维度的向量进行叉乘,得到第一自注意力表示向量。
可选地,所述对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量,包括:
计算所述第一自注意力表示向量的均值及标准差;
将所述第一自注意力表示向量中每个值减去所述均值,得到更新第一自注意力表示向量;
将所述更新第一自注意力表示向量除以所述标准差,得到正则化第一自注意力表示向量;
利用预设激活函数对正则化第一自注意力表示向量进行计算,得到第一语义表示向量。
可选地,所述基于所述利用预设特征提取模型提取所述目标分词序列的语义表示向量,包括:
在所述目标分词序列的首位***CLS符号,得到带特殊的目标分词序列;
利用预设特征提取模型对所述带特殊的目标分词序列进行编码,得到所述带特殊的目标分词序列中CLS符号对应的编码向量,将所述带特殊的目标分词序列中CLS符号对应的编码向量作为所述目标分词序列的语义表示向量。
可选地,所述对所述分词序列进行长度补齐,得到目标分词序列,包括:
计算所述分词序列中每个分词长度,从所述分词长度中选择最长分词长度作为目标长度;
对所述分词序列中非所述目标长度的分词进行补零,得到所有分词长度为所述目标长度的目标分词序列。
可选地,所述对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量之前,所述方法还包括:
从历史培训视频的声音文本中随机采样文本数据,作为样本数据集,并获取所述样本数据集对应的真实类别;
利用预设特征提取模型提取所述样本数据集的样本语义表示向量,得到样本语义表示向量集;
利用初始多层感知模型对所述样本语义表示向量集进行多层自注意力赋权,得到样本最终语义表示向量集;
利用预设函数对所述样本最终语义表示向量集进行二分类得到所述样本数据集两个类别概率集,将所述类别概率集中最大概率对应类别作为对应所述样本数据的预测类别;
利用交叉熵损失函数计算所述预测类别与所述真实类别的损失值,将所述损失函数反向传播给所述初始多层感知模型,调整所述初始多层感知模型的模型参数,直至所述损失值小于预设损失阈值,得到预训练的多层感知模型。
为了解决上述问题,本发明还提供一种培训视频文本二分类装置,所述装置包括:
分词模块,用于提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
特征提取模块,用于利用预设特征提取模型提取所述目标分词序列的语义表示向量;
权重赋予模块,用于对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
分类模块,用于利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的培训视频文本二分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的培训视频文本二分类方法。
本发明实施例通过提取医疗类的待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列,对所述分词序列进行长度补齐,使得所有分词长度相同,便于后续进行向量计算,利用预设特征提取模型提取所述目标分词序列的语义表示向量,由于所述预设特征提取模型中的自注意力机制,分词之间的语义会相互影响,使得语义表示向量更加准确,进一步,对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量,使得所述待分类培训视频的声音文本中各个分词之间的语义可以相互影响,最终语义表示向量更加准确,从而提高待分类培训视频分类的准确率,最后,利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频的案例内容视频及干货内容视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别,采用多层自注意力的动态权重,使得向量之间的语义可以相互影响,从而提高待分类培训视频分类的准确率。因此本发明提出的培训视频文本二分类方法、装置、电子设备及计算机可读存储介质,可以解决医疗类培训视频文本分类准确率较低的问题。
附图说明
图1为本发明一实施例提供的培训视频文本二分类方法的流程示意图;
图2为图1所示培训视频文本二分类方法中其中一个步骤的详细实施流程示意图;
图3为图1所示培训视频文本二分类方法中其中另一个步骤的详细实施流程示意图;
图4为本发明一实施例提供的培训视频文本二分类装置的功能模块图;
图5为本发明一实施例提供的实现所述培训视频文本二分类方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种培训视频文本二分类方法。所述培训视频文本二分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述培训视频文本二分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的培训视频文本二分类方法的流程示意图。在本实施例中,所述培训视频文本二分类方法包括:
S1、提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列。
本发明实施例中,所述待分类培训视频为两种类别的视频,例如医疗领域的科普或教育类培训视频主要包括知识点讲解的干货内容视频及案例讲解的案例内容视频。
本发明实施例中,可以采用asr模型提取所述待分类培训视频中声音信号对应的文本。
本发明实施例中,可以根据标点符号对所述声音文本进行分句,得到文本分句序列,其中所述文本分句序列包含所述声音文本中所有的句子,进一步利用jieba分词工具、THULAC分词工具、hanlp分词工具等常用分词工具对文本分句序列中各个分句进行分词,得到分词序列。
详细地,S1中所述对所述分词序列进行长度补齐,得到目标分词序列,包括:
计算所述分词序列中每个分词长度,从所述分词长度中选择最长分词长度作为目标长度;
对所述分词序列中非所述目标长度的分词进行补零,得到所有分词长度为所述目标长度的目标分词序列。
本发明实施例中,所述分词序列X中最长分词长度为目标长度y,对于所述分词序列中分词长度少于目标长度y,进行补0,补齐长度,使得所述分词序列X中所有分词长度为y,得到目标分词序列。例如所述分词序列为“心血管疾病国内外新技术”进行补0,得到目标分词序列“心血管疾病国内外新技术00000”。
本发明实施例中,对所述分词序列进行长度补齐,使得所有分词长度相同,便于后续进行向量计算。
S2、利用预设特征提取模型提取所述目标分词序列的语义表示向量。
本发明实施例中,所述预设特征提取模型可以为BERT(BidirectionalEncoderRepresentations from Transformer)模型,所述BERT模型为基于双向Transformer的大规模预训练语言模型,拥有强大的语言表征能力和特征提取能力,可提取文本中每个词的特征。
详细地,所述S2包括:
在所述目标分词序列的首位***CLS符号,得到带特殊的目标分词序列;
利用预设特征提取模型对所述带特殊的目标分词序列进行编码,得到所述带特殊的目标分词序列中CLS符号对应的编码向量,将所述带特殊的目标分词序列中CLS符号对应的编码向量作为所述目标分词序列的语义表示向量。
本发明实施例中,在所述目标分词序列“心血管疾病国内外新技术00000”的首位***分离字符:CLS符号,得到“[CLS]心血管疾病国内外新技术00000”,所述CLS符号可以通过Self-Attention机制来获取句子级别的信息表示,将CLS符号对应的输出向量作为对应文本的语义表示。
本发明实施例中,利用预设特征提取模型提取所述目标分词序列的语义表示向量,由于所述预设特征提取模型中的自注意力机制,分词之间的语义会相互影响,使得语义表示向量更加准确。
S3、对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量。
详细地,所述S3之前,所述方法还包括:
从历史培训视频的声音文本中随机采样文本数据,作为样本数据集,并获取所述样本数据集对应的真实类别;
利用预设特征提取模型提取所述样本数据集的样本语义表示向量,得到样本语义表示向量集;
利用初始多层感知模型对所述样本语义表示向量集进行多层自注意力赋权,得到样本最终语义表示向量集;
利用预设函数对所述样本最终语义表示向量集进行二分类得到所述样本数据集两个类别概率集,将所述类别概率集中最大概率对应类别作为对应所述样本数据的预测类别;
利用交叉熵损失函数计算所述预测类别与所述真实类别的损失值,将所述损失函数反向传播给所述初始多层感知模型,调整所述初始多层感知模型的模型参数,直至所述损失值小于预设损失阈值,得到预训练的多层感知模型。
本发明实施例中,利用如下交叉熵损失函数计算所述预测类别与所述真实类别之间的损失值L(A,B):
其中,N表示所述样本数据集中样本数据个数,Zn表示所述样本数据集中的第n个样本真实类别与第n个样本预测类别的差异值,xn表示第n个样本预测类别,yn表示第n个样本真实类别,t表示训练过程中的迭代次数。
详细地,所述S3包括:
利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量;
将所述第一语义表示向量传入所述多层感知模型的下一层网络,对所述第一语义表示向量进行第二次自注意力赋权,得到第二自注意力表示向量,并对所述第二自注意力表示向量进行正则化及激活处理,得到第二语义表示向量,直至经过最后一层网络,得到最终语义表示向量。
本发明实施例中,所述预训练的多层感知模型可以为预设层数的自注意力神经网络,其中所述自注意力神经网络可以为带注意力机制的多层神经网络(Mu lt i-LayerPerceptron,简称MLP)。
本发明实施例中,所述预设层数的自注意力神经网络的层数可以根据实际训练结果进行设定。
本发明其中一实施例中,所述预设层数的自注意力神经网络的层可设置为6。
进一步地,参阅图2所示,所述利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,包括:
S311、将所述语义表示向量复制三份,得到第一语义表示向量、第二语义表示向量及第三语义表示向量;
S312、将所述第一语义表示向量、所述第二语义表示向量及所述第三语义表示向量拼接为维度为3M的拼接向量,其中所述M为所述语义表示向量的维度;
S313、利用预训练的多层感知模型中首层网络的参数矩阵,将所述拼接向量与所述语义表示向量进行叉乘,得到维度为3M的目标拼接向量;
S314、将所述目标拼接向量中0到M维度的向量与M+1到2M维度的向量进行叉乘得到维度为M的中间向量;
S315、利用softmax函数对所述中间向量进行归一化计算,得到M维的数值权重;
S316、将所述数值权重与所述目标拼接向量中2M+1到3M维度的向量进行叉乘,得到第一自注意力表示向量。
本发明实施例中,所述语义表示向量L的维度为M,将所述语义表示向量L复制三份,得到第一语义表示向量Q、第二语义表示向量K及第三语义表示向量V;将所述第一语义表示向量Q、所述第二语义表示向量K及所述第三语义表示向量V拼接为维度为3M的拼接向量C;利用所述预设层数的自注意力神经网络中首层网络的参数矩阵,将所述拼接向量C与所述语义表示向量L进行叉乘,得到维度为3M的目标拼接向量H;将所述目标拼接向量的0到M维度的向量H_1M与M+1到2M维度的向量H_2M进行叉乘得到维度为M的中间向量I;利用softmax函数对所述中间向量I进行归一化计算,得到M维的数值权重;利用所述数值权重与所述目标拼接向量的2M+1到3M维度的向量H_3M进行叉乘,得到第一自注意力表示向量J。
更进一步地,参阅图3所示,所述对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量,包括:
S321、计算所述第一自注意力表示向量的均值及标准差;
S322、将所述第一自注意力表示向量中每个值减去所述均值,得到更新第一自注意力表示向量;
S323、将所述更新第一自注意力表示向量除以所述标准差,得到正则化第一自注意力表示向量;
S324、利用预设激活函数对正则化第一自注意力表示向量进行计算,得到第一语义表示向量。
本发明实施例中,所述预设激活函数可以为ReLU,利用所述预设激活函数可以将所述正则化第一自注意力表示向量映射到非线性特征空间,让所述自注意力神经网络具有更好的语义表达能力。
本发明实施例中,对所述语义表示向量进行多次迭代赋予权重计算,得到最终语义表示向量,使得所述待分类的医疗领域的培训视频的声音文本中各个分词之间的语义可以相互影响,最终语义表示向量更加准确,从而提高待分类的医疗领域的培训视频分类的准确率。
S4、利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
本发明实施例中,所述预设函数可以为sigmoid函数。
本发明其中一实施例中,利用sigmoid函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,两个类别概率的和为1。例如得到干货内容视频类别的概率最大,则待分类的医疗培训视频的类别为干货内容视频。“心血管疾病国内外新技术”得到的干货内容视频类别的概率为0.8,案例内容视频类别的概率为0.2,则待分类的医疗培训视频的类别为干货内容视频。
本发明实施例通过提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列,对所述分词序列进行长度补齐,使得所有分词长度相同,便于后续进行向量计算,利用预设特征提取模型提取所述目标分词序列的语义表示向量,由于所述预设特征提取模型中的自注意力机制,分词之间的语义会相互影响,使得语义表示向量更加准确,进一步,对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量,使得所述待分类培训视频的声音文本中各个分词之间的语义可以相互影响,最终语义表示向量更加准确,从而提高待分类培训视频分类的准确率,最后,利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别,采用多层自注意力的动态权重,使得向量之间的语义可以相互影响,从而提高医疗类的待分类培训视频分类的准确率。因此本发明提出的培训视频文本二分类方法,可以解决培训视频文本分类准确率较低的问题。
如图4所示,是本发明一实施例提供的培训视频文本二分类装置的功能模块图。
本发明所述培训视频文本二分类装置100可以安装于电子设备中。根据实现的功能,所述培训视频文本二分类装置100可以包括分词模块101、特征提取模块102、权重赋予模块103及分类模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述分词模块101,用于提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
所述特征提取模块102,用于利用预设特征提取模型提取所述目标分词序列的语义表示向量;
所述权重赋予模块103,用于对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
所述分类模块104,用于利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
详细地,本发明实施例中所述培训视频文本二分类装置100中所述的各模块在使用时采用与上述图1至图3中所述的培训视频文本二分类方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现培训视频文本二分类方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如培训视频文本二分类程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行培训视频文本二分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如培训视频文本二分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的培训视频文本二分类程序是多个指令的组合,在所述处理器10中运行时,可以实现:
提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
利用预设特征提取模型提取所述目标分词序列的语义表示向量;
对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
利用预设特征提取模型提取所述目标分词序列的语义表示向量;
对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种培训视频文本二分类方法,其特征在于,所述方法包括:
提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
利用预设特征提取模型提取所述目标分词序列的语义表示向量;
对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
2.如权利要求1所述的培训视频文本二分类方法,其特征在于,所述利用对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量,包括:
利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量;
将所述第一语义表示向量传入所述多层感知模型的下一层网络,对所述第一语义表示向量进行第二次自注意力赋权,得到第二自注意力表示向量,并对所述第二自注意力表示向量进行正则化及激活处理,得到第二语义表示向量,直至经过最后一层网络,得到最终语义表示向量。
3.如权利要求2所述的培训视频文本二分类方法,其特征在于,所述利用预训练的多层感知模型中首层网络对所述语义表示向量进行第一次自注意力赋权,得到第一自注意力表示向量,包括:
将所述语义表示向量复制三份,得到第一语义表示向量、第二语义表示向量及第三语义表示向量;
将所述第一语义表示向量、所述第二语义表示向量及所述第三语义表示向量拼接为维度为3M的拼接向量,其中所述M为所述语义表示向量的维度;
利用预训练的多层感知模型中首层网络的参数矩阵,将所述拼接向量与所述语义表示向量进行叉乘,得到维度为3M的目标拼接向量;
将所述目标拼接向量中0到M维度的向量与M+1到2M维度的向量进行叉乘得到维度为M的中间向量;
利用softmax函数对所述中间向量进行归一化计算,得到M维的数值权重;
将所述数值权重与所述目标拼接向量中2M+1到3M维度的向量进行叉乘,得到第一自注意力表示向量。
4.如权利要求2所述的培训视频文本二分类方法,其特征在于,所述对所述第一自注意力表示向量进行正则化及激活处理,得到第一语义表示向量,包括:
计算所述第一自注意力表示向量的均值及标准差;
将所述第一自注意力表示向量中每个值减去所述均值,得到更新第一自注意力表示向量;
将所述更新第一自注意力表示向量除以所述标准差,得到正则化第一自注意力表示向量;
利用预设激活函数对正则化第一自注意力表示向量进行计算,得到第一语义表示向量。
5.如权利要求1所述的培训视频文本二分类方法,其特征在于,所述基于所述利用预设特征提取模型提取所述目标分词序列的语义表示向量,包括:
在所述目标分词序列的首位***CLS符号,得到带特殊的目标分词序列;
利用预设特征提取模型对所述带特殊的目标分词序列进行编码,得到所述带特殊的目标分词序列中CLS符号对应的编码向量,将所述带特殊的目标分词序列中CLS符号对应的编码向量作为所述目标分词序列的语义表示向量。
6.如权利要求1所述的培训视频文本二分类方法,其特征在于,所述对所述分词序列进行长度补齐,得到目标分词序列,包括:
计算所述分词序列中每个分词长度,从所述分词长度中选择最长分词长度作为目标长度;
对所述分词序列中非所述目标长度的分词进行补零,得到所有分词长度为所述目标长度的目标分词序列。
7.如权利要求1至4中任一项所述的培训视频文本二分类方法,其特征在于,所述对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量之前,所述方法还包括:
从历史培训视频的声音文本中随机采样文本数据,作为样本数据集,并获取所述样本数据集对应的真实类别;
利用预设特征提取模型提取所述样本数据集的样本语义表示向量,得到样本语义表示向量集;
利用初始多层感知模型对所述样本语义表示向量集进行多层自注意力赋权,得到样本最终语义表示向量集;
利用预设函数对所述样本最终语义表示向量集进行二分类得到所述样本数据集两个类别概率集,将所述类别概率集中最大概率对应类别作为对应所述样本数据的预测类别;
利用交叉熵损失函数计算所述预测类别与所述真实类别的损失值,将所述损失函数反向传播给所述初始多层感知模型,调整所述初始多层感知模型的模型参数,直至所述损失值小于预设损失阈值,得到预训练的多层感知模型。
8.一种培训视频文本二分类装置,其特征在于,所述装置包括:
分词模块,用于提取待分类培训视频的声音文本,对所述声音文本进行分词,得到分词序列,并对所述分词序列进行长度补齐,得到目标分词序列;
特征提取模块,用于利用预设特征提取模型提取所述目标分词序列的语义表示向量;
权重赋予模块,用于对所述语义表示向量进行多层自注意力赋权,得到最终语义表示向量;
分类模块,用于利用预设函数对所述最终语义表示向量进行二分类得到所述待分类培训视频两个类别概率,将所述类别概率中最大概率对应类别作为所述待分类培训视频的类别。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的培训视频文本二分类方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的培训视频文本二分类方法。
CN202310729932.9A 2023-06-16 2023-06-16 培训视频文本二分类方法、装置、设备及存储介质 Pending CN116701635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310729932.9A CN116701635A (zh) 2023-06-16 2023-06-16 培训视频文本二分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310729932.9A CN116701635A (zh) 2023-06-16 2023-06-16 培训视频文本二分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116701635A true CN116701635A (zh) 2023-09-05

Family

ID=87842991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310729932.9A Pending CN116701635A (zh) 2023-06-16 2023-06-16 培训视频文本二分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116701635A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171648A (zh) * 2024-05-11 2024-06-11 中移(苏州)软件技术有限公司 文本提取方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118171648A (zh) * 2024-05-11 2024-06-11 中移(苏州)软件技术有限公司 文本提取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113704410B (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN112465141B (zh) 模型压缩方法、装置、电子设备及介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN116681082A (zh) 离散文本语义分段方法、装置、设备及存储介质
CN116701635A (zh) 培训视频文本二分类方法、装置、设备及存储介质
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN112269875B (zh) 文本分类方法、装置、电子设备及存储介质
CN116719904A (zh) 基于图文结合的信息查询方法、装置、设备及存储介质
CN116383766A (zh) 基于多模态数据的辅诊方法、装置、设备及存储介质
CN116468025A (zh) 电子病历结构化方法、装置、电子设备及存储介质
CN116401602A (zh) 事件检测方法、装置、设备及计算机可读介质
WO2023178798A1 (zh) 图像分类方法、装置、设备及介质
CN113806540B (zh) 文本打标签方法、装置、电子设备及存储介质
CN114462411B (zh) 命名实体识别方法、装置、设备及存储介质
CN115238683B (zh) 循环自注意力的停用词识别方法、装置、设备及介质
CN115098644B (zh) 图像与文本匹配方法、装置、电子设备及存储介质
CN115221875B (zh) 词权重生成方法、装置、电子设备及存储介质
CN114968412B (zh) 基于人工智能的配置文件生成方法、装置、设备及介质
CN111680513B (zh) 特征信息的识别方法、装置及计算机可读存储介质
CN112328796B (zh) 文本聚类方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination