CN113191133B - 一种基于Doc2Vec的音频文本对齐方法及*** - Google Patents

一种基于Doc2Vec的音频文本对齐方法及*** Download PDF

Info

Publication number
CN113191133B
CN113191133B CN202110438831.7A CN202110438831A CN113191133B CN 113191133 B CN113191133 B CN 113191133B CN 202110438831 A CN202110438831 A CN 202110438831A CN 113191133 B CN113191133 B CN 113191133B
Authority
CN
China
Prior art keywords
text
audio
short
paragraph
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110438831.7A
Other languages
English (en)
Other versions
CN113191133A (zh
Inventor
陈科良
崔岩松
任维政
张晓欢
樊昌熙
孙孟寒
张帅
崔晨岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huanke Technology Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Beijing Huanke Technology Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huanke Technology Co ltd, Beijing University of Posts and Telecommunications filed Critical Beijing Huanke Technology Co ltd
Priority to CN202110438831.7A priority Critical patent/CN113191133B/zh
Publication of CN113191133A publication Critical patent/CN113191133A/zh
Application granted granted Critical
Publication of CN113191133B publication Critical patent/CN113191133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Doc2Vec的音频文本对齐方法及***,该方法包括:基于模拟退火遗传算法优化的AIC‑FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将短音频进行语音识别输出以句为维度的短文本;基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配,完成文本对齐。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果,在对齐的效果上基本和Doc2vec持平且时间复杂度降低了35%左右。

Description

一种基于Doc2Vec的音频文本对齐方法及***
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及处理音频文本对齐的问题,以提高音频对照电子书制作的效率和质量。
背景技术
基于有声读物和电子书的关联关系可以制作能发声的电子书,这种电子书在教育类,尤其是语言教育类场景中有重要的实用价值,但是目前来说这类电子书的制作并不广泛。究其原因,这类书多依赖人工标注进行制作,很大程度上限制了其发展。音频文本技术作为这类书在技术上的可行性,目前仍存在一些问题,首先在音频处理上,随书音频一般由专业人员按照电子书文本朗读并录制而来,因此它具有和电子书文本匹配度较高且单音频较长等特征。较长的音频如果直接进行识别,不仅会带来较大的解码时间消耗,还会降低识别输出的准确率。其次是对齐算法上,目前各类对齐算法已经相当完善,但是仍存在时间复杂度,空间复杂度过高等问题。
因此,如何提供一种效果理想的音频文本对齐方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于Doc2Vec的音频文本对齐方法及***,准确度高,效率高。
为了实现上述目的,本发明采用如下技术方案:
一种基于Doc2Vec的音频文本对齐方法,包括:
步骤1:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将所述短音频进行语音识别输出以句为维度的短文本;
步骤2:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
步骤3:基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配,完成文本对齐。
优选的,所述步骤1具体包括:
步骤11:利用模拟退火遗传算法进行全局搜索和交互变异操作,同时结合模拟操作得到聚类中心;
步骤12:模糊C均值聚类算法基于所述聚类中心对特征参数进行聚类数目分别为1和2时的模糊聚类;
步骤13:通过赤池信息准则判断最优的聚类数C,并根据最优聚类数C 确定双门限端点检测的门限值,完成随书长音频切分;
步骤14:将短音频进行预处理后进行语音识别,输出以句为维度的短文本。
优选的,所述步骤11具体包括:
步骤111:输入随书长音频,初始化算法参数,设置遗传代数i=0以及退火算法的初始温度Ti
步骤112:随机产生遗传算法种群Ci(T),表示音频采样点的聚类中心;
步骤113:计算所述遗传算法种群Ci(T)所有个体适应度F(Ci(T));
步骤114:利用交叉和变异操作使所述遗传算法种群Ci(T)进化得到新种群Ci′(T);
步骤115:重新计算新种群Ci′(T)的个体适应度F(Ci′(T));
步骤116:计算退火增量ΔF=F(Ci′(T))-F(Ci(T)),如果ΔF>0则代表新种群适应度得到增强,Ci′(T)即为下一代种群;如果ΔF≤0则以概率
Figure RE-GDA0003128884510000031
接受 Ci′(T)即为下一代种群,如果最终没有达到被接受的预设概率,则返回步骤 114;
步骤117:将新种群设置为下一代种群,即Ci+1(T)=Ci′(T),并进行降温
Figure RE-GDA0003128884510000032
其中α表示退火因子;
步骤118:增加遗传代数i=i+1,判断获取的聚类中心是否达到全局最小值,若满足则输出优化后的音频采样点的聚类中心;否则返回步骤114,继续进化过程。
优选的,所述步骤12具体包括:
步骤121:利用0和1之间的随机数对隶属度矩阵进行初始化,并满足约束条件:
Figure RE-GDA0003128884510000033
其中,uij表示隶属度,C表示获取的聚类个数;
步骤122:计算目标函数F,
Figure RE-GDA0003128884510000034
其中,xi表示待聚类数据,mj表示聚类中心,k表示聚类的簇数,N表示待聚类数据的个数,若在第n次迭代后隶属度误差小于误差阈值ε,即 maxij{|uij (n+1)-uij (n)|}<ε,则已经达到要求状态并停止迭代;否则执行步骤123;
步骤123:通过计算隶属度更新隶属度矩阵,并满足约束条件,其中隶属度计算公式为uij
Figure RE-GDA0003128884510000041
其中,k表示聚类的簇数, ml表示C个聚类中心的枚举,返回步骤122进行迭代。
优选的,所述步骤13具体包括:
步骤131:假设有效语音和停顿音的背景噪声均遵循高斯分布
Figure RE-GDA0003128884510000046
模型,μi为均值向量,
Figure RE-GDA0003128884510000047
为协方差矩阵,最优聚类数为C时的AIC值由如下公式求得:
Figure RE-GDA0003128884510000042
其中,Ni为第i个聚类的数据个数,v是特征空间的维数,εd是惩戒因子;
步骤132:根据最优聚类数确定特征参数的高低门限
Figure RE-GDA0003128884510000043
优选的,所述步骤2具体包括:
步骤21:DM模型训练阶段,在输入句子si上用固定大小的窗口进行滑动,每滑动到一个位置使用输入句子的句子向量
Figure RE-GDA0003128884510000044
和窗口中的上下文词语向量
Figure RE-GDA0003128884510000045
预测目标词xm,得到句向量矩阵SV×N、词向量矩阵 XV×N以及Softmax函数所需的U、b参数;
步骤22:DM模型推断阶段,利用训练好的模型固定词向量矩阵和参数 U、b,采用梯度下降法获取新的句子向量并更新句向量矩阵。
优选的,所述步骤3具体包括:
步骤31:将所述短文本表示为SText,将所述段落文本表示为PText,并计算所有SText的字符长度Ds以及字符长度平均值
Figure RE-GDA0003128884510000051
顺序取出段落文本并计算其长度DP
步骤32:比较DP
Figure RE-GDA0003128884510000052
之间的相对关系,若
Figure RE-GDA0003128884510000053
则段落较长,采用首尾匹配方式PS-First-Last,反之使用全部匹配方式PS-ALL,α为阈值判定系数;
所述全部匹配方式PS-ALL具体为:利用SText和PText的向量表示计算文本相似度,具体计算公式为:
Figure RE-GDA0003128884510000054
其中,X表示随书音频识别之后的短文本,其向量表示为VX=(x1,x2,…,xN), Y表示段落文本,其向量表示为VY=(y1,y2,…,yN);
所述首尾匹配方式PS-First-Last具体为:从所述段落文本中取出段首和段尾字符长度为
Figure RE-GDA0003128884510000056
的两个文本,依次找到与段首和段尾相似度最高的两个短文本STextfirst和STextlast,从而实现文本对齐。
优选的,还包括检查全部匹配方式PS-ALL获得的段落结束时间点与下一段段落开始时间点是否接续,如果不接续则将结束时间点延长至下一段开始时间前一秒。
优选的,所述步骤13还包括:
通过切分错误率表征切分的错误率并引导算法进行校正:
切分错误率EC可以表示为:
Figure RE-GDA0003128884510000055
其中,Lframe表示切长的音频帧数,Sfame表示切短的音频帧数,ALLframe表示切分的音频总帧数,WL和WS分别表示切长错误和切短错误的权重;
若EC<εE,则认为音频切分已经满足要求,否则需要通过调整门限或者人工校正的方式对音频进行校正,其中,εE为预设阈值。
一种基于Doc2Vec的音频文本对齐***,包括:
音频切分和识别模块:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将所述短音频进行语音识别输出以句为维度的短文本;
文本段落提取模块:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
对齐模块:基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配,完成文本对齐。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于Doc2Vec的音频文本对齐方法及***,以音频文本对齐技术为核心,将有声读物与配套音频相匹配,实现了文本内容与音频在时间上的对照关系,有机结合了“听”和“读”。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果,在对齐的效果上基本和Doc2vec持平且时间复杂度降低了 35%左右。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为基于Doc2Vec的音频文本对齐方法流程图。
图2附图为模拟退火遗传算法优化的AIC-FCM进行门限阈值估计的流程图。
图3附图为DM模型架构。
图4附图为基于阈值预测法的动态匹配方案工作原理图。
图5附图为PS-First-Last工作原理图。
图6附图为文本对齐校对方案原理图。
图7附图为基于Doc2Vec的音频文本对齐***原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于Doc2Vec的音频文本对齐方法,音频和文本对齐的最终目的是在时间维度上建立音频和文本的关联关系,即找到音频时间区间内对应的文本内容。音频和文本的对齐层级一般包含三种:段落对齐、句子对齐和词语对齐。由于电子书本身是以段落为基础元素构建的,因此制作音频对照书需要在段落层级进行对齐。如图1所示,具体包括:
步骤1:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将短音频预处理后进行语音识别输出以句为维度的短文本;
具体的,如图2所示,步骤1包括:
步骤11:利用遗传算法进行全局搜索和交互变异操作,同时结合模拟操作得到聚类中心;
其中,遗传算法是一种依据生物遗传和进化过程中选择、交叉、变异机制设计的自适应全局优化概率搜索算法。它具有较强的全局搜索能力,能够快速的求解出空间中的全体解。但是遗传算法也存在局部搜索能力较弱且收敛较慢的弱点。而模拟退火算法可以有效摆脱局部极小值,以任意接近于1 的概率达到全局最小值点,正好可以弥补遗传算法的弱点。因此,将两种算法结合起来的模拟退火遗传可以加强聚类算法搜索能力以及搜索效率,同时还能提升音频门限阈值检测的鲁棒性。
具体的,模拟退火遗传算法的执行步骤如下:
step1.初始化算法参数,设置遗传代数i=0以及退火算法的初始温度Ti
step2.随机产生遗传算法种群Ci(T),它是音频采样点的聚类中心;
step3.计算遗传算法Ci(T)所有个体适应度F(Ci(T));
step4.使用交叉和变异操作让遗传算法种群Ci(T)进化得到Ci′(T),通过该操作获得一个可能更优的聚类中心;
step5.重新计算新种群的个体适应度F(Ci′(T));
step6.按照ΔF=F(Ci′(T))-F(Ci(T))计算退火增量,如果ΔF>0则代表新种群适应度得到增强,Ci′(T)即为下一代种群,如果ΔF≤0则以概率
Figure RE-GDA0003128884510000081
接受Ci′(T)即为下一代种群;如果最终没有能接受的新种群,则返回step4。
step7.将新种群设置为下一代种群,即Ci+1(T)=Ci′(T),然后进行降温
Figure RE-GDA0003128884510000082
其中α表示退火因子,最后增加遗传代数,即i=i+1;
step8.判断终止条件是否满足,若满足获取的聚类中心达到全局最小值,则输出FCM所需的聚类中心;否则转step4,继续进化过程。
步骤12:模糊C均值聚类算法基于聚类中心对特征参数进行聚类数目分别为1和2时的模糊聚类;
具体的,模糊C均值聚类算法(FCM)融合了模糊理论的精髓,主要用于数据的聚类分析。它通过迭代优化目标函数从而计算出每个样本数据的隶属度,进而实现数据的分类。如果以X={xi|i=1,2,...,N}代表数据集, M={mj|j=1,2,...,C}代表数据集X被划分为C个聚类之后的中心集,目标函数F 可以表示为:
Figure RE-GDA0003128884510000091
其中k是聚类的簇数,uij表示数据xi和某一类mj的相似程度,即隶属度,其计算公式为:
Figure RE-GDA0003128884510000092
隶属度还有一个总和等于1的约束条件,即:
Figure RE-GDA0003128884510000093
||xi-mj||代表数据xi和聚类中心mj的距离。
FCM算法的目标是通过不断迭代计算以获取目标函数F最小时的隶属度 uij,其迭代流程为:
步骤121:使用值在0和1之间的随机数对隶属矩阵U进行初始化,需要满足约束条件
Figure RE-GDA0003128884510000101
步骤122:计算目标函数F,
Figure RE-GDA0003128884510000102
其中,xi表示待聚类数据,mj表示聚类中心,k表示聚类的簇数,N表示待聚类数据的个数,如果在第n次迭代后发现隶属度误差小于误差阈值ε,即 maxij{|uij (n+1)-uij (n)|}<ε,则可以认为已经达到较优的状态并停止迭代,否则执行步骤123。
步骤123:通过隶属度
Figure RE-GDA0003128884510000103
计算新的隶属度矩阵, ml表示C个聚类中心的枚举,然后返回步骤122,继续执行迭代。
简而言之,FCM算法的中心思想就是为每个样本数据配置属于一个聚类的隶属度,通过隶属度来进行数据归类。
步骤13:通过赤池信息准则判断最优的聚类数C,并根据最优聚类数C 确定双门限端点检测的门限值,完成随书长音频切分。
具体的,赤池信息准则(AIC)全称是最小化信息量准则,它是衡量统计模型拟合优良性的一种标准。AIC准则主要用来解决模型选择问题,在模型的复杂度和参数个数间找到一种平衡。通常情况下,它是拟合精度和参数未知个数的加权函数,定义如下:
Figure RE-GDA0003128884510000104
其中X={xi|i=1,2,...,N}是数据特征集,P={pi|i=1,2,...,C}是模型参数,ln S(X,P)是数据特征集X和模型参数P的似然函数,nP是P的参数个数,εd是惩戒因子。
赤池信息准则评判模型优劣的时候会参考AIC值,当AIC最小的时候其选择的模型为最佳模型。假设有效语音和停顿音等背景噪声都遵循高斯分布
Figure RE-GDA0003128884510000114
模型,μi为均值向量,
Figure RE-GDA0003128884510000115
为协方差矩阵,那么聚类数为C时的AIC值可以由如下公式求得:
Figure RE-GDA0003128884510000111
其中,Ni为第i个聚类的数据个数,v是特征空间的维数。
在音频端点检测的应用场景中,设定初始聚类个数C=2,根据最优聚类数确定特征参数的高低门限通过如下式判决:
Figure RE-GDA0003128884510000112
通过上式获得能量门限和过零率门限,进而利用能量门限和过零率门限检测语音信号的短时能量和平均过零率,需要说明的是,语音信号的数值需要在门限内才能被取得,超出门限则丢弃。
双门限端点检测法主要用于检测一段语音的起始点和终止点,它的两个门限是指能量门限和过零率门限。音频中停顿音的短时能量一般远低于语音的短时能量,因此通过能量门限能够准确的切除大部停顿音。音频x(n)的短时能量En可以用公式表示为:
Figure RE-GDA0003128884510000113
其中w(n-m)代表窗函数,sn(m)=x(n)×w(n-m)代表音频x(n)的某一帧信号。然而语音中存在一些清辅音的能量和停顿音的能量非常接近,如果单纯使用能量门限就可能将清辅音也切除掉。短时平均过零率表征的是每秒信号电平通过零值的次数,音频x(n)的短时平均过零率Zn可以用公式表示为:
Figure RE-GDA0003128884510000121
其中,signal是符号函数,即:
Figure RE-GDA0003128884510000122
进一步的,在利用双门限端点切分技术进行长音频切分的过程中可能存在切长或者切短的错误。切长错误是指将停顿音切分到一帧短语音中的错误,它可能是由于停顿音中的噪声能量过大导致的。切短错误则是指将一段连续的短语音切分为两帧语音的错误,这种错误一般是由于连续语音中某一部分停顿过长导致的。为了计算音频切分的准确度并进行校正,本发明引入了切分错误率以表征切分的错误率并引导算法进行校正。如果以Lframe表示切长的音频帧数,以Sframe表示切短的音频帧数,以ALLframe表示切分的音频总帧数,那么切分错误率EC可以表示为:
Figure RE-GDA0003128884510000123
在公式中为切长错误和切短错误分别定义了权重WL和WS,且一般WS>WL。这是因为在实际应用场景中短音频被切断所造成的错误的严重程度是远远大于短音频中多包含的停顿音,在公式中引入权重即可以表达这种因素对切分错误率的影响。
切分错误率存在一个阈值εE,如果EC<εE则可以认为短音频切分已经满足要求,否则需要通过调整门限或者人工校正的方式对短音频进行校正。由于不同类型音频的停顿音长度、能量等特征可能存在差异,因此阈值εE一般通过选择同一类型的音频进行实验确定。
对此错误经过错误校正之后的短音频就可以直接被送入语音识别***中进行识别了。
步骤14:将短音频进行预处理后进行语音识别输出以句为维度的短文本;
具体的,针对epub、markdown等格式的文本数据,采用开源的解析工具提取文本中的段内容。提取出的文本内容,在格式上可能存在诸如标点、特殊字符等干扰元素。针对此类的干扰元素,可以使用正则表达式方法来处理这些元素。将上述提取的段内容通过一些设定好的正则表达式,得到去除干扰后的文本信息。
对于语音识别***。相关技术已经非常成熟,并有优秀的识别效果。比如CMUSphinx,Kaldi,HTK,ASRT等开源的语音识别工具,以及讯飞语音识别、百度AI平台等商业化的平台。本发明语音识别利用开源的语音识别工具,将预处理后的短音频进行识别后,输出的短文本都会包含其在原长音频中所处的时间区间。
步骤2:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
具体的,Doc2vec模型是由word2vec模型发展而来的,它在预测词向量的基础上扩展了计算长文本(句子、段落等)向量表示的能力。此模型可获取固定长度的句向量和单词向量,其中句向量存储当前段落的主题或词向量所缺失的上下文信息。Doc2vec模型也存在两种训练方式:Distributed Memory(DM)和Distributed Bag of Words(DBOW),分别对应word2vec模型里的CBOW和Skip-gram。由Tomas Mikolov的实验中验证的结论可知,在大多数分类任务中DM获得的段落向量表现的比DBOW好,因此本发明使用DM模型进行句子向量的计算,如图3所示。
DM模型的思路是通过输入句向量和句中的几个单词向量来预测当前上下文中出现概率最大的某一个单词。
该模型训练的思路为:在输入句子si上用固定大小的窗口进行滑动,每滑动到一个位置就使用输入句子的句子向量
Figure RE-GDA0003128884510000141
和窗口中的上下文词语向量
Figure RE-GDA0003128884510000142
预测目标词xm。和wotd2sec模型的CBOW训练方法一致, DM模型训练的最终目的也是为了获得句向量矩阵SV×N、词向量矩阵XV×N以及Softmax函数所需的U、b等参数。在这个过程中,DM模型的每一次预测都会使用到句子Si的语义信息。
在模型的推断阶段,对于新的句子,利用训练好的DM模型,固定单词向量矩阵X和参数U、b,采用梯度下降法就可以获取新的句子向量并同时更新句向量矩阵S。
DM模型要求在给定上下文之后,通过更新参数使获得预测值的可能性达到最大,即最大化平均对数似然函数。平均对数似然函数的定义为:
Figure RE-GDA0003128884510000144
其中C代表词语的总数量,k代表训练使用的窗口宽度,Si代表选用的上下文词语所在的句向量。后续的预测任务就可以使用Softmax函数等多分类器来完成了,它将条件概率函数p(xk|si,xm-k,...,xm+k)定义为:
Figure RE-GDA0003128884510000143
其中yj表示词语xj归一化之前的输出值。如果用h表示从句向量矩阵 SV×N、词向量矩阵XV×N中抽取的行向量取平均或者相连接获得的向量,则y 的计算表达式为:
y=b+Uh(Si,xm-k,…,xm+k;S,X)。
步骤3:基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配,完成文本对齐。
具体的,随书音频经过切分与识别之后获得的是以句为维度的短文本,以SText表示,而电子书中存储的文本都是以段落为维度组织的,以PText表示。因为实际应用场景中随书音频和电子书只需要实现段落维度的对齐,如果计算所有文本的相似度则要将PText都拆分成句子并一一和SText进行相似度计算。这种方式会造成大量的计算资源浪费,因此本发明设计了一种根据 PText长度和SText长度均值的比值动态确定采用全部匹配(PS-ALL)还是首尾匹配(PS-First-Last)的方式。其工作原理如图4所示:
该方案首先计算了所有SText的字符长度DS以及其平均值DS,然后顺序取出电子书中的段落文本并计算出它的长度DP。DP
Figure RE-GDA0003128884510000151
之间的相对关系决定了分类器会选择PS-ALL或者PS-First-Last。如果DP>αDS则认为段落较长,使用PS-First-Last,反之则使用PS-ALL。其中α为阈值判定系数,这个系数可以在处理不同类型的电子书时动态调整以提升判定的精准度。
PS-ALL的原理较为简单,它直接用SText和PText的向量表示来计算文本相似度,从而完成文本对齐。具体采用余弦文本相似度计算算法,余弦文本相似度计算算法是一种将文本间相似度计算转化为向量之间夹角的余弦值计算的方法,向量夹角越小证明文本相似度越高。待匹配的文本经过训练好的 Doc2vec模型即可获得对应的句向量,使用余弦文本相似度计算公式即可得到他们的相似程度。如果以X表示随书音频识别之后的文本,其向量表示为 VX=(x1,x2,…,xN),以Y表示电子书中文本,其向量表示为VY=(y1,y2,...,yN),那么X和Y之间的相似度可以表示为:
Figure RE-GDA0003128884510000161
Φ(X,Y)的取值阈为[0,1],值越小代表向量夹角越小,两个文本的相似度就越高。
PS-First-Last的原理则相对复杂一些,它首先取出段首以及段尾字符长度为
Figure RE-GDA0003128884510000162
两个文本,然后依次找到和段首段尾文本相似度最高的两个短文本 STextfirst和STextlast。这两个短文本实际代表的是随书音频对应的一个时间区间,据此即可以实现电子书段落和音频段落的对齐。其工作原理如图5所示:
进一步的,由于可能出现误用PS-ALL导致匹配音频区间过短的情况,本方案最后增加了一个校对环节。该环节检查所有使用PS-ALL获得的段落结束时间点与后续段落开始时间点是否接续,如果不接续则将结束时间点延长至下一段开始时间前一秒从而保证音频的时间区间被完全划分,文本对齐校对方案如图6所示。
本实施例公开了一种基于Doc2Vec的音频文本对齐***,如图7所示,包括:
音频切分和识别模块:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将短音频进行语音识别输出以句为维度的短文本;
文本段落提取模块:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
对齐模块:基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配,完成文本对齐,最终输出带音频时间戳的文本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例。

Claims (9)

1.一种基于Doc2Vec的音频文本对齐方法,其特征在于,包括:
步骤1:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将所述短音频进行语音识别输出以句为维度的短文本;
步骤2:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
步骤3:基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配,完成文本对齐;
所述步骤3具体包括:
步骤31:将所述短文本表示为SText,将所述段落文本表示为PText,并计算所有SText的字符长度DS以及字符长度平均值
Figure FDA0003347017790000011
顺序取出段落文本并计算其长度DP
步骤32:比较DP
Figure FDA0003347017790000012
之间的相对关系,若
Figure FDA0003347017790000013
则段落较长,采用首尾匹配方式PS-First-Last,反之使用全部匹配方式PS-ALL,α为阈值判定系数;
所述全部匹配方式PS-ALL具体为:利用SText和PText的向量表示计算文本相似度,具体计算公式为:
Figure FDA0003347017790000014
其中,X表示随书音频识别之后的短文本,其N维向量表示为VX=(x1,x2,...,xN),其中xi代表向量中的元素,Y表示段落文本,其N维向量表示为VY=(y1,y2,...,yN),其中yi代表向量中的元素;
所述首尾匹配方式PS-First-Last具体为:从所述段落文本中取出段首和段尾字符长度为
Figure FDA0003347017790000021
的两个文本,依次找到与段首和段尾相似度最高的两个短文本STextfirst和STextlast,从而实现文本对齐。
2.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤1具体包括:
步骤11:利用模拟退火遗传算法进行全局搜索和交互变异操作,同时结合模拟操作得到聚类中心;
步骤12:模糊C均值聚类算法基于所述聚类中心对特征参数进行聚类数目分别为1和2时的模糊聚类;
步骤13:通过赤池信息准则判断最优的聚类数C,并根据最优聚类数C确定双门限端点检测的门限值,完成随书长音频切分;
步骤14:将短音频进行预处理后进行语音识别,输出以句为维度的短文本。
3.根据权利要求2所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤11具体包括:
步骤111:输入随书长音频,初始化算法参数,设置遗传代数i=0以及退火算法的初始温度Ti
步骤112:随机产生遗传算法种群Ci(T),表示音频采样点的聚类中心;
步骤113:计算所述遗传算法种群Ci(T)所有个体适应度F(Ci(T));
步骤114:利用交叉和变异操作使所述遗传算法种群Ci(T)进化得到新种群Ci′(T);
步骤115:重新计算新种群Ci′(T)的个体适应度F(Ci′(T));
步骤116:计算退火增量ΔF=F(Ci′(T))-F(Ci(T)),如果ΔF>0则代表新种群适应度得到增强,Ci′(T)即为下一代种群;如果ΔF≤0则以概率
Figure FDA0003347017790000031
接受Ci′(T)即为下一代种群,如果最终没有达到被接受的预设概率,则返回步骤114;
步骤117:将新种群设置为下一代种群,即Ci+1(T)=Ci′(T),并进行降温
Figure FDA0003347017790000032
其中α表示退火因子;
步骤118:增加遗传代数i=i+1,判断获取的聚类中心是否达到全局最小值,若满足则输出优化后的音频采样点的聚类中心;否则返回步骤114,继续进化过程。
4.根据权利要求3所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤12具体包括:
步骤121:利用0和1之间的随机数对隶属度矩阵进行初始化,并满足约束条件:
Figure FDA0003347017790000033
其中,uij表示隶属度,C表示获取的聚类个数;
步骤122:计算目标函数F,
Figure FDA0003347017790000034
其中,xi表示待聚类数据,mj表示聚类中心,k表示聚类的簇数,N表示待聚类数据的个数,若在第n次迭代后隶属度误差小于误差阈值ε,即maxij{|uij (n+1)-uij (n)|}<ε,则已经达到要求状态并停止迭代;否则执行步骤123;
步骤123:通过计算隶属度更新隶属度矩阵,并满足约束条件,其中隶属度计算公式为uij
Figure FDA0003347017790000035
ml表示C个聚类中心的枚举,返回步骤122进行迭代。
5.根据权利要求4所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤13具体包括:
步骤131:假设有效语音和停顿音的背景噪声均遵循高斯分布
Figure FDA0003347017790000041
模型,μi为均值向量,
Figure FDA0003347017790000042
为协方差矩阵,最优聚类数为C时的AIC值由如下公式求得:
Figure FDA0003347017790000043
其中,Ni为第i个聚类的数据个数,v是特征空间的维数,εd是惩戒因子;
步骤132:根据最优聚类数确定特征参数的高低门限
Figure FDA0003347017790000044
6.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤2具体包括:
步骤21:DM模型训练阶段,在输入句子si上用固定大小的窗口进行滑动,每滑动到一个位置使用输入句子的句子向量
Figure FDA0003347017790000045
和窗口中的上下文词语向量
Figure FDA0003347017790000046
预测目标词xm,得到句向量矩阵SV×N、词向量矩阵XV×N以及Softmax函数所需的U、b参数;
步骤22:DM模型推断阶段,利用训练好的模型固定词向量矩阵和参数U、b,采用梯度下降法获取新的句子向量并更新句向量矩阵。
7.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,还包括检查全部匹配方式PS-ALL获得的段落结束时间点与下一段段落开始时间点是否接续,如果不接续则将结束时间点延长至下一段开始时间前一秒。
8.根据权利要求2所述的一种基于Doc2Vec的音频文本对齐方法,其特征在于,所述步骤13还包括:
通过切分错误率表征切分的错误率并引导算法进行校正:
切分错误率EC可以表示为:
Figure FDA0003347017790000051
其中,Lframe表示切长的音频帧数,Sframe表示切短的音频帧数,ALLframe表示切分的音频总帧数,WL和WS分别表示切长错误和切短错误的权重;
若EC<εE,则认为音频切分已经满足要求,否则需要通过调整门限或者人工校正的方式对音频进行校正,其中,εE为预设阈值。
9.一种基于Doc2Vec的音频文本对齐***,其特征在于,包括:
音频切分和识别模块:基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将所述短音频进行语音识别输出以句为维度的短文本;
文本段落提取模块:基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;
对齐模块:基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配,完成文本对齐,具体过程为:
将所述短文本表示为SText,将所述段落文本表示为PText,并计算所有SText的字符长度DS以及字符长度平均值
Figure FDA0003347017790000052
顺序取出段落文本并计算其长度DP
比较DP
Figure FDA0003347017790000053
之间的相对关系,若
Figure FDA0003347017790000054
则段落较长,采用首尾匹配方式PS-First-Last,反之使用全部匹配方式PS-ALL,α为阈值判定系数;
所述全部匹配方式PS-ALL具体为:利用SText和PText的向量表示计算文本相似度,具体计算公式为:
Figure FDA0003347017790000061
其中,X表示随书音频识别之后的短文本,其N维向量表示为VX=(x1,x2,...,xN),其中xi代表向量中的元素,Y表示段落文本,其N维向量表示为VY=(y1,y2,...,yN),其中yi代表向量中的元素;
所述首尾匹配方式PS-First-Last具体为:从所述段落文本中取出段首和段尾字符长度为
Figure FDA0003347017790000062
的两个文本,依次找到与段首和段尾相似度最高的两个短文本STextfirst和STextlast,从而实现文本对齐。
CN202110438831.7A 2021-04-21 2021-04-21 一种基于Doc2Vec的音频文本对齐方法及*** Active CN113191133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110438831.7A CN113191133B (zh) 2021-04-21 2021-04-21 一种基于Doc2Vec的音频文本对齐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110438831.7A CN113191133B (zh) 2021-04-21 2021-04-21 一种基于Doc2Vec的音频文本对齐方法及***

Publications (2)

Publication Number Publication Date
CN113191133A CN113191133A (zh) 2021-07-30
CN113191133B true CN113191133B (zh) 2021-12-21

Family

ID=76978588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110438831.7A Active CN113191133B (zh) 2021-04-21 2021-04-21 一种基于Doc2Vec的音频文本对齐方法及***

Country Status (1)

Country Link
CN (1) CN113191133B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114222193B (zh) * 2021-12-03 2024-01-05 北京影谱科技股份有限公司 一种视频字幕时间对齐模型训练方法及***
CN114630238B (zh) * 2022-03-15 2024-05-17 广州宏牌音响有限公司 舞台音箱音量控制方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110136A (zh) * 2019-02-27 2019-08-09 咪咕数字传媒有限公司 一种文音匹配方法、电子设备及存储介质
CN111398832A (zh) * 2020-03-19 2020-07-10 哈尔滨工程大学 一种基于anfis模型的公交车电池soc预测方法
CN111459446A (zh) * 2020-03-27 2020-07-28 掌阅科技股份有限公司 电子书的资源处理方法、计算设备及计算机存储介质
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333B (zh) * 2009-11-26 2012-07-04 西北工业大学 基于遗传算法的网络文本分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110136A (zh) * 2019-02-27 2019-08-09 咪咕数字传媒有限公司 一种文音匹配方法、电子设备及存储介质
CN111398832A (zh) * 2020-03-19 2020-07-10 哈尔滨工程大学 一种基于anfis模型的公交车电池soc预测方法
CN111459446A (zh) * 2020-03-27 2020-07-28 掌阅科技股份有限公司 电子书的资源处理方法、计算设备及计算机存储介质
CN112259083A (zh) * 2020-10-16 2021-01-22 北京猿力未来科技有限公司 音频处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《【模型篇】段落向量化——doc2vec模型》;水笔小新;《https://zhuanlan.zhihu.com/p/138909653》;20200508;全文 *
《一种改进的模糊C一均值聚类算法》;徐艺萍等;《徐州工程学院学报》;20080430;第23卷(第4期);34-36页 *

Also Published As

Publication number Publication date
CN113191133A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
US8650033B1 (en) Method of active learning for automatic speech recognition
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
CN107451115B (zh) 端到端的汉语韵律层级结构预测模型的构建方法及***
EP0763816A2 (en) Discriminative utterance verification for connected digits recognition
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
US20070067171A1 (en) Updating hidden conditional random field model parameters after processing individual training samples
US20090055182A1 (en) Discriminative Training of Hidden Markov Models for Continuous Speech Recognition
CN113191133B (zh) 一种基于Doc2Vec的音频文本对齐方法及***
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN111986650B (zh) 借助语种识别辅助语音评测的方法及***
JPH0250198A (ja) 音声認識システム
CN116189671B (zh) 一种用于语言教学的数据挖掘方法及***
CN112908359A (zh) 语音测评方法、装置、电子设备及计算机可读介质
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及***
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Chen et al. Research on Chinese audio and text alignment algorithm based on AIC-FCM and Doc2Vec
CN114927144A (zh) 一种基于注意力机制和多任务学习的语音情感识别方法
CN114898776A (zh) 一种多尺度特征联合多任务cnn决策树的语音情感识别方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
CN115579000B (zh) 一种用于语音识别芯片的智能修正方法及***
CN114780786B (zh) 一种基于瓶颈特征和残差网络的语音关键词检索方法
Xu et al. A Novel Information Integration Algorithm for Speech Recognition System: Basing on Adaptive Clustering and Supervised State of Acoustic Feature

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant