CN113191133B

CN113191133B - 一种基于Doc2Vec的音频文本对齐方法及***

Info

Publication number: CN113191133B
Application number: CN202110438831.7A
Authority: CN
Inventors: 陈科良; 崔岩松; 任维政; 张晓欢; 樊昌熙; 孙孟寒; 张帅; 崔晨岩
Original assignee: Beijing Huanke Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Huanke Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-12-21
Anticipated expiration: 2041-04-21
Also published as: CN113191133A

Abstract

本发明公开了一种基于Doc2Vec的音频文本对齐方法及***，该方法包括：基于模拟退火遗传算法优化的AIC‑FCM进行门限阈值估计，将随书长音频切分为以句为维度的短音频，并将短音频进行语音识别输出以句为维度的短文本；基于Doc2Vec模型对电子书进行段落提取，得到以段落为维度的段落文本；基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配，完成文本对齐。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果，在对齐的效果上基本和Doc2vec持平且时间复杂度降低了35％左右。

Description

一种基于Doc2Vec的音频文本对齐方法及***

技术领域

本发明涉及自然语言处理技术领域，更具体的说是涉及处理音频文本对齐的问题，以提高音频对照电子书制作的效率和质量。

背景技术

基于有声读物和电子书的关联关系可以制作能发声的电子书，这种电子书在教育类，尤其是语言教育类场景中有重要的实用价值，但是目前来说这类电子书的制作并不广泛。究其原因，这类书多依赖人工标注进行制作，很大程度上限制了其发展。音频文本技术作为这类书在技术上的可行性，目前仍存在一些问题，首先在音频处理上，随书音频一般由专业人员按照电子书文本朗读并录制而来，因此它具有和电子书文本匹配度较高且单音频较长等特征。较长的音频如果直接进行识别，不仅会带来较大的解码时间消耗，还会降低识别输出的准确率。其次是对齐算法上，目前各类对齐算法已经相当完善，但是仍存在时间复杂度，空间复杂度过高等问题。

因此，如何提供一种效果理想的音频文本对齐方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于Doc2Vec的音频文本对齐方法及***，准确度高，效率高。

为了实现上述目的，本发明采用如下技术方案：

一种基于Doc2Vec的音频文本对齐方法，包括：

步骤1：基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计，将随书长音频切分为以句为维度的短音频，并将所述短音频进行语音识别输出以句为维度的短文本；

步骤2：基于Doc2Vec模型对电子书进行段落提取，得到以段落为维度的段落文本；

步骤3：基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配，完成文本对齐。

优选的，所述步骤1具体包括：

步骤11：利用模拟退火遗传算法进行全局搜索和交互变异操作，同时结合模拟操作得到聚类中心；

步骤12：模糊C均值聚类算法基于所述聚类中心对特征参数进行聚类数目分别为1和2时的模糊聚类；

步骤13：通过赤池信息准则判断最优的聚类数C，并根据最优聚类数C 确定双门限端点检测的门限值，完成随书长音频切分；

步骤14：将短音频进行预处理后进行语音识别，输出以句为维度的短文本。

优选的，所述步骤11具体包括：

步骤111：输入随书长音频，初始化算法参数，设置遗传代数i＝0以及退火算法的初始温度T_i；

步骤112：随机产生遗传算法种群C_i(T)，表示音频采样点的聚类中心；

步骤113：计算所述遗传算法种群C_i(T)所有个体适应度F(C_i(T))；

步骤114：利用交叉和变异操作使所述遗传算法种群C_i(T)进化得到新种群C_i′(T)；

步骤115：重新计算新种群C_i′(T)的个体适应度F(C_i′(T))；

步骤116：计算退火增量ΔF＝F(C_i′(T))-F(C_i(T))，如果ΔF＞0则代表新种群适应度得到增强，C_i′(T)即为下一代种群；如果ΔF≤0则以概率

接受 C_i′(T)即为下一代种群，如果最终没有达到被接受的预设概率，则返回步骤 114；

步骤117：将新种群设置为下一代种群，即C_i+1(T)＝C_i′(T)，并进行降温

其中α表示退火因子；

步骤118：增加遗传代数i＝i+1，判断获取的聚类中心是否达到全局最小值，若满足则输出优化后的音频采样点的聚类中心；否则返回步骤114，继续进化过程。

优选的，所述步骤12具体包括：

步骤121：利用0和1之间的随机数对隶属度矩阵进行初始化，并满足约束条件：

其中，u_ij表示隶属度，C表示获取的聚类个数；

步骤122：计算目标函数F，

其中，x_i表示待聚类数据，m_j表示聚类中心，k表示聚类的簇数，N表示待聚类数据的个数，若在第n次迭代后隶属度误差小于误差阈值ε，即 max_ij{|u_ij ⁽ⁿ⁺¹⁾-u_ij ⁽ⁿ⁾|}＜ε，则已经达到要求状态并停止迭代；否则执行步骤123；

步骤123：通过计算隶属度更新隶属度矩阵，并满足约束条件，其中隶属度计算公式为u_ij：

其中，k表示聚类的簇数， m_l表示C个聚类中心的枚举，返回步骤122进行迭代。

优选的，所述步骤13具体包括：

步骤131：假设有效语音和停顿音的背景噪声均遵循高斯分布

模型，μ_i为均值向量，

为协方差矩阵，最优聚类数为C时的AIC值由如下公式求得：

其中，N_i为第i个聚类的数据个数，v是特征空间的维数，ε_d是惩戒因子；

步骤132：根据最优聚类数确定特征参数的高低门限

优选的，所述步骤2具体包括：

步骤21：DM模型训练阶段，在输入句子s_i上用固定大小的窗口进行滑动，每滑动到一个位置使用输入句子的句子向量

和窗口中的上下文词语向量

预测目标词x_m，得到句向量矩阵S_V×N、词向量矩阵 X_V×N以及Softmax函数所需的U、b参数；

步骤22：DM模型推断阶段，利用训练好的模型固定词向量矩阵和参数 U、b，采用梯度下降法获取新的句子向量并更新句向量矩阵。

优选的，所述步骤3具体包括：

步骤31：将所述短文本表示为SText，将所述段落文本表示为PText，并计算所有SText的字符长度D_s以及字符长度平均值

顺序取出段落文本并计算其长度D_P；

步骤32：比较D_P和

之间的相对关系，若

则段落较长，采用首尾匹配方式PS-First-Last，反之使用全部匹配方式PS-ALL，α为阈值判定系数；

所述全部匹配方式PS-ALL具体为：利用SText和PText的向量表示计算文本相似度，具体计算公式为：

其中，X表示随书音频识别之后的短文本，其向量表示为V_X＝(x₁，x₂，…，x_N)， Y表示段落文本，其向量表示为V_Y＝(y₁，y₂，…，y_N)；

所述首尾匹配方式PS-First-Last具体为：从所述段落文本中取出段首和段尾字符长度为

的两个文本，依次找到与段首和段尾相似度最高的两个短文本SText_first和SText_last，从而实现文本对齐。

优选的，还包括检查全部匹配方式PS-ALL获得的段落结束时间点与下一段段落开始时间点是否接续，如果不接续则将结束时间点延长至下一段开始时间前一秒。

优选的，所述步骤13还包括：

通过切分错误率表征切分的错误率并引导算法进行校正：

切分错误率E_C可以表示为：

其中，L_frame表示切长的音频帧数，S_fame表示切短的音频帧数，ALL_frame表示切分的音频总帧数，W_L和W_S分别表示切长错误和切短错误的权重；

若E_C＜ε_E，则认为音频切分已经满足要求，否则需要通过调整门限或者人工校正的方式对音频进行校正，其中，ε_E为预设阈值。

一种基于Doc2Vec的音频文本对齐***，包括：

音频切分和识别模块：基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计，将随书长音频切分为以句为维度的短音频，并将所述短音频进行语音识别输出以句为维度的短文本；

文本段落提取模块：基于Doc2Vec模型对电子书进行段落提取，得到以段落为维度的段落文本；

对齐模块：基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配，完成文本对齐。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于Doc2Vec的音频文本对齐方法及***，以音频文本对齐技术为核心，将有声读物与配套音频相匹配，实现了文本内容与音频在时间上的对照关系，有机结合了“听”和“读”。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果，在对齐的效果上基本和Doc2vec持平且时间复杂度降低了 35％左右。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为基于Doc2Vec的音频文本对齐方法流程图。

图2附图为模拟退火遗传算法优化的AIC-FCM进行门限阈值估计的流程图。

图3附图为DM模型架构。

图4附图为基于阈值预测法的动态匹配方案工作原理图。

图5附图为PS-First-Last工作原理图。

图6附图为文本对齐校对方案原理图。

图7附图为基于Doc2Vec的音频文本对齐***原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于Doc2Vec的音频文本对齐方法，音频和文本对齐的最终目的是在时间维度上建立音频和文本的关联关系，即找到音频时间区间内对应的文本内容。音频和文本的对齐层级一般包含三种：段落对齐、句子对齐和词语对齐。由于电子书本身是以段落为基础元素构建的，因此制作音频对照书需要在段落层级进行对齐。如图1所示，具体包括：

步骤1：基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计，将随书长音频切分为以句为维度的短音频，并将短音频预处理后进行语音识别输出以句为维度的短文本；

具体的，如图2所示，步骤1包括：

步骤11：利用遗传算法进行全局搜索和交互变异操作，同时结合模拟操作得到聚类中心；

其中，遗传算法是一种依据生物遗传和进化过程中选择、交叉、变异机制设计的自适应全局优化概率搜索算法。它具有较强的全局搜索能力，能够快速的求解出空间中的全体解。但是遗传算法也存在局部搜索能力较弱且收敛较慢的弱点。而模拟退火算法可以有效摆脱局部极小值，以任意接近于1 的概率达到全局最小值点，正好可以弥补遗传算法的弱点。因此，将两种算法结合起来的模拟退火遗传可以加强聚类算法搜索能力以及搜索效率，同时还能提升音频门限阈值检测的鲁棒性。

具体的，模拟退火遗传算法的执行步骤如下：

step1.初始化算法参数，设置遗传代数i＝0以及退火算法的初始温度T_i

step2.随机产生遗传算法种群C_i(T)，它是音频采样点的聚类中心；

step3.计算遗传算法C_i(T)所有个体适应度F(C_i(T))；

step4.使用交叉和变异操作让遗传算法种群C_i(T)进化得到C_i′(T)，通过该操作获得一个可能更优的聚类中心；

step5.重新计算新种群的个体适应度F(C_i′(T))；

step6.按照ΔF＝F(C_i′(T))-F(C_i(T))计算退火增量，如果ΔF＞0则代表新种群适应度得到增强，C_i′(T)即为下一代种群，如果ΔF≤0则以概率

接受C_i′(T)即为下一代种群；如果最终没有能接受的新种群，则返回step4。

step7.将新种群设置为下一代种群，即C_i+1(T)＝C_i′(T)，然后进行降温

其中α表示退火因子，最后增加遗传代数，即i＝i+1；

step8.判断终止条件是否满足，若满足获取的聚类中心达到全局最小值，则输出FCM所需的聚类中心；否则转step4，继续进化过程。

步骤12：模糊C均值聚类算法基于聚类中心对特征参数进行聚类数目分别为1和2时的模糊聚类；

具体的，模糊C均值聚类算法(FCM)融合了模糊理论的精髓，主要用于数据的聚类分析。它通过迭代优化目标函数从而计算出每个样本数据的隶属度，进而实现数据的分类。如果以X＝{x_i|i＝1，2，...，N}代表数据集， M＝{m_j|j＝1，2，...，C}代表数据集X被划分为C个聚类之后的中心集，目标函数F 可以表示为：

其中k是聚类的簇数，u_ij表示数据x_i和某一类m_j的相似程度，即隶属度，其计算公式为：

隶属度还有一个总和等于1的约束条件，即：

||x_i-m_j||代表数据x_i和聚类中心m_j的距离。

FCM算法的目标是通过不断迭代计算以获取目标函数F最小时的隶属度 u_ij，其迭代流程为：

步骤121：使用值在0和1之间的随机数对隶属矩阵U进行初始化，需要满足约束条件

步骤122：计算目标函数F，

其中，x_i表示待聚类数据，m_j表示聚类中心，k表示聚类的簇数，N表示待聚类数据的个数，如果在第n次迭代后发现隶属度误差小于误差阈值ε，即 max_ij{|u_ij ⁽ⁿ⁺¹⁾-u_ij ⁽ⁿ⁾|}＜ε，则可以认为已经达到较优的状态并停止迭代，否则执行步骤123。

步骤123：通过隶属度

计算新的隶属度矩阵， m_l表示C个聚类中心的枚举，然后返回步骤122，继续执行迭代。

简而言之，FCM算法的中心思想就是为每个样本数据配置属于一个聚类的隶属度，通过隶属度来进行数据归类。

步骤13：通过赤池信息准则判断最优的聚类数C，并根据最优聚类数C 确定双门限端点检测的门限值，完成随书长音频切分。

具体的，赤池信息准则(AIC)全称是最小化信息量准则，它是衡量统计模型拟合优良性的一种标准。AIC准则主要用来解决模型选择问题，在模型的复杂度和参数个数间找到一种平衡。通常情况下，它是拟合精度和参数未知个数的加权函数，定义如下：

其中X＝{x_i|i＝1，2，...，N}是数据特征集，P＝{p_i|i＝1，2，...，C}是模型参数，ln S(X，P)是数据特征集X和模型参数P的似然函数，n_P是P的参数个数，ε_d是惩戒因子。

赤池信息准则评判模型优劣的时候会参考AIC值，当AIC最小的时候其选择的模型为最佳模型。假设有效语音和停顿音等背景噪声都遵循高斯分布

模型，μ_i为均值向量，

为协方差矩阵，那么聚类数为C时的AIC值可以由如下公式求得：

其中，N_i为第i个聚类的数据个数，v是特征空间的维数。

在音频端点检测的应用场景中，设定初始聚类个数C＝2，根据最优聚类数确定特征参数的高低门限通过如下式判决：

通过上式获得能量门限和过零率门限，进而利用能量门限和过零率门限检测语音信号的短时能量和平均过零率，需要说明的是，语音信号的数值需要在门限内才能被取得，超出门限则丢弃。

双门限端点检测法主要用于检测一段语音的起始点和终止点，它的两个门限是指能量门限和过零率门限。音频中停顿音的短时能量一般远低于语音的短时能量，因此通过能量门限能够准确的切除大部停顿音。音频x(n)的短时能量E_n可以用公式表示为：

其中w(n-m)代表窗函数，s_n(m)＝x(n)×w(n-m)代表音频x(n)的某一帧信号。然而语音中存在一些清辅音的能量和停顿音的能量非常接近，如果单纯使用能量门限就可能将清辅音也切除掉。短时平均过零率表征的是每秒信号电平通过零值的次数，音频x(n)的短时平均过零率Z_n可以用公式表示为：

其中，signal是符号函数，即：

进一步的，在利用双门限端点切分技术进行长音频切分的过程中可能存在切长或者切短的错误。切长错误是指将停顿音切分到一帧短语音中的错误，它可能是由于停顿音中的噪声能量过大导致的。切短错误则是指将一段连续的短语音切分为两帧语音的错误，这种错误一般是由于连续语音中某一部分停顿过长导致的。为了计算音频切分的准确度并进行校正，本发明引入了切分错误率以表征切分的错误率并引导算法进行校正。如果以L_frame表示切长的音频帧数，以S_frame表示切短的音频帧数，以ALL_frame表示切分的音频总帧数，那么切分错误率E_C可以表示为：

在公式中为切长错误和切短错误分别定义了权重W_L和W_S，且一般W_S＞W_L。这是因为在实际应用场景中短音频被切断所造成的错误的严重程度是远远大于短音频中多包含的停顿音，在公式中引入权重即可以表达这种因素对切分错误率的影响。

切分错误率存在一个阈值ε_E，如果E_C＜ε_E则可以认为短音频切分已经满足要求，否则需要通过调整门限或者人工校正的方式对短音频进行校正。由于不同类型音频的停顿音长度、能量等特征可能存在差异，因此阈值ε_E一般通过选择同一类型的音频进行实验确定。

对此错误经过错误校正之后的短音频就可以直接被送入语音识别***中进行识别了。

步骤14：将短音频进行预处理后进行语音识别输出以句为维度的短文本；

具体的，针对epub、markdown等格式的文本数据，采用开源的解析工具提取文本中的段内容。提取出的文本内容，在格式上可能存在诸如标点、特殊字符等干扰元素。针对此类的干扰元素，可以使用正则表达式方法来处理这些元素。将上述提取的段内容通过一些设定好的正则表达式，得到去除干扰后的文本信息。

对于语音识别***。相关技术已经非常成熟，并有优秀的识别效果。比如CMUSphinx，Kaldi，HTK，ASRT等开源的语音识别工具，以及讯飞语音识别、百度AI平台等商业化的平台。本发明语音识别利用开源的语音识别工具，将预处理后的短音频进行识别后，输出的短文本都会包含其在原长音频中所处的时间区间。

具体的，Doc2vec模型是由word2vec模型发展而来的，它在预测词向量的基础上扩展了计算长文本(句子、段落等)向量表示的能力。此模型可获取固定长度的句向量和单词向量，其中句向量存储当前段落的主题或词向量所缺失的上下文信息。Doc2vec模型也存在两种训练方式：Distributed Memory(DM)和Distributed Bag of Words(DBOW)，分别对应word2vec模型里的CBOW和Skip-gram。由Tomas Mikolov的实验中验证的结论可知，在大多数分类任务中DM获得的段落向量表现的比DBOW好，因此本发明使用DM模型进行句子向量的计算，如图3所示。

DM模型的思路是通过输入句向量和句中的几个单词向量来预测当前上下文中出现概率最大的某一个单词。

该模型训练的思路为：在输入句子s_i上用固定大小的窗口进行滑动，每滑动到一个位置就使用输入句子的句子向量

和窗口中的上下文词语向量

预测目标词x_m。和wotd2sec模型的CBOW训练方法一致， DM模型训练的最终目的也是为了获得句向量矩阵S_V×N、词向量矩阵X_V×N以及Softmax函数所需的U、b等参数。在这个过程中，DM模型的每一次预测都会使用到句子S_i的语义信息。

在模型的推断阶段，对于新的句子，利用训练好的DM模型，固定单词向量矩阵X和参数U、b，采用梯度下降法就可以获取新的句子向量并同时更新句向量矩阵S。

DM模型要求在给定上下文之后，通过更新参数使获得预测值的可能性达到最大，即最大化平均对数似然函数。平均对数似然函数的定义为：

其中C代表词语的总数量，k代表训练使用的窗口宽度，S_i代表选用的上下文词语所在的句向量。后续的预测任务就可以使用Softmax函数等多分类器来完成了，它将条件概率函数p(x_k|s_i，x_m-k，...，x_m+k)定义为：

其中y_j表示词语x_j归一化之前的输出值。如果用h表示从句向量矩阵 S_V×N、词向量矩阵X_V×N中抽取的行向量取平均或者相连接获得的向量，则y 的计算表达式为：

y＝b+Uh(S_i，x_m-k，…，x_m+k；S，X)。

步骤3：基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配，完成文本对齐。

具体的，随书音频经过切分与识别之后获得的是以句为维度的短文本，以SText表示，而电子书中存储的文本都是以段落为维度组织的，以PText表示。因为实际应用场景中随书音频和电子书只需要实现段落维度的对齐，如果计算所有文本的相似度则要将PText都拆分成句子并一一和SText进行相似度计算。这种方式会造成大量的计算资源浪费，因此本发明设计了一种根据 PText长度和SText长度均值的比值动态确定采用全部匹配(PS-ALL)还是首尾匹配(PS-First-Last)的方式。其工作原理如图4所示：

该方案首先计算了所有SText的字符长度D_S以及其平均值D_S，然后顺序取出电子书中的段落文本并计算出它的长度D_P。D_P和

之间的相对关系决定了分类器会选择PS-ALL或者PS-First-Last。如果D_P＞αD_S则认为段落较长，使用PS-First-Last，反之则使用PS-ALL。其中α为阈值判定系数，这个系数可以在处理不同类型的电子书时动态调整以提升判定的精准度。

PS-ALL的原理较为简单，它直接用SText和PText的向量表示来计算文本相似度，从而完成文本对齐。具体采用余弦文本相似度计算算法，余弦文本相似度计算算法是一种将文本间相似度计算转化为向量之间夹角的余弦值计算的方法，向量夹角越小证明文本相似度越高。待匹配的文本经过训练好的 Doc2vec模型即可获得对应的句向量，使用余弦文本相似度计算公式即可得到他们的相似程度。如果以X表示随书音频识别之后的文本，其向量表示为 V_X＝(x₁，x₂，…，x_N)，以Y表示电子书中文本，其向量表示为V_Y＝(y₁，y₂，...，y_N)，那么X和Y之间的相似度可以表示为：

Φ(X，Y)的取值阈为[0，1]，值越小代表向量夹角越小，两个文本的相似度就越高。

PS-First-Last的原理则相对复杂一些，它首先取出段首以及段尾字符长度为

两个文本，然后依次找到和段首段尾文本相似度最高的两个短文本 SText_first和SText_last。这两个短文本实际代表的是随书音频对应的一个时间区间，据此即可以实现电子书段落和音频段落的对齐。其工作原理如图5所示：

进一步的，由于可能出现误用PS-ALL导致匹配音频区间过短的情况，本方案最后增加了一个校对环节。该环节检查所有使用PS-ALL获得的段落结束时间点与后续段落开始时间点是否接续，如果不接续则将结束时间点延长至下一段开始时间前一秒从而保证音频的时间区间被完全划分，文本对齐校对方案如图6所示。

本实施例公开了一种基于Doc2Vec的音频文本对齐***，如图7所示，包括：

音频切分和识别模块：基于模拟退火遗传算法优化的AIC-FCM进行门限阈值估计，将随书长音频切分为以句为维度的短音频，并将短音频进行语音识别输出以句为维度的短文本；

对齐模块：基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配，完成文本对齐，最终输出带音频时间戳的文本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例。

Claims

1.一种基于Doc2Vec的音频文本对齐方法，其特征在于，包括：

步骤3：基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配，完成文本对齐；

所述步骤3具体包括：

顺序取出段落文本并计算其长度D_P；

步骤32：比较D_P和

之间的相对关系，若

其中，X表示随书音频识别之后的短文本，其N维向量表示为V_X＝(x₁,x₂,...,x_N)，其中x_i代表向量中的元素，Y表示段落文本，其N维向量表示为V_Y＝(y₁,y₂,...,y_N)，其中y_i代表向量中的元素；

2.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤1具体包括：

步骤13：通过赤池信息准则判断最优的聚类数C，并根据最优聚类数C确定双门限端点检测的门限值，完成随书长音频切分；

3.根据权利要求2所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤11具体包括：

步骤115：重新计算新种群C_i′(T)的个体适应度F(C_i′(T))；

接受C_i′(T)即为下一代种群，如果最终没有达到被接受的预设概率，则返回步骤114；

其中α表示退火因子；

4.根据权利要求3所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤12具体包括：

其中，u_ij表示隶属度，C表示获取的聚类个数；

步骤122：计算目标函数F，

其中，x_i表示待聚类数据，m_j表示聚类中心，k表示聚类的簇数，N表示待聚类数据的个数，若在第n次迭代后隶属度误差小于误差阈值ε，即max_ij{|u_ij ⁽ⁿ⁺¹⁾-u_ij ⁽ⁿ⁾|}＜ε，则已经达到要求状态并停止迭代；否则执行步骤123；

m_l表示C个聚类中心的枚举，返回步骤122进行迭代。

5.根据权利要求4所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤13具体包括：

步骤131：假设有效语音和停顿音的背景噪声均遵循高斯分布

模型，μ_i为均值向量，

为协方差矩阵，最优聚类数为C时的AIC值由如下公式求得：

步骤132：根据最优聚类数确定特征参数的高低门限

6.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤2具体包括：

和窗口中的上下文词语向量

预测目标词x_m，得到句向量矩阵S_V×N、词向量矩阵X_V×N以及Softmax函数所需的U、b参数；

步骤22：DM模型推断阶段，利用训练好的模型固定词向量矩阵和参数U、b，采用梯度下降法获取新的句子向量并更新句向量矩阵。

7.根据权利要求1所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，还包括检查全部匹配方式PS-ALL获得的段落结束时间点与下一段段落开始时间点是否接续，如果不接续则将结束时间点延长至下一段开始时间前一秒。

8.根据权利要求2所述的一种基于Doc2Vec的音频文本对齐方法，其特征在于，所述步骤13还包括：

通过切分错误率表征切分的错误率并引导算法进行校正：

切分错误率E_C可以表示为：

其中，L_frame表示切长的音频帧数，S_frame表示切短的音频帧数，ALL_frame表示切分的音频总帧数，W_L和W_S分别表示切长错误和切短错误的权重；

9.一种基于Doc2Vec的音频文本对齐***，其特征在于，包括：

对齐模块：基于阈值预测法的动态匹配方法对所述短文本以及所述段落文本进行文本相似度匹配，完成文本对齐，具体过程为：

将所述短文本表示为SText，将所述段落文本表示为PText，并计算所有SText的字符长度D_S以及字符长度平均值

顺序取出段落文本并计算其长度D_P；

比较D_P和

之间的相对关系，若