CN114372140A - 分层会议摘要生成模型训练方法、生成方法及装置 - Google Patents

分层会议摘要生成模型训练方法、生成方法及装置 Download PDF

Info

Publication number
CN114372140A
CN114372140A CN202111679303.7A CN202111679303A CN114372140A CN 114372140 A CN114372140 A CN 114372140A CN 202111679303 A CN202111679303 A CN 202111679303A CN 114372140 A CN114372140 A CN 114372140A
Authority
CN
China
Prior art keywords
conference
word
bert
vector
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111679303.7A
Other languages
English (en)
Inventor
陈春丽
黄震
孙岩
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING MT-HIRISUN INFORMATION TECHNOLOGY DEVELOPMENT CO LTD
Beijing University of Posts and Telecommunications
Original Assignee
BEIJING MT-HIRISUN INFORMATION TECHNOLOGY DEVELOPMENT CO LTD
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING MT-HIRISUN INFORMATION TECHNOLOGY DEVELOPMENT CO LTD, Beijing University of Posts and Telecommunications filed Critical BEIJING MT-HIRISUN INFORMATION TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202111679303.7A priority Critical patent/CN114372140A/zh
Publication of CN114372140A publication Critical patent/CN114372140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种分层会议摘要生成模型训练方法、生成方法及装置,所述方法包括:获取中文会议数据集并进行预处理,所述预处理包括分词和建立词典,构建中文会议词汇列表,将所述中文会议词汇列表输入到BERT模型中,输出BERT词向量;基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签;采用所述BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。本发明能够生成具备高流畅度、准确度、可读性、异质性的分层会议摘要。

Description

分层会议摘要生成模型训练方法、生成方法及装置
技术领域
本发明涉及会议摘要自动生成技术领域,尤其涉及一种面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置。
背景技术
自新型冠状病毒疫情在全世界爆发以来,越来越多的政府部门、公司以及学校等组织开始使用远程会议应用来处理日常事务、开展网上教学,整个人类社会对于远程会议的需求达到了空前的高度,钉钉、腾讯会议皆因此获得了指数级的用户增长,但是随着越来越多的线上会议应用的普及,产生了大量的多媒体数据,如音视频信息,以及文本信息等。不同地域人员与会以及非面对面的讨论,使得会议记录以及会后的主要内容提炼带来了新的挑战。从大量会议对话信息中提取重要的内容,即借助信息技术提取会议摘要,已成为我们的一个迫切需求。因此,自动会议摘要这一技术逐渐被人们所关注。
自动会议摘要按照摘要方法可分为抽取式摘要和生成式摘要。抽取式方法从原文中选取关键词、关键句组成摘要,然而抽取式摘要存在着内容选择错误、连贯性差、灵活性差等问题,其抽取的摘要不能很好的符合我们的要求。生成式摘要支持理解会议全部内容后进行摘要生成任务,可以生成新的词语或短语,灵活性高,但也存在着重复生成,可读性差,超出词典范围(Out of Vocabulary,OOV)等问题。为了解决上述问题,Abigail See等人提出指针生成器网络,算法融合copy机制和coverage机制,通过从原文中拷贝词语到摘要中,有效缓解了OOV问题;通过引入注意力权重及coverage损失,可以避免重复考虑已获得的高权重部分,进而有效的缓解了重复生成的问题,但该网络仅考虑全局的文本信息并没有考虑每个参与者的语义信息和说话意图,无法建模参与者之间的异质性,因此不能直接应用于会议摘要生成。
相比于普通文档内容,会议内容更加冗长繁琐,且具有多个参与者,因此需要建模理解每个参与者的话语内容以及前后不同参与者话语之间的关系;此外,每个参与者的不同语义风格,立场和角色都促成了会议生成摘要的异质性,这使得端到端训练会议摘要更加困难。考虑到参与者说话意图对摘要生成的影响,Chih-Wen Goo等人设计了一个多任务学习框架,提出句子门控机制来建模对话行为和对话总结之间的关系。但该模型没有很好的对会议数据进行建模处理,只是简单的将主题信息作为摘要,生成的摘要不能很好的概括会议的全部内容。此外,在中文会议摘要生成领域,网上开源的会议摘要数据集都是英文的,缺乏中文会议摘要数据集,这给中文会议摘要生成任务造成了极大困难。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,用于解决目前分层会议摘要生成质量问题,能够实现异质性的、分层的会议摘要生成。
本发明的一个方面提供了一种面向对话行为优化的分层会议摘要生成模型训练方法,该方法包括以下步骤:
获取中文会议数据集并进行预处理,所述预处理包括分词和建立词典,构建中文会议词汇列表,将所述中文会议词汇列表输入到BERT(Bidimentional EncoderRepresentation from Transformers)模型中,输出BERT词向量;
基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签;
采用所述BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。
在本发明的一些实施例中,所述获取中文会议数据集的操作,实现方式包含以下一种或多种:英文会议数据集翻译得到,中文会议数据汇总和不断补充得到。
在本发明的一些实施例中,所述获取中文会议数据集并进行预处理步骤,包含:去除短于预设长度的句子;去除预设范围内的标点符号;执行分词操作;过滤预设停用词词表范围内的停用词;统计词频,去除词频小于预设频率的词;建立词典,将每个词映射到一个唯一标识的索引,使词和索引一一对应。
在本发明的一些实施例中,所述将中文会议词汇列表输入到BERT模型中,输出BERT词向量的步骤,包括:在BERT输入层中,令牌嵌入层将中文会议词汇列表的各个词转换成预设维度的向量;段嵌入层有两种向量表示,用于区分一个句子对中的两个句子,前一向量是把0赋给第一个句子中的各个令牌,后一向量是把1赋给第二个句子中的各个令牌;位置嵌入层将单词的位置信息编码成特征向量,引入单词位置关系;随后将令牌嵌入层、段嵌入层以及位置嵌入层的向量进行相加,得到BERT输出层的输出向量;在BERT隐藏层中,将BERT输入层的输出向量输入到BERT模型的隐藏层,每个隐藏层包含预设层数的转换器,输出所述BERT词向量。
在本发明的一些实施例中,所述将中文会议词汇列表入BERT预训练模型,输出BERT词向量的步骤,还包括:输入BERT词向量到全连接层,输出降维之后的BERT词向量,全连接层的每一个结点都与上一层的所有结点相连,用来把前期提取到的特征综合起来,把有用的信息保留下来,实现BERT词向量由高维变低维,能够加快模型训练速度。
在本发明的一些实施例中,所述利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签的步骤,包括:利用双向长短期记忆网络进行编码,将所述中文会议数据以句子序列格式作为输入,得到一个前向隐藏状态和一个后向隐藏状态,连结前向隐藏状态和后向隐藏状态得到最终隐藏状态,所述最终隐藏状态作为原始会议数据的编码结果输出;利用Sigmoid激活函数,以及前馈神经网络的权值矩阵,计算对话行为权重;利用所述最终隐藏状态和对话行为权重计算对话行为上下文向量;利用所述对话行为上下文向量和最终隐藏状态计算得到每句话的对话行为标签。
在本发明的一些实施例中,所述采用所述BERT词向量和对话行为标签构成的训练样本集对所述预设分层会议摘要模型进行训练步骤,包括:将BERT词向量输入到字级转换器,得到每个字符的编码结果;将字级转换器输出的所述每个字符的编码结果与所述原始中文会议数据每句话的对话行为标签进行拼接,输入到轮级转换器,得到轮级转换器的编码结果;将所述轮级转换器输出的编码结果输入到解码器,解码阶段的每个步骤都会输出一个输出序列,重复上述过程,直到到达一个特殊的终止符号,最后解码器输出一个实数向量;将所述解码器输出的实数向量进行线性变换和Softmax函数处理,生成最终的会议摘要。
本发明在的另一个方面提供了一种面向对话行为优化的分层会议摘要生成方法,该方法包括:获取中文会议数据,基于双向长短期记忆网络及注意力机制,对于原始的中文会议数据生成每句话的对话行为标签;将对话行为标签和训练得到的BERT词向量输入上述面向对话行为优化的分层会议摘要生成模型训练方法中的摘要生成模型,以输出分层会议摘要。
本发明在的另一个方面提供了一种面向对话行为优化的分层会议摘要生成装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法的步骤。
本发明的面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置,实现了中文会议数据的自动会议摘要生成,实现了对于中文会议数据的基于BERT模型的词向量的训练,搭建模型生成对话行为标签,构建分层会议摘要模型并进行训练,生成的会议摘要解决了会议参与者之间的异质性问题。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例的面向对话行为优化的分层会议摘要生成模型训练方法示意图。
图2为本发明一实施例利用BERT模型生成BERT词向量示意图。
图3为本发明一实施例全连接层结构示意图。
图4为本发明一实施例生成对话行为标签示意图。
图5为本发明一实施例的分层会议摘要网络模型示意图。
图6为本发明一实施例面向对话行为优化的分层会议摘要模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
为了解决现有的中文会议摘要生成的缺乏异质性的问题,中文会议摘要数据集的缺乏,以及中文摘要生成的质量问题,本发明提供了一种面向对话行为优化的分层会议摘要生成模型训练方法、生成方法及装置,基于PyTorch框架进行模型的搭建和训练,实现中文会议数据的处理,并输出分层的、异质性良好的中文摘要。
图1为本发明一实施例的面向对话行为优化的分层会议摘要生成模型训练方法示意图,该方法可以通过计算机设备来实现,如图1所示,该方法包括以下步骤S110-S130:
步骤S110,获取中文会议数据集并进行预处理,预处理包括分词和建立词典,构建中文会议词汇列表,将中文会议词汇列表输入到BERT模型中,输出BERT词向量。
在本发明一实施例中,中文会议数据集通过英文会议数据集翻译得到,但也可以通过后续的中文会议数据扩充来实现原生态中文会议数据集的建立。目前,由于网上开源的会议数据集都是英文的会议数据集,包含AMI数据集和ICSI等数据集,AMI是英文的多模态会议数据集,可用于抽取式和生成式摘要;ICSI是英文的会议数据集,可用于生成式摘要。所以通过翻译来构建中文会议数据集。首先调用谷歌翻译的API接口,实现将英文AMI会议摘要数据集和英文ICSI会议摘要数据集翻译成中文,编写处理数据的脚本,实现数据格式的整理,通过人工校正有错误的翻译,优化翻译内容,完成中文AMI、ICSI数据集的构建。最终得到184个中文会议数据,将其中的101个数据作为训练集,26个数据作为测试集,57个数据作为预测集。数据集分为摘要部分和对话部分,摘要部分为整篇会议的摘要,对话部分为每个人的角色对应的开会内容。在目标会议摘要生成模型搭建完成后,可不断扩充中文会议摘要数据集;将在线会议平台录制的日常会议音频信息转换成文本数据,输入到会议摘要生成模型生成摘要,人工参与微调,并将新得到的会议数据加入到中文数据集中,实现中文会议数据集的不断扩充。
在本发明一实施例中,对中文会议数据集进行预处理的步骤,包含去除短于预设长度的句子;去除预设范围内的标点符号;执行分词操作;过滤预设停用词词表范围内的停用词;统计词频,去除词频小于预设频率的词;建立词典,将每个词映射到一个唯一标识的索引,使词和索引一一对应。
在本发明一实施例中,对原始的中文会议数据集进行预处理,借助第三方分词工具结巴(jieba)来完成,具体包括:包含去除长度短于3的句子,短句往往并无实际含义且影响后续分词的结果;去除预设范围内的标点符号,去除的标点符号范围是人为设定的,目的是为了减少标点符号对分词的干扰,借助jieba第三方工具来完成;分词操作,也借助jidba第三方工具来完成,后续可以进一步人为修正其分词的词库,进一步提高分词的准确率;过滤停用词,停用词指的是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,例如句子中虚词、代词或者没有特定含义的动词、名词,去掉后不影响理解整个句子的语义,本发明根据中文停用词表过滤停用词;统计词频,在本发明中使用Counter库提取所有句子中每个词出现的次数;根据统计的词频信息,去除频率低于设定频率的词,在一些发明实施例中,也可以通过设定去除排名在预设排名之后的低频词;建立词典是针对剩余的词,将每个词映射到一个唯一标识的索引,使词和索引一一对应。
在基于深度神经网络的自然语言处理(Natural Language Processing,NLP)方法中,文本中的字/词通常都用一维向量来表示,一般称之为“词向量”,在本发明实施例中被称为BERT词向量表明其词向量基于BERT模型训练得到;在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维文本向量作为文本的语义表示。语义相近的字/词在特征向量空间上的距离也比较接近,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。BERT模型的输入是文本中各个字/词的原始词向量,输出的是文本中各个字/词融合了全文语义信息后的向量表示。
在本发明实施例中,词向量或称为BERT词向量,其训练的过程就是在模仿语言学习的过程。具体来说,在一句话中随机选择15%的词汇用于预测。对于在原句中被抹去的词汇,以80%的概率采用一个特殊符号[MASK]替换,10%的概率采用一个任意词替换,剩余10%的概率保持原词汇不变。这么做的主要原因是:在后续微调任务中语句不会出现[MASK]标记,而且这么做的另一个好处是:预测一个词汇时,模型并不知道输入对应位置的词汇是否为正确的词汇,在本模型中词汇位置正确概率为10%,使模型有更多地纠错能力。
图2为本发明一实施例利用BERT模型生成BERT词向量示意图,该过程包含以下步骤:
在BERT输入层中,输入文本X1,X2,……Xn令牌嵌入层(Token Embeddings)将中文会议词汇列表的各个词转换成预设维度的向量,在本发明实施例中预设维度为768维的向量;段嵌入层(Segment Embeddings)有两种向量表示,用于区分一个句子对中的两个句子,前一向量是把0赋给第一个句子中的各个令牌,后一向量是把1赋给第二个句子中的各个令牌;位置嵌入层(Position Embeddings)将单词的位置信息编码成特征向量,引入单词位置关系;随后将令牌嵌入层、段嵌入层以及位置嵌入层的向量进行相加,得到BERT输出层的输出向量。在BERT隐藏层中,将BERT输入层的输出向量输入到BERT模型的隐藏层,每个隐藏层包含预设层数的转换器,输出所述BERT词向量。
输入BERT词向量到全连接层,图3为本发明一实施例全连接层结构示意图,输出降维之后的BERT词向量,全连接层的每一个结点都与上一层的所有结点相连,用来把前期提取到的特征综合起来,把有用的信息保留下来,实现BERT词向量由高维变低维,能够有效的减轻了计算负担,加快模型训练速度。在全连接层对BERT词向量进行降维的推导过程如下:
h1=W11·X1+W12·X2+W13·X3+..+W1n·Xn
h2=W21·X1+W22·X2+W23·X3+..+W2n·Xn
hm=Wm1·X1+Wm2·X2+Wm3·X3+..+Wmn·Xn
其中h1,h2,……hm代表降维之后获得的BERT词向量,X1,X2,……Xn代表原本的高维的BERT词向量,通过上述推导过程来实现。
在本发明一实施例中,将预处理得到的文本输入到BERT模型中,进行令牌嵌入、段嵌入、和位置嵌入,对3个嵌入得到的特征向量进行求和,得到BERT输入层的输出向量。将输入层的输出向量输入到BERT模型的隐藏层。每个隐藏层由转换器(Transformer)构成,使用12层隐藏层,实现方式为循环12次上述隐藏层操作,得到BERT预处理模型生成的词向量。
步骤S120,基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签。
对话行为(Dialogue Acts,DA)是话语的语义标记,指在对话中参与者在说这些话语时的意图,对理解对话至关重要。说话人的大部分意图是通过与话语相关的社会行为(如问题/请求/同意或拒绝)明示或暗示地表达出来的。为此,为了充分利用对话行为信息,本发明构建对话行为标签器用于预测话语的对话行为,辅助建模对话行为和会议摘要之间的关系,进而发掘不同参与者观点间的空间异质性以提升摘要生成模型。为了充分利用对话行为信息,有效地将对话行为信息集成到分层会议摘要生成模型,本部分用于预测所有话语的对话行为,生成每个句子的对话行为标签,之后将对话行为标签加入分层会议摘要网络用来辅助摘要的生成。
图4为本发明一实施例生成对话行为标签示意图,利用双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)进行编码,将所述中文会议数据以句子序列格式作为输入,得到一个前向隐藏状态
Figure BDA0003453502240000071
和一个后向隐藏状态
Figure BDA0003453502240000072
连结前向隐藏状态和后向隐藏状态得到最终隐藏状态
Figure BDA0003453502240000081
所述最终隐藏状态作为原始会议数据的编码结果输出,表达式如下:
Figure BDA0003453502240000082
利用Sigmoid激活函数,以及前馈神经网络的权值矩阵,计算对话行为权重
Figure BDA0003453502240000083
表达式如下:
Figure BDA0003453502240000084
Figure BDA0003453502240000085
利用所述最终隐藏状态和对话行为权重计算对话行为上下文向量
Figure BDA0003453502240000086
表达式如下:
Figure BDA0003453502240000087
利用所述对话行为上下文向量和最终隐藏状态计算得到每句话的对话行为标签
Figure BDA0003453502240000088
表达式如下:
Figure BDA0003453502240000089
其中
Figure BDA00034535022400000810
是第i个句子的对话行为标签,
Figure BDA00034535022400000811
是权值矩阵。
步骤S130,采用BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。
对话行为标签器和分层会议摘要网络均采用Pytorch框架进行搭建,会议数据通常较长,直接应用常规的转换器(Transformer)不可行,会造成内存溢出的问题。考虑到会议内容是多轮的,本发明采用分层结构来实现摘要的生成,分层会议摘要网络模型由字级转换器(字级Transformer)、轮级转换器(轮级Transformer)和解码器(Decoder)组成。字级转换器在每轮内执行字符级别的理解,轮级转换器在整个会议中执行多轮级别的理解。在摘要生成中,将注意力集中在两个层次的理解上,可以有效的减轻计算负担,加快训练速度。
图5为本发明一实施例的分层会议摘要网络模型示意图,本分层会议摘要网络模型使用转换器(Transformer)架构进行搭建,包括两层转换器和编码器结构,字级转换器和轮级转换器。Transformer由Encoder和Decoder两个部分组成,Encoder由Decoder都包含6个block。Encoder由位置编码、多头注意力机制、残差和归一化层以及前馈神经网络组成,解码器的结构和编码器相似。
第一层为字级转换器,将BERT词向量输入到字级转换器,得到每个字符的编码结果。将BERT模型生成的词向量做为字级转换器的输入,进行位置编码,得到每个字的位置信息,而后经过多头注意力机制得到多头注意力值,之后输入残差和归一化层(Add&Norm),将多头注意力机制模块的输入和输出的对应位置做加法运算,最后输出到前馈神经网络、残差与归一化(Add&Norm),进行数据的非线性变换,得到每个字符的编码。在会议中处理一轮的会议数据就是一个参与者说的所有字符数据,使用可训练的嵌入矩阵在一轮中对每个字符进行编码,表达式如下:
Word-Transformer({xi,0,...,xi,n})={yi,0,...,yi,n}
其中xi,n为第i句话的第n个字符。
位置编码是指把位置信息加入到输入向量中,使模型知道每个字的位置信息。transformer中使用正余弦波来计算位置信息,具体如下:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,pos代表的是一个字在句子中的位置,i代表第i个句子,。
多头注意力机制是指计算句子中所有单词的注意力,形成多个子空间,可以让模型去关注不同方面的信息。通过n个不同的线性变换对Q、K、V进行投影,将不同的Attention(Q,K,V)进行拼接,然后使用一个矩阵相乘,得到最终的多头注意力值,其表达式如下:
Figure BDA0003453502240000091
MultiHead(Q,K,V)=Concat(head1,...,headn)·W0
headi=Attenion(QWi Q,KWi K,VWi V)
残差是用于解决梯度***/梯度消散问题的一种手段,将多头注意力机制模块的输入和输出的对应位置做加法运算。归一化层将数据限定在一定范围内,消除奇异样本数据导致的不良影响,保证训练的稳定性。
前馈神经网络负责提供上一次输出到下一层输入的非线性变换。一个转换器模块可以生成与输入维度相同的嵌入输出。因此,多个转换器模块可以顺序堆叠以形成转换器网络,其表达式如下:
Transformer({x1,...,xn})={y1,....,yn}
第二层为轮级转换器,将字级转换器的输出与对话行为标签器生成的对话行为标签进行拼接做为轮级转换器的输入,得到轮级转换器的编码结果。顶端位置编码器(Encoder)的输出之后会变转化为一个包含向量K(键向量)和V(值向量)的注意力向量集。这些向量将被每个解码器用于自身的“编码-解码注意力层(Self-Attention)”,而这些层可以帮助解码器关注输入序列的重要位置。在一次会议中处理所有m轮对话数据,结合对话行为信息,将字级别转换器的输出与对话行为标签器生成的对话行为标签进行拼接做为轮级转换器的输入,对m轮对话数据进行编码处理,在本发明实施例中,m的数值为4。对于m轮对话数据进行编码处理,其表达式如下:
Figure BDA0003453502240000101
其中ym,0为第m个句子经过字级别转换器编码后的输出,
Figure BDA0003453502240000102
为第m个句子经过对话行为标签器生成的对话行为标签。
将所述轮级转换器输出的编码结果输入到解码器,解码阶段的每个步骤都会输出一个输出序列,重复上述过程,直到到达一个特殊的终止符号,最后解码器输出一个实数向量。将编码结果输入解码器层,得到一个实数向量。在本发明一实施例中,每个时间步的输出在下一个时间步被提供给底端解码器(Decoder),首先将词向量嵌入并添加位置编码作为解码器的输入,来表示每个单词的位置。其次,通过自注意层(Self-Attention),解码器中的自注意力层表现的模式与编码器不同:在解码器中,自注意力层只被允许处理输出序列中更靠前的那些位置。然后在Softmax函数步骤前,它会把后面的位置给隐去,最后解码器部分输出一个实数向量。
将所述解码器输出的实数向量进行线性变换和Softmax函数处理,生成最终的会议摘要。随后经过线性变换层(Linear)将实数向量转换为对数几率的向量,线性变换层是一个简单的全连接神经网络,它可以把解码器产生的向量转换为一个比它大得多的、被称作对数几率(logits)的向量,对数几率向量包含句子长度个单元格的向量,每个单元格对应某一个词的分数。最后通过Softmax函数处理,Softmax函数会把那些分数变成上限为1.0的正数的概率值。概率值最高的单元格被选中,并且将它对应的词作为这个时间步的输出,以生成最终的会议摘要。
图6为本发明一实施例面向对话行为优化的分层会议摘要模型图,通过对话行为标签器生成对话行为标签,将训练得到的BERT词向量输入到字级转换器,然后将字级转换器的输出与对话行为标签输入到轮级转换器,再将轮级转换器的输出结果输入到解码器,经过变换得到会议摘要结果。
在本发明实施例中,提供了一种面向对话行为优化的分层会议摘要生成方法,建立在训练得到的分层会议摘要生成模型的基础上,其步骤具体包括:获取中文会议数据,基于双向长短期记忆网络及注意力机制,对于原始的中文会议数据生成每句话的对话行为标签;将对话行为标签和训练得到的BERT词向量输入上述实施例中的面向对话行为优化的分层会议摘要生成模型训练方法中的摘要生成模型,以输出分层会议摘要。
与上述方法相应地,本发明还提供了一种面向对话行为优化的分层会议摘要生成装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、***和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向对话行为优化的分层会议摘要生成模型训练方法,其特征在于,该方法包括以下步骤:
获取中文会议数据集并进行预处理,所述预处理包括分词和建立词典,构建中文会议词汇列表,将所述中文会议词汇列表输入到BERT模型中,输出BERT词向量;
基于获取的中文会议数据集,利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签;
采用所述BERT词向量和对话行为标签构成的训练样本集对预先建立的分层会议摘要模型进行训练,得到目标分层会议摘要生成模型。
2.根据权利要求1所述的方法,其特征在于,所述获取中文会议数据集的操作,实现方式包含以下一种或多种:英文会议数据集翻译得到,中文会议数据汇总和不断补充得到。
3.根据权利要求1所述的方法,其特征在于,所述获取中文会议数据集并进行预处理步骤,包含:
去除短于预设长度的句子;
去除预设范围内的标点符号;
执行分词操作;
过滤预设停用词词表范围内的停用词;
统计词频,去除词频小于预设频率的词;
建立词典,将每个词映射到一个唯一标识的索引,使词和索引一一对应。
4.根据权利要求1所述的方法,其特征在于,所述将中文会议词汇列表输入到BERT模型中,输出BERT词向量的步骤,包括:
在BERT输入层中,令牌嵌入层将中文会议词汇列表的各个词转换成预设维度的向量;段嵌入层有两种向量表示,用于区分一个句子对中的两个句子,前一向量是把0赋给第一个句子中的各个令牌,后一向量是把1赋给第二个句子中的各个令牌;位置嵌入层将单词的位置信息编码成特征向量,引入单词位置关系;随后将令牌嵌入层、段嵌入层以及位置嵌入层的向量进行相加,得到BERT输出层的输出向量;
在BERT隐藏层中,将BERT输入层的输出向量输入到BERT模型的隐藏层,每个隐藏层包含预设层数的转换器,输出所述BERT词向量。
5.根据权利要求4所述的方法,其特征在于,所述将中文会议词汇列表入BERT预训练模型,输出BERT词向量的步骤,还包括:
输入BERT词向量到全连接层,输出降维之后的BERT词向量,全连接层的每一个结点都与上一层的所有结点相连,用来把前期提取到的特征综合起来,把有用的信息保留下来,实现BERT词向量由高维变低维,能够加快模型训练速度。
6.根据权利要求1所述的方法,其特征在于,所述利用双向长短期记忆网络及注意力机制,生成原始的中文会议数据每句话的对话行为标签的步骤,包括:
利用双向长短期记忆网络进行编码,将所述中文会议数据以句子序列格式作为输入,得到一个前向隐藏状态和一个后向隐藏状态,连结前向隐藏状态和后向隐藏状态得到最终隐藏状态,所述最终隐藏状态作为原始会议数据的编码结果输出;
利用Sigmoid激活函数,以及前馈神经网络的权值矩阵,计算对话行为权重;
利用所述最终隐藏状态和对话行为权重计算对话行为上下文向量;
利用所述对话行为上下文向量和最终隐藏状态计算得到每句话的对话行为标签。
7.根据权利要求1所述的方法,其特征在于,所述采用所述BERT词向量和对话行为标签构成的训练样本集对所述预设分层会议摘要模型进行训练步骤,包括:
将BERT词向量输入到字级转换器,得到每个字符的编码结果;
将字级转换器输出的所述每个字符的编码结果与所述原始中文会议数据每句话的对话行为标签进行拼接,输入到轮级转换器,得到轮级转换器的编码结果;
将所述轮级转换器输出的编码结果输入到解码器,解码阶段的每个步骤都会输出一个输出序列,重复上述过程,直到到达一个特殊的终止符号,最后解码器输出一个实数向量;
将所述解码器输出的实数向量进行线性变换和Softmax函数处理,生成最终的会议摘要。
8.一种面向对话行为优化的分层会议摘要生成方法,其特征在于,包括:
获取中文会议数据,基于双向长短期记忆网络及注意力机制,对于原始的中文会议数据生成每句话的对话行为标签;
将对话行为标签和训练得到的BERT词向量输入如权利要求1-7任意一项所述面向对话行为优化的分层会议摘要生成模型训练方法中的摘要生成模型,以输出分层会议摘要。
9.一种面向对话行为优化的分层会议摘要生成装置,包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求8中所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
CN202111679303.7A 2021-12-31 2021-12-31 分层会议摘要生成模型训练方法、生成方法及装置 Pending CN114372140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111679303.7A CN114372140A (zh) 2021-12-31 2021-12-31 分层会议摘要生成模型训练方法、生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111679303.7A CN114372140A (zh) 2021-12-31 2021-12-31 分层会议摘要生成模型训练方法、生成方法及装置

Publications (1)

Publication Number Publication Date
CN114372140A true CN114372140A (zh) 2022-04-19

Family

ID=81141809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111679303.7A Pending CN114372140A (zh) 2021-12-31 2021-12-31 分层会议摘要生成模型训练方法、生成方法及装置

Country Status (1)

Country Link
CN (1) CN114372140A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115589446A (zh) * 2022-09-26 2023-01-10 黑盒科技(广州)有限公司 一种基于预训练与提示的会议摘要生成方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115589446A (zh) * 2022-09-26 2023-01-10 黑盒科技(广州)有限公司 一种基于预训练与提示的会议摘要生成方法及***

Similar Documents

Publication Publication Date Title
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及***
CN113205817A (zh) 语音语义识别方法、***、设备及介质
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
US11257484B2 (en) Data-driven and rule-based speech recognition output enhancement
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN114328817A (zh) 一种文本处理方法和装置
CN113380221A (zh) 中英文混合的语音合成方法、装置、电子设备和存储介质
Heo et al. Multimodal neural machine translation with weakly labeled images
Liu et al. Cross-domain slot filling as machine reading comprehension: A new perspective
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和***
CN114372140A (zh) 分层会议摘要生成模型训练方法、生成方法及装置
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN115688703A (zh) 一种特定领域文本纠错方法、存储介质和装置
Singh et al. An integrated model for text to text, image to text and audio to text linguistic conversion using machine learning approach
Lv et al. StyleBERT: Chinese pretraining by font style information
CN117035064B (zh) 一种检索增强语言模型的联合训练方法及存储介质
US12019997B2 (en) Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information
CN113744737B (zh) 语音识别模型的训练、人机交互方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination