CN113220856A - 一种基于中文预训练模型的多轮对话*** - Google Patents

一种基于中文预训练模型的多轮对话*** Download PDF

Info

Publication number
CN113220856A
CN113220856A CN202110588492.0A CN202110588492A CN113220856A CN 113220856 A CN113220856 A CN 113220856A CN 202110588492 A CN202110588492 A CN 202110588492A CN 113220856 A CN113220856 A CN 113220856A
Authority
CN
China
Prior art keywords
question
module
model
training
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110588492.0A
Other languages
English (en)
Inventor
孙迎超
陈世展
冯志勇
薛霄
吴洪越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110588492.0A priority Critical patent/CN113220856A/zh
Publication of CN113220856A publication Critical patent/CN113220856A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于中文预训练模型的多轮对话***,包括:数据处理模块;检索模块,利用向量内积相似度检索问答数据集;生成模块,改进中文预训练模型NEZHA预训练模型,使其能够用于生成任务;压缩模块,利用可替换策略对生成模块的NEZHA模型进行知识蒸馏;对话管理模块,用于管理高频用户问题。

Description

一种基于中文预训练模型的多轮对话***
技术领域
本发明属于智能对话领域,主要涉及一种基于中文预训练模型的多轮对话***。
背景技术
随着深度学习技术以及网络技术的快速发展,数据驱动模型也越来越流行。构建一个类人对话代理被认为是人工智能中最具挑战性的任务之一。对于特定任务的对话***,可以看作是一个连续的决策过程。它依赖大量的信息来使对话继续下去,如对话上下文、意图、外部知识、常识、情绪、参与者的背景和人物角色等。所有这些都可能对对话中的响应产生影响,这些不确定性使对话变得极为艰巨。
此外,随着计算机算力的提高,日常生活中产生了大量的真实会话数据,一些大型预训练神经网络模型(如NEZHA等)取得了很大的进展,在此基础上的很多自然语言理解类的任务甚至超过了人类水平。然而,目前直接基于中文预训练神经网络打造任务型多轮对话类的工作相对较少,并且对话质量和多样性有待提高。
对于特定场景(如电商平台)的对话***,往往聚焦于其领域内的对话数据,虽然能够解决高频的用户问题,然而,因其对话数据的局限性针对一些长尾型问题却缺乏泛化以及语义理解能力。尽管端到端模型已经成为当前研究的热点,但在实际对话***中,特别是在一个新的领域的预热阶段,我们仍然需要依赖传统的流水线式对话***。
检索式和生成式对话***的实现原理不同,也有着各自的优缺点。检索式对话可以提供更流畅和相关的答复,生成式对话则能够建模更复杂的上下文语义(比如,用户情感)。因此,本发明探索检索式和生成式方法相结合的策略来寻求更好的对话***性能。
参考文献:
[1]ScaNN向量检索工具:
https://github.com/***-research/***-research/tree/master/scann
[2]Wei J,Ren X,Li X,et al.NEZHA:Neural contextualized representationfor chinese language understanding[J].arXiv preprint arXiv:1909.00204,2019.
[3]Guo R,Sun P,Lindgren E,et al.Accelerating large-scale inferencewith anisotropic vector quantization[C].In International Conference onMachine Learning,2020:3887–3896.
[4]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural InformationProcessing Systems.2017:6000-6010.
发明内容
本发明的目的是提供一种基于中文预训练模型的多轮对话***,采用如下的技术方案:
一种基于中文预训练模型的多轮对话***,包括:
数据处理模块,用于将对话数据通过适当的方法对对话数据进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库,构建句向量索引数据库具体过程如下,
第一步,使用Jieba中文分词工具对用户问题进行分词;
第二步,加载开源的中文词向量,将分词后的用户问题映射成多个词向量;
第三步,将多个词向量加权求和取平均转化成句向量,构建用户问题句向量索引数据库;
检索模块,利用向量内积相似度检索问答数据集,具体过程如下,
第一步,将用户输入问题利用Jieba中文分词工具进行分词;
第二步,将分词后的用户问题输入到FastText文本分类模型中进行用户意图识别,判断该问题是否属于闲聊;
第三步,如果该问题属于闲聊,就把它最近两轮的历史对话问题添加到后面作为用户问题;
第四步,将用户问题转化成句向量,与数据处理模块构建的句向量索引数据库利用ScaNN向量检索工具进行向量内积相似度计算;
第五步,得到相似度得分最高的问题对应的多个候选答复;
第六步,将问题和多个候选答复输入到中文预训练语言模型NEZHA中进行重排序得到最高得分对应的答复;
生成模块,改进中文预训练模型NEZHA预训练模型,使其能够用于生成任务,具体过程如下,
第一步,将数据处理模块得到的问答数据集载入生成模块中,并加载中文预训练模型NEZHA的预训练权重,用来训练针对问答数据的生成模型;
第二步,将问答数据中不同角色,如用户说的话记为全0,客服说的话记为全1,作为段落嵌入;
第三步,根据第二步的段落嵌入,得到问答数据的长度m,然后构造行和列均为m的自注意力矩阵;
第四步,将第三步的自注意力矩阵上三角部分设为-∞,矩阵其它位置元素设为0作为输入的问答对的注意力矩阵;
第五步,将嵌入后的序列输入到12层的Transformer网络中进行训练;
第六步,使用topK随机解码生成10个候选答复;
压缩模块,利用可替换策略对生成模块的NEZHA模型进行知识蒸馏,具体过程如下,
第一步,输入数据处理模块得到的问答数据集,并加载生成模块微调好的NEZHA模型权重,记为前辈层;
第二步,设定继承者层替换前辈层的概率rr=0.5,把前辈层的层数压缩为原来的一半;
第三步,使用数据处理模块构建的问答对继续训练,然后使用压缩后的继承者层生成候选答复;
对话管理模块,用于管理高频用户问题。
本发明提供了一种基于中文预训练模型的检索与生成相结合,并辅以任务模板的电商客服对话***。将当前先进的预训练模型与对话***相结合,并且为了提升用户满意度,将知识蒸馏应用在生成模型中,优化了预训练模型的推理效率,使得***在答复生成质量和运行效率方面均达到不错的表现。本发明为多轮对话***与当前先进的中文预训练语言模型相结合开拓了新的思路,为提高对话***答复生成质量和效率做出了贡献。
附图说明
图1是多轮对话***框架图;
图2是检索模块示意图;
图3是预训练模型基本组成Transformer编码器图;
图4是生成模块示意图;
具体实施方式
下面结合实验过程及实验结果对本发明做进一步详细地描述和证明。
本发明设计了一种基于中文预训练模型的多轮对话***。所述的***包括:数据处理模块,检索模块,生成模块,压缩模块和对话管理模块。本发明将当前先进的预训练模型与对话***相结合,并且为了提升用户满意度,将知识蒸馏应用在生成模型中,优化了预训练模型的推理效率,使得***在答复生成质量和运行效率方面均达到不错的表现。图1给出了所提对话***的整体框架。具体技术方案要点分为以下五部分:
(1)数据处理模块
本专利所提方法首先将对话数据通过适当的方法对对话数据进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库。构建句向量索引数据库具体过程如下,
第一步,使用Jieba中文分词工具对用户问题进行分词,
第二步,加载开源的中文词向量,将分词后的用户问题映射成多个词向量,
第三步,将多个词向量加权求和取平均转化成句向量,构建用户问题句向量索引数据库。
(2)检索模块
检索模块主要利用向量内积相似度检索问答数据,图2给出了检索模块的主要流程图,具体过程如下,
第一步,将用户输入问题利用Jieba中文分词工具进行分词,
第二步,将分词后的用户问题输入到FastText文本分类模型中进行用户意图识别,判断该问题是否属于闲聊,
第三步,如果该问题属于闲聊,就把它最近两轮的历史对话问题添加到后面作为用户问题
第四步,将用户问题转化成句向量,与数据处理模块构建的句向量索引数据库利用ScaNN[1,3]向量检索工具进行近邻相似度计算
第五步,得到相似度得分最高的问题对应的10个候选答复
第六步,将问题和10个候选答复输入到中文预训练语言模型NEZHA[2]中进行重排序得到最高得分对应的答复
(3)生成模块
对于生成模块,我们改进了中文预训练模型NEZHA预训练模型的改进使其能够用于生成任务。图3展示了NEZHA编码器的基本组成即Transformer[4]模块。如图4所示,NEZHA正是由12层Transformer所构成,具体过程如下,
第一步,将数据处理模块得到的问答数据集载入生成模块中,并加载中文预训练模型NEZHA的预训练权重,用来训练针对问答数据的生成模型。
第二步,将问答数据中不同角色,如用户说的话记为全0,客服说的话记为全1,作为段落嵌入(Segment Embedding)。
第三步,根据第二步的段落嵌入,得到问答数据的长度m,然后构造行和列均为m的自注意力矩阵。
第四步,将第三步的自注意力矩阵上三角部分设为-∞,矩阵其它位置元素设为0作为输入的问答对的注意力矩阵。
第五步,将嵌入后的序列输入到12层的Transformer网络中进行训练。
第六步,使用topK随机解码生成10个候选答复
(4)压缩模块
我们采用可替换策略对生成模块的NEZHA模型进行知识蒸馏。具体过程如下,
第一步,输入数据处理模块得到的问答数据集,并加载生成模块微调好的NEZHA模型权重,记为前辈层。
第二步,设定继承者层(Suc layer)替换前辈层的概率rr=0.5,把前辈层的层数压缩为原来的一半。
第三步,使用数据处理模块构建的问答对继续训练,然后使用压缩后的继承者层生成候选答复。
(5)对话管理模块
数据处理模块构建的问答数据集中一些高频用户问题(比如退换货、订单修改和价格保护等),这些问题应该有相应的流程化的答复来处理。如图1所示,我们整理了这些问题并增加了任务对话模块。具体过程如下,
第一步,***对用户输入问题进行预处理后,首先输入到任务模块进行任务匹配,如果匹配到响应任务,直接返回预定义模板对应的答复
第二步,如果没有匹配到预先定义的任务模板,会去执行后面的检索模块。
第三步,如果检索模块得到的候选答复中的语义匹配得分大于设定的阈值0.5,则表示检索成功,返回得分最高的候选答复。
第四步,如果检索模块候选答复得分小于阈值0.5,则执行生成模块,将生成候选和检索候选一同进行重排序,返回得分最高的答复。
选取原始数据集中对话session大于2轮的对话,且选取其中的三轮用于训练模型。另外,我们过滤掉了一些答复字数小于4的session,因为它们往往是通用的答复。数据划分情况如表1所示。
表1实验数据库划分及其基本情况
Figure BDA0003088431540000061
Figure BDA0003088431540000071
如表2所示,我们对前述各个组件从前述的5个指标进行了详细的实验,并分别对比了当前主流的模型在构造的数据集上的表现。表中c_a是copy with attention的缩写,即在seq2seq中引入注意力和拷贝机制,l2r表示前面提到NEZHA作为生成模型的注意力掩码方案,而t_l则表示生成模型的知识蒸馏。
表2各模块模型对比结果
Figure BDA0003088431540000072
相比于传统的模型,我们的模型在单个组件以及整体上都有不错的效果,这也表明了我们设计的***框架的有效性。
尽管上述文字结合图表对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (1)

1.一种基于中文预训练模型的多轮对话***,包括:
数据处理模块,用于将对话数据通过适当的方法对对话数据进行分词、去除停用词、替换英文标点、构建问答数据集、构建句向量索引数据库,构建句向量索引数据库具体过程如下,
第一步,使用Jieba中文分词工具对用户问题进行分词;
第二步,加载开源的中文词向量,将分词后的用户问题映射成多个词向量;
第三步,将多个词向量加权求和取平均转化成句向量,构建用户问题句向量索引数据库。
检索模块,利用向量内积相似度检索问答数据集,具体过程如下,
第一步,将用户输入问题利用Jieba中文分词工具进行分词;
第二步,将分词后的用户问题输入到FastText文本分类模型中进行用户意图识别,判断该问题是否属于闲聊;
第三步,如果该问题属于闲聊,就把它最近两轮的历史对话问题添加到后面作为用户问题;
第四步,将用户问题转化成句向量,与数据处理模块构建的句向量索引数据库利用ScaNN向量检索工具进行向量内积相似度计算;
第五步,得到相似度得分最高的问题对应的多个候选答复;
第六步,将问题和多个候选答复输入到中文预训练语言模型NEZHA中进行重排序得到最高得分对应的答复;
生成模块,改进中文预训练模型NEZHA预训练模型,使其能够用于生成任务,具体过程如下,
第一步,将数据处理模块得到的问答数据集载入生成模块中,并加载中文预训练模型NEZHA的预训练权重,用来训练针对问答数据的生成模型;
第二步,将问答数据中不同角色,如用户说的话记为全0,客服说的话记为全1,作为段落嵌入;
第三步,根据第二步的段落嵌入,得到问答数据的长度m,然后构造行和列均为m的自注意力矩阵;
第四步,将第三步的自注意力矩阵上三角部分设为-∞,矩阵其它位置元素设为0作为输入的问答对的注意力矩阵;
第五步,将嵌入后的序列输入到12层的Transformer网络中进行训练;
第六步,使用topK随机解码生成候选答复;
压缩模块,利用可替换策略对生成模块的NEZHA模型进行知识蒸馏,具体过程如下,
第一步,输入数据处理模块得到的问答数据集,并加载生成模块微调好的NEZHA模型权重,记为前辈层;
第二步,设定继承者层替换前辈层的概率rr=0.5,把前辈层的层数压缩为原来的一半;
第三步,使用数据处理模块构建的问答对继续训练,然后使用压缩后的继承者层生成候选答复;
对话管理模块,用于管理高频用户问题。
CN202110588492.0A 2021-05-28 2021-05-28 一种基于中文预训练模型的多轮对话*** Pending CN113220856A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588492.0A CN113220856A (zh) 2021-05-28 2021-05-28 一种基于中文预训练模型的多轮对话***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588492.0A CN113220856A (zh) 2021-05-28 2021-05-28 一种基于中文预训练模型的多轮对话***

Publications (1)

Publication Number Publication Date
CN113220856A true CN113220856A (zh) 2021-08-06

Family

ID=77098976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588492.0A Pending CN113220856A (zh) 2021-05-28 2021-05-28 一种基于中文预训练模型的多轮对话***

Country Status (1)

Country Link
CN (1) CN113220856A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641789A (zh) * 2021-08-11 2021-11-12 福州大学 基于分层融合多头注意力网络和卷积网络的观点检索方法及***
CN113761107A (zh) * 2021-09-18 2021-12-07 杭州网易智企科技有限公司 基于问答***的信息处理方法、介质、装置和计算设备
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话***的数据处理方法、电子设备及可读存储介质
CN114417892A (zh) * 2022-01-27 2022-04-29 北京中科深智科技有限公司 一种用于电商直播场景的小样本多轮对话的生成模型

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊***
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程***
CN108399169A (zh) * 2017-02-06 2018-08-14 阿里巴巴集团控股有限公司 基于问答***的对话处理方法、装置和***及移动设备
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及***
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和***
CN110046221A (zh) * 2019-03-01 2019-07-23 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN110334347A (zh) * 2019-06-27 2019-10-15 腾讯科技(深圳)有限公司 基于自然语言识别的信息处理方法、相关设备及存储介质
CN110347792A (zh) * 2019-06-25 2019-10-18 腾讯科技(深圳)有限公司 对话生成方法及装置、存储介质、电子设备
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、***、装置和存储介质
CN110413761A (zh) * 2019-08-06 2019-11-05 浩鲸云计算科技股份有限公司 一种基于知识库的领域性单独对话的方法
CN110516035A (zh) * 2019-07-05 2019-11-29 同济大学 一种混合模块的人机交互方法和***
CN111177359A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 多轮对话方法和装置
CN112131367A (zh) * 2020-09-24 2020-12-25 民生科技有限责任公司 自审核的人机对话方法、***及可读存储介质
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和***
CN112541063A (zh) * 2020-12-08 2021-03-23 山东师范大学 一种基于自学习对话模型的人机对话方法及***

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399169A (zh) * 2017-02-06 2018-08-14 阿里巴巴集团控股有限公司 基于问答***的对话处理方法、装置和***及移动设备
CN107247868A (zh) * 2017-05-18 2017-10-13 深思考人工智能机器人科技(北京)有限公司 一种人工智能辅助问诊***
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程***
CN109858020A (zh) * 2018-12-29 2019-06-07 航天信息股份有限公司 一种基于语义图获取税务业务问题答案的方法及***
CN110046221A (zh) * 2019-03-01 2019-07-23 平安科技(深圳)有限公司 一种机器对话方法、装置、计算机设备及存储介质
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和***
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、***、装置和存储介质
CN110347792A (zh) * 2019-06-25 2019-10-18 腾讯科技(深圳)有限公司 对话生成方法及装置、存储介质、电子设备
CN110334347A (zh) * 2019-06-27 2019-10-15 腾讯科技(深圳)有限公司 基于自然语言识别的信息处理方法、相关设备及存储介质
CN110516035A (zh) * 2019-07-05 2019-11-29 同济大学 一种混合模块的人机交互方法和***
CN110309287A (zh) * 2019-07-08 2019-10-08 北京邮电大学 建模对话轮次信息的检索式闲聊对话打分方法
CN110413761A (zh) * 2019-08-06 2019-11-05 浩鲸云计算科技股份有限公司 一种基于知识库的领域性单独对话的方法
CN111177359A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 多轮对话方法和装置
CN112131367A (zh) * 2020-09-24 2020-12-25 民生科技有限责任公司 自审核的人机对话方法、***及可读存储介质
CN112541063A (zh) * 2020-12-08 2021-03-23 山东师范大学 一种基于自学习对话模型的人机对话方法及***
CN112364150A (zh) * 2021-01-12 2021-02-12 南京云创大数据科技股份有限公司 一种结合检索与生成的智能问答方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廖胜兰: "面向服务机器人自然语言交互的语义解析方法研究", 《中国优秀博士学位论文全文数据库 信息科技辑》 *
苏剑林: "动手做个DialoGPT:基于LM的生成式多轮对话模型", 《科学空间》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641789A (zh) * 2021-08-11 2021-11-12 福州大学 基于分层融合多头注意力网络和卷积网络的观点检索方法及***
CN113641789B (zh) * 2021-08-11 2023-08-04 福州大学 基于分层融合多头注意力网络和卷积网络的观点检索方法及***
CN113761107A (zh) * 2021-09-18 2021-12-07 杭州网易智企科技有限公司 基于问答***的信息处理方法、介质、装置和计算设备
CN114090757A (zh) * 2022-01-14 2022-02-25 阿里巴巴达摩院(杭州)科技有限公司 对话***的数据处理方法、电子设备及可读存储介质
CN114417892A (zh) * 2022-01-27 2022-04-29 北京中科深智科技有限公司 一种用于电商直播场景的小样本多轮对话的生成模型
CN114417892B (zh) * 2022-01-27 2022-08-02 北京中科深智科技有限公司 一种用于电商直播场景的小样本多轮对话的生成模型

Similar Documents

Publication Publication Date Title
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN113591902B (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
Zhu et al. Simple is not easy: A simple strong baseline for textvqa and textcaps
Li et al. Learnable aggregating net with diversity learning for video question answering
CN113220856A (zh) 一种基于中文预训练模型的多轮对话***
CN112100351A (zh) 一种通过问题生成数据集构建智能问答***的方法及设备
Nguyen et al. Efficient attention mechanism for visual dialog that can handle all the interactions between multiple inputs
CN110781306B (zh) 一种英文文本的方面层情感分类方法及***
CN113297364B (zh) 一种面向对话***中的自然语言理解方法及装置
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN110990555B (zh) 端到端检索式对话方法与***及计算机设备
CN111027292B (zh) 一种限定采样文本序列生成方法及其***
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN116150335A (zh) 一种军事场景下文本语义检索方法
Chen et al. News image captioning based on text summarization using image as query
Dua et al. Learning with instance bundles for reading comprehension
Mou et al. Multimodal dialogue state tracking by qa approach with data augmentation
Chen et al. Multimodal fusion of visual dialog: A survey
Karayil et al. Conditional GANs for image captioning with sentiments
Vilalta et al. Full-network embedding in a multimodal embedding pipeline
Qin et al. Towards complex scenarios: Building end-to-end task-oriented dialogue system across multiple knowledge bases
Li et al. Referring expression generation via visual dialogue
Aishwarya et al. Stacked Attention based Textbook Visual Question Answering with BERT
Peng et al. Transformer-based Sparse Encoder and Answer Decoder for Visual Question Answering
Srivastava et al. Adapting visual question answering models for enhancing multimodal community Q&A platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806