CN111914062A - 一种基于关键词的长文本问答对生成*** - Google Patents

一种基于关键词的长文本问答对生成*** Download PDF

Info

Publication number
CN111914062A
CN111914062A CN202010670132.0A CN202010670132A CN111914062A CN 111914062 A CN111914062 A CN 111914062A CN 202010670132 A CN202010670132 A CN 202010670132A CN 111914062 A CN111914062 A CN 111914062A
Authority
CN
China
Prior art keywords
question
answer
generation
keywords
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010670132.0A
Other languages
English (en)
Other versions
CN111914062B (zh
Inventor
朱其立
沈李斌
张盛瑶
郭子路
李恺健
奚宁
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Leyan Information Technology Co ltd
Original Assignee
Shanghai Leyan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Leyan Information Technology Co ltd filed Critical Shanghai Leyan Information Technology Co ltd
Priority to CN202010670132.0A priority Critical patent/CN111914062B/zh
Publication of CN111914062A publication Critical patent/CN111914062A/zh
Application granted granted Critical
Publication of CN111914062B publication Critical patent/CN111914062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于关键词的长文本问答对生成***,实现根据文本及关键词生成与关键词相关且有意义的问答对。其技术方案为:***包括生成模块和评估模块,生成模块针对段落及关键词生成与关键词相关的问答对,评估模块通过自动评估方式评价问答对质量。生成模块基于三阶段生成模型生成问答对:依次串联的段落检索单元、答案范围提取单元以及问题生成单元。其中段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落;答案范围提取单元用于从候选段落中提取出可能存在的答案范围;问题生成单元根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对。

Description

一种基于关键词的长文本问答对生成***
技术领域
本发明涉及一种长文本问答对的处理技术,具体涉及一种基于关键词的长文本问答对生成***。
背景技术
基于文本的问答对生成是一项根据给定文档生成在句法和语义上有意义且相关的问答对的任务。给定一个文档,有可能产生许多问题和答案。但是并非所有生成的问答对都与用户的观点相关。在生成问答对时,如果有用户指定的关键词(或主题)作约束,就能生成更有针对性和实际指导意义的问答对。
例如,图1显示了从文档中生成的一组与不同方面相关的问答对。当用户指定了“元素属性”这一关键词时,问题“氧气的原子数是多少?”比起“氧气是什么时候被发现的?”更适合被提问。当用户对“化学反应”这一主题更感兴趣时,问答对4和5更能突出这个方面。
然而,现有的问答对生成的工作大多都是用如下步骤生成的:1)提取有意义的短语作为文档中的答案;2)生成有关文档和特定答案范围的问题。现有的方法以及现存的数据集都没有考虑过基于关键词针对文本生成问答对,因此,很容易生成一些无意义的、用户不关心的问答对。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基于关键词的长文本问答对生成***,实现了根据文本及关键词生成与关键词相关且有意义的问答对。
本发明的技术方案为:本发明揭示了一种基于关键词的长文本问答对生成***,***包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。
根据本发明的基于关键词的长文本问答对生成***的一实施例,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。
根据本发明的基于关键词的长文本问答对生成***的一实施例,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。
根据本发明的基于关键词的长文本问答对生成***的一实施例,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。
根据本发明的基于关键词的长文本问答对生成***的一实施例,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。
根据本发明的基于关键词的长文本问答对生成***的一实施例,问题生成单元还通过添加对偶模型生成问题。
根据本发明的基于关键词的长文本问答对生成***的一实施例,生成模块还基于三阶段过滤生成模型实现,配置为:生成模块在依次串联的段落检索单元、答案范围提取单元、问题生成单元之后还串联一个问答对过滤器,问答对过滤器用于进一步挑选出和关键词相关的问答对。
根据本发明的基于关键词的长文本问答对生成***的一实施例,问答对过滤器分别通过相关性分类器和相似度计算实现。
根据本发明的基于关键词的长文本问答对生成***的一实施例,生成模块进一步配置为按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块,评价模块针对整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。
根据本发明的基于关键词的长文本问答对生成***的一实施例,评价模块进一步配置为计算真实值的问答对和生成的问答对的分数矩阵,其中评价模块的评估指标包括BLEU、METEOR和ROUGE-L。
本发明对比现有技术有如下的有益效果:本发明***中的段落检索单元通过寻找和关键词相关的段落,极大程度上缩小了生成问答对的文本范围,提升了问答对生成的准确度。此外,本发明***中的问题生成单元考虑了关键词对问题生成的作用,限制模型生成和关键词相关的问题。因此,在三阶段生成模型的三个单元中,对关键词进行了显示的建模,让三个单元的模型都能充分感知到关键词的约束。再者,本发明***中的问答对过滤器通过训练分类器以及计算相似度对生成的问答对进行筛选,只保留和关键词最相关的问答对,提升生成问答对的准确度。最后,本发明的评估模块与以往单独评价答案或问题的评价方法不同,本发明的评估模块是通过计算每一个真值和生成值之间答案和问题的分数的乘积,实现了对生成问答对的整体评估,这种评估方法倾向于挑选问题和答案的质量都很高的问答对。另外,该评估方法通过计算recision@K以及MRR,更关注于已生成的问答对和真值的相关性。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了根据文档的不同关键词生成问答对的示例的示意图。
图2示出了本发明的基于关键词的长文本问答对生成***的一实施例的原理图。
图3示出了本发明的生成模块中的三阶段生成模型的实现原理图。
图4示出了本发明的生成模块中的三阶段及过滤生成模型的实现原理图。
图5A示出了BERT的网络训练结构的示意图。
图5B示出了BERT的模型预测结构的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图2示出了本发明的基于关键词的长文本问答对生成***的一实施例的原理。请参见图2,本实施例的长文本问答对生成***包括生成模块和评估模块。生成模块的数据输出至评估模块。
生成模块用于针对段落及关键词进行问答对的生成。
评估模块用于通过自动评估的方式评价问答对的质量。
生成模块的输入是文本及关键词集合,输出是与每一个关键词相关的问答对。生成模块主要有两种实现方式,分别为:三阶段生成模型以及三阶段过滤生成模型。三阶段生成模型包括如下三个单元:段落检索单元、答案范围提取单元以及问题生成单元。这三个单元单独训练,并在生成模块中进行串联,三阶段生成模型的实现原理如图3所示。三阶段及过滤生成模型是在三阶段生成模型中串联的末端,增加一个问答对过滤器,挑选出和关键词相关的问答对,三阶段及过滤生成模型的实现原理如图4所示。
如图3所示,在三阶段生成模型中,生成模块的输入是文本及关键词,经过段落检索单元、答案范围提取单元以及问题生成单元的处理,生成问答对输出。
段落检索单元的具体实现如下。
段落检索单元的输入是由n个段落组成的文档{P1,P2,…,Pn}以及关键词(Aspect),段落检索单元的输出是与关键词Aspect相关的段落集合。
段落检索单元实现了根据关键词从文本中检索相关段落的功能。该功能的具体处理是将关键词作为query且将若干段落组成的文本作为目标文档,实现信息检索模型。将输入的关键词记为Q,将输入的段落记为P。段落检索单元分别实现了TF-IDF,BM25及BERT三种检索算法,三种算法均可以单独作为段落检索单元的模型。
TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)是一种统计方法,以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。它的计算如下:
Figure BDA0002581971210000051
其中nQ,P是段落P中关键词Q出现的次数,∑knk,P是段落P中的单词总数,N是所有段落的总数,df是关键词Q出现的段落数。在计算TF-IDF(Q,P)时,需要去掉Q,p中的停用词。
BM25是对关键词Q进行语素解析,生成语素qi,对于每个段落P,计算每个语素qi与P的相关性得分,最后进行加权求和得到关键词Q与P的相关性得分。
它的计算如下:
Figure BDA0002581971210000052
其中,
Figure BDA0002581971210000061
Wi是语素qi的权重,通常通过IDF进行计算。k1,k2,b为调节因子,本实施例在训练时选取经验设置k1=2,b=0.75,fi是qi在P中的出现频率,qfi是qi在关键词Q中的出现频率。pl是段落P的长度,avgpl是所有段落的平均长度。
BERT则是训练一个分类器学习关键词Q和段落P的相关性。网络的训练结构如图5A所示,模型的输入数据的格式为“[CLS]Q[SEP]P”,标签代表Q和P的相关性,如果相关,标签为1,反之为0。模型的预测结构如图5B所示,将计算得到的每一个样本的正例置信度作为Q和P的相关度,通过排序获得相关段落列表。该排序模型以3e-6的学习率以及3个迭代周期在BERTBASE上进行了微调。
段落检索单元的意义在于,当文本过长时,可以根据关键词(Aspect)先行快速定位到长文本对应的候选相关段落。然后在候选段落上进行后续耗时较长的神经网络模型处理。与常规信息检索的目的不同,三阶段生成法中的段落检索单元的输入是用户关心的主题词,检索结果是候选问题对所在的候选段落,是一个中间结果。
段落检索单元将检索出的相关段落输入到答案范围提取单元。答案范围提取单元的输入是段落P以及关键词Aspect,结果会标注出段落P中的所有答案范围A。
答案范围提取单元实现了从候选段落中提取出可能存在的答案范围。该功能的实现可选择多种不同的方式,分别是NER(Named Entity Recognition,命名实体识别)、Pointer Network(指针网络)、Chunking(组块分析)任务。其中NER通过Python包spaCy实现。答案范围提取单元中的算法可以在原来的实现上添加关键词进行训练。
指针网络是一个序列-序列的拓展,本实施例用它从原段落中提取答案范围。源输入是段落,目标输出是源序列中的位置。以编码器RNN(Recurrent Neural Network,循环神经网络)产生的编码为条件,训练自回归解码器RNN来满足这些位置。本实施例将解码器的注释向量表示为
Figure BDA0002581971210000062
其中na是答案的数量,
Figure BDA0002581971210000071
Figure BDA0002581971210000072
对应于第一个答案在源序列中的开始位置和结束位置。本实施例使用解码器和解码器之间的注意力机制对
Figure BDA0002581971210000073
Figure BDA0002581971210000074
Figure BDA0002581971210000075
进行参数化。编码器向量表示为
Figure BDA0002581971210000076
其中d代表文本,p代表关键词,wi是第i个单词,W1是学习的参数矩阵。解码器每一步的输入是来自段落的与解码器指向的开始和结束位置相对应的单词。该算法在每一步都从softmax向量中贪婪地选择最佳位置,删除重复的关键短语后输出结果。本实施例使用256维(向前和向后128个)的双向LSTM来编码文档,并使用256维的LSTM作为指针网络中的解码器。网络中每一层的输出均使用0.5的丢失率。
Chunking任务利用Stanford NLP从输入段落中抽取短语,被抽取短语的类型如表1所示。
Figure BDA0002581971210000077
表1被抽取为答案的短语类别
接下来,段落检索单元检索出的相关段落、以及答案范围提取单元提取出的答案范围会输入到问题生成单元。
问题生成单元实现根据候选段落和答案范围中的某一个答案生成问题,并和答案组成与关键词相关的问答对。在问题生成单元中实现了序列-序列方法,例如UNILM(Unified Language Model Pre-training for Natural Language Understanding andGeneration)。模型的输入为三元组<P,Aspect,Ai>(<段落,关键词,答案i>),输出是答案Ai对应的问题Qi,<Qi,Ai>是段落中的第i个问题-答案对。
在序列-序列方法中,实现了带有Maxout指针和门控自注意力网络的段落级神经问题生成模型。该模型使用LSTM实现自注意力机制来对段落进行编码,并使用另一个LSTM生成具有拷贝机制的单词序列。然后通过从关键词到段落的注意力机制获得编码。
up=LSTM(ep,mp)
ua=LSTM(ea)
up=gatedattention(ua,up)
其中ep和ea分别是段落和关键词的词嵌入表示,up和ua是由LSTM编码后得到的向量。mp标识了段落中的每个单词是在答案之内还是之外。该模型使用2层LSTM作为RNN单元进行编码和解码。编码部分使用了双向LSTM,隐藏层大小为600,在相邻LSTM层间应用0.3的丢失率。词嵌入使用了300维度的预训练GloVe词向量,并在训练过程中将其冻结。优化时将SGD用作优化器,最初将学习率设置为0.1,并且从第8个时期开始每隔2个时期减半。对模型进行了总共20个迭代的训练,且用于参数更新的最小批量为64。经过训练,从困惑度最低的四个模型中选择迭代次数最多的模型作为最终模型。在预测解码期间,使用波束大小为10的波束搜索,在每个波束生成EOS时停止解码。
UNILM模型实现了序列-序列的预训练语言模型。对于每个输入三元组<P,Aspect,Ai>,使用“[SEP]”符号来分割段落、关键词和答案:“P[SEP]Aspect[SEP]Ai”。其中是P段落,Aspect是关键词,Ai是段落中的第i个答案。UNILM模型以5e-5的学习率进行半精确度训练,并经过8次迭代进行微调。
在问题生成单元中,可以添加问答对偶模型生成问题。即对每一个四元组<P,Aspect,Qi,Ai>,可以用<P,Aspect,Qi>训练阅读理解模型找到Ai,同时用<P,Aspect,Ai>生成Qi。利用对偶模型提高问题生成的准确性。
如图4所示的三阶段过滤生成模型是在三阶段生成模型后串联一个问答对过滤器,以帮助整个***筛选出更相关的问答对。
问答对过滤器分别通过相关性分类过滤器和相似度过滤器计算实现。
相关性分类过滤器通过微调BERT训练得到。本实施例中使用两类序列分类器作为过滤器,将<P,Qi,Ai>作为输入,并输出布尔值作为问答对是否与关键词相关的判断。为了更好地区分输入序列的不同片段,本实施例在不同部分之间添加了“[SEP]”标记。
相似度过滤器即选择问题和关键词的相似度以及答案和关键词的相似度的最大值作为问答对和关键词的相似度:
Score(Qi,Ai)=max(Sim(P,Qi),Sim(P,Ai))
Sim(P,Qi)=CosineSimilarity(BERT(P),BERT(Qi))
Sim(P,Ai)=CosineSimilarity(BERT(P),BERT(Ai))
通过BERT分别将段落P、问题Qi以及答案Ai进行编码后进行相关度训练,损失函数为Hinge Loss:
Figure BDA0002581971210000091
Figure BDA0002581971210000092
其中,yi是相关性标签,相关取1,反之取0。该模型以1e-5的学习率以及3个迭代周期在BERTBASE上进行了微调。
上式中,Sim()是相似度的计算,这里使用Cosine Similarity(余弦相似度)作为相似度的度量。BERT是词向量经过BERT网络后的输出。
问答对过滤器可以添加其他的筛选办法,如:利用阅读理解模型回答问题Qi,通过比较回答出的答案A’i和提取的Ai获得问答对得分;或者训练上述对偶模型,分别计算生成的Qi和A’i的分数后求和或取最大值获得问答对得分。
生成模块按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块。
如图2所示,评价模块通过自动评估的方式对生成的问答对进行评价。
在评价模块中,对于整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。本实施例是以关键词为单位来检查问答对。给定一个文档和一个关键词Aspect,就存在一组真实值的问答对(Q,A)和一组生成的问答对
Figure BDA0002581971210000101
计算真实值和生成值的分数矩阵M,它的每一项Si,j是真实值的问答对(Qi,Ai)与预测问答对
Figure BDA0002581971210000102
之间的分数。Si,j的计算如下:
Figure BDA0002581971210000103
Figure BDA0002581971210000104
Figure BDA0002581971210000105
其中,答案的评估选择单词级的F1,是在答案的单次级别上的精确率和召回率的平均;问题的评估选择文本生成的常见方法BLEU(Bilingual EvaluationUnderstudy,双语评估替补),METEOR和ROUGE-L(Recall-OrientedUnderstudy for Gisting Evaluation)。本实施例分别用Precision@K以及MRR作为问答对的最终评价标准Precision@K是对返回的问答对列表进行排序后,计算前K个结果的准确度,MRR是对所有返回的排序后结果进行平均倒数排名计算。
对于一个关键词,有:
Precision@K=avg(maxi(Si,j))
Figure BDA0002581971210000111
在计算Precision@K时,K是某一个关键词下真值问答对的数量。***最终的得分需要计算Precision@K以及MRR在所有关键词上的平均。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (10)

1.一种基于关键词的长文本问答对生成***,其特征在于,***包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。
2.根据权利要求1所述的基于关键词的长文本问答对生成***,其特征在于,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。
3.根据权利要求2所述的基于关键词的长文本问答对生成***,其特征在于,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。
4.根据权利要求3所述的基于关键词的长文本问答对生成***,其特征在于,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。
5.根据权利要求4所述的基于关键词的长文本问答对生成***,其特征在于,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。
6.根据权利要求5所述的基于关键词的长文本问答对生成***,其特征在于,问题生成单元还通过添加对偶模型生成问题。
7.根据权利要求5所述的基于关键词的长文本问答对生成***,其特征在于,生成模块还基于三阶段过滤生成模型实现,配置为:生成模块在依次串联的段落检索单元、答案范围提取单元、问题生成单元之后还串联一个问答对过滤器,问答对过滤器用于进一步挑选出和关键词相关的问答对。
8.根据权利要求7所述的基于关键词的长文本问答对生成***,其特征在于,问答对过滤器分别通过相关性分类器和相似度计算实现。
9.根据权利要求8所述的基于关键词的长文本问答对生成***,其特征在于,生成模块进一步配置为按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块,评价模块针对整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。
10.根据权利要求9所述的基于关键词的长文本问答对生成***,其特征在于,评价模块进一步配置为计算真实值的问答对和生成的问答对的分数矩阵,其中评价模块的评估指标包括BLEU、METEOR和ROUGE-L。
CN202010670132.0A 2020-07-13 2020-07-13 一种基于关键词的长文本问答对生成*** Active CN111914062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010670132.0A CN111914062B (zh) 2020-07-13 2020-07-13 一种基于关键词的长文本问答对生成***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010670132.0A CN111914062B (zh) 2020-07-13 2020-07-13 一种基于关键词的长文本问答对生成***

Publications (2)

Publication Number Publication Date
CN111914062A true CN111914062A (zh) 2020-11-10
CN111914062B CN111914062B (zh) 2021-04-06

Family

ID=73227988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010670132.0A Active CN111914062B (zh) 2020-07-13 2020-07-13 一种基于关键词的长文本问答对生成***

Country Status (1)

Country Link
CN (1) CN111914062B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件***(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN113743087A (zh) * 2021-09-07 2021-12-03 珍岛信息技术(上海)股份有限公司 一种基于神经网络词汇扩展段落的文本生成方法及***
CN113901840A (zh) * 2021-09-15 2022-01-07 昆明理工大学 一种基于多粒度特征的文本生成评价方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115905500A (zh) * 2023-02-07 2023-04-04 北京面壁智能科技有限责任公司 问答对数据的生成方法及装置
CN116701609A (zh) * 2023-07-27 2023-09-05 四川邕合科技有限公司 基于深度学习的智能客服问答方法、***、终端及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202100020060A1 (it) * 2021-07-27 2023-01-27 Pigro S R L Metodo e sistema di ricerca su pagine web

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206481A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
US20170330087A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Automated Distractor Generation by Identifying Relationships Between Reference Keywords and Concepts
CN107977415A (zh) * 2017-11-22 2018-05-01 北京寻领科技有限公司 自动问答方法及装置
US20180129928A1 (en) * 2016-01-21 2018-05-10 International Business Machines Corporation Question-answering system
CN108959559A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答对生成方法和装置
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和***
CN109947921A (zh) * 2019-03-19 2019-06-28 河海大学常州校区 一种基于自然语言处理的智能问答***
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
CN111143531A (zh) * 2019-12-24 2020-05-12 深圳市优必选科技股份有限公司 一种问答对构建方法、***、装置及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206481A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
US20180129928A1 (en) * 2016-01-21 2018-05-10 International Business Machines Corporation Question-answering system
US20170330087A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Automated Distractor Generation by Identifying Relationships Between Reference Keywords and Concepts
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN107977415A (zh) * 2017-11-22 2018-05-01 北京寻领科技有限公司 自动问答方法及装置
CN108959559A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答对生成方法和装置
CN109947921A (zh) * 2019-03-19 2019-06-28 河海大学常州校区 一种基于自然语言处理的智能问答***
CN109933661A (zh) * 2019-04-03 2019-06-25 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和***
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
CN111143531A (zh) * 2019-12-24 2020-05-12 深圳市优必选科技股份有限公司 一种问答对构建方法、***、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杜阳阳 等: ""智能问答***设计与实现"", 《现代计算机》 *
王宝鑫 等: ""基于文本蕴含的选择类问题解答技术研究"", 《北京大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件***(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN112347229B (zh) * 2020-11-12 2021-07-20 润联软件***(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN113743087A (zh) * 2021-09-07 2021-12-03 珍岛信息技术(上海)股份有限公司 一种基于神经网络词汇扩展段落的文本生成方法及***
CN113743087B (zh) * 2021-09-07 2024-04-26 珍岛信息技术(上海)股份有限公司 一种基于神经网络词汇扩展段落的文本生成方法及***
CN113901840A (zh) * 2021-09-15 2022-01-07 昆明理工大学 一种基于多粒度特征的文本生成评价方法
CN113901840B (zh) * 2021-09-15 2024-04-19 昆明理工大学 一种基于多粒度特征的文本生成评价方法
CN115269807A (zh) * 2022-08-17 2022-11-01 北京中科深智科技有限公司 一种基于问题类型识别的问答对联合生成模型
CN115905500A (zh) * 2023-02-07 2023-04-04 北京面壁智能科技有限责任公司 问答对数据的生成方法及装置
CN116701609A (zh) * 2023-07-27 2023-09-05 四川邕合科技有限公司 基于深度学习的智能客服问答方法、***、终端及介质
CN116701609B (zh) * 2023-07-27 2023-09-29 四川邕合科技有限公司 基于深度学习的智能客服问答方法、***、终端及介质

Also Published As

Publication number Publication date
CN111914062B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111914062B (zh) 一种基于关键词的长文本问答对生成***
CN109271505B (zh) 一种基于问题答案对的问答***实现方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111291188B (zh) 一种智能信息抽取方法及***
CN111581474B (zh) 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN105393263A (zh) 计算机-人交互式学习中的特征完成
CN113360646B (zh) 基于动态权重的文本生成方法、设备及存储介质
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN115048447A (zh) 一种基于智能语义补全的数据库自然语言接口***
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN117236410A (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及***
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及***
CN114626367A (zh) 基于新闻文章内容的情感分析方法、***、设备及介质
Fitrianah et al. Extractive text summarization for scientific journal articles using long short-term memory and gated recurrent units
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
Mustafa et al. Optimizing document classification: Unleashing the power of genetic algorithms
CN111581365B (zh) 一种谓词抽取方法
CN112925983A (zh) 一种电网资讯信息的推荐方法及***
CN117131383A (zh) 一种提高双塔模型搜索精排性能的方法
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN115017404A (zh) 基于压缩空间句子选择的目标新闻话题摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200050 19th floor, Unicom building, 1033 Changning Road, Changning District, Shanghai

Applicant after: Shanghai Leyan Technology Co.,Ltd.

Address before: 200050 16th / 18th / 19th floor, Unicom building, 1033 Changning Road, Changning District, Shanghai

Applicant before: SHANGHAI LEYAN INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant