CN112966518B - 一种面向大规模在线学习平台的优质答案识别方法 - Google Patents

一种面向大规模在线学习平台的优质答案识别方法 Download PDF

Info

Publication number
CN112966518B
CN112966518B CN202011535456.XA CN202011535456A CN112966518B CN 112966518 B CN112966518 B CN 112966518B CN 202011535456 A CN202011535456 A CN 202011535456A CN 112966518 B CN112966518 B CN 112966518B
Authority
CN
China
Prior art keywords
answer
model
answers
comments
questions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011535456.XA
Other languages
English (en)
Other versions
CN112966518A (zh
Inventor
吴宁
陆鑫
梁欢
王雅迪
邹斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011535456.XA priority Critical patent/CN112966518B/zh
Publication of CN112966518A publication Critical patent/CN112966518A/zh
Application granted granted Critical
Publication of CN112966518B publication Critical patent/CN112966518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种面向大规模在线学习平台的优质答案识别方法,步骤如下:(一)、特征向量构建:在对获取的数据集进行预处理之后,对数据集进行人工标注,随后构建特征向量;(二)、将步骤(一)中构建的特征向量作为输入,以人工标注的标签作为输出,构建基于XGBOOST的分类模型并进行训练;(三)、对于一个新问题及其一系列答案与评论,利用新问题的文本内容、答案的文本内容及评论的文本内容构建三个特征向量并以此输入到步骤(二)中训练好的模型中,从而得到一系列分类结果,作为识别优质答案的结果;本发明使用了不同角度更多的信息,对问题和答案及答案评论进行充分使用来解决识别优质答案,预测结果也在多个评价指标上有一定的提高。

Description

一种面向大规模在线学习平台的优质答案识别方法
技术领域
本发明涉及人工智能的自然语言处理技术领域,特别涉及一种面向大规模在线学习平台的优质答案识别方法。
背景技术
随着互联网技术的发展,在线教育以其无时间地点限制等优势得到了大众的认可,越来越多的人使用线上学***台提供的问答社区为学习者提供了在线交流的机会,但是由于学习者人数众多,教师无法为学生提供个性化、实时的问题解答,因此,能够模拟教师随时在线的智能问答技术成为在线教育的研究热点之一。而如何针对学习者的提问,快速选出最优质的答案,也就成为智能问答领域需要解决的重要问题。
优质答案识别与答案排序本质上都是为了帮助用户获取高质量的答案,提升用户的使用体验。两者之间的区别在于答案排序一般将点赞数作为模型学***台中答案的排序方式主要有以下几种:按照内容相关性、按照答案长短、按照答案发表时间、按照优质答案、按照答案的评论数以及按照答案的点赞数等方式。目前大规模在线学***台而言,提供智能化模拟教师随时在线的问答服务是提升用户体验的一个重要方式,而识别优质答案则是智能问答中一个重要的技术。
目前关于优质答案识别的研究相对较少,与之最相关的是答案排序的研究,很多研究者提出了多种答案排序的方式,如下所列:
(1)一种社区问答平台回答排序方法(申请人:中国科学技术大学,申请号:201810186972.2);
(2)一种用于问答***的答案排序方法(申请人:北京大学深圳研究生院,申请号:201810284245.X);
(3)答案质量确定模型训练方法、答案质量确定方法及装置(申请人:国信优易数据有限公司,申请号:201811285467.X);
(4)基于人工智能自动识别社区问答论坛中的正确回答的方法(申请人:北京邮电大学,申请号:201911058818.8)。
以上相关的研究主要是将答案的点赞数作为其答案质量排序的学习目标,研究集中在使用问题与答案之间的相关性、答案的内容属性及答案的时间属性等方面的特征对答案质量进行评估,忽略了答案的评论文本及评论文本情感极性对答案质量评估带来的积极影响。
发明内容
为了克服上述现有技术的缺陷,本发明的目的是提供一种面向大规模在线学习平台的优质答案识别方法,使用了不同角度更多的信息,对问题和答案及答案评论进行充分使用来解决识别优质答案的问题,预测结果也在多个评价指标上有一定的提高。
为了达到上述目的,本发明通过以下技术方案实现。
一种面向大规模在线学习平台的优质答案识别方法,步骤如下:
(一)特征向量构建:在对获取的数据集进行预处理之后,对数据集进行人工标注,随后构建以下三个角度的特征向量:问题与答案的语义相关性特征、每一答案的所有评论的文档向量特征和评论的情感特征;三种角度的特征获取通过以下三个方式实现:(1)获取问题和答案的句子向量表示,然后基于余弦相似度计算两个语义向量相似性,得到问题与答案的语义相关性;(2)使用HAN模型对答案评论进行文档向量表示;(3)使用迁移学习对评论进行情感特征的提取;
(二)模型构建:将步骤(一)中构建的特征向量作为输入,以人工标注的标签作为输出,构建基于XGBOOST的分类模型并进行训练;
(三)对于一个新问题及其一系列答案与评论,利用新问题的文本内容、答案的文本内容及评论的文本内容构建步骤(一)中描述的三个特征向量并以此输入到步骤(二)中训练好的模型中,从而得到一系列分类结果,作为识别优质答案的结果。
所述步骤(一)中的人工标注具体操作为:
使用爬虫技术爬取网站信息,将问题、答案、答案评论及答案点赞数信息进行存储整理,对于问题、答案及评论为空的数据进行清除,对于同一问题下同一答案的评论进行整合,将获取到的数据以问题、答案及整合后的评论的形式进行存储,使用如下的方法对爬取的数据集进行人工标注:
在上述公式中,Flag代表文本对的标签,如果回答错误,认为是较差答案,文本对被标注为‘0’,如果回答正确但不完善,认为是普通答案,文本对被标注为‘1’,如果回答正确且完善,认为是优质答案,文本对被标注为‘2’,完成人工标注后,最终数据集包含以下内容:问题、答案、整合后的答案评论和文本对的标签;
所述问题与答案的语义相关性特征提取操作为:
(1)使用BERT模型获取问题和答案的句子向量,将问题、答案文本输入BERT模型并进行句向量生成,将预训练模型倒数第二层的输出值作为问题和答案的句子向量;
(2)使用余弦相似度方法计算问题与答案之间的相似性,通过计算两个向量夹角的余弦值来度量它们之间的相似性。
所述答案评论的文档向量特征提取操作为:
使用层次注意力网络HAN对多条评论进行特征提取,HAN模型分成两个部分,一部分是根据词向量构建句子向量,另一部分是根据句子向量构建文档向量,将数据集中的评论内容作为HAN模型的输入,文本对的标签作为其输出进行模型训练,将模型的倒数第二层输出作为评论的文档向量;
所述的HAN模型是一种用于文档分类的神经网络,该模型有两个特征:一是具有层级结构,可以通过首先构建句子的表示再将其聚合成文档表示来构造文档向量;二是在单词和句子级别应用了两个级别的注意力机制,使其能够在构建文档表示时能够加强对重要内容的表示;
所述答案评论的情感特征的提取操作为:
由于获取到的答案评论内容并没有相关的情感标签,而人工标注的工作量非常大,因此随机地对部分数据进行情感标签标记,然后采用半监督学习中伪标签策略来解决训练数据不充足的问题:首先使用情感分类模型对已有标记的数据进行训练,得到最优模型,使用最优模型对未标记的数据进行伪标签标记,之后使用所有数据进行训练提升模型效果,具体为:
(1)在已有标记的评论数据上进行训练,使用BERT模型获取评论的句子向量,将评论文本输入BERT模型,将预训练模型倒数第二层的输出值作为问题和答案的句子向量,使用全连接网络对句子向量进行降维,将降维后的句子向量通过softmax归一化处理,将结果用于情感分类,同时得到训练好的情感分类模型;情感分类模型由输入层、预训练好的BERT模型、全连接网络层和输出层组成;
(2)使用(1)中训练好的情感分类模型对未标注的评论文本进行分析,将未标注的评论文本表示成句子向量,使用训练好的模型进行情感特征分析,得到评论的情感特征;再将原始已有标注的数据和基于伪标签策略生成的数据进行结合,继续训练情感分析模型获取最优模型。
本发明的优点:本发明面向在线教育平台优质答案识别,从三个角度进行了特征提取,分别是问题与答案的相关性特征、答案的评论文档向量特征和答案评论的情感特征。相比于其他方法,使用了不同角度更多的信息,预测结果也在多个评价指标上有一定的提高。
附图说明
图1为本发明实施例的实现流程图。
图2为问题答案相似度的模型图。
图3为HAN模型的模型图。
图4为答案评论情感特征提取模型图。
具体实施方式
下面结合附图及具体实施方式对本发明作进一步的详细说明。
参见图1,一种面向大规模在线学习平台的优质答案识别方法,步骤如下:
(一)特征向量构建:在对获取的数据集进行预处理(包括异常值删除、格式处理等)之后,对数据集进行人工标注,随后构建以下三个角度的特征向量:问题与答案的语义相关性特征、每一答案的所有评论的文档向量特征和评论的情感特征;三种角度的特征获取通过以下三个方式实现:(1)获取问题和答案的句子向量表示,然后基于余弦相似度计算两个语义向量相似性,得到问题与答案的语义相关性;(2)使用HAN模型对答案评论进行文档向量表示;(3)使用迁移学习对评论进行情感特征的提取;
(二)模型构建:将步骤(一)中构建的特征向量作为输入,以人工标注的标签作为输出,构建基于XGBOOST的分类模型并进行训练;
(三)对于一个新问题及其一系列答案与评论,利用新问题的文本内容、答案的文本内容及评论的文本内容构建步骤(一)中描述的三个特征向量并以此输入到步骤(二)中训练好的模型中,从而得到一系列分类结果,作为识别优质答案的结果。
所述步骤(一)中的人工标注具体操作为:
使用爬虫技术爬取网站信息,将问题、答案、答案评论及答案点赞数信息进行存储整理,对于问题、答案及评论为空的的数据进行清除,对于同一问题下同一答案的评论进行整合,将获取到的数据以问题、答案及整合后的评论的形式进行存储。使用如下的方法对爬取的数据集进行人工标注:
在上述公式中,Flag代表文本对的标签,如果回答错误,认为是较差答案,文本对被标注为‘0’,如果回答正确但不完善,认为是普通答案,文本对被标注为‘1’,如果回答正确且完善,认为是优质答案,文本对被标注为‘2’。完成人工标注后,最终数据集包含以下内容:问题、答案、整合后的答案评论和文本对的标签。
参照图2,所述问题与答案的语义相关性特征提取操作为:
(1)使用BERT模型获取问题和答案的句子向量,传统的词向量句向量生成方式有一个较大的弊端,同一个词在不同语境语义不同时也会被表示成相同的向量,而BERT是一个大型预训练模型,能够解决一词多义问题,使用BERT并在特定领域进行微调会获取到很好的实验结果。BERT包括两个版本,12层的transformer和24层的transformer,本实验使用了12层的模型进行实验,理论上每一层transformer的输出值都可以作为句子向量,参考实验数据可知最佳的句子向量应该采取倒数第二层,这是由于最后一层的值太接近目标以及前面几层的值对句子的语义信息还没有充分学习到。将问题、答案文本输入BERT模型并进行句向量生成,将预训练模型倒数第二层的输出值作为问题和答案的句子向量。
(2)使用余弦相似度方法计算问题与答案之间的相似性,通过计算两个向量夹角的余弦值来度量它们之间的相似性。
参照图3,所述答案评论的文档向量特征提取操作为:
一般情况下一条答案会有多条评论,关于如何提取多条评论,已有工作分为以下两种:一种是将多条评论拼接得到一个较长的文档,然后对该文档进行特征提取;另一种是对每一条评论进行单独建模,之后再将建模后的特征进行聚合。在本发明中不需要区分单条评论之间的区别,因此不需要对其进行区分,所以本发明采取第一种方式,将多条评论拼接成文档,再使用文档向量特征提取的方法对其进行处理,具体为:
使用层次注意力网络HAN对多条评论进行特征提取,HAN模型分成两个部分,一部分是根据词向量构建句子向量,另一部分是根据句子向量构建文档向量,将数据集中的评论内容作为HAN模型的输入,文本对的标签作为其输出进行模型训练,将模型的倒数第二层输出作为评论的文档向量;
所述的HAN模型是一种用于文档分类的神经网络,该模型有两个特征:一是具有层级结构,可以通过首先构建句子的表示再将其聚合成文档表示来构造文档向量;二是在单词和句子级别应用了两个级别的注意力机制,使其能够在构建文档表示时能够加强对重要内容的表示。
参照图4,所述答案评论的情感特征的提取操作为:
由于获取到的答案评论内容并没有相关的情感标签,而人工标注的工作量非常大,因此随机地对部分数据进行情感标签标记,然后采用半监督学习中伪标签策略来解决训练数据不充足的问题:首先使用情感分类模型对已有标记的数据进行训练,得到最优模型,使用最优模型对未标记的数据进行伪标签标记,之后使用所有数据进行训练提升模型效果,具体为:
(1)在已有标记的评论语料上进行训练,使用BERT模型获取评论的句子向量,将评论文本输入BERT模型,将预训练模型倒数第二层的输出值作为问题和答案的句子向量,使用全连接网络对句子向量进行降维,将降维后的句子向量通过softmax归一化处理,将结果用于情感分类,同时得到训练好的情感分类模型;情感分类模型由输入层、预训练好的BERT模型、全连接网络层和输出层组成;
(2)使用(1)中训练好的情感分类模型对未标注的评论文本进行分析,将未标注的评论文本表示成句子向量,使用训练好的模型进行情感特征分析,得到评论的情感特征。
综上所述,基于三种特征的提取方法,最终获取到的特征向量格式为[问题答案的相似度、评论的文档向量、评论的情感特征]。

Claims (5)

1.一种面向大规模在线学习平台的优质答案识别方法,其特征在于,步骤如下:
(一)特征向量构建:在对获取的数据集进行预处理之后,对数据集进行人工标注,随后构建以下三个角度的特征向量:问题与答案的语义相关性特征、每一答案的所有评论的文档向量特征和评论的情感特征;三种角度的特征获取通过以下三个方式实现:(1)获取问题和答案的句子向量表示,然后基于余弦相似度计算两个语义向量相似性,得到问题与答案的语义相关性;(2)使用HAN模型对答案评论进行文档向量表示;(3)使用迁移学习对评论进行情感特征的提取;
(二)模型构建:将步骤(一)中构建的特征向量作为输入,以人工标注的标签作为输出,构建基于XGBOOST的分类模型并进行训练;
(三)对于一个新问题及其一系列答案与评论,利用新问题的文本内容、答案的文本内容及评论的文本内容构建步骤(一)中描述的三个特征向量并以此输入到步骤(二)中训练好的模型中,从而得到一系列分类结果,作为识别优质答案的结果。
2.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法,其特征在于,
所述步骤(一)中的人工标注具体操作为:
使用爬虫技术爬取网站信息,将问题、答案、答案评论及答案点赞数信息进行存储整理,对于问题、答案及评论为空的数据进行清除,对于同一问题下同一答案的评论进行整合,将获取到的数据以问题、答案及整合后的评论的形式进行存储;使用如下的方法对爬取的数据集进行人工标注:
在上述公式中,Flag代表文本对的标签,如果回答错误,认为是较差答案,文本对被标注为‘0’,如果回答正确但不完善,认为是普通答案,文本对被标注为‘1’,如果回答正确且完善,认为是优质答案,文本对被标注为‘2’,完成人工标注后,最终数据集包含以下内容:问题、答案、整合后的答案评论和文本对的标签。
3.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法,其特征在于,
所述问题与答案的语义相关性特征提取操作为:
(1)使用BERT模型获取问题和答案的句子向量,将问题、答案文本输入BERT模型并进行句向量生成,将预训练模型倒数第二层的输出值作为问题和答案的句子向量;
(2)使用余弦相似度方法计算问题与答案之间的相似性,通过计算两个向量夹角的余弦值来度量它们之间的相似性。
4.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法,其特征在于,
所述答案评论的文档向量特征提取操作为:
使用层次注意力网络HAN对多条评论进行特征提取,HAN模型分成两个部分,一部分是根据词向量构建句子向量,另一部分是根据句子向量构建文档向量,将数据集中的评论内容作为HAN模型的输入,文本对的标签作为其输出进行模型训练,将模型的倒数第二层输出作为评论的文档向量;
所述的HAN模型是一种用于文档分类的神经网络,该模型有两个特征:一是具有层级结构,可以通过首先构建句子的表示再将其聚合成文档表示来构造文档向量;二是在单词和句子级别应用了两个级别的注意力机制,使其能够在构建文档表示时能够加强对重要内容的表示。
5.根据权利要求1所述的一种面向大规模在线学习平台的优质答案识别方法,其特征在于,
所述答案评论的情感特征的提取操作为:
由于获取到的答案评论内容并没有相关的情感标签,而人工标注的工作量非常大,因此随机地对部分数据进行情感标签标记,然后采用半监督学习中伪标签策略来解决训练数据不充足的问题:首先使用情感分类模型对已有标记的数据进行训练,得到最优模型,使用最优模型对未标记的数据进行伪标签标记,之后使用所有数据进行训练提升模型效果,具体为:
(1)在已有标记的评论数据上进行训练,使用BERT模型获取评论的句子向量,将评论文本输入BERT模型,将预训练模型倒数第二层的输出值作为问题和答案的句子向量,使用全连接网络对句子向量进行降维,将降维后的句子向量通过softmax归一化处理,将结果用于情感分类,同时得到训练好的情感分类模型;情感分类模型由输入层、预训练好的BERT模型、全连接网络层和输出层组成;
(2)使用(1)中训练好的情感分类模型对未标注的评论文本进行分析,将未标注的评论文本表示成句子向量,使用训练好的模型进行情感特征分析,得到评论的情感特征;再将原始已有标注的数据和基于伪标签策略生成的数据进行结合,继续训练情感分析模型获取最优模型。
CN202011535456.XA 2020-12-22 2020-12-22 一种面向大规模在线学习平台的优质答案识别方法 Active CN112966518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011535456.XA CN112966518B (zh) 2020-12-22 2020-12-22 一种面向大规模在线学习平台的优质答案识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011535456.XA CN112966518B (zh) 2020-12-22 2020-12-22 一种面向大规模在线学习平台的优质答案识别方法

Publications (2)

Publication Number Publication Date
CN112966518A CN112966518A (zh) 2021-06-15
CN112966518B true CN112966518B (zh) 2023-12-19

Family

ID=76271262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011535456.XA Active CN112966518B (zh) 2020-12-22 2020-12-22 一种面向大规模在线学习平台的优质答案识别方法

Country Status (1)

Country Link
CN (1) CN112966518B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486177A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力领域表格列标注方法
CN114444481B (zh) * 2022-01-27 2023-04-07 四川大学 一种新闻评论的情感分析与生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012039686A1 (en) * 2010-09-24 2012-03-29 National University Of Singapore Methods and systems for automated text correction
LU101290B1 (en) * 2018-08-17 2019-11-29 Univ Qilu Technology Method, System, Storage Medium and Electric Device of Medical Automatic Question Answering
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN112069302A (zh) * 2020-09-15 2020-12-11 腾讯科技(深圳)有限公司 会话意图识别模型的训练方法、会话意图识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012039686A1 (en) * 2010-09-24 2012-03-29 National University Of Singapore Methods and systems for automated text correction
LU101290B1 (en) * 2018-08-17 2019-11-29 Univ Qilu Technology Method, System, Storage Medium and Electric Device of Medical Automatic Question Answering
CN111259127A (zh) * 2020-01-15 2020-06-09 浙江大学 一种基于迁移学习句向量的长文本答案选择方法
CN112069302A (zh) * 2020-09-15 2020-12-11 腾讯科技(深圳)有限公司 会话意图识别模型的训练方法、会话意图识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中文问答社区答案质量的评价研究:以知乎为例;王伟;冀宇强;王洪伟;郑丽娟;;图书情报工作(第22期);全文 *
基于预训练模型的文本分类网络TextCGA;杨玮祺;杜晔;;现代计算机(第12期);全文 *
附加情感特征的在线问答社区信息质量自动化评价;姜雯;许鑫;武高峰;;图书情报工作(第04期);全文 *

Also Published As

Publication number Publication date
CN112966518A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN111753098A (zh) 一种基于跨媒体动态知识图谱的教学方法及***
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答***及方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN108804654A (zh) 一种基于智能问答的虚拟学习环境构建方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112115238A (zh) 一种基于bert和知识库的问答方法和***
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及***
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
CN110968708A (zh) 一种教育信息资源属性标注方法及***
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN111368058A (zh) 一种基于迁移学习的问答匹配方法
CN111552773A (zh) 一种阅读理解任务中是否类问题关键句寻找方法及***
CN112541347A (zh) 一种基于预训练模型的机器阅读理解方法
CN115311465A (zh) 一种基于双注意力模型的图像描述方法
CN111581364A (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助***及其控制方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、***及装置
Xia et al. Question-answering using keyword entries in the Oil&Gas domain
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant