CN108287822A - 一种中文相似问题生成***与方法 - Google Patents

一种中文相似问题生成***与方法 Download PDF

Info

Publication number
CN108287822A
CN108287822A CN201810065131.6A CN201810065131A CN108287822A CN 108287822 A CN108287822 A CN 108287822A CN 201810065131 A CN201810065131 A CN 201810065131A CN 108287822 A CN108287822 A CN 108287822A
Authority
CN
China
Prior art keywords
chinese
question sentence
similar
sentence
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810065131.6A
Other languages
English (en)
Other versions
CN108287822B (zh
Inventor
孙昌勋
许志强
王凯
曾国卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronglian Ets Information Technology Co Ltd
Original Assignee
Beijing Ronglian Ets Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronglian Ets Information Technology Co Ltd filed Critical Beijing Ronglian Ets Information Technology Co Ltd
Priority to CN201810065131.6A priority Critical patent/CN108287822B/zh
Publication of CN108287822A publication Critical patent/CN108287822A/zh
Application granted granted Critical
Publication of CN108287822B publication Critical patent/CN108287822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文相似问题生成***与方法,该***包括:预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注;命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;问题分类模块,用于对给定的问题按照语义进行分类;相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块。本发明能有效的提高生成的问题问句与原始问题的匹配程度和合理性。

Description

一种中文相似问题生成***与方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种中文相似问题生成***与方法。
背景技术
自然语言处理(natural language processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等。
问答技术(question answering),是信息检索技术的一种高级形式,它能用准确、简洁的自然语言回答用户的自然语言问题。自动问答***能够自动分析问题并给出相应的候选答案,传统的自动问答***主要由问题分析、信息检索和答案生成等模块构成。
传统的自动问答主要是面向文本集合进行的,包括分析问题中的关键词,将关键词提交到搜索引擎,从文本库中检索相关文档,获取返回结果中确信度最高的前若干文档,再从中生成答案。但是随着语义网技术的发展与逐渐普及,知识图谱(knowledgegraph)、链接数据(linkeddata)等信息组织程度较高的结构化知识库兴起,例如DBpedia和Freebase,使得新式基于结构化知识库实现自动问答成为可能。在这种知识库的基础上进行自动问答,比传统基于文本的自动问答更为高效、准确。如果用户能够使用查询对知识库进行提问,无疑能够精准快速地获得答案。但是在实际运用自动问答技术时,大部分用户并不能够实现这种“专业”的提问方式,而往往只会使用人类自然语言的形式进行提问,因此基于自然语言问句的知识库问答具有重要价值。在基于知识库的自动问答过程中,用户输入中文自然语言问句后,传统方法对问句仅采取简单处理得到关键词,生成的查询结构化程度不高,不能实现对知识库数据准确高效的查询。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种中文相似问题生成***与方法。
本发明解决其技术问题所采用的技术方案是:一种中文相似问题生成***,包括:
预处理模块,用于接收给定的问句,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
命名实体识别模块,用于对给定的问句进行识别,得到识别命名实体;
问题分类模块,用于对给定的问句按照语义进行分类,所述分类类别依据伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign,UIUC)提出的分类体系架构,主要分为七大类,其中包括:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问句,生成语义相似的问题;
所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行语义词扩展,然后对替扩展后的语义词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
按上述方案,所述命名实体识别模块得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在属性数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
按上述方案,所述相似语义问题生成模块还用于对生成的语义相似的问句进行筛选排序,根据需要保留排名前列的问题。
按上述方案,所述相似语义问题生成模块对基于规则的相似语义问题生成子模块生成的问题排序的依据如下:
对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度(或称为合理性),具体如下:
对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:
P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)
其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:
P(Sold→Tnew)=ΠmP(ti|si)P(ti|ti-1)P(ti+1|ti)
其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡log P(Sold→Tnew),则上式可转化为:
L(Sold→Tnew)=∑m[log P(ti|si)+log P(ti+1|ti)+log P(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,N(ti,ti-1)表示词项ti,ti-1在语料库(为先验语料库)中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。
因此,基于上述公式可以对基于规则生成所有新句子计算其通顺程度,从而能够对所有生成句子进行排序以选出最为合理的前n个语句。
按上述方案,所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
按上述方案,所述相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于0.85则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
按上述方案,所述步骤2.2)中循环神经网络采用的神经单元为LSTM(Long Short-Term Memory)或GRU(Gated Recurrent Unit),通常该模型用于机器翻译相关应用,这里我们主要用来进行相似问句生成。
本发明还提供一种中文相似问题生成方法,其特征在于,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词和命名实体进行同义词扩展(同义词或近义词替换),然后对扩展后的替换词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
按上述方案,所述步骤4)中基于机器学习的相似语义问题生成是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成,过程如下:
4.1)获得中文问句作为训练集;
4.2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
4.2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn
4.2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
4.2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
4.2.4)计算分词yn
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
4.2.5)将分词yn顺序组合,获得输出中文问句;
4.3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到设定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
本发明产生的有益效果是:使用本发明方法,能有效的提高生成的问题问句与原始问题的匹配程度和合理性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,一种中文相似问题生成***,包括:
预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;(其中,给定问句进行句法依存关系分析用于对句子结构分析(主谓宾等),以便在模板生成判断当前词是否可进行同义词替换,以便相似问句生成时能够保留相应专有名词,如特定地名、人名、机构名等,以免在生成过程中引起句义改变)
给定的问题为1、上海哪里最热闹,
处理的结果为:<上海><哪里><最><热闹>。
命名实体识别模块,用于对给定的问句进行识别,得到识别命名实体;
比如,上海我们识别为地名,这样在后期替换中,我们不替换这个分词。
问题分类模块,用于对给定的问句按照语义进行分类,所述分类类别按照UIUC标准包括七大类:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问句,生成语义相似的问题;
所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词进行语义词扩展(同义词或近义词替换),然后对替扩展后的语义词进行重新组合,生成候选问题;
A、上海哪里最繁华?
B、上海哪里顶繁华?
所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
步骤2.2)中循环神经网络采用的神经单元为LSTM(Long Short-Term Memory)或GRU(Gated Recurrent Unit),通常该模型用于机器翻译相关应用,这里我们主要用来进行相似问句生成。
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
本实施例中,生成的问题为:C、上海最著名的食物在哪里?
对生成的结果,对基于规则的相似语义问题生成子模块生成的问题,采用模型评估问题的合理性,具体如下:
对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度(或称为合理性),具体如下:
对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:
P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)
其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:
P(Sold→Tnew)=ПmP(ti|si)P(ti|ti-1)P(ti+1|ti)
其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡log P(Sold→Tnew),则上式可转化为:
L(Sold→Tnew)=∑m[log P(ti|si)+log P(ti+1|ti)+log P(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,N(ti,ti-1)表示词项ti,ti-1在语料库(为先验语料库)中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。
因此,基于上述公式可以对基于规则生成所有新句子计算其通顺程度,从而能够对所有生成句子进行排序以选出最为合理的前n个语句。
相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于0.85则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
如果我们最后选择3个相似结果,可以在对基于规则的相似语义问题生成子模块生成的问题中选择前2个,然后在基于机器学习的相似语义问题生成子模块生成的问题中选择第一个,作为结果组合。
类似的,根据上述***,本发明还提供一种对应的中文相似问题生成方法,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词和命名实体进行同义词替换扩展(同义词或近义词替换),然后对扩展后的替换词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种中文相似问题生成***,其特征在于,包括:
预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;
问题分类模块,用于对给定的问题按照语义进行分类,所述分类类别包括:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;
所述相似语义问题生成模块主要包含两个子模块,即:基于规则的相似语义问题生成子模块及基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行同义词扩展替换,然后对扩展替换后的同义词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成子模块,用于通过循环序列神经网络方法建模,利用训练数据构建模型进行问题生成。
2.根据权利要求1所述的中文相似问题生成***,其特征在于,所述命名实体识别模块得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在属性数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
3.根据权利要求1所述的中文相似问题生成***,其特征在于,所述相似语义问题生成模块还用于对生成的语义相似的问句进行筛选排序,根据需要保留排名前列的问题。
4.根据权利要求3所述的中文相似问题生成***,其特征在于,所述相似语义问题生成模块对基于规则的相似语义问题生成子模块生成的问题排序的依据如下:
对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度,具体如下:
对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:
P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)
…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)
其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:
P(Sold→Tnew)=ΠmP(ti|si)P(ti|ti-1)P(ti+1|ti)
其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡logP(Sold→Tnew),则上式可转化为:
L(Sold→Tnew)=∑m[logP(ti|si)+logP(ti+1|ti)+logP(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,N(ti,ti-1)表示词项ti,ti-1在语料库中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。
5.根据权利要求1所述的中文相似问题生成***,其特征在于,所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
6.根据权利要求5所述的中文相似问题生成***,其特征在于,所述步骤2.2)中循环神经网络采用的神经单元为LSTM或GRU。
7.根据权利要求3所述的中文相似问题生成***,其特征在于,所述相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于设定阈值,则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
8.根据权利要求7所述的中文相似问题生成***,其特征在于,所述阈值为0.85。
9.一种中文相似问题生成方法,其特征在于,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行语义词扩展,然后对扩展后的语义词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
10.根据权利要求9所述的中文相似问题生成方法,其特征在于,所述步骤4)中基于机器学习的相似语义问题生成是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成,过程如下:
4.1)获得中文问句作为训练集;
4.2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
4.2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn
4.2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
4.2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
4.2.4)计算分词yn
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
4.2.5)将分词yn顺序组合,获得输出中文问句;
4.3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到设定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
CN201810065131.6A 2018-01-23 2018-01-23 一种中文相似问题生成***与方法 Active CN108287822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810065131.6A CN108287822B (zh) 2018-01-23 2018-01-23 一种中文相似问题生成***与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065131.6A CN108287822B (zh) 2018-01-23 2018-01-23 一种中文相似问题生成***与方法

Publications (2)

Publication Number Publication Date
CN108287822A true CN108287822A (zh) 2018-07-17
CN108287822B CN108287822B (zh) 2022-03-01

Family

ID=62835813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065131.6A Active CN108287822B (zh) 2018-01-23 2018-01-23 一种中文相似问题生成***与方法

Country Status (1)

Country Link
CN (1) CN108287822B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN109522920A (zh) * 2018-09-18 2019-03-26 义语智能科技(上海)有限公司 基于结合语义特征的同义判别模型的训练方法及设备
CN109542929A (zh) * 2018-11-28 2019-03-29 山东工商学院 语音查询方法、装置和电子设备
CN109858021A (zh) * 2019-01-02 2019-06-07 平安科技(深圳)有限公司 业务问题统计方法、装置、计算机设备及其存储介质
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110032623A (zh) * 2018-12-12 2019-07-19 阿里巴巴集团控股有限公司 用户问句与知识点标题的匹配方法和装置
CN110059324A (zh) * 2019-04-26 2019-07-26 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN110633372A (zh) * 2019-09-23 2019-12-31 珠海格力电器股份有限公司 一种文本增广处理方法、装置及存储介质
CN110674272A (zh) * 2019-09-05 2020-01-10 科大讯飞股份有限公司 一种问题答案确定方法及相关装置
CN110765277A (zh) * 2019-10-22 2020-02-07 河海大学常州校区 一种基于知识图谱的移动端的在线设备故障诊断平台
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及***
CN111191442A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 相似问题生成方法、装置、设备及介质
CN111309893A (zh) * 2020-05-15 2020-06-19 支付宝(杭州)信息技术有限公司 基于源问题生成相似问题的方法和装置
CN111814451A (zh) * 2020-05-21 2020-10-23 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN112257422A (zh) * 2020-10-22 2021-01-22 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质
CN112328762A (zh) * 2020-11-04 2021-02-05 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答***泛化能力的方法
CN113128234A (zh) * 2021-06-17 2021-07-16 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870528A (zh) * 2012-12-17 2014-06-18 国际商业机器公司 深度问题回答***中的问题分类和特征映射的方法和***
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
US20170330079A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Automated Distractor Generation by Performing Disambiguation Operations
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答***的问句分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870528A (zh) * 2012-12-17 2014-06-18 国际商业机器公司 深度问题回答***中的问题分类和特征映射的方法和***
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
US20170330079A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Automated Distractor Generation by Performing Disambiguation Operations
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答***的问句分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
詹晨迪: "基于知识库的自然语言问答方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033390A (zh) * 2018-07-27 2018-12-18 深圳追科技有限公司 自动生成相似问句的方法和装置
CN109522920A (zh) * 2018-09-18 2019-03-26 义语智能科技(上海)有限公司 基于结合语义特征的同义判别模型的训练方法及设备
CN109522920B (zh) * 2018-09-18 2020-10-13 义语智能科技(上海)有限公司 基于结合语义特征的同义判别模型的训练方法及设备
CN109542929A (zh) * 2018-11-28 2019-03-29 山东工商学院 语音查询方法、装置和电子设备
CN109542929B (zh) * 2018-11-28 2020-11-24 山东工商学院 语音查询方法、装置和电子设备
CN110032623A (zh) * 2018-12-12 2019-07-19 阿里巴巴集团控股有限公司 用户问句与知识点标题的匹配方法和装置
CN109858021A (zh) * 2019-01-02 2019-06-07 平安科技(深圳)有限公司 业务问题统计方法、装置、计算机设备及其存储介质
CN109858021B (zh) * 2019-01-02 2023-11-14 平安科技(深圳)有限公司 业务问题统计方法、装置、计算机设备及其存储介质
CN109918627A (zh) * 2019-01-08 2019-06-21 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN109918627B (zh) * 2019-01-08 2024-03-19 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110059324A (zh) * 2019-04-26 2019-07-26 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
CN110059324B (zh) * 2019-04-26 2022-12-13 广州大学 基于依存信息监督的神经网络机器翻译方法及装置
CN110188351B (zh) * 2019-05-23 2023-08-25 鼎富智能科技有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN110674272A (zh) * 2019-09-05 2020-01-10 科大讯飞股份有限公司 一种问题答案确定方法及相关装置
CN110633372A (zh) * 2019-09-23 2019-12-31 珠海格力电器股份有限公司 一种文本增广处理方法、装置及存储介质
CN110765277B (zh) * 2019-10-22 2023-06-09 河海大学常州校区 一种基于知识图谱的移动端的在线设备故障诊断方法
CN110765277A (zh) * 2019-10-22 2020-02-07 河海大学常州校区 一种基于知识图谱的移动端的在线设备故障诊断平台
CN111079406A (zh) * 2019-12-13 2020-04-28 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及***
CN111191442A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 相似问题生成方法、装置、设备及介质
CN111191442B (zh) * 2019-12-30 2024-02-02 杭州远传新业科技股份有限公司 相似问题生成方法、装置、设备及介质
CN111309893A (zh) * 2020-05-15 2020-06-19 支付宝(杭州)信息技术有限公司 基于源问题生成相似问题的方法和装置
CN111814451A (zh) * 2020-05-21 2020-10-23 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN112257422A (zh) * 2020-10-22 2021-01-22 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质
CN112257422B (zh) * 2020-10-22 2024-06-11 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质
CN112328762A (zh) * 2020-11-04 2021-02-05 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置
CN112328762B (zh) * 2020-11-04 2023-12-19 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置
CN112507097B (zh) * 2020-12-17 2022-11-18 神思电子技术股份有限公司 一种提高问答***泛化能力的方法
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答***泛化能力的方法
CN113128234B (zh) * 2021-06-17 2021-11-02 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质
CN113128234A (zh) * 2021-06-17 2021-07-16 明品云(北京)数据科技有限公司 一种实体识别模型的建立方法、***、电子设备及介质

Also Published As

Publication number Publication date
CN108287822B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN108287822A (zh) 一种中文相似问题生成***与方法
CN109271505B (zh) 一种基于问题答案对的问答***实现方法
CN104408173B (zh) 一种基于b2b平台的核心关键词自动提取方法
CN109271506A (zh) 一种基于深度学习的电力通信领域知识图谱问答***的构建方法
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN107562863A (zh) 聊天机器人回复自动生成方法及***
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN106598950A (zh) 一种基于混合层叠模型的命名实体识别方法
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN114492327A (zh) 一种公文智能写作方法
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及***
Labusch et al. Named Entity Disambiguation and Linking Historic Newspaper OCR with BERT.
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
CN112328800A (zh) 自动生成编程规范问题答案的***及方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
JP2022130337A (ja) 機械学習に基づく名前付きエンティティ認識(ner)メカニズムの弱教師ありかつ説明可能な学習
CN116821377A (zh) 基于知识图谱和大模型的小学语文自动评测***
Dumal et al. Adaptive and automated online assessment evaluation system
Sinha et al. NLP-based automatic answer evaluation
Mustafa et al. Optimizing document classification: Unleashing the power of genetic algorithms
CN103019924B (zh) 输入法智能性评测***和方法
Ma et al. Scenario-based microservice retrieval using Word2Vec

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant