CN112507097B - 一种提高问答***泛化能力的方法 - Google Patents

一种提高问答***泛化能力的方法 Download PDF

Info

Publication number
CN112507097B
CN112507097B CN202011494614.1A CN202011494614A CN112507097B CN 112507097 B CN112507097 B CN 112507097B CN 202011494614 A CN202011494614 A CN 202011494614A CN 112507097 B CN112507097 B CN 112507097B
Authority
CN
China
Prior art keywords
similar
words
standard
question
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011494614.1A
Other languages
English (en)
Other versions
CN112507097A (zh
Inventor
申冲
张汉同
张传锋
祖丕国
王太浩
朱锦雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202011494614.1A priority Critical patent/CN112507097B/zh
Publication of CN112507097A publication Critical patent/CN112507097A/zh
Application granted granted Critical
Publication of CN112507097B publication Critical patent/CN112507097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种可以自动提高***泛化能力、提高***召回能力的方法,通过使用相似词和相似问题自动生成技术,从词和句子两个粒度来改善问答***中的检索与排序,提高***召回率,增强***泛化能力,尽可能避免人工参与,极大的提高了***的易用性。

Description

一种提高问答***泛化能力的方法
技术领域
本发明涉及自然语言处理和机器学习领域,具体是一种提高问答体现泛化能力的方法。
背景技术
从用户体验角度来看,目前业界现有的业务咨询问答***,主要有2类问答模式:一类是问答型,即针对用户的每个有效问题,都会给出一个明确的回复或答案;另一类则是搜索型,针对用户问题,返回一个相似的问题列表。
两种问答模型都依赖一个问答库,即问题-答案集合,当***接收到用户问题时,都需要从问答库中检索出相关的问题列表然后进行排序,搜索型问答***直接返回若干相关的问题列表,而问答型***则在此基础之上加了一个判断机制,判断该用户问题是否有准确答案。
由此可见,不论哪一种业务咨询问答***,都需要针对用户的问题对库中的知识进行检索、排序。检索是所有问答***中的第一步,排序算法是对检索结果的排序。从某种程度上来说,检索***的准确率直接决定了整个问答***的准确率。
给定一个问题集和用户问题,如何筛选出相关问题呢,考虑到时效性,目前应用较多的是倒排索引,通过构建词与问题的索引,来快速筛选出相关的问题列表,然后经过排序算法进行排序返回。
但是这种方法只能在已有知识(问答库)中构建索引,或者说,只能对问答库中已有的分词构建倒排索引,如果用户的问题中含有问答库中不包括的分词,倒排索引是检索不出来的,即仅仅使用倒排索引无法解决各类的口语泛化问题。很明显,倒排索引本身不具有泛化能力。举个例子,假设问答库中有个问题是“水费无法缴纳的原因”,用户问题为“水费为啥不能交”,***是无法将“无法-不能”、“原因-为啥”、“缴纳-交”来对应起来的。
传统方法是基于规则、模板等人工方式来进行相似词表、相似问题表的构建(如专利CN201810768888.1、CN201911081549.7 等),这种方法耗时耗力且不易维护。
发明内容
针对现有技术的缺陷,本发明提高一种提高问答***泛化能力的方法,通过词向量检索相似词和相似问题生成两种方式来改进问答***中的检索与排序,本发明提出的方法则不需要人工的介入,完全依赖深度学习技术自动完成,在提高***泛化能力的同时,极大减少人工成本。
为了解决所述技术问题,本发明采用的技术方案是:通过词嵌入矩阵来获得相似词表;通过相似问题生成来获得相似问题列表;通过词向量、句向量来获得标准差与相似词、标准问题与相似问题的相似度;通过上述结果来改善***的检索、排序效果。该方案包括以下步骤:
(1)训练词向量。直接使用开源的词向量或者自己训练,这由可获得的行业数据量的多少来决定。如果自己训练的话,首先需要根据行业用户给定的对话语料,首先通过tf-idf技术抽取行业关键词;依据行业关键词,从百度咨询、百度知道、百度百科中爬取大量的行业弱相关知识(因为关键词是自动抽取的,可能与具体行业关联并没有那么紧密,所以依据关键词爬取的知识,并非全部是与行业相关的,如“办理”,金融行业、税务行业都有该业务类型),并依此使用word2vec技术训练词嵌入矩阵。
(2)抽取相似词表。依据词嵌入矩阵,使用高维向量相似度快速索引技术(目前比较成熟的技术由kd树、Annoy、Faiss等)来构建词向量索引,依此可以快速抽取行业关键词的相似词,然后使用余弦相似度来计算词与词之间的相似度并保存。
(3)获取相似问题生成训练语料。从第一步中,通过行业关键词从百度知道中获得了大量的问答对(使用1000个关键词即可爬取百万左右的问答对,但需要借助代理ip技术),然后使用预训练模型I(使用roberta-large效果较好,也可使用其他预训练模型)获取所有问题的向量表示,同第二步一样,使用高维向量索引技术来进行问题的聚类,依次构建大量的相似问题对。
(4)训练相似问题生成模型。使用基于bert改进的预训练生成模型IIunilm(也可以使用其他预训练生成模型,如mass、ernie-gen等)来进行训练。训练样本为相似问题对,训练目标为文本生成。
(5)获取相似问题表。根据客户给定的行业问答库,以库中的问题为标准问题,使用预训练模型来生成其相似问题列表。并使用余弦相似度来计算句子之间的相似度并保存。
(6)优化倒排索引。在构建倒排索引时,融入前面获得的相似问题和相似词表,依此提高***的召回率,并在排序过程中考虑标准差与相似词之间、标准问题与相似问题之间的相似度。由此可以极大提高整个***的泛化能力。
本发明的有益效果:本发明提出了一种可以自动提高***泛化能力、提高***召回能力的方法,通过使用相似词和相似问题自动生成技术,从词和句子两个粒度来改善问答***中的检索与排序,提高***召回率,增强***泛化能力,尽可能避免人工参与,极大的提高了***的易用性。
附图说明
图1为现有搜索问答***的架构图;
图2为相似词表获取的流程图;
图3为相似问题表获取的流程图;
图4为实施例1搜索问答***的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
实施例1
本实施例立足于智能问答/检索***,提供一种提高***泛化能力的方法,从相似词生成和相似问题生成两个方面,来优化倒排索引和排序算法,有效提高整个问答***泛化能力。本方法以服务方式对外提供功能,也可以使用于搭载智能对话***的任何设备之上,如微信公众号、智能机器人、虚拟机器人等。
现有对话/搜索问答***的架构图如图1所示,其主要有检索和排序2部分组成。在行业客户给定问答对/知识库的情况下,通常情况下,我们需要构建倒排索引以用来对用户Query进行检索,以返回与用户Query相关的问题列表,然后对用户的问题列表来进行排序,并将排序的结果返回用户/前台显示。但是这种方法并不具备语义泛化能力。因此,本实施例基于深度学习技术,主要对该***中的检索(索引构建)和排序来进行优化,以提高整个***的泛化能力。
本方法首先通过词嵌入矩阵来获得相似词表,如图2所示,具体步骤为:
1)行业关键词抽取。使用客户提供的行业知识来统计词频;使用多行业语料来统计逆文档词频;使用tf-idf来进行关键词权重排序,进行行业关键词抽取。注意,逆文档词频涉及的行业语料越多越好。
2)训练词向量矩阵。使用上一步抽取的关键词作为种子,从百度知道、百度咨询、百度百科等搜索平台上爬取相关行业知识。百度作为中国最大的搜索引擎,其知识量覆盖范围足够广。当然,通过关键词抽取的知识,并非全部是行业知识,这并不影响词向量的训练。使用word2vec技术来进行词向量的训练,但是,如果统计的行业知识在5G以内,建议使用开源的训练好的词向量(如腾讯开源词向量等)。
3)获取行业关键词的相似词表。根据词向量矩阵,使用高维向量索引技术(如kd树、Annoy、Faiss等)来构建向量索引,并依次遍历行业关键词表,抽取前十最相似的词。注意,由于抽取相似词时,大部分相似词包含关键词,以腾讯词向量为例,如“减免”的相似词有:
减免优惠 减免政策 免除 免交 直接减免 免缴 减免部分 费用减免 免征
为此,我们一次性抽取100个相似词,并去除包含标准词的词,其结果如下:
免收 抵免 税务优惠 税率优惠 征收 免税优惠 税收优惠 税 免税
可见相似词的语义基本上都与“减免”有关。
另外,为避免相似词中出现一些与标准词差距较大的词,我们同时需要保存标注词与相似词的相似度:
免收- 0.7265抵免- 0.7184 税务优惠- 0.6753 ……
相似词与标准词之间的相似度,可以理解为相似词对标准词的贡献度。如果用户Query中包括标准词,则对该标准词的贡献度为1;如果用户Query中包括相似词,则对该标准词的贡献度为其相似度值。如此即可构建好行业关键词的相似词表。
如图3相似问题表获取***图所示,该方法基于预训练模型,使用文本生成技术来进行相似问题生成,其具体步骤如下:
1)行业相关问题爬取。用户Query大部分都比较口语化,而问答库中的问题更偏向书面语,因此需要搜集大量的口语化行业相关问题。百度知道是最大的中文问答社区,里面的问题大都是口语化的,因此本实施例从百度知道中爬取大量的行业相关问题。依次遍历行业关键词(上一步已获取),爬取每个关键词的相关问题(以税务行业相似问题为例,使用2000左右关键词,即可爬取200+万相关问题)。
2)相似问题对生成。首先使用预训练模型I来进行句向量的抽取,句向量可采用第一个token(cls)的输出为表征,也可使用所有token向量和的平均。(本发明通过实验对比当前比较先进的预训练模型,如bert、roberta、xlnet、albert等,建议使用roberta-large模型来进行句向量的抽取,其语义化效果相对较好)。使用高维向量索引(如kd树、annoy索引等均可)来构建句向量索引,然后依次遍历所有行业相关问题,从句向量索引中抽取前k个最相似的问题(k可依据行业问题集的大小来自定义,太大会导致相似问题有偏差,太小一般会导致训练集的缩小,本发明所有问题集在200+万,建议k=4)。
图4所示为使用句向量索引抽取的相似问题,图中similar_questions中第一个总是与标准问题是一致的,其他相似问题基本上与标准问题具有一定的语义相关性。
训练集由相似问题对和非相似问题对等比例构成,非相似问题对可随机选择。样例如下:
农产品免税***怎么开 免税农产品怎么开*** 1
农产品免税***怎么开 ***专票需要带什么资料 0
1代表相似问题对,0代表非相似问题对。
3)相似问题生成模型的训练。现阶段有较多的基于tranformer来进行预训练的文本生成模型(如mass、ernie-gen、unilm等,这几个模型均可使用),本发明采用unilm作为预训练模型II,来进行相似问题生成模型的训练。模型输入问题对和标签;损失函数有2部分组成,一个是相似问题生成产生的loss,另一个是分类任务产生的loss;
4)获取相似问题表。我们的最终目的是针对问题库中的标准问题来产生相似问题,所以遍历问题库中的标准问题,使用预训练模型产生相似问题集。
本发明采用topk编码策略。设置模型一次生成n个相似问题(n可设置的大一点,本发明n=100),相似问题是逐字生成的,每生成一个字,从前topk个最可能的单词中,进行随机采样(以本发明为例,topk设置为5,即前5个最可能的选项中,按照其概率随机采样100次,将采样结果作为100个相似问题的下一个字。Topk设置越大,文本生成结果越丰富,但是其语义相似性和连贯性则较差)。
由于生成的相似问题与标准问题太过接近,因此我们将所有生成的相似问题做了一个过滤操作,即如果相似问题没有产生新词,仅仅是变换(增删查改)了标点、停用词等无意义句子,则过滤掉。另外,相似问题中近似重复出现(如只变换了标点等)的问题也需要去掉。
还是前面的例子“农产品免税***怎么开”,其产生的有效的相似问题列表示例如下:
农产品免税***怎样开
怎么开具农产品免税***
怎样开出农产品免税***
开农产品免税***怎么填
农产品免税专用***如何开
农产品免税***怎么办
怎么开农产品免税增值税***
农产品免税***开哪些
怎么开农产品进口免税***
农产品零税率***怎样开
农产品增值税***怎么开
由于部分相似问题与标准问题之间由偏差,因此我们使用相似度来评估标准问题与相似问题之间的度量。本发明使用前述预训练模型II产生相似问题句向量,使用余弦来评估问题之间的相似度。相似问题与标准问题之间的相似度,可以理解为相似问题对标准问题的贡献度。如果用户Query匹配到标准问题,则对该标准问题的贡献度为1;如果用户Query中匹配到相似问题,则对该标准问题的贡献度为其相似度值。
如图4改进的搜索问答***检索***图所示,通过上述步骤获取的相似词表和相似问题表,我们优化模型的检索与排序***。
1)优化倒排索引。在给定行业问答集的情况下,通过相似词和相似问题产生的新词,我们可以极大的扩充倒排索引的容量。
2)优化排序算法。针对倒排索引产生的相关问题列表,使用打分算法(此处可使用任意打分算法,本发明使用自定义权重的tf-idf算法)我们可以获得相关问题的得分
Figure 49496DEST_PATH_IMAGE001
。在所有的得分中乘上相似词
Figure DEST_PATH_IMAGE002
、相似问题的权重
Figure 763374DEST_PATH_IMAGE003
,并经过排序之后,即可得到最终的排序结果。由于针对不同行业产生的相似词、相似问题可能质量有所差异,建议在得分上乘一个权重系数w。最终的得分公式可如下表示:
Figure DEST_PATH_IMAGE004
本实施例所述方法使用大量行业知识训练行业词向量(也可使用开源词向量,开源词向量更具普遍性,但是具体行业的准确率可能稍差),然后针对问答库中的数据使用tf-idf筛选行业关键词,构建相似词表(含权重),并将其添加到倒排索引中,这样当用户Query中包括一些相似词(原问题中并没有)时,仍能检索到该问题。
使用相似词表的方式,本质是扩充倒排索引的入口,通过对某一问题中的关键字添加相似词,来提高该问题的召回率。但是这种方式只能在词的粒度上来提高检索的召回率,而且只能产生语料库中的词。因此,我们针对问题集中的任意问题,使用预训练模型来生成其相似问题,在句子粒度上来提高问答***的检索能力。
另外,使用余弦相似度来计算标准词与相似词之间、标准问句与相似问句之间的相似度,并在最终的排序过程中将最终的问题得分乘上该比重,这样,用户Query与标准词、标准问句的匹配可以获得更高的分值,越相近的匹配项,分值越高,有效改善了整个***的泛化能力,提高了***的召回率。
NLP技术在业界落地的应用案例相对较少,目前整个行业都还处于探索阶段。业务咨询对话***作为较为成熟的应用案例之一,在各个行业都有较为成熟的应用,但是行业客户往往只想获得稳定完善、即插即用的咨询***,并不希望花费较多的人工来提高***的泛化能力。本实施例提出的一种可以自动提高***泛化能力、提高***召回能力的方法,通过使用相似词和相似问题自动生成技术,从词和句子两个粒度来改善问答***中的检索与排序,提高***召回率,增强***泛化能力,尽可能避免人工参与,极大的提高了***的易用性。
以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。

Claims (8)

1.一种提高问答***泛化能力的方法,其特征在于:包括以下步骤:
S01)、通过词嵌入矩阵来获得相似词表;
通过词嵌入矩阵来获得相似词表的过程为:
S11)、选用开源的词向量或者训练词向量,训练词向量时,首先根据行业用户给定的对话语料使用关键词抽取算法抽取行业关键词,并以行业关键词为种子从网络中爬取行业弱相关知识,然后使用word2vec技术训练词嵌入矩阵;
S12)、获取行业关键词的相似词表,根据词嵌入矩阵,使用高维向量索引技术来构建词向量索引,并依次遍历行业关键词表,抽取行业关键词的相似词;
S02)、通过相似问题生成来获得相似问题列表;
通过相似问题生成来获得相似问题列表的过程为:
S21)、行业相关问题爬取,依据行业关键词,爬取每个行业关键词的相关问题;
S22)、相似问题对生成,首先使用预训练模型I来进行句向量的抽取,使用高维向量索引来构建句向量索引,然后依次遍历所有行业相关问题,从句向量索引中抽取前k个最相似的问题;
S23)、相似问题生成模型的训练,采用预训练模型II来进行相似问题生成模型的训练,输入训练集和标签,训练集由相似问题和非相似问题对等比例构成,损失函数由2部分组成,一个是相似问题生成产生的损失,另一个是分类任务产生的损失;
S24)、获取相似问题表,遍历问题库中的标准问题,使用预训练模型II产生相似问题集;采用topk编码策略,设置模型一次生成n个相似问题,相似问题是逐字生成的,每生成一个字,从前topk个最可能的单词中,进行随机采样,将采样结果作为n个相似问题的下一个字;
S03)、通过词向量、句向量来获得标准词与相似词、标准问题与相似问题的相似度;
S04)、基于相似词表、相似问题列表以及标准词与相似词、标准问题与相似问题的相似度对问答***进行优化,在给定行业问答集的情况下,通过相似词和相似问题产生的信息扩充倒排索引的容量;针对倒排索引产生的相关问题列表,使用打分算法获得相关问题的得分,在所有的得分中乘上相似词、相似问题的权重,经过排序之后即可得到最终的排序结果;相似词、相似问题的权重就是标准词与相似词、标准问题与相似问题的相似度。
2.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:抽取行业关键词的相似词时,去除包含标准词的词。
3.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:使用余弦相似度来计算相似词与标准词的相似度并保存,标准词为抽取的行业关键词;相似词与标准词之间的相似度作为相似词对标准词的贡献度,如果用户问题中包括标准词,则对该标准词的贡献度为1;如果用户问题中包括相似词,则对该标准词的贡献度为其相似度值;基于相似词以及相似度与标准词之间的相似度构建行业关键词的相似词表。
4.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:若生成的相似问题与标准问题太过接近,将所有生成的相似问题进行过滤操作;如果相似问题没有产生新词,仅仅是变换了标点、停用词,则过滤掉;相似问题中近似重复出现的问题也过滤掉。
5.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:使用相似度来评估标准问题与相似问题之间的偏差,相似问题与标准问题之间的相似度作为相似问题对标准问题的贡献度,如果用户问题匹配到标准问题,则对标准问题的贡献度为1,如果用户问题匹配到相似问题,则相似问题对标准问题的贡献度为其相似度值。
6.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:所述预训练模型为bert、roberta、xlnet、albert中的一种。
7.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:预训练模型II为unilm模型。
8.根据权利要求1所述的提高问答***泛化能力的方法,其特征在于:倒排索引时,在所有的得分乘上相似词、相似问题的权重的基础上,再乘上一个权重系数,即为最终的得分。
CN202011494614.1A 2020-12-17 2020-12-17 一种提高问答***泛化能力的方法 Active CN112507097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011494614.1A CN112507097B (zh) 2020-12-17 2020-12-17 一种提高问答***泛化能力的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011494614.1A CN112507097B (zh) 2020-12-17 2020-12-17 一种提高问答***泛化能力的方法

Publications (2)

Publication Number Publication Date
CN112507097A CN112507097A (zh) 2021-03-16
CN112507097B true CN112507097B (zh) 2022-11-18

Family

ID=74922111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011494614.1A Active CN112507097B (zh) 2020-12-17 2020-12-17 一种提高问答***泛化能力的方法

Country Status (1)

Country Link
CN (1) CN112507097B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795018A (zh) * 2023-02-13 2023-03-14 广州海昇计算机科技有限公司 一种面向电网领域的多策略智能搜索问答方法及***

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN108287822A (zh) * 2018-01-23 2018-07-17 北京容联易通信息技术有限公司 一种中文相似问题生成***与方法
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答***实现方法
CN109325040A (zh) * 2018-07-13 2019-02-12 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110413761A (zh) * 2019-08-06 2019-11-05 浩鲸云计算科技股份有限公司 一种基于知识库的领域性单独对话的方法
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN110825866A (zh) * 2020-01-13 2020-02-21 江苏联著实业股份有限公司 一种基于深度网络和文本相似度的自动问答***及装置
CN110866100A (zh) * 2019-11-07 2020-03-06 北京声智科技有限公司 一种话术泛化方法、装置及电子设备
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答***
CN111400458A (zh) * 2018-12-27 2020-07-10 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置
CN111597313A (zh) * 2020-04-07 2020-08-28 深圳追一科技有限公司 问答方法、装置、计算机设备和存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN108287822A (zh) * 2018-01-23 2018-07-17 北京容联易通信息技术有限公司 一种中文相似问题生成***与方法
CN109325040A (zh) * 2018-07-13 2019-02-12 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答***实现方法
CN111400458A (zh) * 2018-12-27 2020-07-10 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置
CN110321419A (zh) * 2019-06-28 2019-10-11 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索***的同义词挖掘方法及装置
CN110413761A (zh) * 2019-08-06 2019-11-05 浩鲸云计算科技股份有限公司 一种基于知识库的领域性单独对话的方法
CN110866100A (zh) * 2019-11-07 2020-03-06 北京声智科技有限公司 一种话术泛化方法、装置及电子设备
CN111125334A (zh) * 2019-12-20 2020-05-08 神思电子技术股份有限公司 一种基于预训练的搜索问答***
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN110825866A (zh) * 2020-01-13 2020-02-21 江苏联著实业股份有限公司 一种基于深度网络和文本相似度的自动问答***及装置
CN111597313A (zh) * 2020-04-07 2020-08-28 深圳追一科技有限公司 问答方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795018A (zh) * 2023-02-13 2023-03-14 广州海昇计算机科技有限公司 一种面向电网领域的多策略智能搜索问答方法及***

Also Published As

Publication number Publication date
CN112507097A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN109885672B (zh) 一种面向在线教育的问答式智能检索***及方法
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及***
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及***
CN108763213A (zh) 主题特征文本关键词提取方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及***
CN109101479A (zh) 一种用于中文语句的聚类方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索***
US20220138572A1 (en) Systems and Methods for the Automatic Classification of Documents
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN112163077B (zh) 一种面向领域问答的知识图谱构建方法
US20040249808A1 (en) Query expansion using query logs
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及***
Armouty et al. Automated keyword extraction using support vector machine from Arabic news documents
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN113673252A (zh) 一种基于字段语义的数据表自动join推荐方法
CN116775846A (zh) 领域知识问答方法、***、设备及介质
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN112507097B (zh) 一种提高问答***泛化能力的方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
Tarnpradab et al. Attention based neural architecture for rumor detection with author context awareness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant