CN117271799A - 一种基于知识图谱的多轮问答方法及*** - Google Patents
一种基于知识图谱的多轮问答方法及*** Download PDFInfo
- Publication number
- CN117271799A CN117271799A CN202311244745.8A CN202311244745A CN117271799A CN 117271799 A CN117271799 A CN 117271799A CN 202311244745 A CN202311244745 A CN 202311244745A CN 117271799 A CN117271799 A CN 117271799A
- Authority
- CN
- China
- Prior art keywords
- question
- user
- entity
- answering
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000002452 interceptive effect Effects 0.000 claims abstract description 30
- 230000003993 interaction Effects 0.000 claims abstract description 24
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 101150104012 TOP2 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的多轮问答方法及***,所述方法包括:将识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称;当用户输入关键词,问答***基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标;用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向;多轮交互对话中,针对用户提出的不同问题类型,问答***采用不同问答策略。本发明提高了问答准确率。
Description
技术领域
本发明涉及人工智能技术领域,特别是一种基于知识图谱的多轮问答方法及***。
背景技术
随着当今互联网数据越来越繁杂,搜索引擎已经难以满足领域内专业人士的定制化需求,同时随着人工智能等技术的飞速发展,智能问答***应运而生。问答***是一种对用户使用自然语言提出的问题能够给出尽可能准确的回答的软件***,通过人工智能、知识图谱、知识库构建等技术建立的一问一答形式,精准定位用户提问的相关知识,通过与用户进行交互,为用户提供个性化信息服务的问答***。目前,智能问答是自然语言处理领域的研究热点之一,它的应用十分广泛,如医疗***、电子商务、智能家居等领域。智能问答***中,相较于传统的问答数据库,知识图谱可视化展示了知识的核心结构及知识之间的关联关系,更直观展现了数据关系与数据特征,因此越来越多领域通过构建专有领域知识图谱,将其作为智能问答数据来源以实现智能问答应用。
知识图谱可看作是知识的结构化表示,由三元组(主语、谓词、宾语)构成,用于表示实体和实体之间存在的语义关系。知识图谱的出现给智能问答***带来了新的可能性,知识图谱问答实现流程是基于给定的自然语言问题,识别出问题实体和语义关系,再将其关联到知识图谱,从知识图谱中检索并返回答案。目前,基于知识图谱的问答研究方法主要分为两类,一类是基于语义解析的问答,另一类是基于信息检索,其中,基于检索式的问答目前是知识图谱问答的主流方法。
基于知识图谱的单轮问答技术相对成熟,通过对问题语义理解与解析,将自然语言问题转换为知识图谱对应的查询语句,从知识图谱中查询相关三元组答案。但目前基于知识图谱的多轮问答技术研究较少,因此存在以下不足:
一是专业领域的知识图谱问答语料库规模较小,语料信息存在不完整、质量较低等情况,当用户提问时,知识图谱库中不包含问题答案,导致***无法返回正确答案,也没有给用户推荐相关内容,从而影响用户使用体验;
二是知识图谱库作为问答***的数据后台支撑,在问答交互过程中,可能存在用户提问较笼统、较泛化的情况,导致***无法精准理解用户提问目的,从而***不能一次性正确返回答案,可能会返回错误答案,导致问答准确率降低。
发明内容
鉴于此,本发明提供一种基于知识图谱的多轮问答方法及***,多轮交互过程中给以用户引导,从而精确定位用户需求,返回用户关注内容。
本发明公开了一种基于知识图谱的多轮问答方法,其包括:
步骤1:将识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称;当用户输入关键词,问答***基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标;
步骤2:用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向;
步骤3:多轮交互对话中,针对用户提出的不同问题类型,问答***采用不同问答策略。
进一步地,所述步骤1包括:
步骤11:针对用户输入的字符串S,问答***直接调用知识图谱问答算法返回答案;或者,对字符串S进行关键词切分和实体识别处理;
步骤12:基于步骤11返回的多个实体,通过知识图谱数据为用户推荐关注的实体;遍历知识图谱实体节点nodei,分别与各实体进行相似比对,利用基于BERT模型将图谱节点nodei和实体nerj,j∈(1,2,3)向量化表示,向量化结果分别为x={x1,...,xn}和y={y1,...,yn},再选择相似计算方法度量向量间相似值;
步骤13:将步骤12所有遍历的相似结果进行排序,筛选出与实体ner1,er2,er3相似值大于预设阈值的所有节点,并取前K个节点名称作为用户关注实体返回,若节点数量不足K个,则全部返回;
步骤14:步骤13返回的前K个节点名称是与用户输入内容相关的实体,***将其作为用户关注实体推荐,让用户明确询问主体;用户可选择对返回的实体继续进行多轮交互提问,也可输入其他关键词或完整问题进行提问;若输入其他关键词,问答***将继续推荐相关实体;若输入完整问题,***可直接返回问题答案。
进一步地,所述步骤11包括:
针对用户输入的字符串S,首先从字符串S的长度,字符串S是否包含实体,以及实体关系判断字符串S是否为完整问句,若字符串S包含实体以及实体关系,则S为完整问句,问答***直接调用知识图谱问答算法返回答案;若字符串S为非完整问句,则对字符串S进行关键词切分和实体识别处理;
当用户提问以特殊符号间隔不同关键词时,根据特殊符号划分不同关键词,字符串S可能划分为s1,s2,s3;再调用命名实体识别算法识别出关键词包含的实体ner1,ner2,ner3;特殊符号包括空格和顿号。
进一步地,所述步骤2包括:
基于用户关注实体的问题推荐包括基于历史问答库、热点问题库和知识图谱的问题推荐;根据用户关注实体分别在历史问答库与热点问题库中精确检索,返回该实体相关的用户历史提问和热点问题作为问题推荐;基于知识图谱的问题推荐是将用户关注的实体关联至知识图谱中某个节点,检索该节点相关三元组,利用模型生成用户关注的多类型问题作为推荐;逐步引导用户细化明确提问意图。
进一步地,所述步骤2具体包括:
基于历史问答库推荐问题:问答***将记录所有用户与***交互对话过程,包括用户ID、提问时间、用户提问内容、***返回答案以及用户反馈修改;
***将有答案或用户反馈修改后的问题答案对保存于历史问答库中;用户历史问答库记录用户常询问方向、感兴趣内容或目标,多轮交互过程中,以用户ID和用户关注实体名称作为关键词对历史问答库进行精确检索并按相似性排序,从检索的问题中选取前L个作为问题推荐列表RQ1,若检索为空,则RQ1返回空列表。
进一步地,所述步骤2还具体包括:
基于热点问题库推荐:问答***针对问题,按不同时间段,将用户提问频率较高的问题作为热点问题,保存于热点问题库中;热点问题库能反映出用户近期关注内容;在交互对话过程中,明确用户询问主体后,以主体名称为关键词,基于热点问题库精确检索出该主体相关的热点问题,按不同时间段排序,分别选取不同时间段中排名第一的问题作为问题推荐列表RQ2,若检索为空,则RQ2返回空列表。
进一步地,所述步骤2还具体包括:
基于知识图谱的生成问题推荐:明确用户关注实体后,基于现有的知识图谱库,查询知识图谱库中是否包含实体信息;若无,则问题推荐列表RQ3返回空;若知识图谱库中有实体信息,则将用户关注实体关联至图谱节点,查询以该图谱节点为中心的所有相关联的三元组信息;利用基于BERT预训练模型,以三元组信息和用户关注实体为输入,模型将输出以用户关注实体为问题主体的问题列表,将该问题列表作为推荐列表RQ3返回。
进一步地,所述步骤2还具体包括:
多轮交互过程中,最终基于用户关注实体推荐给用户的问题列表,设为RQ,RQ=RQ1+RQ2+RQ3,即基于历史问答库、热点问题库、知识图谱库共同为用户推荐相关问题;用户可选择***推荐的问题继续进行交互提问,***将返回答案;***返回答案后,多轮交互过程并未终止,用户仍可选择其他推荐问题进行提问,也可输入其他关键词或问题。
进一步地,所述步骤3包括:
将用户每轮对话保存,每轮对话的实体保存在对话实体库,对话实体库将随用户对话内容更新,当交互过程中,问句出现指代词时,问答***自动将代词替换为上一次问句出现的实体名称,再基于该问题检索答案;
当多轮对话过程中,问答***识别出无主语问句,***自动将对话实体库中最近一轮保存的实体作为该问句主语,利用知识图谱问答算法,返回问题答案;其中,知识图谱算法是通过将问题实体链接至知识图谱对应的相关节点上,问题关系链接至图谱的相关关系边,基于节点和关系边生成查询路径,从而检索出问题答案;
***在多轮对话过程中自动保存与用户的对话记录,当识别问句仅包含主语时,问答***将取历史问题库中最新问题,将问题实体替换为用户新输入主语,问题更新后,再调用知识图谱问答算法返回答案。
本发明还公开了一种基于知识图谱的多轮问答***,其包括:
实体推荐模块,用于将识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称;当用户输入关键词,问答***基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标;
实体的问题推荐模块,用于用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向;
答案检索模块,用于多轮交互对话中,针对用户提出的不同问题类型,问答***采用不同问答策略。
由于采用了上述技术方案,本发明具有如下的优点:
1.本发明较传统的知识图谱问答方法,提出了基于知识图谱的多轮交互问答方法,针对用户输入的关键词为用户推荐实体,逐步引导用户明确提问主体,最后返回用户关注内容,从而提升了问答***的召回率和有效性。
2.本发明提出了一种基于用户关注实体的问题推荐方法,分别从历史问答库、热点问题库、知识图谱库中,检索并生成用户关注实体相关的多类型问题,为用户推荐并返回答案,引导用户多轮交互,提升了用户使用体验。
3.本发明提出的多轮交互问答方法具备兼容性,既具备多轮问答能力同时具备单轮问答能力,在多轮交互的任何阶段不会影响单轮问答功能,即用户可在交互的任何环节输入完整问题,在有答案的前提下,***具备返回问题答案的能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于知识图谱的多轮交互问答流程图;
图2为本发明实施例的用户关注实体推荐流程示意图;
图3为本发明实施例的基于用户关注实体的问题推荐流程示意图。
具体实施方式
结合附图和实施例对本发明作进一步说明,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
参见图1,本发明提供了一种基于知识图谱的多轮问答方法的实施例,其主要分为三个过程:用户关注实体推荐、基于用户关注实体的问题推荐、多轮交互答案检索。
用户关注实体推荐:通过识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称,当用户输入关键词,问答***能基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标。
基于用户关注实体的问题推荐包括基于历史问答库、热点问题库和知识图谱的问题推荐,根据用户关注实体分别在历史问答库与热点问题库中精确检索,返回该实体相关的用户历史提问和热点问题作为问题推荐;基于知识图谱的问题推荐是将用户关注的实体关联至知识图谱中某个节点,检索该节点相关三元组,利用模型生成用户关注的多类型问题作为推荐;逐步引导用户细化明确提问意图。
多轮交互答案检索是针对不同类型的追问问题提供了不同的问题转换策略,通过代词替换、问题主语替换等方法将追问问题转换为完整问句,再利用知识图谱问答算法检索答案,实现与用户的多轮交互问答。
针对每个过程具体阐述如下:
S1.用户关注实体推荐。
参阅图2,针对用户输入非完整问句或个别关键词时,提出了基于关键词为用户推荐相关实体,通过交互问答逐步补全问题确实要素,明确用户询问主体以及询问意图。具体步骤包括:
S11:针对用户输入的字符串S,首先从字符串S的长度和字符串S是否包含实体以及实体关系,判断字符串S是否为完整问句;若字符串S包含实体以及实体关系,则字符串S为完整问句,问答***直接调用知识图谱问答算法返回答案;若字符串S非完整问句,则需对字符串S进行关键词切分和实体识别处理;通常用户提问以空格、顿号等特殊符号间隔不同关键词,如“中秋节嫦娥月饼”,因此需根据特殊符号划分不同关键词,S可能划分为s1,s2,s3;再调用命名实体识别算法识别出关键词包含的实体ner1,ner2,ner3;
S12:基于S11返回的多个实体,通过知识图谱数据为用户推荐关注的实体。遍历知识图谱实体节点nodei,分别与各实体进行相似比对,利用基于BERT模型将图谱节点nodei和实体nerj,j∈(1,2,3)向量化表示,向量化结果分别为x={x1,...,xn}和y={y1,...,yn},再选择合适的相似计算方法度量向量间相似值,可选的文本向量相似度计算方法有:
余弦相似度:
欧式距离:
皮尔逊相关系数:
S13:将S12所有遍历的相似结果进行排序,人工设置相似阈值,筛选出与实体ner1,er2,er3相似值大于阈值的所有节点,并取top10个节点名称作为用户关注实体返回,若节点数量不足10个,则全部返回。
S14:S13返回的top10节点名称是与用户输入内容相关的实体,***将其作为用户关注实体推荐,让用户明确询问主体;用户可选择对返回的实体继续进行多轮交互提问,也可输入其他关键词或完整问题进行提问;若输入其他关键词,问答***将继续推荐相关实体;若输入完整问题,***可直接返回问题答案。
S2.基于用户关注实体的问题推荐。
用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向。参阅图3,具体步骤如下。
S21:基于历史问答库推荐问题。问答***将记录所有用户与***交互对话过程,包括用户ID、提问时间、用户提问内容、***返回答案,以及用户反馈修改等信息;***将有答案或用户反馈修改后的问题答案对保存于历史问答库中,支持用户ID检索、关键词检索、时间检索等。用户历史问答库记录了用户常询问方向、感兴趣内容或目标,因此,多轮交互过程中,以用户ID和用户关注实体名称作为关键词对历史问答库进行精确检索并按相似性排序,将检索的问题取top2作为问题推荐列表RQ1,若检索为空,则RQ1返回空列表。
S22:基于热点问题库推荐。问答***针对问题,按时间段包括近一周、近一个月、近三个月统计出用户提问频率较高的问题作为热点问题,保存于热点问题库中,热点问题库能反映出用户近期关注内容。在交互对话过程中,明确了用户询问主体后,以主体名称为关键词,基于热点问题库精确检索出该主体相关的热点问题,按不同时间段排序,分别取近一周、近一个月、近三个月top1的问题作为问题推荐列表RQ2,若检索为空,则RQ2返回空列表。
S23:基于知识图谱的生成问题推荐。明确用户关注实体后,可基于现有的知识图谱库,查询知识图谱库中是否包含该实体信息;若无,则问题推荐列表RQ3返回空;若知识图谱库中有该实体信息,则将用户关注实体关联至图谱节点,查询以该图谱节点为中心的所有相关联的三元组信息;利用基于BERT预训练模型,以三元组信息和用户关注实体为输入,模型将输出以用户关注实体为问题主体的问题列表,将该问题列表作为推荐列表RQ3返回;
S24:多轮交互过程中,最终基于用户关注实体推荐给用户的问题列表,设为RQ,RQ=RQ1+RQ2+RQ3,即基于历史问答库、热点问题库、知识图谱库共同为用户推荐相关问题。用户可选择***推荐的问题继续进行交互提问,***将返回答案;***返回答案后,多轮交互过程并未终止,用户仍可选择其他推荐问题进行提问,也可输入其他关键词或问题。***并不以返回问题答案作为交互问答的终止标志,而是由用户决定,可选择在任何环节终止交互对话。
S3.多轮交互答案检索。
多轮交互对话中,用户为获取或了解更多信息,常对问题进行追问,追问问句通常不完整,缺乏主体、主体关系或包含代词等,需根据多轮交互对话场景将问题补充完整,才能检索答案,因此,总结了几类常追问的问题类型,问答***将针对不同问题类型,采用不同问答策略。
指代词追问是指问题主语是“它、他、她或他们”等人称指代词,其他结构完整的问句,如“他毕业于哪所学校?”,“它是哪个厂商生产的?”等。在多轮交互对话场景中,包含指代词的追问需结合对话语境,将指代词替换为用户询问主体,即是完整问句。因此,将用户每轮对话保存,每轮对话的实体保存在对话实体库,对话实体库将随用户对话内容更新,当交互过程中,问句出现指代词时,问答***自动将代词替换为上一次问句出现的实体名称,再基于该问题检索答案。例如,用户第一轮提问:“小王的工作单位?”,***返回答案后,用户第二轮提问:“他毕业于哪所学校?”,问答***会将“他”替换为“小王”,即“小王毕业于哪所学校?”,再将该完整问题调用知识图谱问答算法,返回答案;知识图谱算法是通过将问题实体链接至知识图谱对应的相关节点上,问题关系链接至图谱的相关关系边,基于节点和关系边生成查询路径,从而检索出问题答案。
无主语追问是指不包含主语,仅包含谓词或宾语的问句,如“有什么活动特点?”、“什么原因造成?”等。无主语追问语句于指代次追问语句相同,在具体对话场景中,无主语追问的问句主体是***与用户交互对话上一轮或开始对话提及的主体。因此,当多轮对话过程中,问答***识别出无主语问句,***自动将对话实体库中最近一轮保存的实体作为该问句主语,利用知识图谱问答算法,返回问题答案。例如,用户第一轮提问“沙尘暴形成的原因是什么?”,***返回答案,用户第二轮提问:“发生在什么季节?”,此时,问答***将对话实体库中最新实体“沙尘暴”作为主语补充,以问题“沙尘暴发生在什么季节?”在知识图谱库中检索答案,最终返回。
主语追问是指仅包含主语,不包含谓词或宾语的问句,如“张三呢?”,“2022年呢?”等。在多轮交互对话中,问句仅只有主语的场景,通常是用户在上一轮提问时,问句是完整句子,本轮提问,用户想要询问另一主体的同样情况。因此,***在多轮对话过程中自动保存与用户的对话记录,当识别问句仅包含主语时,问答***将取历史问题库中最新问题,将问题实体替换为用户新输入主语,问题更新后,再调用知识图谱问答算法返回答案。例如,用户第一轮提问:“2022年国庆假期放几天?”,问答***返回答案后,用户第二轮提问:“2023年呢?”,当出现仅主语追问问句时,问答***将自动取历史问题库最新的问题,即“2022年国庆假期放几天?”,将问题主语“2022年”替换为“2023年”,问题更新为“2023年国庆假期放几天?”,调用图谱问答算法,返回答案。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于知识图谱的多轮问答方法,其特征在于,包括:
步骤1:将识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称;当用户输入关键词,问答***基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标;
步骤2:用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向;
步骤3:多轮交互对话中,针对用户提出的不同问题类型,问答***采用不同问答策略。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤11:针对用户输入的字符串S,问答***直接调用知识图谱问答算法返回答案;或者,对字符串S进行关键词切分和实体识别处理;
步骤12:基于步骤11返回的多个实体,通过知识图谱数据为用户推荐关注的实体;遍历知识图谱实体节点nodei,分别与各实体进行相似比对,利用基于BERT模型将图谱节点nodei和实体nerj,j∈(1,2,3)向量化表示,向量化结果分别为x={x1,...,xn}和y={y1,...,yn},再选择相似计算方法度量向量间相似值;
步骤13:将步骤12所有遍历的相似结果进行排序,筛选出与实体ner1,ner2,ner3相似值大于预设阈值的所有节点,并取前K个节点名称作为用户关注实体返回,若节点数量不足K个,则全部返回;
步骤14:步骤13返回的前K个节点名称是与用户输入内容相关的实体,***将其作为用户关注实体推荐,让用户明确询问主体;用户可选择对返回的实体继续进行多轮交互提问,也可输入其他关键词或完整问题进行提问;若输入其他关键词,问答***将继续推荐相关实体;若输入完整问题,***可直接返回问题答案。
3.根据权利要求2所述的方法,其特征在于,所述步骤11包括:
针对用户输入的字符串S,首先从字符串S的长度,字符串S是否包含实体,以及实体关系判断字符串S是否为完整问句,若字符串S包含实体以及实体关系,则S为完整问句,问答***直接调用知识图谱问答算法返回答案;若字符串S为非完整问句,则对字符串S进行关键词切分和实体识别处理;
当用户提问以特殊符号间隔不同关键词时,根据特殊符号划分不同关键词,字符串S可能划分为s1,s2,s3;再调用命名实体识别算法识别出关键词包含的实体ner1,ner2,ner3;特殊符号包括空格和顿号。
4.根据权利要求1所述的方法,其特征在于,所述步骤2包括:
基于用户关注实体的问题推荐包括基于历史问答库、热点问题库和知识图谱的问题推荐;根据用户关注实体分别在历史问答库与热点问题库中精确检索,返回该实体相关的用户历史提问和热点问题作为问题推荐;基于知识图谱的问题推荐是将用户关注的实体关联至知识图谱中某个节点,检索该节点相关三元组,利用模型生成用户关注的多类型问题作为推荐;逐步引导用户细化明确提问意图。
5.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
基于历史问答库推荐问题:问答***将记录所有用户与***交互对话过程,包括用户ID、提问时间、用户提问内容、***返回答案以及用户反馈修改;
***将有答案或用户反馈修改后的问题答案对保存于历史问答库中;用户历史问答库记录用户常询问方向、感兴趣内容或目标,多轮交互过程中,以用户ID和用户关注实体名称作为关键词对历史问答库进行精确检索并按相似性排序,从检索的问题中选取前L个作为问题推荐列表RQ1,若检索为空,则RQ1返回空列表。
6.根据权利要求5所述的方法,其特征在于,所述步骤2还具体包括:
基于热点问题库推荐:问答***针对问题,按不同时间段,将用户提问频率较高的问题作为热点问题,保存于热点问题库中;热点问题库能反映出用户近期关注内容;在交互对话过程中,明确用户询问主体后,以主体名称为关键词,基于热点问题库精确检索出该主体相关的热点问题,按不同时间段排序,分别选取不同时间段中排名第一的问题作为问题推荐列表RQ2,若检索为空,则RQ2返回空列表。
7.根据权利要求6所述的方法,其特征在于,所述步骤2还具体包括:
基于知识图谱的生成问题推荐:明确用户关注实体后,基于现有的知识图谱库,查询知识图谱库中是否包含实体信息;若无,则问题推荐列表RQ3返回空;若知识图谱库中有实体信息,则将用户关注实体关联至图谱节点,查询以该图谱节点为中心的所有相关联的三元组信息;利用基于BERT预训练模型,以三元组信息和用户关注实体为输入,模型将输出以用户关注实体为问题主体的问题列表,将该问题列表作为推荐列表RQ3返回。
8.根据权利要求7所述的方法,其特征在于,所述步骤2还具体包括:
多轮交互过程中,最终基于用户关注实体推荐给用户的问题列表,设为RQ,RQ=RQ1+RQ2+RQ3,即基于历史问答库、热点问题库、知识图谱库共同为用户推荐相关问题;用户可选择***推荐的问题继续进行交互提问,***将返回答案;***返回答案后,多轮交互过程并未终止,用户仍可选择其他推荐问题进行提问,也可输入其他关键词或问题。
9.根据权利要求8所述的方法,其特征在于,所述步骤3包括:
将用户每轮对话保存,每轮对话的实体保存在对话实体库,对话实体库将随用户对话内容更新,当交互过程中,问句出现指代词时,问答***自动将代词替换为上一次问句出现的实体名称,再基于该问题检索答案;
当多轮对话过程中,问答***识别出无主语问句,***自动将对话实体库中最近一轮保存的实体作为该问句主语,利用知识图谱问答算法,返回问题答案;其中,知识图谱算法是通过将问题实体链接至知识图谱对应的相关节点上,问题关系链接至图谱的相关关系边,基于节点和关系边生成查询路径,从而检索出问题答案;
***在多轮对话过程中自动保存与用户的对话记录,当识别问句仅包含主语时,问答***将取历史问题库中最新问题,将问题实体替换为用户新输入主语,问题更新后,再调用知识图谱问答算法返回答案。
10.一种基于知识图谱的多轮问答***,其特征在于,包括:
实体推荐模块,用于将识别用户输入的实体与知识图谱实体节点进行语义相似比对,返回最相似的节点名称;当用户输入关键词,问答***基于知识图谱库为用户推荐实体,引导用户选择感兴趣目标;
实体的问题推荐模块,用于用户与***多轮交互过程中,用户明确了关注的实体后,问答***将基于历史问答库、知识图谱库为用户推荐实体相关问题,辅助用户进一步明确提问意图和方向;
答案检索模块,用于多轮交互对话中,针对用户提出的不同问题类型,问答***采用不同问答策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244745.8A CN117271799A (zh) | 2023-09-25 | 2023-09-25 | 一种基于知识图谱的多轮问答方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244745.8A CN117271799A (zh) | 2023-09-25 | 2023-09-25 | 一种基于知识图谱的多轮问答方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117271799A true CN117271799A (zh) | 2023-12-22 |
Family
ID=89211802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311244745.8A Pending CN117271799A (zh) | 2023-09-25 | 2023-09-25 | 一种基于知识图谱的多轮问答方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271799A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725190A (zh) * | 2024-02-18 | 2024-03-19 | 粤港澳大湾区数字经济研究院(福田) | 基于大语言模型的多轮问答方法、***、终端及存储介质 |
CN118036756A (zh) * | 2024-04-15 | 2024-05-14 | 北京网智天元大数据科技有限公司 | 大模型多轮对话的方法、装置、计算机设备及存储介质 |
-
2023
- 2023-09-25 CN CN202311244745.8A patent/CN117271799A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725190A (zh) * | 2024-02-18 | 2024-03-19 | 粤港澳大湾区数字经济研究院(福田) | 基于大语言模型的多轮问答方法、***、终端及存储介质 |
CN117725190B (zh) * | 2024-02-18 | 2024-06-04 | 粤港澳大湾区数字经济研究院(福田) | 基于大语言模型的多轮问答方法、***、终端及存储介质 |
CN118036756A (zh) * | 2024-04-15 | 2024-05-14 | 北京网智天元大数据科技有限公司 | 大模型多轮对话的方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和*** | |
US7260567B2 (en) | Navigation in a hierarchical structured transaction processing system | |
CN117271799A (zh) | 一种基于知识图谱的多轮问答方法及*** | |
CN112163077B (zh) | 一种面向领域问答的知识图谱构建方法 | |
US6374275B2 (en) | System, method, and media for intelligent selection of searching terms in a keyboardless entry environment | |
US20080294628A1 (en) | Ontology-content-based filtering method for personalized newspapers | |
US20100191758A1 (en) | System and method for improved search relevance using proximity boosting | |
US20110301941A1 (en) | Natural language processing method and system | |
US20100318537A1 (en) | Providing knowledge content to users | |
KR20050036541A (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN111353013A (zh) | 一种智能投顾的实现方法及*** | |
CN116244344A (zh) | 基于用户需求的检索方法、装置以及电子设备 | |
CN112069783A (zh) | 一种病历输入法及其输入*** | |
CN111340555B (zh) | 基于法律领域用户画像模型的建议决策***及方法 | |
CN114860916A (zh) | 知识检索方法及装置 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN116340497A (zh) | 基于文本检索和阅读理解技术的智能对话机器人*** | |
CN117668182A (zh) | 融合知识图谱和大语言模型的规范智能问答方法及*** | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
Bargui et al. | A natural language-based approach for a semi-automatic data mart design and ETL generation | |
CN110321351A (zh) | 一种基于模糊匹配的厂家名称规范方法 | |
CN113407688B (zh) | 一种基于知识图谱的勘察规范智能问答***的建立方法 | |
CN114595305A (zh) | 基于语义索引的意图识别方法 | |
CN114077834A (zh) | 确定相似文本的方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |