CN117609419A - 基于元学习与知识增强的领域检索方法 - Google Patents

基于元学习与知识增强的领域检索方法 Download PDF

Info

Publication number
CN117609419A
CN117609419A CN202311725074.7A CN202311725074A CN117609419A CN 117609419 A CN117609419 A CN 117609419A CN 202311725074 A CN202311725074 A CN 202311725074A CN 117609419 A CN117609419 A CN 117609419A
Authority
CN
China
Prior art keywords
text
question
vector
keyword extraction
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311725074.7A
Other languages
English (en)
Inventor
杨瀚
邓宏杰
温序铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobey Digital Technology Co Ltd
Original Assignee
Chengdu Sobey Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobey Digital Technology Co Ltd filed Critical Chengdu Sobey Digital Technology Co Ltd
Priority to CN202311725074.7A priority Critical patent/CN117609419A/zh
Publication of CN117609419A publication Critical patent/CN117609419A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于元学习与知识增强的领域检索方法,包括:S1、获取某一知识领域的语料库数据,构建该知识领域下的文本匹配三元组数据集和关键词抽取数据集;S2、利用预训练模型构建并训练关键词抽取模型和文本向量模型;S3、对待分析文档进行目录解析,生成三种维度的结构化问答文本对,并存储在数据库中;S4、输入用户问题后,通过训练好的关键词抽取模型和文本向量模型实现用户问题与数据库中问答文本对的精准匹配,得到问答检索结果。本发明能够应用于不同的知识领域中,实现高效且低资源的文本向量模型训练以及精准的用户问答匹配,为特定领域知识整理、知识问答库建立、解决方案提供等多个实际应用提供了科学有效的技术方案。

Description

基于元学习与知识增强的领域检索方法
技术领域
本发明涉及知识问答领域,特别涉及一种基于元学习与知识增强的领域检索方法。
背景技术
近年来,随着互联网的快速发展,信息数量呈现***式增长。为了更高效地检索和利用这些海量信息,检索方法成为一项重要的背景技术。
传统的检索方法主要基于关键词匹配,用户输入关键词,***返回与之相关的文档。但是,这种方法存在一定的局限性。首先,它很难准确理解用户的意图,因为用户往往会使用不同的关键词来描述同一概念。其次,关键词匹配无法处理文档中的语义信息,因此返回的结果可能不够准确。此外,在某些特定领域上纯靠关键词匹配所呈现的效果往往不能达到预期。
发明内容
针对现有技术中存在的问题,提供了基于元学习与知识增强的领域检索方法,将文本转换为高维向量表示,并通过计算向量之间的相似度来确定文本之间的语义关系。通过将用户查询和文档转换为向量表示,可以实现更准确的语义匹配,提高检索的准确性和效率,从而更好地理解用户的查询意图,并提供更精确的检索结果。为特定领域知识整理、知识问答库建立、解决方案提供等多个实际应用提供了科学有效的技术方案。
本发明采用的技术方案如下:基于元学习与知识增强的领域检索方法,包括:
步骤S1、获取某一知识领域的语料库数据,并标注待分析文档的文本匹配信息和关键词信息,构建该知识领域下的文本匹配三元组数据集和关键词抽取数据集;
步骤S2、利用预训练模型构建并训练关键词抽取模型和文本向量模型;
步骤S3、对待分析文档进行目录解析,生成句级别、标题级别和分点级别的三种维度结构化问答文本对,并存储在数据库中;
步骤S4、输入用户问题后,通过训练好的关键词抽取模型和文本向量模型实现用户问题与数据库中问答文本对的精准匹配,得到问答检索结果。
进一步的,所述步骤S1中,构建某一知识领域下的文本匹配三元组数据集和关键词抽取数据集的具体子步骤包括:
步骤S1.1、整合某一知识领域下的文档,解析文档信息,将文档中的文本按句号进行切分,构建句级别语料库;
步骤S1.2、计算句级别语料库中每条文本的向量值,以及该条文本与其他文本的余弦相似度,并从余弦相似度得分中排名前n的文本中选择一条作为该条文本的正样本,从余弦相似度得分中排名后n的文本中选择一条作为该条文本的负样本,由该文本本身与该文本的正样本和负样本构成文本匹配三元组数据,汇总所有文本匹配三元组数据形成文本匹配三元组数据集;
步骤S1.3、赋予每条文本的每个字标签,标签包括关键词开始位置、中间/结束位置和非关键词位置,形成由字和对应标签组成的文本的关键词抽取数据,汇总并所有文本的关键词抽取数据形成关键词抽取数据集。
进一步的,所述步骤S2中,关键词抽取模型构建与训练过程包括:
步骤S2.1.1、构建关键词抽取模型,所述关键词抽取模型包括依次串联的文本嵌入层、文本编码层、特征提取层和关键词抽取层;
步骤S2.1.2、获取关键词抽取数据集中的关键词抽取数据,将关键词抽取数据中的字拼接为文本序列后,并转换为字符序列;
步骤S2.1.3、将字符序列输入文本嵌入层,得到字符序列的嵌入表示;
步骤S2.1.4、将嵌入表示输入文本编码层,对嵌入表示进行建模获得其隐层表示;
步骤S2.1.5、在特征提取层中采用BiLSTM对隐层表示进行特征提取,得到文本序列的上下文编码;
步骤S2.1.6、获取关键词抽取数据集中的关键词抽取数据,将关键词抽取数据中的标签拼接为标签序列,并基于对应的文本序列的上下文编码得到发射概率和转移矩阵,构建得分函数计算文本序列标签的对应得分,再使用softmax函数计算输出预测的标签序列的概率;
步骤S2.1.7、根据步骤S2.1.6得到的概率,采用其负对数似然函数作为损失函数对关键词抽取模型进行训练。
进一步的,所述步骤S2.1.5的具体步骤包括:
步骤S2.1.5.1、获取隐层向量表示中的第i个隐层向量及其前一个和后一个位置的隐层向量,定义第一权重矩阵、第二权重矩阵和第一偏置,通过Sigmoid函数计算得到当前位置i的字符在语义空间左侧和右侧的特征信息;
步骤S2.1.5.2、定义第三权重矩阵和第二偏置,通过Tanh函数对获得的语义空间左侧和右侧的特征信息进行非线性变换,得到当前位置i的字符在语义空间左侧和右侧的隐层特征并拼接为最终的特征向量,即文本序列中第i个字的上下文编码;对所有隐层向量重复该过程得到文本序列的上下文编码。
进一步的,所述步骤S2中,文本向量模型基于Roberta模型构建,将Roberta模型作为一个共享编码器,并采用三元组差异判断和文本一致性判断两个子任务对文本向量模型进行训练。
进一步的,所述步骤S2中,三元组差异判断任务的训练过程包括:
步骤S2.2.1、基于训练好的关键词抽取模型,对三元组数据中文本关键词进行抽取,基于此将句级别和词级别的文本信息进行拼接得到原始文本及其相似文本和不相似文本;
步骤S2.2.2、获取原始文本及其相似文本和不相似文本对应的文本向量,并建立三元组损失,通过三元组损失对文本向量模型参数进行优化训练。
进一步的,所述步骤S2中,文本一致性判断任务的训练过程包括:
步骤S2.3.1、基于现有的自然语言推理数据集,获取每一条数据的文本对,并生成文本对的文本向量,再计算文本对文本向量之间的余弦相似度;
步骤S2.3.2、基于余弦相似度建立均方误差损失,并通过均方误差损失对文本向量模型参数进行优化训练。
进一步的,所述步骤S3的具体子步骤包括:
步骤S3.1、对待分析文档中的文本格式进行解析,获取每一段文本对应设置的字体大小、颜色、加粗/倾斜信息,以此区分文档的正文与标题,并解析出标题的层级结构,生成文档目录;
步骤S3.2、根据文档目录,结合文档内容生成具有层级结构的标题-段落数据;
步骤S3.3、基于标题-段落数据,将文档内容按照句号进行切分为文本句并赋予id,并结合所属标题的信息生成句级别的结构化数据;
步骤S3.4、基于标题-段落数据,生成标题级别的结构化数据;
步骤S3.5、基于标题-段落数据,抽取出文档内容中包含分点阐述的文本片段,并对文本片段的内容进行总结归纳,得到相应的片段主题,生成分点级别的结构化数据;
步骤S3.6、对句级别的结构化数据、标题级别的结构化数据以及分点级别的结构化数据进行格式统一;
步骤S3.7、按问题和答案两种形式对格式统一后的结构化数据进行划分,形成的结构化问答文本对;其中,问题形式的结构化数据包括问题id和问题,答案形式的结构化数据包括问题id、文本内容、当前文本的上级标题id、句级别/子标题id;
步骤S3.8、利用训练好的检索模型对问题形式的结构化数据生成对应的文本向量,并和id信息一起存入向量数据库中;将答案形式的结构化数据存入关系数据库中。
进一步的,所述步骤S4的具体子步骤包括:
步骤S4.1、通过关键词抽取模型获取用户问题中的关键词,并与用户问题进行拼接,再使用文本向量模型生成文本向量,并与向量数据库中的存储的文本向量遍历计算内积并从大到小排序;
步骤S4.2、计算用户问题的文本向量与计算得到的内积排名前n的文本向量之间的余弦相似度,再重新进行排序,选择余弦相似度排名前n的问题形式的结构化数据作为候选问题;
步骤S4.3、基于候选问题对应的id,获取其在关系数据库中相应的答案形式的结构化数据,若候选问题的当前文本的上级标题id为空列表时,其与用户问题的问题匹配得分即为两者的余弦相似度得分;若候选问题的当前文本的上级标题id不为空列表时,在关系数据库中查询候选问题id等于当前文本的上级标题id时的上级问题,并计算上级问题与用户问题的余弦相似度得分/>,将余弦相似度得分/>与余弦相似度得分进行加权求和作为候选问题与用户问题的问题匹配得分;
步骤S4.4、获取所有候选问题与用户问题的问题匹配得分,并按从大到小进行排序,选取的排名第一所对应的候选问题作为真实匹配问题,并根据对应的id在关系数据库中获取匹配的答案;基于真实匹配问题,若对应的句级别/子标题id不为空列表,则最终答案即为关系数据库中获取的答案,若对应的句级别/子标题id为空列表,则获取的真实匹配问题对应id在所有文本句id的列表中的位置,在关系数据库中查询并获取该id-1位置的问题文本、该id位置的问题文本以及id+1位置的问题文本,并依次拼接得到最终答案;
步骤S4.1、将最终答案作为用户问题的匹配***给用户。
进一步的,所述步骤S2.2.2中,三元组损失具体为:
其中,为原始文本的文本向量、/>为相似文本的文本向量、/>为不相似文本的文本向量,/>表示原始文本的文本向量与相似文本的文本向量的距离,/>表示原始文本的文本向量与不相似文本的文本向量的距离,n表示文本序列长度,/>为边界距离。
与现有技术相比,采用上述技术方案的有益效果为:本发明能够应用于不同的知识领域中,实现高效且低资源的文本向量模型训练以及精准的用户问答匹配,为特定领域知识整理、知识问答库建立、解决方案提供等多个实际应用提供了科学有效的技术方案等。
附图说明
图1为本发明实施例中基于元学习与知识增强的领域检索方法流程框架图。
图2为本发明实施例中关键词抽取模型结构示意图。
图3为本发明实施例中利用关键词抽取模型和文本向量模型进行知识增强的文本向量生成过程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
为了解决传统方法中在某些特定领域上纯靠关键词匹配所呈现的效果往往不能达到预期的问题,提供了基于元学习与知识增强的领域检索方法,将文本转换为高维向量表示,并通过计算向量之间的相似度来确定文本之间的语义关系。通过将用户查询和文档转换为向量表示,可以实现更准确的语义匹配,提高检索的准确性和效率,从而更好地理解用户的查询意图,并提供更精确的检索结果。为特定领域知识整理、知识问答库建立、解决方案提供等多个实际应用提供了科学有效的技术方案。具体方案如下:
请参考图1~图3,本实施例中实施例提出了基于元学习与知识增强的领域检索方法,包括步骤:
步骤S1、收集某一特定知识领域的语料库数据,标注待分析文档的文本匹配信息和关键词信息,构建该知识领域下的文本匹配三元组数据集和关键词抽取数据集;
步骤S2、利用预训练模型构建并训练关键词抽取模型和文本向量模型;
步骤S3、将待分析文档进行目录解析,生成句级别、标题级别和分点级别的三种维度的结构化问答文本对,存储于向量数据库与关系数据库中;
步骤S4、利用训练好的知识领域下的关键词抽取模型和文本向量模型实现用户问题与构建的数据库中问答文本对的精准匹配,获取问答检索结果。
具体的,在步骤S1中,构建某一知识领域下的文本匹配三元组数据集和关键词抽取数据集包括如下步骤:
步骤S1.1、整合某一知识领域下的期刊论文、新闻报道等文档,解析文档信息,将文档中的文本按照句号进行切分,以此构建句级别语料库;
步骤S1.2、通过通用文本向量生成模型,计算步骤S1.1构建的句级别语料库中每一条文本的向量值;后续进行内部检索,即遍历计算文本余弦相似度,随机从余弦相似度得分排名Top-n的文本以及余弦相似度得分排名后n的文本中选择一条分别作为/>的正样本/>和负样本/>;其次,如果/>和/>中的关键词存在近义词,则进行随机替换,以此生成文本匹配三元组数据/>
汇总并构建文本匹配三元组数据集
步骤S1.3、根据语料库文本内容,利用序列标注工具对文本的每一个字/>赋予标签/>,/>包含B、I、O三个类型,分别表示关键词开始位置、中间/结束位置和非关键词位置,获取/>中的关键词信息,其中n为文本序列长度,以此生成关键词抽取数据
汇总并构建关键词抽取数据集
在一个实施例中,如图2所示,关键词抽取模型串联顺序包括:文本嵌入层、文本编码层、特征提取层和关键词抽取层。
在一个优选实施例中,关键词抽取模型中的文本嵌入层、文本编码层基于Roberta模型。
本实施例中提供了关键词抽取模型的训练方法,具体如下:
A1、获取步骤S1.3构建的关键词抽取数据集中的/>,将/>并进行拼接为文本序列/>,通过tokenizer得到字符序列/>,其中n为文本序列长度;
A2、将A1生成的字符序列经过文本嵌入层,获得/>的嵌入表示/>
A3、将A2生成的嵌入表示经过文本编码层,对嵌入表示/>进行建模获得序列的隐层表示/>,/>展开形式为/>,其中,/>表示文本序列/>中第i个位置的隐层向量;
A4、特征提取层采用BiLSTM对A3生成的文本隐层表示进行特征提取。
在本实施例中,BiLSTM由两个LSTM层组成:
具体提取过程包括:首先获取以及它前一个和后一个位置的隐层向量/>,定义权重矩阵/>、/>与偏置/>,将它们通过Sigmoid函数计算得到当前位置i的字符在语义空间上的特征信息/>、/>;后续定义权重矩阵/>与偏置/>,使用Tanh函数对/>、/>进行非线性变换;获得两者的隐层特征/>、/>并拼接为最终的特征向量/>,/>表示在文本序列中第i个字的上下文编码,最终文本序列的整体上下文编码/>为/>
A5、在关键词抽取层中,获取步骤S1.3关键词抽取数据集中的/>中的/>并进行拼接为标签序列/>,后续基于A4的上下文编码/>得到发射概率P和转移矩阵/>,并定义一个得分函数S计算文本序列标签的对应得分,其中/>为预测得到的标签序列/>,/>代表/>转移到/>的分数,表示文本序列/>中第i个字符/>预测为标签/>的概率:
然后使用Softmax函数计算输出标签序列的概率,其中/>为所有可能的标签序列集合:
A6、采用负对数似然函数作为损失函数对模型进行训练:
在一个实施例中,文本向量模型基于Roberta模型,将Roberta模型作为一个共享编码器,以此来获取特定知识领域下的文本特定信息。
本实施例中基于元学习思想采用三元组差异判断和文本一致性判断两个子任务对文本向量模型进行训练。
具体的,三元组差异判断任务的训练过程包括如下步骤:
B1、基于训练好的关键词抽取模型,对三元组数据中文本关键词进行抽取,将句级别和词级别的文本信息进行拼接为、/>、/>,以此来增强文本语义信息,其中/>、/>、/>分别代表原始文本以及它对应的相似文本、不相似文本,/>、/>分别代表从以上文本抽取出的关键词组,其中/>表示将给定的文本信息按照顺序拼接为一个整体文本,/>为一个特殊的分隔符号:
例如:concatenate(‘你’, [sep],‘我’)得到的结果为’你[sep]我’。
B2、获取、/>、/>的文本向量/>、/>、/>,为了拉近/>的距离的同时推离/>和/>的距离,即/>,采用三元组损失/>对模型参数进行优化,其中margin为边界距离。/>中是通过L2范数来计算向量距离,即函数/>
相对应的,文本一致性判别任务的训练过程包括如下步骤:
C1、基于现有的自然语言推理数据集,获取每一条数据中的文本对,生成文本向量/>、/>;通过函数/>计算/>、/>之间的余弦相似度/>,并进行归一化处理为/>
)
C2、鉴于的标签/>为0/1且/>,采用均方误差损失对模型参数进行优化:
步骤S3中,将待分析的文档数据进行目录解析,生成三种维度的结构化问答文本对,存储于向量数据库中包括如下步骤:
步骤S3.1、对待分析文档中的文本格式进行解析,获取每一段文本对应设置的字体大小、颜色、加粗/倾斜信息,根据以上信息区分文档的正文与标题,并解析出标题的层级结构,自动化生成文档目录;
步骤S3.2、基于步骤S3.1得到的文档目录,结合文档内容生成具有层级结构的标题-段落数据M,每一个标题以及其对应的内容表示为,其中,/>表示文档标题,/>表示该标题下的段落文本内容,/>为赋予/>的id,/>代表当前/>所在层级,从而使标题-段落对同时具备层级顺序以及文档排列顺序:
步骤S3.3、基于步骤S3.2生成的标题-段落数据,将按照句号进行切分为文本句并赋予id,同时结合/>所属的/>信息生成句级别的结构化数据S,每一句文本表示为/>。由于句级别数据的特殊性,其中/>和/>为同一文本,形式上与/>、/>相同。/>代表其当前文本所属的/>,/>为/>包含的所有文本句id的列表,且按照文本句在段落中的出现顺序进行排列,即/>]。
步骤S3.4、基于步骤S3.2得到的标题-段落数据,以此来生成标题级别的结构化数据]。其中/>和/>代表当前标题的上级标题id和同级标题id列表;如果当前/>为最下级标题,则/>为/>按照句号切分的句级别id列表,结构类同于S3.3中的;如果当前/>存在子标题,则/>代表其子标题id列表。
步骤S3.5、基于步骤S3.2的标题-段落数据,抽取出中包含了分点阐述的文本片段/>;使用并对/>的内容进行总结归纳,得到相应的片段主题/>并赋予id,生成分点级别的结构化数据/>。其中/>和/>代表当前主题的上级标题id和同级主题id列表,为/>按照句号切分的句级别id列表,结构类同于S3.3中的/>,且被包含于/>中。
步骤S3.6、汇总步骤S3.3、步骤S3.4、步骤S3.5所构建的三种级别的结构化数据并将其格式进行统一为。考虑到句级别的结构化数据不存在/>,故置为空列表。
步骤S3.7、将步骤S3.6中的结构化数据划分为问题、答案/>两种形式,即/>和/>。前者使用训练好的检索模型对/>生成文本向量/>,并和/>一起存储到向量数据库中;后者存储到关系数据库中。
在步骤S4中,利用训练好的特定知识领域下的关键词抽取模型和文本向量模型实现用户问题与构建的数据库中问答文本对的精准匹配,获取问答检索结果,包括如下步骤:
步骤S4.1、基于用户提出的问题,通过关键词抽取模型获取其中存在的关键词,并与/>文本进行拼接,后续使用文本向量模型生成文本向量,与向量数据库中的/>遍历计算内积并从大到小进行排序;再次计算/>与内积排名Top-n的/>之间的余弦相似度,进行重排序;选择余弦相似度排名Top-n的/>作为候选问题;
步骤S4.2、基于步骤S4.1得到的候选问题所对应的/>,获取它在关系数据库中相应的/>、/>和/>。当/>的/>为空列表时,其与/>的问题匹配得分即为两者的余弦相似度得分/>;当/>的/>不为空列表时,在关系数据库中查询/>为/>时的问题/>,并计算与/>的余弦相似度/>,将/>与/>进行加权求和作为/>与/>的问题匹配得分;
步骤S4.3、基于步骤S4.2得到问题匹配得分{},将其按照从大到小进行排序,选取得分排名第一所对应的/>作为真实匹配问题,并根据它所对应的/>在关系数据库中获取匹配的/>。基于最终选择的/>,如果对应的/>不为空列表时,/>为关系数据库中匹配的/>;如果对应的为空列表时,则获取/>在/>中的实际位置i,在关系数据库中查询并拼接/>等于{/>}的/>文本形成/>。最终将/>作为用户问题的匹配***给用户。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中所述的基于元学习与知识增强的领域检索方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的基于元学习与知识增强的领域检索方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义;实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.基于元学习与知识增强的领域检索方法,其特征在于,包括:
步骤S1、获取某一知识领域的语料库数据,并标注待分析文档的文本匹配信息和关键词信息,构建该知识领域下的文本匹配三元组数据集和关键词抽取数据集;
步骤S2、利用预训练模型构建并训练关键词抽取模型和文本向量模型;
步骤S3、对待分析文档进行目录解析,生成句级别、标题级别和分点级别的三种维度的结构化问答文本对,并存储在数据库中;
步骤S4、输入用户问题后,通过训练好的关键词抽取模型和文本向量模型实现用户问题与数据库中问答文本对的精准匹配,得到问答检索结果。
2.根据权利要求1所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S1中,构建某一知识领域下的文本匹配三元组数据集和关键词抽取数据集的具体子步骤包括:
步骤S1.1、整合某一知识领域下的文档,解析文档信息,将文档中的文本按句号进行切分,构建句级别语料库;
步骤S1.2、计算句级别语料库中每条文本的向量值,以及该条文本与其他文本的余弦相似度,并从余弦相似度得分中排名前n的文本中选择一条作为该条文本的正样本,从余弦相似度得分中排名后n的文本中选择一条作为该条文本的负样本,由该文本本身与该文本的正样本和负样本构成文本匹配三元组数据,汇总所有文本匹配三元组数据形成文本匹配三元组数据集;
步骤S1.3、赋予每条文本的每个字标签,标签包括关键词开始位置、中间/结束位置和非关键词位置,形成由字和对应标签组成的文本的关键词抽取数据,汇总并所有文本的关键词抽取数据形成关键词抽取数据集。
3.根据权利要求2所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2中,关键词抽取模型构建与训练过程包括:
步骤S2.1.1、构建关键词抽取模型,所述关键词抽取模型包括依次串联的文本嵌入层、文本编码层、特征提取层和关键词抽取层;
步骤S2.1.2、获取关键词抽取数据集中的关键词抽取数据,将关键词抽取数据中的字拼接为文本序列后,并转换为字符序列;
步骤S2.1.3、将字符序列输入文本嵌入层,得到字符序列的嵌入表示;
步骤S2.1.4、将嵌入表示输入文本编码层,对嵌入表示进行建模获得其隐层表示;
步骤S2.1.5、在特征提取层中采用BiLSTM对隐层表示进行特征提取,得到文本序列的上下文编码;
步骤S2.1.6、获取关键词抽取数据集中的关键词抽取数据,将关键词抽取数据中的标签拼接为标签序列,并基于对应的文本序列的上下文编码得到发射概率和转移矩阵,构建得分函数计算文本序列标签的对应得分,再使用softmax函数计算输出预测的标签序列的概率;
步骤S2.1.7、根据步骤S2.1.6得到的概率,采用其负对数似然函数作为损失函数对关键词抽取模型进行训练。
4.根据权利要求3所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2.1.5的具体步骤包括:
步骤S2.1.5.1、获取隐层向量表示中的第i个隐层向量及其前一个和后一个位置的隐层向量,定义第一权重矩阵、第二权重矩阵和第一偏置,通过Sigmoid函数计算得到当前位置i的字符在语义空间左侧和右侧的特征信息;
步骤S2.1.5.2、定义第三权重矩阵和第二偏置,通过Tanh函数对获得的语义空间左侧和右侧的特征信息进行非线性变换,得到当前位置i的字符在语义空间左侧和右侧的隐层特征并拼接为最终的特征向量,即文本序列中第i个字的上下文编码;对所有隐层向量重复该过程得到文本序列的上下文编码。
5.根据权利要求2所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2中,文本向量模型基于Roberta模型构建,将Roberta模型作为一个共享编码器,并采用三元组差异判断和文本一致性判断两个子任务对文本向量模型进行训练。
6.根据权利要求5所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2中,三元组差异判断任务的训练过程包括:
步骤S2.2.1、基于训练好的关键词抽取模型,对三元组数据中文本关键词进行抽取,基于此将句级别和词级别的文本信息进行拼接得到原始文本及其相似文本和不相似文本;
步骤S2.2.2、获取原始文本及其相似文本和不相似文本对应的文本向量,并建立三元组损失,通过三元组损失对文本向量模型参数进行优化训练。
7.根据权利要求5或6所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2中,文本一致性判断任务的训练过程包括:
步骤S2.3.1、基于现有的自然语言推理数据集,获取每一条数据的文本对,并生成文本对的文本向量,再计算文本对文本向量之间的余弦相似度;
步骤S2.3.2、基于余弦相似度建立均方误差损失,并通过均方误差损失对文本向量模型参数进行优化训练。
8.根据权利要求2所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S3的具体子步骤包括:
步骤S3.1、对待分析文档中的文本格式进行解析,获取每一段文本对应设置的字体大小、颜色、加粗/倾斜信息,以此区分文档的正文与标题,并解析出标题的层级结构,生成文档目录;
步骤S3.2、根据文档目录,结合文档内容生成具有层级结构的标题-段落数据;
步骤S3.3、基于标题-段落数据,将文档内容按照句号进行切分为文本句并赋予id,并结合所属标题的信息生成句级别的结构化数据;
步骤S3.4、基于标题-段落数据,生成标题级别的结构化数据;
步骤S3.5、基于标题-段落数据,抽取出文档内容中包含分点阐述的文本片段,并对文本片段的内容进行总结归纳,得到相应的片段主题,生成分点级别的结构化数据;
步骤S3.6、对句级别的结构化数据、标题级别的结构化数据以及分点级别的结构化数据进行格式统一;
步骤S3.7、按问题和答案两种形式对格式统一后的结构化数据进行划分,形成的结构化问答文本对;其中,问题形式的结构化数据包括问题id和问题,答案形式的结构化数据包括问题id、文本内容、当前文本的上级标题id、句级别/子标题id;
步骤S3.8、利用训练好的检索模型对问题形式的结构化数据生成对应的文本向量,并和id信息一起存入向量数据库中;将答案形式的结构化数据存入关系数据库中。
9.根据权利要求8所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S4的具体子步骤包括:
步骤S4.1、通过关键词抽取模型获取用户问题中的关键词,并与用户问题进行拼接,再使用文本向量模型生成文本向量,并与向量数据库中的存储的文本向量遍历计算内积并从大到小排序;
步骤S4.2、计算用户问题的文本向量与计算得到的内积排名前n的文本向量之间的余弦相似度,再重新进行排序,选择余弦相似度排名前n的问题形式的结构化数据作为候选问题;
步骤S4.3、基于候选问题对应的id,获取其在关系数据库中相应的答案形式的结构化数据,若候选问题的当前文本的上级标题id为空列表时,其与用户问题的问题匹配得分即为两者的余弦相似度得分;若候选问题的当前文本的上级标题id不为空列表时,在关系数据库中查询候选问题id等于当前文本的上级标题id时的上级问题,并计算上级问题与用户问题的余弦相似度得分/>,将余弦相似度得分/>与余弦相似度得分进行加权求和作为候选问题与用户问题的问题匹配得分;
步骤S4.4、获取所有候选问题与用户问题的问题匹配得分,并按从大到小进行排序,选取的排名第一所对应的候选问题作为真实匹配问题,并根据对应的id在关系数据库中获取匹配的答案;基于真实匹配问题,若对应的句级别/子标题id不为空列表,则最终答案即为关系数据库中获取的答案,若对应的句级别/子标题id为空列表,则获取的真实匹配问题对应id在所有文本句id的列表中的位置,在关系数据库中查询并获取该id-1位置的问题文本、该id位置的问题文本以及id+1位置的问题文本,并依次拼接得到最终答案;
步骤S4.1、将最终答案作为用户问题的匹配***给用户。
10.根据权利要求6所述的基于元学习与知识增强的领域检索方法,其特征在于,所述步骤S2.2.2中,三元组损失具体为:
其中,为原始文本的文本向量、/>为相似文本的文本向量、/>为不相似文本的文本向量,/>表示原始文本的文本向量与相似文本的文本向量的距离,表示原始文本的文本向量与不相似文本的文本向量的距离,n表示文本序列长度,/>为边界距离。
CN202311725074.7A 2023-12-15 2023-12-15 基于元学习与知识增强的领域检索方法 Pending CN117609419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311725074.7A CN117609419A (zh) 2023-12-15 2023-12-15 基于元学习与知识增强的领域检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311725074.7A CN117609419A (zh) 2023-12-15 2023-12-15 基于元学习与知识增强的领域检索方法

Publications (1)

Publication Number Publication Date
CN117609419A true CN117609419A (zh) 2024-02-27

Family

ID=89956234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311725074.7A Pending CN117609419A (zh) 2023-12-15 2023-12-15 基于元学习与知识增强的领域检索方法

Country Status (1)

Country Link
CN (1) CN117609419A (zh)

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和***
CN111639171A (zh) 一种知识图谱问答方法及装置
CN112818093B (zh) 基于语义匹配的证据文档检索方法、***及存储介质
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
Sanyal et al. Resume parser with natural language processing
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN115759119B (zh) 一种金融文本情感分析方法、***、介质和设备
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN116049422A (zh) 基于联合抽取模型的包虫病知识图谱构建方法及其应用
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN117609419A (zh) 基于元学习与知识增强的领域检索方法
CN109885827B (zh) 一种基于深度学习的命名实体的识别方法和***
CN112507060A (zh) 一种领域语料库构建方法及***
Wu et al. Research on intelligent retrieval model of multilingual text information in corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination