CN114064859A - 知识抽取方法、装置、设备、介质和程序产品 - Google Patents

知识抽取方法、装置、设备、介质和程序产品 Download PDF

Info

Publication number
CN114064859A
CN114064859A CN202111437931.4A CN202111437931A CN114064859A CN 114064859 A CN114064859 A CN 114064859A CN 202111437931 A CN202111437931 A CN 202111437931A CN 114064859 A CN114064859 A CN 114064859A
Authority
CN
China
Prior art keywords
knowledge
search
target
statement
search statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111437931.4A
Other languages
English (en)
Inventor
崔林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC, ICBC Technology Co Ltd filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111437931.4A priority Critical patent/CN114064859A/zh
Publication of CN114064859A publication Critical patent/CN114064859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种知识抽取方法,涉及金融领域和数据处理技术领域,该知识抽取方法包括:响应于接收到目标搜索语句,根据目标搜索语句从历史搜索语句数据库中确定与目标搜索语句具有关联关系的历史搜索语句;根据目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及根据对目标搜索语句以及历史搜索语句进行融合而生成的搜索词向量,从粗排知识集中抽取目标知识文档。本公开还提供了一种知识抽取装置、一种电子设备、一种可读存储介质和一种计算机程序产品。

Description

知识抽取方法、装置、设备、介质和程序产品
技术领域
本公开涉及金融领域和数据处理技术领域,更具体地,涉及一种知识抽取方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
随着社会经济的发展,数据中心等算力基础设施建设成为重中之重。运维作为数据中心的重要环节,是保证数据中心平稳运行的重要支撑。运维属于技术信息密集型的领域,有知识范围广、领域多、问题杂、入门难、深入难和传承难的特点。目前,如何解决运维领域的知识积累、搜索和传播等问题存在很大困难。
在日常运维过程中,产生了大量有价值的***文档、预案、问题解决方案、制度法规和操作手册等,而大部分文档分散在各类专家手中或是存储在类似confluence的工具中。
在实现本公开构思的过程中,发明人发现通过与专家沟通获得知识的方法存在效率不高的问题;而通过confluence类工具抽取知识的方法存在准确率不高的问题。
发明内容
有鉴于此,本公开提供了一种知识抽取方法、一种知识抽取装置、一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的第一个方面,提供了一种知识抽取方法,包括:
响应于接收到目标搜索语句,根据上述目标搜索语句从历史搜索语句数据库中确定与上述目标搜索语句具有关联关系的历史搜索语句;
根据上述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
根据对上述目标搜索语句以及上述历史搜索语句进行融合而生成的搜索词向量,从上述粗排知识集中抽取目标知识文档。
根据本公开的实施例,其中,上述根据上述目标搜索语句从历史搜索语句数据库中确定与上述目标搜索语句具有关联关系的历史搜索语句包括:
根据上述目标搜索语句,从上述历史搜索语句数据库中确定候选历史搜索语句;
将上述目标搜索语句和上述候选搜索语句输入预先训练完成的神经网络模型,输出相似度结果;
在上述相似度结果满足预设条件的情况下,将上述候选搜索语句确定为上述历史搜索语句。
根据本公开的实施例,其中,上述根据上述目标搜索语句,从上述历史搜索语句数据库中确定候选历史搜索语句包括:
获取上述目标搜索语句的接收时间;
根据上述接收时间对上述历史搜索语句数据库中的搜索语句进行排序,生成排序结果;
根据上述排序结果确定上述候选历史搜索语句。
根据本公开的实施例,其中,上述根据上述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集包括:
基于上述目标搜索语句和所述历史搜索语句,分别利用多种召回算法从上述运维知识库中确定与每种召回算法分别对应的初始知识集;
根据多个上述初始知识集,生成上述粗排知识集。
根据本公开的实施例,其中,上述初始知识集中的知识文档具有基于召回算法计算得到的分值;
上述根据多个上述初始知识集,生成上述粗排知识集包括:
对多个上述初始知识集中知识文档的分值进行归一化处理,生成归一化初始知识集;
对多个上述归一化初始知识集中的知识文档进行去重处理,生成去重初始知识集;
对多个上述去重初始知识集中的知识文档按照上述分值进行排序,生成上述粗排知识集。
根据本公开的实施例,其中,上述根据对所述目标搜索语句以及上述历史搜索语句进行融合成而生成的融合向量,从上述粗排知识集中抽取目标知识文档包括:
分别对上述目标搜索语句和上述历史搜索语句进行词嵌入处理,生成与目标搜索语句相对应的第一搜索词向量和与上述历史搜索语句相对应的第二搜索词向量;
对上述第一搜索词向量和上述第二搜索词向量进行融合,生成上述搜索词向量;
根据上述搜索词向量从上述粗排知识集中抽取目标知识文档。
根据本公开的实施例,知识抽取方法还包括:
获取原始运维知识文档;
对上述原始运维知识文档中的运维知识语句进行切词处理,生成多个原始运维知识词;
根据上述多个原始运维知识词生成运维知识图谱,其中,上述运维知识图谱包括节点和边,上述节点表示上述原始运维知识词,上述节点具有词权重,上述边表示由上述边连接的节点在上述运维知识语句中的前后关系。
根据本公开的实施例,知识抽取方法还包括:
对上述原始运维知识文档中的运维知识语句计算节点权重。
根据本公开的实施例,其中,上述根据上述目标搜索语句以及上述历史搜索语句,从上述粗排知识集中抽取目标知识文档包括:
从上述运维知识图谱中确定与上述粗排知识集中的知识文档对应的词权重;
根据上述粗排知识集中的知识文档和上述词权重生成粗排知识向量集;
对上述搜索词向量与上述精排知识集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集;
从上述精排知识中确定上述目标知识文档。
根据本公开的第二个方面,提供了一种知识抽取装置,包括:
第一确定模块,用于响应于接收到目标搜索语句,根据上述目标搜索语句从历史搜索语句数据库中确定与上述目标搜索语句具有关联关系的历史搜索语句;
第二确定模块,用于根据上述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
抽取模块,用于根据对上述目标搜索语句以及上述历史搜索语句进行融合成而生成的搜索词向量,从上述粗排知识集中抽取目标知识文档。
根据本公开的第三个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。
根据本公开的第四个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,上述可执行指令被处理器执行时使处理器实现如上所述的方法。
根据本公开的第五个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机可执行指令,上述计算机可执行指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,因为采用了根据目标搜索语句确定与目标搜索语句相关的历史搜索语句,然后根据目标搜索语句和历史搜索语句,对运维知识库中的知识进行粗筛选,再根据对目标搜索语句和历史搜索语句进行融合而生成的搜索词向量,从粗排知识集中抽取目标知识文档的技术方案,针对相似问题进行融合搜索,突出搜索重点,实现了提高知识抽取准确率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用知识抽取方法的***架构100;
图2示意性示出了根据本公开实施例的知识抽取方法的流程图;
图3示意性示出了根据本公开实施例的确定历史搜索语句方法的流程图;
图4示意性示出了根据本公开实施例的确定候选历史搜索语句方法的流程图;
图5示意性示出了根据本公开实施例的确定粗排知识集方法的流程图;
图6示意性示出了根据本公开实施例的生成粗排知识集方法的流程图;
图7示意性示出了根据本公开实施例的抽取目标知识文档方法的流程图;
图8示意性示出了根据本公开实施例的生成运维知识图谱方法的流程图;
图9示意性示出了根据本公开实施例的确定目标知识文档方法的流程图;
图10示意性示出了根据本公开实施例的知识抽取装置1000的结构框图;以及
图11示意性示出了根据本公开实施例的适于实现知识抽取方法的电子设备1100的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
随着社会经济的发展,数据中心等算力基础设施建设成为重中之重。运维作为数据中心的重要环节,是保证数据中心平稳运行的重要支撑。运维属于技术信息密集型的领域,有知识范围广、领域多、问题杂、入门难、深入难和传承难的特点。目前,如何解决运维领域的知识积累、搜索和传播等问题存在很大困难。
在日常运维过程中,产生了大量有价值的***文档、预案、问题解决方案、制度法规和操作手册等,而大部分文档分散在各类专家手中或是存储在类似confluence的工具中。
在实现本公开构思的过程中,发明人发现通过与专家沟通获得知识的方法存在效率不高的问题;而通过confluence类工具抽取知识的方法存在准确率不高的问题。
为了至少部分地解决相关技术中存在的技术问题,本公开提供了一种知识抽取方法,包括:响应于接收到目标搜索语句,根据目标搜索语句从历史搜索语句数据库中确定与目标搜索语句具有关联关系的历史搜索语句;根据目标搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及根据目标搜索语句以及历史搜索语句,从粗排知识集中抽取目标知识文档。本公开还提供了一种知识抽取装置、电子设备、计算机存储介质和计算机程序产品。
需要说明的是,本公开实施例提供的知识抽取的方法和装置可用于金融领域和数据处理技术领域,例如银行网点运维知识的积累、搜索和传播。本公开实施例提供的知识抽取的方法和装置也可用于除金融领域和数据处理技术领域之外的任意领域,例如针对用户的问题,快速的返回正确答复的聊天机器人。本公开实施例提供的知识抽取的方法和装置的应用领域不做限定。
图1示意性示出了根据本公开实施例的可以应用知识抽取方法的***架构100。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的知识抽取的方法一般可以由服务器105执行。相应地,本公开实施例所提供的知识抽取的装置一般可以设置于服务器105中。本公开实施例所提供的知识抽取的方法电可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的知识抽取的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的知识抽取的方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的知识抽取的装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
例如,历史搜索语句可以原本存储在终端设备101、102、或103中的任意一个(例如,终端设备101,但不限于此)之中,或者存储在外部存储设备上并可以导入到终端设备101中。然后,终端设备101可以在本地执行本公开实施例所提供的知识抽取方法,或者将数据采集指令发送到其他终端设备、服务器、或服务器集群,并由接收该数据采集指令的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的知识抽取方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的知识抽取方法的流程图。
如图2所示,该实施例的知识抽取方法包括操作S201~S203。
在操作S201,响应于接收到目标搜索语句,根据目标搜索语句从历史搜索语句数据库中确定与目标搜索语句具有关联关系的历史搜索语句。
根据本公开的实施例,知识抽取装置可以接收前端发送的目标搜索语句。
根据本公开的实施例,历史搜索语句数据库中可以预先存储大量的历史搜索语句。
根据本公开的实施例,可以通过对历史搜索语句与目标搜索语句进行文本匹配,判断两个语句是否为同一意思的方式,确定与目标搜索语句具有关联关系的历史搜索语句。
根据本公开的实施例,文本匹配可以包括数据预处理、特征工程和建模。其中,数据预处理,可以包括提取名词性短语、翻译模型、去除共现词等;特征工程,可以包括共现词、加权共现词和特殊共现词的统计特征,Word2Vec、词移距离和DocVector的表示特征,关键词特征和TFIDF距离的NLP特征,图的统计特征、图的结构特征和图的传播特征的图特征;建模,可以包括如xgboost的传统模型,如CNN、LSTM-RNN的深度模型,融合模型等。
在操作S202,根据目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集。
根据本公开的实施例,运维知识库中可以包括元数据(Meta)、状态数据(Status)和事件数据(Event),其中,元数据对运维实体世界进行建模,包括运维实体的属性、组成以及关联关系等;状态数据反应***的状态,表征服务的存活性、资源消耗或能力等;事件数据描述对***做的变更、服务状态的异常等事件。
根据本公开的实施例,可以根据多种召回算法,从预先配置完成的运维知识库中获得目标搜索语句对应的运维知识语句,作为召回语句,并将召回的运维知识语句作为粗排知识集。
在操作S203,根据对目标搜索语句以及历史搜索语句进行融合而生成的搜索词向量,从粗排知识集中抽取目标知识文档。
根据本公开的实施例,目标知识文档可以为与目标搜索语句或历史搜索语句相对应的搜索答案。
根据本公开的实施例,因为采用了根据目标搜索语句确定与目标搜索语句相关的历史搜索语句,然后根据目标搜索语句和所述历史搜索语句,对运维知识库中的知识进行粗筛选,根据对目标搜索语句和历史搜索语句进行融合而生成的搜索词向量,从粗排知识集中抽取目标知识文档的技术方案,针对相似问题进行融合搜索,突出搜索重点,实现了提高知识抽取准确率的技术效果。
下面参考图3~图8,结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开实施例的确定历史搜索语句方法的流程图。
如图3所示,该实施例的确定历史搜索语句方法包括操作S301~S303。
在操作S301,根据目标搜索语句,从历史搜索语句数据库中确定候选历史搜索语句。
根据本公开的实施例,候选历史搜索语句可以根据目标搜索语句的接收时间确定。例如,可以将接收时间设置为5分钟,即可以将5分钟内的搜索语句确定为候选历史搜索语句。
在操作S302,将目标搜索语句和候选历史搜索语句输入预先训练完成的神经网络模型,输出相似度结果。
根据本公开的实施例,在确定目标搜索语句和候选历史搜索语句的相似度时,可以基于QQ匹配(Quora Question Pairs),QQ匹配指关于文本匹配的问题,主要判断两个问题是否为同一意思。
根据本公开的实施例,神经网络模型可以包括多路多层LSTM(Long Short-TermMemory,长短期记忆网络)、基于距离的词袋模型、基于文本句向量的embedding模型等。
根据本公开的实施例,计算文本的相似度可以包括文本的表示方式以及衡量文本的相似度的距离度量。
根据本公开的实施例,文本的表示方式可以基于SOW词集模型、BOW词袋模型、nBOW标准化的词袋模型、TF-IDF词频-逆文档频率模型、N-Gram多元语言模型、LSI/LDA模型、Word2vec模型、GloVe模型和Doc2vec模型等。
根据本公开的实施例,距离度量可以包括欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离&杰卡德相似系数、相关系数&相关距离以及信息熵等。
根据本公开的实施例,可以通过QQ匹配采用多路多层LSTM的方式,进行目标搜索语句和候选历史搜索语句的特征抽取,并根据输出向量确定相似度结果。
根据本公开的实施例,相似度结果可以表征目标搜索语句和候选历史搜索语句是否为同一意思。
在操作S303,在相似度结果满足预设条件的情况下,将候选历史搜索语句确定为历史搜索语句。
根据本公开的实施例,预设条件可以为相似度结果和预设阈值的大小关系,例如,在相似度结果大于预设阈值的情况下,将候选历史搜索语句确定为历史搜索语句;但不限于此,还可以为在相似度结果小于预设阈值的情况下,将候选历史搜索语句确定为历史搜索语句。
根据本公开的实施例,预设阈值可以由本领域技术人员根据实际应用情况而灵活设置,本公开实施例不对预设阈值的具体数值进行限定。
图4示意性示出了根据本公开实施例的确定候选历史搜索语句方法的流程图。
如图4所示,该实施例的确定候选历史搜索语句方法包括操作S401~S403。
在操作S401,获取目标搜索语句的接收时间。
根据本公开的实施例,接收时间可以表征接收到目标搜索语句的时间。
根据本公开的实施例,接收时间可以由本领域技术人员根据实际应用情况而灵活设置,本公开实施例不对预设接收时间进行限定。
在操作S402,根据接收时间对历史搜索语句数据库中的搜索语句进行排序,生成排序结果。
根据本公开的实施例,历史搜索语句数据库中可以存储有搜索语句,以及分别与每个搜索语句对应的接收时间。
根据本公开的实施例,可以首先根据一个预设时间范围,从历史搜索语句数据库的搜索语句中确定出一些待筛选的搜索语句,然后根据待筛选的搜索语句和目标搜索语句的接收时间差进行排序,生成排序结果。
根据本公开的实施例,排序结果可以表征搜索语句的搜索顺序。例如,可以将预设时间范围设置为5分钟,若目标搜索语句的接收时间为09:00,搜索语句1的接收时间为09:01,搜索语句2的接收时间为09:03,搜索语句3的接收时间为09:07,则可以根据预设时间范围,先从搜索语句中确定出待筛选的搜索语句1和搜索语句2,然后根据搜索语句1与目标搜索语句的接收时间差为1分钟,搜索语句2与目标搜索语句的接收时间差为3分钟,进行排序,可以生成排序结果为搜索语句1-搜索语句2。
在操作S403,根据排序结果确定候选历史搜索语句。
根据本公开的实施例,可以按照排序结果将多条候选历史搜索语句输出显示;为了减少冗余数据,提高数据传输的效率,进一步地,可以在确定多条候选历史搜索语句的排序结果之后,将前N位的候选历史搜索语句数据显示,N可以根据实际情况设置。
根据本公开的实施例,因为采用了根据目标搜索语句的接收时间生成的排序结果,从历史搜索语句数据库中确定候选历史搜索语句,然后利用神经网络模型计算目标搜索语句和候选历史搜索语句的相似度,在相似度结果满足预设条件的情况下,将候选历史搜索语句确定为历史搜索语句的技术方案,可以确定出历史搜索语句数据库中的相似问题,并将相似问题作为历史搜索语句,以便后续针对相似问题进行融合搜索。
图5示意性示出了根据本公开实施例的确定粗排知识集方法的流程图。
如图5所示,该实施例的确定粗排知识集方法包括操作S501~S502。
在操作S501,基于目标搜索语句和所述历史搜索语句,分别利用多种召回算法从运维知识库中确定与每种召回算法分别对应的初始知识集。
根据本公开的实施例,召回算法可以包括热门召回、基于兴趣标签的召回基于协同过滤的召回等。例如,TFIDF算法、BM25算法等。
根据本公开的实施例,TFIDF算法是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术,用于统计出一个词对于一个文件的重要程度。字词的重要程度随着它在文件中出现的频率而提高,而随着其在文档库中出现的频率而降低;TFIDF=TF*IDF,其中:
Figure BDA0003380291360000131
Figure BDA0003380291360000132
根据本公开的实施例,BM25算法是通过计算查询语句中语素(中文分词)在文档中的得分之和Score(Q,d),得到最终查询语句的得分;语素和文档的权重计算方式很多,通常采用IDF算法;其中:
Figure BDA0003380291360000133
Figure BDA0003380291360000141
Figure BDA0003380291360000142
其中,Q表示查询语句,d表示召回语句,qi表示第i个词,n表示查询语句词数量,Wi表示第i个词语召回语句之间的权重,K表示调节因子,q表示查询语句,k1、b和k2为调节因子;R(qi,d)表示搜索语句和召回语句之间的相关性分值,qi表示查询语句,d表示召回语句;fi表示语素(词)在q中出现的频率,qfi表示语素(词)在召回语句中出现的频次,通常根据经验设置k1=k2=2,b=0.75;dl为文档长度,avgdl为文档库中的平均文档长度。
根据本公开的实施例,一种召回算法可能存在漏洞,可以利用多种召回算法,将与具有关联关系的相似问题相关的答案都从运维知识库中取出,保证了召回率和召回准确率。
在操作S502,根据多个初始知识集,生成粗排知识集。
图6示意性示出了根据本公开实施例的生成粗排知识集方法的流程图。
如图6所示,该实施例的生成粗排知识集方法包括操作S601~S603。
在操作S601,对多个初始知识集中知识文档的分值进行归一化处理,生成归一化初始知识集。
根据本公开的实施例,通过多个初始知识集中知识文档基于召回算法可以计算得到分值。
根据本公开的实施例,归一化处理方法可以包括(0,1)标准化、Z-score标准化、min-max标准化、log函数转换、atan函数转换和Sigmoid函数等。
在操作S602,对多个归一化初始知识集中的知识文档进行去重处理,生成去重初始知识集。
根据本公开的实施例,去重处理可以包括基于信息摘要算法的去重、基于simhash算法的去重和基于布隆过滤器原理去重等。
在操作S603,对多个去重初始知识集中的知识文档按照分值进行排序,生成粗排知识集。
根据本公开的实施例,可以按照分值由高到低对知识文档进行排序。
根据本公开的实施例,可以按照排序结果将多条召回语句作为粗排知识集;进一步地,可以在确定多条召回语句的排序结果之后,将前N位的召回语句数据作为粗排知识集,N可以根据实际情况设置。
根据本公开的实施例,通过目标搜索语句,分别利用多种召回算法从运维知识库中确定与每种召回算法分别对应的初始知识集;对初始知识集中知识文档进行分值归一化处理和去重处理;并按照分值排序生成粗排知识集;提高了运维知识语句存储的可靠性,减少了冗余数据,提高了数据传输的效率。
图7示意性示出了根据本公开实施例的抽取目标知识文档方法的流程图。
如图7所示,该实施例的抽取目标知识文档方法包括操作S701~S703。
在操作S701,分别对目标搜索语句和历史搜索语句进行词嵌入处理,生成与目标搜索语句相对应的第一搜索词向量和与历史搜索语句相对应的第二搜索词向量。
根据本公开的实施例,词嵌入处理方法例如可以包括但不限于基于skip-gram模型、基于CBOW(Continuous Bag-of-Word Model,连续词袋)模型和Embedding等。
根据本公开的实施例,Embedding是一种将离散变量转为连续向量表示的方式;不但可以减少离散空间的维数,同时可以在高维空间发现更加相似的语句。
在操作S702,对第一搜索词向量和第二搜索词向量进行融合,生成搜索词向量。
根据本公开的实施例,融合处理可以包括对第一搜索词向量和第二搜索词向量进行向量融合,生成搜索词向量,该搜索词向量可以包括向量融合后得到的新向量。
根据本公开的实施例,融合处理可以采用多任务学习、基于knowledge graph的文本生成、基于memory network的文本生成和结合分布-采样进行文本生成等方法。
在操作S703,根据搜索词向量从粗排知识集中抽取目标知识文档。
根据本公开的实施例,首先通过对目标搜索语句和历史搜索语句进行词嵌入处理,生成第一搜索词向量和第二搜索词向量;然后对第一搜索词向量和第二搜索词向量进行融合,生成搜索词向量;再根据搜索词向量从粗排知识集中抽取目标知识文档,针对相似问题进行融合搜索,进一步提取搜索特征,突出搜索重点,实现了提高知识抽取准确率的技术效果。
图8示意性示出了根据本公开实施例的生成运维知识图谱方法的流程图。
如图8所示,该实施例的生成运维知识图谱方法包括操作S801~S803。
在操作S801,获取原始运维知识文档。
根据本公开的实施例,原始运维知识文档可以包括数据中心的***文档、预案、问题解决方案、制度法规和操作手册等。
在操作S802,对原始运维知识文档中的运维知识语句进行切词处理,生成多个原始运维知识词。
根据本公开的实施例,可以将原始运维知识文档按段进行拆条处理;并将知识条按行存储在ES(Elastic search,基于Lucene的搜索服务器)之中。
根据本公开的实施例,ES可以替换成SOLR搜索应用服务器、MYSQL和ORACLE数据库等;可以将原始运维知识文档中的一段内容作为一条运维知识语句。
根据本公开的实施例,可以对目标搜索语句进行切词,得到目标搜索语句对应的原始运维知识词。
根据本公开的实施例,在原始运维知识文档中,重点的词汇比较突出,因此,在原始运维知识文档的基础上提取词的词权重,可以更好的突出词的重要性;原始运维知识词为对原始运维知识文档进行切词处理后得到的词。
根据本公开的实施例,可以对原始运维知识文档中的运维知识语句进行向量化处理,并将该得到的向量作为运维知识词的词向量。
在操作S803,根据多个原始运维知识词生成运维知识图谱,其中,运维知识图谱包括节点和边,节点表示原始运维知识词,节点具有词权重,边表示由边连接的节点在运维知识语句中的前后关系。
根据本公开的实施例,可以对原始运维知识文档中的运维知识语句计算节点权重。
根据本公开的实施例,运维知识图谱可以包括多个原始运维知识词和词权重之间的对应关系。
根据本公开的实施例,前后关系可以为当前词之前的词到当前词的连线称为入度(入边),当前词和当前词之后的词之间的连线称为出度(出边)。
根据本公开的实施例,可以将原始运维知识文档分解成原始运维知识词,并形成运维知识图谱,通过每个词的出度入度数量计算节点权重的重要性,具体描述如下:
a)将原始运维知识文档进行切词处理,并生成初始图结构;设置每个节点的初始化权重(默认为图结构中节点个数的倒数)即将WS(Vj)的初始值设置为图结构中节点个数的倒数;设置每个节点的出度权重wjk,默认是该节点的出度个数即由该节点指向其他节点的连线个数;设置每个节点的入度权重wij,默认是该节点的入度个数即由其他节点指向该节点的连线个数。
b)根据词重要程度的计算公式,得到每个节点的词权重;重要程度的计算公式如下所示:
Figure BDA0003380291360000171
其中,
Figure BDA0003380291360000182
表示每个节点的所有出度权重之和,
Figure BDA0003380291360000181
表示节点自身的重要权重,d表示阻尼系数,默认设置成0.85;经过几轮迭代算出每个节点的词权重。
c)根据每个节点的每个节点的词权重,得到原始语句图结构即运维知识图谱。
根据本公开的实施例,通过对原始运维知识文档中的运维知识语句进行切词处理,生成多个原始运维知识词;并根据多个原始运维知识词生成运维知识图谱;实现了提高运维知识语句存储的可靠性,进而提高接下来运维知识语句召回的可靠性;同时提高了获得运维知识图谱的准确性还提高了获得词向量集的可靠性。
图9示意性示出了根据本公开实施例的确定目标知识文档方法的流程图。
如图9所示,该实施例的确定目标知识文档方法包括操作S901~S904。
在操作S901,从运维知识图谱中确定与粗排知识集中的知识文档对应的词权重。
根据本公开的实施例,可以根据运维知识图谱、目标搜索语句和各条召回语句,确定目标搜索语句和各条召回语句各自对应的运维知识词以及每个运维知识词的词权重。
根据本公开的实施例,判断运维知识图谱中是否存在该运维知识词,若是,则从运维知识图谱中获取运维知识词的词权重,否则可以将目标搜索语句对应的运维知识词的词权重设置为图中节点数的倒数,既不突出也不减弱词的重要性;可以从运维知识图谱中获得属于召回语句的原始运维知识词,将该原始运维知识词作为召回语句对应的运维知识词,并从运维知识图谱中获得该运维知识词对应的词权重。
在操作S902,根据粗排知识集中的知识文档和词权重生成粗排知识向量集。
根据本公开的实施例,根据粗排知识集中的知识文档和词权重可以生成粗排知识向量集。
根据本公开的实施例,粗排知识向量集可以包括各个原始运维知识词及其各自的词权重和词向量。
在操作S903,对搜索词向量与粗排知识向量集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集。
根据本公开的实施例,可以根据目标搜索语句的运维知识词的词权重和词向量,以及每条召回语句的运维知识词的词权重和词向量进行相似度计算。
在操作S904,从精排知识中确定目标知识文档。
根据本公开的实施例,可以根据每条召回语句的相似度计算结果,确定多条召回语句的排序结果,以便从精排知识中确定目标知识文档。
根据本公开的实施例,可以将召回语句的相似度计算结果作为该召回语句的排序得分,可以按照排序得分由高到低对召回语句进行排序。
根据本公开的实施例,通过对搜索词向量与粗排知识向量集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集,再从精排知识中确定目标知识文档,即对经粗筛选的运维知识进一步进行精细筛选,实现了提高知识抽取准确率的技术效果。
根据本公开的实施例,通过将运维知识条目化和向量化存储在运维知识库,首先根据目标搜索语句确定历史搜索语句,然后根据目标搜索语句和所述历史搜索语句,对运维知识库中的知识进行粗筛选;然后根据对目标搜索语句和历史搜索语句进行融合,针对相似问题融合搜索,进一步提取了搜索特征,突出了搜索重点;然后对搜索词向量与粗排知识向量集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集,再从精排知识中确定目标知识文档,提高了搜索的准确率;再通过利用多种召回算法,将与具有关联关系的相似问题相关的答案都从运维知识库中取出,保证了召回率和召回准确率,实现了提高知识抽取准确率的技术效果,同时降低了运维门槛,提高了运维效率。
图10示意性示出了根据本公开的实施例的知识抽取装置1000的结构框图。
如图10所示,知识抽取装置包括第一确定模块1001、第二确定模块1002和抽取模块1003。
第一确定模块1001,用于响应于接收到目标搜索语句,根据目标搜索语句从历史搜索语句数据库中确定与目标搜索语句具有关联关系的历史搜索语句;
第二确定模块1002,用于根据目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
抽取模块1003,用于根据对目标搜索语句以及历史搜索语句进行融合成而生成的搜索词向量,从粗排知识集中抽取目标知识文档。
根据本公开的实施例,第一确定模块1001包括第一确定单元、输出单元和第二确定单元。
第一确定单元,用于根据目标搜索语句,从历史搜索语句数据库中确定候选历史搜索语句。
输出单元,用于将目标搜索语句和候选搜索语句输入预先训练完成的神经网络模型,输出相似度结果。
第二确定单元,用于在相似度结果满足预设条件的情况下,将候选搜索语句确定为历史搜索语句。
根据本公开的实施例,第一确定单元包括获取子单元、生成子单元和确定子单元。
获取子单元,用于获取目标搜索语句的接收时间。
生成子单元,用于根据接收时间对历史搜索语句数据库中的搜索语句进行排序,生成排序结果。
确定子单元,用于根据排序结果确定候选历史搜索语句。
根据本公开的实施例,第二确定模块1002包括第三确定单元和生成单元。
第三确定单元,用于基于目标搜索语句和所述历史搜索语句,分别利用多种召回算法从运维知识库中确定与每种召回算法分别对应的初始知识集。
第一生成单元,用于根据多个初始知识集,生成粗排知识集。
根据本公开的实施例,生成单元包括第一处理子单元、第二处理子单元和排序子单元。
第一处理子单元,用于对多个初始知识集中知识文档的分值进行归一化处理,生成归一化初始知识集。
第二处理子单元,用于对多个归一化初始知识集中的知识文档进行去重处理,生成去重初始知识集。
排序子单元,用于对多个去重初始知识集中的知识文档按照分值进行排序,生成粗排知识集。
根据本公开的实施例,抽取模块1003包括:
第二生成对应,用于分别对所述目标搜索语句和所述历史搜索语句进行词嵌入处理,生成与目标搜索语句相对应的第一搜索词向量和与所述历史搜索语句相对应的第二搜索词向量。
第三生成单元,用于对所述第一搜索词向量和所述第二搜索词向量进行融合,生成所述搜索词向量。
抽取单元,用于根据所述搜索词向量从所述粗排知识集中抽取目标知识文档。
根据本公开的实施例,知识抽取装置还包括获取模块、处理模块和生成模块。
获取模块,用于获取原始运维知识文档。
第一处理模块,用于对原始运维知识文档中的运维知识语句进行切词处理,生成多个原始运维知识词。
生成模块,用于根据多个原始运维知识词生成运维知识图谱,其中,运维知识图谱包括节点和边,节点表示原始运维知识词,节点具有词权重,边表示由边连接的节点在运维知识语句中的前后关系。
根据本公开的实施例,知识抽取装置还包括第二处理模块。
第二处理模块,用于对原始运维知识文档中的运维知识语句计算节点权重。
根据本公开的实施例,抽取模块1003包括第四确定单元、第二生成单元、处理单元、计算单元和第五确定单元。
第四确定单元,用于从运维知识图谱中确定与粗排知识集中的知识文档对应的词权重。
第四生成单元,用于根据粗排知识集中的知识文档和词权重生成粗排知识向量集。
计算单元,用于对搜索词向量与精排知识集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集。
第五确定单元,用于从精排知识中确定目标知识文档。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一确定模块1001、第二确定模块1002和抽取模块1003中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,第一确定模块1001、第二确定模块1002和抽取模块1003中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一确定模块1001、第二确定模块1002和抽取模块1003中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中知识抽取装置部分与本公开的实施例中知识抽取方法部分是相对应的,知识抽取装置部分的描述具体参考知识抽取方法部分,在此不再赘述。
图11示意性示出了根据本公开实施例的适于实现知识抽取的方法的电子设备1100的框图。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,根据本公开实施例的计算机电子设备1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的***中限定的上述功能。根据本公开的实施例,上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的;也可以是单独存在,而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的用于确定云服务实施策略的方法。
在该计算机程序被处理器1101执行时,执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例,上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1109被下载和安装,和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (13)

1.一种知识抽取方法,包括:
响应于接收到目标搜索语句,根据所述目标搜索语句从历史搜索语句数据库中确定与所述目标搜索语句具有关联关系的历史搜索语句;
根据所述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
根据对所述目标搜索语句以及所述历史搜索语句进行融合而生成的搜索词向量,从所述粗排知识集中抽取目标知识文档。
2.根据权利要求1所述的方法,其中,所述根据所述目标搜索语句从历史搜索语句数据库中确定与所述目标搜索语句具有关联关系的历史搜索语句包括:
根据所述目标搜索语句,从所述历史搜索语句数据库中确定候选历史搜索语句;
将所述目标搜索语句和所述候选历史搜索语句输入预先训练完成的神经网络模型,输出相似度结果;
在所述相似度结果满足预设条件的情况下,将所述候选历史搜索语句确定为所述历史搜索语句。
3.根据权利要求2所述的方法,其中,所述根据所述目标搜索语句,从所述历史搜索语句数据库中确定候选历史搜索语句包括:
获取所述目标搜索语句的接收时间;
根据所述接收时间对所述历史搜索语句数据库中的搜索语句进行排序,生成排序结果;
根据所述排序结果确定所述候选历史搜索语句。
4.根据权利要求1所述的方法,其中,所述根据所述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集包括:
基于所述目标搜索语句和所述历史搜索语句,分别利用多种召回算法从所述运维知识库中确定与每种召回算法分别对应的初始知识集;
根据多个所述初始知识集,生成所述粗排知识集。
5.根据权利要求4所述的方法,其中,所述初始知识集中的知识文档具有基于召回算法计算得到的分值;
所述根据多个所述初始知识集,生成所述粗排知识集包括:
对多个所述初始知识集中知识文档的分值进行归一化处理,生成归一化初始知识集;
对多个所述归一化初始知识集中的知识文档进行去重处理,生成去重初始知识集;
对多个所述去重初始知识集中的知识文档按照所述分值进行排序,生成所述粗排知识集。
6.根据权利要求1所述的方法,其中,所述根据对所述目标搜索语句以及所述历史搜索语句进行融合成而生成的融合向量,从所述粗排知识集中抽取目标知识文档包括:
分别对所述目标搜索语句和所述历史搜索语句进行词嵌入处理,生成与目标搜索语句相对应的第一搜索词向量和与所述历史搜索语句相对应的第二搜索词向量;
对所述第一搜索词向量和所述第二搜索词向量进行融合,生成所述搜索词向量;
根据所述搜索词向量从所述粗排知识集中抽取目标知识文档。
7.根据权利要求1所述的方法,还包括:
获取原始运维知识文档;
对所述原始运维知识文档中的运维知识语句进行切词处理,生成多个原始运维知识词;
根据所述多个原始运维知识词生成运维知识图谱,其中,所述运维知识图谱包括节点和边,所述节点表示所述原始运维知识词,所述节点具有词权重,所述边表示由所述边连接的节点在所述运维知识语句中的前后关系。
8.根据权利要求7所述的方法,还包括:
对所述原始运维知识文档中的运维知识语句计算节点权重。
9.根据权利要求8所述的方法,其中,所述根据所述目标搜索语句以及所述历史搜索语句,从所述粗排知识集中抽取目标知识文档包括:
从所述运维知识图谱中确定与所述粗排知识集中的知识文档对应的词权重;
根据所述粗排知识集中的知识文档和所述词权重生成粗排知识向量集;
对所述搜索词向量与所述粗排知识向量集中的知识文档向量和所述词权重进行相似度计算,生成精排知识集;
从所述精排知识中确定所述目标知识文档。
10.一种知识抽取装置,包括:
第一确定模块,用于响应于接收到目标搜索语句,根据所述目标搜索语句从历史搜索语句数据库中确定与所述目标搜索语句具有关联关系的历史搜索语句;
第二确定模块,用于根据所述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
抽取模块,用于根据对所述目标搜索语句以及所述历史搜索语句进行融合而生成的搜索词向量,从所述粗排知识集中抽取目标知识文档。
11.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至9中任一项所述的方法。
13.一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现权利要求1至9中任一项所述的方法。
CN202111437931.4A 2021-11-29 2021-11-29 知识抽取方法、装置、设备、介质和程序产品 Pending CN114064859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111437931.4A CN114064859A (zh) 2021-11-29 2021-11-29 知识抽取方法、装置、设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111437931.4A CN114064859A (zh) 2021-11-29 2021-11-29 知识抽取方法、装置、设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN114064859A true CN114064859A (zh) 2022-02-18

Family

ID=80277242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111437931.4A Pending CN114064859A (zh) 2021-11-29 2021-11-29 知识抽取方法、装置、设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN114064859A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118132731A (zh) * 2024-05-06 2024-06-04 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118132731A (zh) * 2024-05-06 2024-06-04 杭州数云信息技术有限公司 对话方法及装置、存储介质、终端、计算机程序产品

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN113887701A (zh) 生成用于神经网络输出层的输出
WO2019217096A1 (en) System and method for automatically responding to user requests
US11068479B2 (en) Method and system for analytic based connections among user types in an online platform
CN109766441B (zh) 文本分类方法、装置及***
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN114036398A (zh) 内容推荐和排序模型训练方法、装置、设备以及存储介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN114064859A (zh) 知识抽取方法、装置、设备、介质和程序产品
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN115759292A (zh) 模型的训练方法及装置、语义识别方法及装置、电子设备
CN115238676A (zh) 招标需求热点识别方法、装置、存储介质及电子设备
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN112926295A (zh) 模型推荐方法和装置
CN113095078A (zh) 关联资产确定方法、装置和电子设备
CN114154477A (zh) 文本数据处理方法及装置、电子设备和可读存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
RU2823436C1 (ru) Система автоматического определения тематики текстовых документов на основе объяснимых методов искусственного интеллекта
CN111914536B (zh) 观点分析方法、装置、设备及存储介质
CN113177122A (zh) 关联资产确定方法、装置和电子设备
CN114840666A (zh) 检索方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination