CN117112809A - 一种知识追踪方法及*** - Google Patents

一种知识追踪方法及*** Download PDF

Info

Publication number
CN117112809A
CN117112809A CN202311385302.0A CN202311385302A CN117112809A CN 117112809 A CN117112809 A CN 117112809A CN 202311385302 A CN202311385302 A CN 202311385302A CN 117112809 A CN117112809 A CN 117112809A
Authority
CN
China
Prior art keywords
knowledge
entity
text
text data
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311385302.0A
Other languages
English (en)
Other versions
CN117112809B (zh
Inventor
屠静
王亚
赵策
张玥
雷媛媛
孙岩
潘亮亮
刘岩
刘莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuoshi Future Beijing technology Co ltd
Original Assignee
Zhuoshi Future Beijing technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuoshi Future Beijing technology Co ltd filed Critical Zhuoshi Future Beijing technology Co ltd
Priority to CN202311385302.0A priority Critical patent/CN117112809B/zh
Publication of CN117112809A publication Critical patent/CN117112809A/zh
Application granted granted Critical
Publication of CN117112809B publication Critical patent/CN117112809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种知识追踪方法及***,属于文本信息处理技术领域。所述方法包括:提取知识文本数据并缓存至分布式文件***;通过预先部署的AI实体识别模型,自动识别所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库;定时通知知识库构建模块抽取所述关联关系T,在所述知识库构建模块上,基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。采用本发明,能够实现智能地管理、检索和追踪知识。

Description

一种知识追踪方法及***
技术领域
本发明涉及文本信息处理技术领域,特别是指一种知识追踪方法及***。
背景技术
知识管理在当今信息***的时代变得至关重要。在知识学习过程中,比如学生学习过程以及企业生产学习过程中,会衍生出大量的文本、图像或者其他类型的知识素材,这些知识素材中蕴含丰富且现有资源中不曾出现的宝贵知识,具有较大的知识价值,尤其是技术知识、技术经验等。若是将这些知识素材更好地进行知识管理、加以提取利用,则可以为用户或者企业带来更多的价值。
知识追踪,在知识管理中起到主要的作用。旨在追踪在学习和生产过程中产生的技术素材,并构建对应的知识库,将知识库投入后续的学习或者生产运营。
现有的知识库,通过采用知识库管理工具/助手,对企业或者用户的知识资产进行管理。现有通用的知识库,主要是一种用于知识管理的数据库,用于相关应用领域知识的收集、重新整理以及抽取。知识库中的知识来源于专家或是专业人士的经验和教训,虽然构建简单,但是也存在一些问题:
现有知识库中管理的知识数据,来源主要是相关应用领域知识的收集,并加以形式上的整理和应用,因此缺乏知识要素的实体识别,缺乏知识要素之间的关联关系,关联信息比较模糊,无法直观为企业或者用户提供可视化的关联数据,不便于知识信息的管理、检索和追踪;
现有知识库中知识数据,为用户提供的知识库文档,较为直接,直接为用户展示整理的经验和教训,缺乏知识数据的关键信息提取和知识要素的分析,缺乏深度知识分析应用。
发明内容
本发明实施例提供了一种知识追踪方法及***,能够依托知识实体的关联关系,进行有序、可视化的知识数据管理和应用,通过融合生成的知识图谱,能够快速地让用户了解到对应的知识点位置和关联性,并提供知识点的关联性和知识文本的情感/内容倾向以及态度分析,供用户更好地了解知识的内容、深度分析和应用知识图谱,最大化利用知识价值,从而实现智能地管理、检索和追踪知识。所述技术方案如下:
一方面,提供了一种知识追踪方法,该方法应用于电子设备,该方法包括:
S1、提取知识文本数据并缓存至分布式文件***;
S2、通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库;
S3、定时通知知识库构建模块抽取所述关联关系T,在所述知识库构建模块上,基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
S4、通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
进一步地,所述提取知识文本数据并缓存至分布式文件***包括:
S11、提取知识文本数据,批量对提取的所述知识文本数据进行预处理和清洗;
S12、对批量处理后的所述知识文本数据,按照文本类型进行数据分类,得到由若干不同文本类型的知识文本数据块组成的数据集M,其中,
M={知识文本数据块1,知识文本数据块2,知识文本数据块3......};
S13、对所述数据集M中的各项知识文本数据块,按照预设的知识文本优先级进行有序编号,并进行序列优先重排,得到知识文本优排数据集N;
S14、遍历分布式文件***的各个存储节点,查看可用的所述存储节点,并将所述知识文本优排数据集N中的各项知识文本数据块,按照优先重排顺序分布储存于所述分布式文件***的所述存储节点;
S15、将各项知识文本数据块的储存地址,发送至后台服务器。
进一步地,所述通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库包括:
S21、后台服务器接收到所述储存地址之时,通知预先部署的AI实体识别模型调用储存在所述储存地址的知识文本数据块;
S22、通过所述AI实体识别模型对所述知识文本数据块进行实体识别,自动识别得到所述知识文本数据块中的实体要素m,同时根据所述实体要素m的上下文文本信息,关联识别得到所述实体要素之间的关联关系T:m1→m2;其中,m1和m2都表示实体要素;
S23、将所述实体要素m和所述关联关系T进行关联绑定,并将所述关联关系T映射保存至数据库;
S24、按照步骤S21- S23,依次对所述知识文本优排数据集N中的各项知识文本数据块进行实体识别和关联绑定、保存。
进一步地,所述基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱包括:
S31、在知识管理平台的创建页面上,为各个所述实体要素分配对应的实体代表节点;
S32、根据所述实体要素之间的关联关系T,将具有关联性的所述实体代表节点进行关联;
S33、对所述实体代表节点进行配置,将对应所述实体要素的文本摘要信息和所述情感/内容倾向以及态度,绑定至所述实体代表节点;
S34、绑定完毕,对所述实体代表节点进行元数据配置,在创建页面上生成对应的所述知识图谱。
进一步地,所述活动G表示为:
G=∏X K L,
其中,
X表示实体要素关联,将具有关联性的所述实体要素进行关联绑定;
K表示文本摘要提取,使用文本摘要算法,提取得到有关所述实体要素的文本摘要信息;
L表示文本内容分析,使用语义分析算法,对关联绑定的所述实体要素的文本摘要信息进行文本情感/内容分析,提取得到所述实体要素的情感/内容倾向以及态度;
G表示利用X、K和L的活动结果,构建生成对应的知识图谱。
进一步地,所述将所述知识图谱实时推荐至知识管理平台包括:
向所述知识管理平台发送入库通知,通知所述知识管理平台按照知识库入库条件,及时审核本次所构建的所述知识图谱:
若所述知识图谱符合所述知识库入库条件,则将本次所构建的所述知识图谱保存至数据库;
若所述知识图谱不符合所述知识库入库条件,则输出对应的入库失败结果,并向后台管理员下发对应的入库警告通知,同时将相应的入库要求发送至后台管理员。
进一步地,所述通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用包括:
S41、知识管理平台接收并保存所述知识图谱至数据库,同时通知管理员,由管理员向用户所在的应用端发出知识共享通知;
S42、用户通过应用端,访问所述知识管理平台,由所述知识管理平台对本次访问进行知识授权;
S43、当授权之后,进入所述知识管理平台的数据库,进行元数据检索,检索并访问所述知识图谱。
一方面,提供了一种知识追踪***,包括:
知识提取模块,用于提取知识文本数据并缓存至分布式文件***;
后台服务模块,用于通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,将所述关联关系T映射保存至数据库,并定时通知知识库构建模块抽取所述关联关系T;
知识库构建模块,用于基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
知识管理平台,用于管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的知识追踪方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的知识追踪方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,通过AI实体识别模型,对分布储存的知识文本数据,进行知识要素的实体以及实体之间的关联关系的识别,并基于所述关联关系执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,再将知识图谱实时推荐至知识管理平台,供用户通过应用端访问,开展对所述知识图谱的检索应用;这样,能够依托知识实体的关联关系,进行有序、可视化的知识数据管理和应用,通过融合生成的知识图谱,能够快速地让用户了解到对应的知识点位置和关联性,并提供知识点的关联性和知识文本的情感/内容倾向以及态度分析,供用户更好地了解知识的内容、深度分析和应用知识图谱,最大化利用知识价值,从而实现智能地管理、检索和追踪知识。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的知识追踪方法的流程示意图;
图2为本发明实施例提供的知识追踪方法的详细流程示意图;
图3为本发明实施例提供的分布储存流程示意图;
图4为本发明实施例提供的情感词典的训练流程示意图;
图5为本发明实施例提供的知识图谱的页面展示示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明实施例提供了一种知识追踪方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器,该方法包括:
S1、提取知识文本数据并缓存至分布式文件***(Hadoop DistributedFilesystem,HDFS);
作为一可选实施例,如图3所示,所述提取知识文本数据并缓存至分布式文件***,具体可以包括以下步骤:
S11、提取知识文本数据,批量对提取的所述知识文本数据进行预处理和清洗;
本实施例中,首先进行文本抽取,从企业数据库或者是日志数据库等数据文本来源中,利用文本抽取方式,从技术文档、网页或者是企业的其他技术文本来源中自动提取本次需要进行知识追踪的知识文本数据;比如,使用NLP技术从文本文档、网页和其他文本来源中自动提取关键信息、事实和概念。
S12、对批量处理后的所述知识文本数据,按照文本类型进行数据分类,得到由若干不同文本类型的知识文本数据块组成的数据集M,其中,
M={知识文本数据块1,知识文本数据块2,知识文本数据块3......};
本实施例中,为了提高知识图谱的构建效率,需要知识文本数据分类后,再进行分布式存储,具体的:按照文本类型(例如,文本、图文混合、图像或者标志等)进行数据分类,得到由文本、图文混合、图像或者标志组成的知识文本数据块,再由各个知识文本数据块构成数据集M。
S13、对所述数据集M中的各项知识文本数据块,按照预设的知识文本优先级进行有序编号,并进行序列优先重排,得到知识文本优排数据集N;
本实施例中,为了便于对数据集中的各个文本数据进行有序管理,需要设定各个知识文本数据块的优先级。知识文本优先级,将按照文本的重要性进行设定,比如数据集M中包含文本、图文混合、图像和标志(比如设备标识、符号),则按照图像优先,图文混合其次,其他靠后的优先原则,有序对数据集M中的不同文本类型的知识文本数据块进行顺序重排,得到知识文本优排数据集N。后续将按照这个重排顺序,进行实体识别操作,以此优先处理在先的数据。
S14、遍历分布式文件***HDFS的各个存储节点,查看可用的所述存储节点,并将所述知识文本优排数据集N中的各项知识文本数据块,按照优先重排顺序分布储存于所述分布式文件***的所述存储节点;
本实施例中,当排序后,利用分布式文件***HDFS对不同文本类型的知识文本数据块进行分布式存储。
本实施例中,文本抽取得到的数据,包含不同类型的知识文本数据,比如信息、文字和标志。因此为了更好地有序管理各个类型的文本数据,采用分布式存储技术,对各类型的知识文本数据进行有序管理,以此提高后续执行知识图谱构建活动G的效率,避免数据出错。
S15、将各项知识文本数据块的储存地址,发送至后台服务器。
本实施例中,后台服务器记录各项知识文本数据块的储存地址,便于后台服务器上预先部署的AI实体识别模型按照地址追踪处理各个存储节点下储存的数据。
S2、通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库;
作为一可选实施例,所述通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库(例如,Nosql数据库),具体可以包括以下步骤:
S21、后台服务器接收到所述储存地址之时,通知预先部署的AI实体识别模型调用储存在所述储存地址的知识文本数据块;
S22、通过所述AI实体识别模型对所述知识文本数据块进行实体识别,自动识别得到所述知识文本数据块中的实体要素m,同时根据所述实体要素m的上下文文本信息,关联识别得到所述实体要素之间的关联关系T:m1→m2;其中,m1和m2都表示实体要素;
本实施例中,在后台服务器上,当发现存储完毕,可以调用后台服务器上预先部署的AI实体识别模型,比如基于PaddleUIE等工具配置的模型工具,进行每个知识文本数据块中的文本识别或者是图像识别以及实体抽取、关系抽取、事件抽取等任务,实现对储存的知识文本数据进行实体要素的识别以及实体要素之间的关联关系的识别;比如可以将知识文本数据中的命名实体(例如,人名、地名)等实体要素,进行自动识别抽取和标记;同时可以利用实体文本识别算法等,对文本中实体要素之间的关系进行关系抽取,以此来获得实体要素之间的关联关系T。后续在进行知识点检索之时,可以依托该关联关系T,对具有关联性的两个实体要素m进行关联查看。
本实施例中,同时还可以利用语义分析算法,分析实体所在的上下文之间、所表达的实体要素之间的文本信息;也可以使用计算机视觉技术,识别和提取图像中的信息、文字和标志。
S23、将所述实体要素m和所述关联关系T进行关联绑定,并将所述关联关系T映射保存至Nosql数据库;
本实施例中,Nosql数据库是具备高性能的数据读写和使用多样的数据模型,可以对知识图谱上的各类类型的文本知识要素(实体要素所关联的文本信息)进行高效处理,而且可以提供动态信息,因此选用Nosql数据库进行储存。
S24、按照步骤S21- S23,依次对所述知识文本优排数据集N中的各项知识文本数据块进行实体识别和关联绑定、保存。
S3、定时通知知识库构建模块抽取所述关联关系T,在所述知识库构建模块上,基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
本实施例中,结合图2所示,在构建知识图谱之时,需要构建活动G,G需要同时融合几个文本处理结果,综合构建知识库的知识图谱,并在知识管理平台可以展示该知识图谱;
其中,所述活动G表示为:
G=∏X K L,
其中,
X表示实体要素关联,将具有关联性的所述实体要素进行关联绑定;
K表示文本摘要提取,使用文本摘要算法,提取得到有关所述实体要素的文本摘要信息;
L表示文本内容分析,使用语义分析算法,对关联绑定的所述实体要素的文本摘要信息进行文本情感/内容分析,提取得到所述实体要素的情感/内容倾向以及态度;
G表示利用X、K和L的活动结果,构建生成对应的知识图谱。
本实施例中,X关系的抽取旨在识别文本中的实体之间的关系,构建知识图谱,以表示知识的关联性。
本实施例中,提取文本摘要时:使用文本摘要算法,自动生成文本摘要,提炼出文档的关键信息。文本摘要算法如TextRank,对实体要素所在的文本内容,进行摘要提取,提取得到代表实体要素的文本摘要信息,比如可以代表、形容实体要素的关键词,关键摘要句段等。
本实施例中,进行文本情感/内容分析时:通过分析文本情感,帮助理解文本的情感倾向和态度。分析文本情感,可以采用基于情感词典的情感分析方法、基于传统机器学习的情感分析方法、基于深度学习的情感分析方法等,对实体要素的文本摘要信息进行文本情感/内容分析,提取得到所述实体要素的情感/内容倾向以及态度。通过实体要素的情感/内容倾向以及态度,可以简单、快速了解当前知识点所对应的实体要素所代表的文本走向。
如图4所示,比如可以采用情感词典方法,根据预先训练好的不同情感词典所提供的情感词的情感极性,来实现不同粒度下的情感极性划分,通过反映文本的非结构化特征,易于分析和理解实体要素所对应的知识点的内容态度,情感分类效果比较准确。
本实施例中,训练情感词典时,首先需要输入知识文本,并对其进行预处理(例如,分词),然后基于载入的积极词、消极词、程度副词、否定词、肯定词以及感叹词等情感词来训练情感词典,并按照预设的判断规则来输出情感。
作为一可选实施例,所述基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,具体可以包括以下步骤:
S31、在知识管理平台的创建页面上,为各个所述实体要素分配对应的实体代表节点;
S32、根据所述实体要素之间的关联关系T,将具有关联性的所述实体代表节点进行关联;
S33、对所述实体代表节点进行配置,将对应所述实体要素的文本摘要信息和所述情感/内容倾向以及态度,绑定至所述实体代表节点;
S34、绑定完毕,对所述实体代表节点进行元数据配置,在创建页面上生成对应的所述知识图谱。
本实施例中,通过多方位的实体识别、关系抽取以及文本内容的语义分析,进行知识库融合构建,得到知识图谱,通过知识图谱来展示实体要素之间的关联性以及各个实体要素的关键信息和内容走势,让用户根据知识点来直观了解到各个实体要素的关联性以及实体要素所在知识点的关键信息以及知识内容倾向,后续企业用户可以通过应用端登录知识管理平台来访问后台服务器,来对知识图谱开展检索运用,查看所需要的知识点所在的实体要素所包含的信息。通过。检索知识图谱,可以查询到相应知识点所在实体要素的关联性以及对应的关键信息,快速掌握知识点的核心内容和态度。
本实施例中,当通过知识库构建模块构建得到对应的知识图谱之后,可以将所述知识图谱实时推荐至知识管理平台,具体可以包括以下步骤:
向所述知识管理平台发送入库通知,通知所述知识管理平台按照知识库入库条件,及时审核本次所构建的所述知识图谱:
若所述知识图谱符合所述知识库入库条件,则将本次所构建的所述知识图谱保存至Nosql数据库;
若所述知识图谱不符合所述知识库入库条件,则输出对应的入库失败通知,同时将本次入库失败的原因以及相应的入库要求发送至后台管理员。
本实施例中,知识管理平台可以由各个企业等用户的服务器进行搭建,可以利用后台服务器上所采用的知识管理软件来对知识图谱进行管理运营。
本实施例中,对于知识管理平台上所配置的知识库入库条件,包含企业对不同知识点或者是知识要素的要求,具体由后台管理员进行设定。比如说需要对某一些知识实体要素进行舍弃,当发现到知识图谱中存在该类实体要素之时,则告知不符合知识库入库条件,输出对应的入库失败通知,同时将本次入库失败的原因以及相应的入库要求发送至后台管理员,以便后期进行整改。
S4、通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
作为一可选实施例,本实施例中,所述通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用,具体可以包括以下步骤:
S41、知识管理平台接收并保存所述知识图谱至数据库,同时通知管理员,由管理员向用户所在的应用端发出知识共享通知;
S42、用户通过应用端,访问所述知识管理平台,由所述知识管理平台对本次访问进行知识授权;
S43、当授权之后,进入所述知识管理平台的数据库,进行元数据检索,检索并访问所述知识图谱。
本实施例中,在企业的知识管理平台上,可以安装知识图谱工具比如INCEpTION、Neo4J,可以在其创建页面,根据实体要素之间的关联关系T,构建各个实体要素之间的知识图谱,最终可以在创建页面上得到如图5所示的一种知识图谱的页面。
本实施例中,在创建页面上可以通过小工具来拖动并创建实体代表节点,每一个实体代表节点代表一个知识图谱上的应用节点,该应用节点将代表一个实体要素,并可以通过实体要素之间的关联关系来将具有关联性的实体要素所代表的应用节点进行关联连接,同时为各个实体代表节点所代表的实体要素的文本摘要信息和内容倾向进行属性配置,为各个应用节点进行节点属性参数配置,将文本摘要信息、内容倾向和态度,配置并绑定在该应用节点上,以此构建得到本次的知识图谱,可以参考图5所示的一种社交网络的知识图谱,通过实体识别得到每个节点所代表的主体以及主体之间的关系,以此构建节点链接,生成社交网络的知识图谱。
本实施例中,企业用户可以通过应用端,比如智能手机的APP来登录知识管理平台。可以在得到知识管理平台的授权访问之后,访问知识管理平台上的知识图谱,并进行数据检索和知识图谱的检索应用。
本实施例中,对于知识管理平台对访问用户的权限、权限审核和管理,可以参考现有应用***对访问用户的权限配置和权限审核方案。
本实施例中,对于知识图谱的应用,将抽取的知识表示为实体和关系,以便于智能检索和关联。
本实施例中,可以加入元数据管理功能:为知识实体要素添加元数据,包括标签、关键词、时间戳等,以便更好地组织和检索知识。
本发明实施例所述的知识追踪方法,通过自动信息抽取、知识管理、智能检索和应用,可以从大量信息中提取有价值的见解,并支持各种应用场景,包括智能检索、个性化推荐、决策支持、创新和研发、教育和培训等。
在实施过程中,需要综合考虑安全性、性能和隐私保护等因素,以确保***的稳定性和可用性。
本实施例中,对常用的应用场景进行简要说明:
智能搜索:使用自然语言处理技术,提供智能搜索功能,使用户能够以自然语言查询知识库;
个性化推荐:基于用户的历史查询和兴趣,提供个性化的知识推荐,以帮助用户发现相关信息;或者根据学生的学习需求和兴趣,推荐适合的学习材料;
知识管理培训:为企业提供知识管理培训,帮助员工更好地利用知识资源。
综上,本发明实施例所述的知识追踪方法,至少具有以下有益效果:
本发明实施例中,通过AI实体识别模型,对分布储存的知识文本数据,进行知识要素的实体以及实体之间的关联关系的识别,并基于所述关联关系执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,再将知识图谱实时推荐至知识管理平台,供用户通过应用端访问,开展对所述知识图谱的检索应用;这样,能够依托知识实体的关联关系,进行有序、可视化的知识数据管理和应用,通过融合生成的知识图谱,能够快速地让用户了解到对应的知识点位置和关联性,并提供知识点的关联性和知识文本的情感/内容倾向以及态度分析,供用户更好地了解知识的内容、深度分析和应用知识图谱,最大化利用知识价值,从而实现智能地管理、检索和追踪知识。
本发明还提供一种知识追踪***的具体实施方式,由于本发明提供的知识追踪***与前述知识追踪方法的具体实施方式相对应,该知识追踪***可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述知识追踪方法具体实施方式中的解释说明,也适用于本发明提供的知识追踪***的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
本发明实施例还提供一种知识追踪***,包括:
知识提取模块,用于提取知识文本数据并缓存至分布式文件***;
后台服务模块,用于通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,将所述关联关系T映射保存至数据库,并定时通知知识库构建模块抽取所述关联关系T;
知识库构建模块,用于基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
知识管理平台,用于管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
本发明实施例所述的知识追踪***,通过AI实体识别模型,对分布储存的知识文本数据,进行知识要素的实体以及实体之间的关联关系的识别,并基于所述关联关系执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,再将知识图谱实时推荐至知识管理平台,供用户通过应用端访问,开展对所述知识图谱的检索应用;这样,能够依托知识实体的关联关系,进行有序、可视化的知识数据管理和应用,通过融合生成的知识图谱,能够快速地让用户了解到对应的知识点位置和关联性,并提供知识点的关联性和知识文本的情感/内容倾向以及态度分析,供用户更好地了解知识的内容、深度分析和应用知识图谱,最大化利用知识价值,从而实现智能地管理、检索和追踪知识。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条指令,所述至少一条指令由所述处理器601加载并执行以实现上述知识追踪方法。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述知识追踪方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
在说明书中提到“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”等指示所述的实施例可以包括特定特征、结构或特性,但未必每个实施例都包括该特定特征、结构或特性。另外,在结合实施例描述特定特征、结构或特性时,结合其它实施例(无论是否明确描述)实现这种特征、结构或特性应在相关领域技术人员的知识范围内。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外,为了避免对本发明的实质造成不必要的混淆,并没有详细说明众所周知的方法、过程、流程、元件和电路等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种知识追踪方法,其特征在于,包括:
S1、提取知识文本数据并缓存至分布式文件***;
S2、通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库;
S3、定时通知知识库构建模块抽取所述关联关系T,在所述知识库构建模块上,基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
S4、通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
2.根据权利要求1所述的知识追踪方法,其特征在于,所述提取知识文本数据并缓存至分布式文件***包括:
S11、提取知识文本数据,批量对提取的所述知识文本数据进行预处理和清洗;
S12、对批量处理后的所述知识文本数据,按照文本类型进行数据分类,得到由若干不同文本类型的知识文本数据块组成的数据集M,其中,
M={知识文本数据块1,知识文本数据块2,知识文本数据块3......};
S13、对所述数据集M中的各项知识文本数据块,按照预设的知识文本优先级进行有序编号,并进行序列优先重排,得到知识文本优排数据集N;
S14、遍历分布式文件***的各个存储节点,查看可用的所述存储节点,并将所述知识文本优排数据集N中的各项知识文本数据块,按照优先重排顺序分布储存于所述分布式文件***的所述存储节点;
S15、将各项知识文本数据块的储存地址,发送至后台服务器。
3.根据权利要求2所述的知识追踪方法,其特征在于,所述通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,并将所述关联关系T映射保存至数据库包括:
S21、后台服务器接收到所述储存地址之时,通知预先部署的AI实体识别模型调用储存在所述储存地址的知识文本数据块;
S22、通过所述AI实体识别模型对所述知识文本数据块进行实体识别,自动识别得到所述知识文本数据块中的实体要素m,同时根据所述实体要素m的上下文文本信息,关联识别得到所述实体要素之间的关联关系T:m1→m2;其中,m1和m2都表示实体要素;
S23、将所述实体要素m和所述关联关系T进行关联绑定,并将所述关联关系T映射保存至数据库;
S24、按照步骤S21- S23,依次对所述知识文本优排数据集N中的各项知识文本数据块进行实体识别和关联绑定、保存。
4.根据权利要求1所述的知识追踪方法,其特征在于,所述基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱包括:
S31、在知识管理平台的创建页面上,为各个所述实体要素分配对应的实体代表节点;
S32、根据所述实体要素之间的关联关系T,将具有关联性的所述实体代表节点进行关联;
S33、对所述实体代表节点进行配置,将对应所述实体要素的文本摘要信息和所述情感/内容倾向以及态度,绑定至所述实体代表节点;
S34、绑定完毕,对所述实体代表节点进行元数据配置,在创建页面上生成对应的所述知识图谱。
5.根据权利要求1所述的知识追踪方法,其特征在于,所述活动G表示为:
G=∏X K L,
其中,
X表示实体要素关联,将具有关联性的所述实体要素进行关联绑定;
K表示文本摘要提取,使用文本摘要算法,提取得到有关所述实体要素的文本摘要信息;
L表示文本内容分析,使用语义分析算法,对关联绑定的所述实体要素的文本摘要信息进行文本情感/内容分析,提取得到所述实体要素的情感/内容倾向以及态度;
G表示利用X、K和L的活动结果,构建生成对应的知识图谱。
6.根据权利要求4所述的知识追踪方法,其特征在于,所述将所述知识图谱实时推荐至知识管理平台包括:
向所述知识管理平台发送入库通知,通知所述知识管理平台按照知识库入库条件,及时审核本次所构建的所述知识图谱:
若所述知识图谱符合所述知识库入库条件,则将本次所构建的所述知识图谱保存至数据库;
若所述知识图谱不符合所述知识库入库条件,则输出对应的入库失败结果,并向后台管理员下发对应的入库警告通知,同时将相应的入库要求发送至后台管理员。
7.根据权利要求1所述的知识追踪方法,其特征在于,所述通过所述知识管理平台管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用包括:
S41、知识管理平台接收并保存所述知识图谱至数据库,同时通知管理员,由管理员向用户所在的应用端发出知识共享通知;
S42、用户通过应用端,访问所述知识管理平台,由所述知识管理平台对本次访问进行知识授权;
S43、当授权之后,进入所述知识管理平台的数据库,进行元数据检索,检索并访问所述知识图谱。
8.一种知识追踪***,其特征在于,包括:
知识提取模块,用于提取知识文本数据并缓存至分布式文件***;
后台服务模块,用于通过预先部署的AI实体识别模型,自动识别所述分布式文件***中缓存的所述知识文本数据中的实体要素以及实体要素之间的关联关系T,将所述关联关系T映射保存至数据库,并定时通知知识库构建模块抽取所述关联关系T;
知识库构建模块,用于基于所述关联关系T执行知识图谱构建活动G,以融合实体要素的文本摘要、情感/内容倾向以及态度,生成知识图谱,并将所述知识图谱实时推荐至知识管理平台;
知识管理平台,用于管理所述知识图谱,供用户通过应用端访问,开展对所述知识图谱的检索应用。
CN202311385302.0A 2023-10-25 2023-10-25 一种知识追踪方法及*** Active CN117112809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311385302.0A CN117112809B (zh) 2023-10-25 2023-10-25 一种知识追踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311385302.0A CN117112809B (zh) 2023-10-25 2023-10-25 一种知识追踪方法及***

Publications (2)

Publication Number Publication Date
CN117112809A true CN117112809A (zh) 2023-11-24
CN117112809B CN117112809B (zh) 2024-01-26

Family

ID=88795207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311385302.0A Active CN117112809B (zh) 2023-10-25 2023-10-25 一种知识追踪方法及***

Country Status (1)

Country Link
CN (1) CN117112809B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162639A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 识图知意的方法、装置、设备及存储介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN114706948A (zh) * 2022-03-28 2022-07-05 北京明略昭辉科技有限公司 新闻处理方法、装置、存储介质以及电子设备
CN114741533A (zh) * 2022-04-21 2022-07-12 北京明略昭辉科技有限公司 用于构建图谱的方法及装置、电子设备、存储介质
CN115169283A (zh) * 2022-06-28 2022-10-11 中国人民解放军国防科技大学 规划计划分布式快速监管方法、***、设备和存储介质
CN115544235A (zh) * 2022-11-09 2022-12-30 国网甘肃省电力公司经济技术研究院 一种基于文本解析的电网规划智能问答***
CN116881476A (zh) * 2023-08-01 2023-10-13 空间视创(重庆)科技股份有限公司 一种知识图谱构建方法、平台及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162639A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 识图知意的方法、装置、设备及存储介质
CN114595686A (zh) * 2022-03-11 2022-06-07 北京百度网讯科技有限公司 知识抽取方法、知识抽取模型的训练方法及装置
CN114706948A (zh) * 2022-03-28 2022-07-05 北京明略昭辉科技有限公司 新闻处理方法、装置、存储介质以及电子设备
CN114741533A (zh) * 2022-04-21 2022-07-12 北京明略昭辉科技有限公司 用于构建图谱的方法及装置、电子设备、存储介质
CN115169283A (zh) * 2022-06-28 2022-10-11 中国人民解放军国防科技大学 规划计划分布式快速监管方法、***、设备和存储介质
CN115544235A (zh) * 2022-11-09 2022-12-30 国网甘肃省电力公司经济技术研究院 一种基于文本解析的电网规划智能问答***
CN116881476A (zh) * 2023-08-01 2023-10-13 空间视创(重庆)科技股份有限公司 一种知识图谱构建方法、平台及计算机存储介质

Also Published As

Publication number Publication date
CN117112809B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
US11645317B2 (en) Recommending topic clusters for unstructured text documents
US7912816B2 (en) Adaptive archive data management
US20190370397A1 (en) Artificial intelligence based-document processing
CN112711937A (zh) 一种模板推荐方法、装置、设备及存储介质
Vysotska et al. Method of similar textual content selection based on thematic information retrieval
JP2013541793A (ja) マルチモード検索クエリー入力手法
US12008047B2 (en) Providing an object-based response to a natural language query
US11023551B2 (en) Document processing based on proxy logs
US9886479B2 (en) Managing credibility for a question answering system
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其***
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN113792195B (zh) 跨***的数据获取方法、装置、计算机设备和存储介质
CN111383072A (zh) 一种用户信用评分方法、存储介质及服务器
CN110334112B (zh) 一种简历信息检索方法及装置
CN115982429B (zh) 一种基于流程控制的知识管理方法及***
CN117034949A (zh) 咨询工单的分类方法、装置、电子设备及存储介质
CN117112809B (zh) 一种知识追踪方法及***
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
US11475529B2 (en) Systems and methods for identifying and linking events in structured proceedings
Hong et al. An efficient tag recommendation method using topic modeling approaches
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质
CN111324711B (zh) 一种帖子时效性判别方法、装置、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant