CN116244410B - 一种基于知识图谱和自然语言的指标数据分析方法及*** - Google Patents

一种基于知识图谱和自然语言的指标数据分析方法及*** Download PDF

Info

Publication number
CN116244410B
CN116244410B CN202310126462.7A CN202310126462A CN116244410B CN 116244410 B CN116244410 B CN 116244410B CN 202310126462 A CN202310126462 A CN 202310126462A CN 116244410 B CN116244410 B CN 116244410B
Authority
CN
China
Prior art keywords
index data
target
index
data
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310126462.7A
Other languages
English (en)
Other versions
CN116244410A (zh
Inventor
金震
张京日
穆宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202310126462.7A priority Critical patent/CN116244410B/zh
Publication of CN116244410A publication Critical patent/CN116244410A/zh
Application granted granted Critical
Publication of CN116244410B publication Critical patent/CN116244410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱和自然语言的指标数据分析方法及***,其方法包括:获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示。提高了根据用户需求对指标数据的查询或分析效率,同时,也保障了对指标数据查询或分析的准确率。

Description

一种基于知识图谱和自然语言的指标数据分析方法及***
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于知识图谱和自然语言的指标数据分析方法及***。
背景技术
目前,随着科技水平的发展,各行各业在运营过程中都会产生大量有用的指标数据,通过对指标数据的查询或者分析,有利于对业务的运营情况进行准确可靠的把握;
但是,由于指标数据量的庞大,导致在对指标数据查询或者分析时,只能靠指标名称进行模糊匹配,导致最终查询到的指标数据与用户需求相差较大,不能保障查询或分析的准确率的同时大大降低了用户的体验感,同时,由于指标数据量的庞大也导致了对指标数据查询或分析的效率低下,因此,如何让用户以自然语言,尤其是中文语言,以业务直觉对指标数据直接进行数据分析成为了亟待解决的问题;
因此,本发明提供了一种基于知识图谱和自然语言的指标数据分析方法及***。
发明内容
本发明提供一种基于知识图谱和自然语言的指标数据分析方法及***,用以通过将指标数据生成响应的指标知识图谱,从而便于根据用户的查询或分析需求快速从指标知识图谱中定位需要的关键指标数据,提高了根据用户需求对指标数据的查询或分析效率,同时,也保障了对指标数据查询或分析的准确率。
本发明提供了一种基于知识图谱和自然语言的指标数据分析方法,包括:
步骤1:获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
步骤2:将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
步骤3:将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤1中,获取待分析业务对应的指标数据集,包括:
获取待分析业务的业务属性,并基于业务属性以及数据获取终端的身份信息生成指标数据获取请求;
构建数据获取终端与预设服务器之间的通讯链路,并基于通讯链路将指标数据获取请求传输至预设服务器,且基于预设服务器将指标数据获取请求拆分为第一子响应请求和第二子响应请求;
基于预设服务器对第一子响应请求进行第一解析,并将解析结果与预设注册身份信息库进行匹配,且在存在相匹配的预设注册身份信息时,对第二子响应请求进行第二解析,确定待获取指标数据标识;
基于待获取指标数据标识对预设指标数据库进行检索,得到指标数据集,并将指标数据集打包后基于通讯链路反馈至数据获取终端。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤1中,提取指标数据集中各指标数据的数据特征,包括:
获取得到的指标数据集,并将指标数据集中各指标数据分割为长度相等的N个数据段,同时,确定指标数据集中各指标数据的协议类型,并基于协议类型将各指标数据对应的N个数据段依次输入对应的特征识别模型;
基于特征识别模型对输入的数据段进行分析,得到各数据段对应的数据类型值以及数据目标取值,并基于各数据段对应的数据类型值以及数据目标取值得到各指标数据的数据特征;
基于数据特征对指标数据集中各指标数据进行聚类处理,并基于聚类结果得到的各指标数据对应的分类结果。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤1中,基于数据特征构建指标数据集对应的指标知识图谱,包括:
获取得到的指标数据以及对应的数据特征,并基于数据特征确定指标数据中的重复指标数据,且对重复指标数据进行去重后得到标准指标数据;
基于指标数据的数据特征确定标准指标数据对应的任务领域,并基于待处理业务的业务处理逻辑确定标准指标数据对应的任务领域之间的第一逻辑关系,且基于第一逻辑关系构建任务领域之间的指标知识图谱的基础架构;
基于基础架构构建结果确定每一任务领域对应的子指标数据,并将子指标数据与对应任务领域进行关联,同时,基于数据特征确定每一子指标数对应的关键词,并基于关键词确定子指标数据之间的第二逻辑关系;
基于第二逻辑关系将子指标数据转换为结构化数据,并将转换得到的结构化数据与构建的基础框架进行融合,得到指标数据集对应的指标知识图谱。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,得到指标数据集对应的指标知识图谱,包括:
获取得到的指标知识图谱,并基于抽样检测随机抽取指标知识图谱中待校验任务领域包含的子指标数据,同时,基于待校验任务领域的业务范围,并基于业务范围确定待校验任务领域对应的理论子指标数据;
将子指标数据与理论子指标数据进行匹配,并当子指标数据与理论子指标数据存在差异时,判定构建的指标知识图谱存储缺陷,且基于判定结果依次对指标知识图谱中各任务领域进行校验,得到各任务领域中子指标数据与对应理论子指标数据的差异指标数据;
提取差异指标数据的数据头部信息和数据尾部信息,并基于数据头部信息和数据尾部信息确定差异指标数据在对应任务领域中与子指标数据的相对位置关系,且基于相对位置关系将差异指标数据在指标知识图谱中进行补全,得到最终的指标知识图谱。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤2中,将用户输入的目标请求进行自然语言处理,包括:
获取历史输入文本,并将历史输入文本进行拆分,得到N个语句段,且分别对N个语句段中包含的词汇的词性进行分析,得到不用语句段的词性构成;
基于词性构成分别对N个语句段进行多模式的语义学习,得到不同模式下的语义特征,并将得到的语义特征以及对语义特征的分析流程作为训练样本训练后得到自然语言处理模型;
获取用户输入的目标请求,并基于目标请求中携带的目标要求模式将目标请求转换为目标要求模式下的目标文本,且将目标文本输出自然语言处理模型进行分析,得到目标请求对应的目标语义特征;
基于目标语义特征从对应模式的预设语料库中匹配目标自然语言语料集合,并基于目标要求模式下的预设语法规则确定目标自然语言语料集合中各目标自然语言语料之间的目标语序,且基于目标语序对目标自然语言语料进行排序得到最终的自然语言。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤2中,对处理得到的自然语言进行关键分析需求识别,得到目标需求,包括:
获取对用户输入的目标请求进行自然语言处理后得到的自然语言,并提取自然语言对应的目标语义;
基于目标语义确定自然语言中的关键字,并基于关键字得到用户的关键分析需求,同时,基于关键分析需求判断用户的目标意图是否存在缺失,并在存在缺失时,确定自然语言中的缺失语言成分;
基于缺失语言成分确定待补充自然语料标签,并基于待补充自然语料标签对用户的历史语料信息进行检索,得到目标补充自然语料,且对目标补充自然语料进行自然语言处理后对关键分析需求进行补充;
基于补充结果得到用户最终的目标需求。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤3中,将目标需求与指标知识图谱进行匹配,得到关键指标数据,包括:
获取得到的目标需求,并将目标需求输入预设指标查询引擎进行转换,得到目标需求对应的查询要素;
基于查询要素生成查询语句,并基于查询语句对指标知识图谱进行分析,确定指标知识图谱中各指标数据相对查询语句的归属率;
将归属率大于或等于预设阈值的指标数据判定为关键指标数据,并基于归属率递减的顺序将得到的指标数据进行排序,得到最终的关键指标数据,其中,关键指标数据至少为一个。
优选的,一种基于知识图谱和自然语言的指标数据分析方法,步骤3中,生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示,包括:
获取得到的关键指标数据,并确定关键指标数据对应的指标分析需求;
基于指标分析需求确定对关键指标数据进行展示的目标图表类型,并基于目标图表类型从预设图表模板库中匹配目标图表模板;
提取目标图表模板的配置参数,并基于配置参数确定目标图表对待展示数据的格式要求,且基于格式要求对关键指标数据进行格式转换;
将转换后的关键指标数据与目标图表模板进行融合,得到关键指标数据对应的目标图像,其中,目标图像为柱状图、饼状图或折线图。
优选的,一种基于知识图谱和自然语言的指标数据分析***,包括:
图谱构建模块,用于获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
自然语言处理模块,用于将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
分析模块,用于将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于知识图谱和自然语言的指标数据分析方法的流程图;
图2为本发明实施例中一种基于知识图谱和自然语言的指标数据分析方法中步骤1的流程图;
图3为本发明实施例中一种基于知识图谱和自然语言的指标数据分析***的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,如图1所示,包括:
步骤1:获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
步骤2:将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
步骤3:将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示。
该实施例中,待分析业务指的是需要通过指标数据进行分析的业务,具体可以是产品销量、营业利润等。
该实施例中,指标数据集指的是需要构建的指标知识图谱对应的所有指标数据,具体可以是根据业务需求从服务器中获取与该业务相关的所有指标数据,且指标数据集中包含的指标数据不唯一。
该实施例中,指标数据是指标数据集中包含的数据,比如需要对当月产品的销售额进行确定,则指标数据就包括产品销量、产品种类以及产品单价等
该实施例中,数据特征指的是指标数据的类型以及指标数据的具体取值范围等。
该实施例中,指标知识图谱指的是根据指标数据的数据特征确定各指标数据之间的逻辑关系、调用关系以及相互作用关系,从而实现将各指标数据之间的关系采用图谱的形式进行展示。
该实施例中,目标请求指的是用户需要对指标数据进行的分析或查询等请求。
该实施例中,自然语言处理指的是将用户在***中输入的数据转换为自然语言,其中,自然语言为一种自然地随文化演化的语言,汉语、英语都是自然语言的例子,例如可以是将输入的目标请求转换为“当月各产品的销售额”。
该实施例中,进行关键分析需求识别指的是对得到的自然语言进行分析,提取自然语言中的关键字,从而便于确定用户查询或者分析的最终目的。
该实施例中,目标需求指的是用户需要从指标知识图谱中获取的指标数据的类型以及对应的取值等,即用户的分析目的。
该实施例中,关键指标数据指的是根据目标需求对指标知识图谱进行分析后,得到与用户输入的目标请求相一致的指标数据,且至少为一个。
该实施例中,生成关键指标数据对应的目标图像指的是根据关键指标数据对应的指标业务展示要求确定的,具体可以是根据关键指标数据的取值、关键指标数据中不同数据类型的比例等生成相应的柱状图、饼状图或曲线图等。
该实施例中,将目标需求与指标知识图谱进行匹配时,若知识图谱中不存在指标数据与目标需求相匹配,则根据待分析业务的原子指标、业务维度、业务限定以及时间等参数自动生成新的指标,并通过新的指标对构建的知识图谱进行完善。
上述技术方案的有益效果是:通过将指标数据生成响应的指标知识图谱,从而便于根据用户的查询或分析需求快速从指标知识图谱中定位需要的关键指标数据,提高了根据用户需求对指标数据的查询或分析效率,同时,也保障了对指标数据查询或分析的准确率。
实施例2:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤1中,获取待分析业务对应的指标数据集,,包括:
获取待分析业务的业务属性,并基于业务属性以及数据获取终端的身份信息生成指标数据获取请求;
构建数据获取终端与预设服务器之间的通讯链路,并基于通讯链路将指标数据获取请求传输至预设服务器,且基于预设服务器将指标数据获取请求拆分为第一子响应请求和第二子响应请求;
基于预设服务器对第一子响应请求进行第一解析,并将解析结果与预设注册身份信息库进行匹配,且在存在相匹配的预设注册身份信息时,对第二子响应请求进行第二解析,确定待获取指标数据标识;
基于待获取指标数据标识对预设指标数据库进行检索,得到指标数据集,并将指标数据集打包后基于通讯链路反馈至数据获取终端。
该实施例中,业务属性是用于表征待分析业务的业务类型等参数。
该实施例中,身份信息是用于表征数据获取终端对应的设备类型、设备的通讯地址以及设备对预设服务器的访问权限等。
该实施例中,指标数据获取请求是向预设服务传达数据获取终端的数据获取要求的,从而便于通过数据获取终端从预设服务器中获取相应的指标数据。
该实施例中,预设服务器是提前设定好的,用于存储不同待分析业务对应的指标数据。
该实施例中,第一子响应请求是用于表征指标数据获取请求中包含的数据获取终端对应的身份信息对应的身份信息验证请求。
该实施例中,第二子响应请求是用于表征指标数据中需要从预设服务器中获取的指标数据对应的数据获取请求。
该实施例中,第一解析指的是预设服务器对数据获取终端的身份信息进行验证。
该实施例中,预设注册身份信息库是提前设定好的,内部存储有不同终端在注册时录入的身份信息。
该实施例中,预设注册身份信息是预设注册身份信息库中的一种,即预设注册身份信息库中与当前数据获取终端身份相匹配的终端身份信息。
该实施例中,第二解析指的是对第二子响应请求进行解析,即对数据获取终端的数据获取请求进行解析。
该实施例中,指标数据标识是用于标记不同指标数据对应的数据类型的一种标记标签。
上述技术方案的有益效果是:通过根据待分析业务的业务属性从预设服务器中获取相应的指标数据,从而便于根据获取到的指标数据构建相应的指标知识图谱,保障了根据用户需求对指标数据进行分析和查询的效率以及准确率。
实施例3:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,如图2所示,步骤1中,提取指标数据集中各指标数据的数据特征,包括:
步骤101:获取得到的指标数据集,并将指标数据集中各指标数据分割为长度相等的N个数据段,同时,确定指标数据集中各指标数据的协议类型,并基于协议类型将各指标数据对应的N个数据段依次输入对应的特征识别模型;
步骤102:基于特征识别模型对输入的数据段进行分析,得到各数据段对应的数据类型值以及数据目标取值,并基于各数据段对应的数据类型值以及数据目标取值得到各指标数据的数据特征;
步骤103:基于数据特征对指标数据集中各指标数据进行聚类处理,并基于聚类结果得到的各指标数据对应的分类结果。
该实施例中,数据段指的是将指标数据进行拆分后得到的不同的数据片段,是原始指标数据中的一部分。
该实施例中,协议类型指的是不同指标数据在执行相应功能时需要满足的要求或者条件等。
该实施例中,特征识别模型是提前训练好的,用于识别不同数据对应的数据特征。
该实施例中,数据类型值是采用数值表征指标数据对应的数据类型。
该实施例中,目标取值指的是不同的指标数据对应的具体的取值大小情况等。
上述技术方案的有益效果是:通过将得到的指标数据拆分为不同的数据段,并将得到的数据段输入特征识别模型进行分析处理,实现对不同指标数据的数据特征进行准确可靠的确认,同时,根据得到的数据特征对得到的指标数据进行分类处理,从而便于构建不同指标数据对应的指标知识图谱,为实现根据用户的输入要求对指标数据进行快速准确的分析提供了便利与保障。
实施例4:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤1中,基于数据特征构建指标数据集对应的指标知识图谱,包括:
获取得到的指标数据以及对应的数据特征,并基于数据特征确定指标数据中的重复指标数据,且对重复指标数据进行去重后得到标准指标数据;
基于指标数据的数据特征确定标准指标数据对应的任务领域,并基于待处理业务的业务处理逻辑确定标准指标数据对应的任务领域之间的第一逻辑关系,且基于第一逻辑关系构建任务领域之间的指标知识图谱的基础架构;
基于基础架构构建结果确定每一任务领域对应的子指标数据,并将子指标数据与对应任务领域进行关联,同时,基于数据特征确定每一子指标数对应的关键词,并基于关键词确定子指标数据之间的第二逻辑关系;
基于第二逻辑关系将子指标数据转换为结构化数据,并将转换得到的结构化数据与构建的基础框架进行融合,得到指标数据集对应的指标知识图谱。
该实施例中,重复指标数据指的是获取到的指标数据中存在至少两个相同的指标数据。
该实施例中,标准指标数据指的是对获取到的指标数据中的重复指标数据进行去重后,得到的没有重复的指标数据。
该实施例中,任务领域是用于表征不同指标数据对应的功能类型,例如可以是影响“销量”的“客户购买力”、“商品属性”、“节假日影响”等,其中,“销量”则为“客户购买力”、“商品属性”、“节假日影响”的任务领域。
该实施例中,业务处理逻辑是用于表征待处理业务在运行过程中各部门或者各环节之间在执行时的先后顺序以及各部门或者各环节之间的影响关系等。
该实施例中,第一逻辑关系是用于表征任务领域之间的相互作用关系,即存在相互作用的任务领域之间的从属关系。
该实施例中,基础架构指的是根据标准指标数据对应的任务领域构建指标知识图谱的大致框架,从而便于将各自任务领域对应的具体指标数据依次填入对应的任务领域,目的是为了提高指标知识图谱构建的效率以及准确率。
该实施例中,子指标数据指的是每一任务领域对应的指标数据,是标准指标数据中的一部分。
该实施例中,将子指标数据与对应任务领域进行关联指的是将子指标数据与对应的任务领域构建关联关系,从而便于根据任务领域构建指标数据对应的指标知识图谱。
该实施例中,关键词指的是能够表征不同子指标数据的数据核心的数据片段。
该实施例中,第二逻辑关系是用于表征不同任务领域中包含的子指标数据之间的相互作用关系或相互调用关系等。
该实施例中,结构化数据指的是将子指标数据之间的第二逻辑关系以及子指标数据对应的具体内容进行数据格式的转化,目的是为了确保能通过知识图谱的形式对子指标数据的数据内容以及关联关系进行展示。
该实施例中,将转换得到的结构化数据与构建的基础框架进行融合指的是将各任务领域对应的子指标数据以及子指标数据对应的第二逻辑关系在构建的基础框架中进行填充,从而实现对最终需要的指标知识图谱进行构建。
上述技术方案的有益效果是:通过根据指标数据的数据特征对指标数据进行去重操作,从而便于确保构建的指标知识图谱的准确简洁,其次,通过根据数据特征对指标数据涉及到的任务领域进行确定,并根据待处理业务的业务处理逻辑实现根据任务领域对指标知识图谱的基础架构进行构建,最后,通过确定不同任务领域包含的子指标数据以及子指标数据之间的逻辑关系,实现将子指标数据在构建的基础架构中进行填充,得到最终的指标知识图谱,确保了构建的指标知识图谱的可靠性,也为根据用户输入对指标数据进行快速准确的分析或查询提供了便利与保障。
实施例5:
在实施例4的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,得到指标数据集对应的指标知识图谱,包括:
获取得到的指标知识图谱,并基于抽样检测随机抽取指标知识图谱中待校验任务领域包含的子指标数据,同时,基于待校验任务领域的业务范围,并基于业务范围确定待校验任务领域对应的理论子指标数据;
将子指标数据与理论子指标数据进行匹配,并当子指标数据与理论子指标数据存在差异时,判定构建的指标知识图谱存储缺陷,且基于判定结果依次对指标知识图谱中各任务领域进行校验,得到各任务领域中子指标数据与对应理论子指标数据的差异指标数据;
提取差异指标数据的数据头部信息和数据尾部信息,并基于数据头部信息和数据尾部信息确定差异指标数据在对应任务领域中与子指标数据的相对位置关系,且基于相对位置关系将差异指标数据在指标知识图谱中进行补全,得到最终的指标知识图谱。
该实施例中,待校验任务领域指的是对指标知识图谱进行抽样检测后得到的需要在指标知识图谱中进行核验的区域,目的是为了验证构建的指标知识图谱是否完善。
该实施例中,业务范围是用于表征待校验任务领域应该包含的指标数据的类型等,是理论上构建的指标知识图谱里应该包括的指标数据。
该实施例中,理论子指标数据指的是根据业务范围确定的待校验任务领域中应该包含的子指标数据的类型以及具体的子指标数据的数据内容。
该实施例中,判定构建的指标知识图谱存储缺陷指的是判定构建的指标知识图谱不完善,即缺少子指标数据。
该实施例中,差异指标数据指的是构建的指标知识图谱中未涉及到的子指标数据,且至少为一个。
该实施例中,数据头部信息指的是差异指标数据的起始位置对应的数据内容。
该实施例中,数据尾部信息指的是差异指标数据的结束位置对应的数据内容。
该实施例中,相对位置关系是用于表征差异指标数据在对应的任务领域中应该处于的数据位置,目的是为了将差异指标数据在构建的指标知识图谱中仅从补充。
上述技术方案的有益效果是:通过对构建的指标知识图谱进行抽样检测,同时确定待校验任务领域的业务范围,实现对待校验任务领域的理论子指标数据进行准确有效的确认,为实现对待校验任务领域进行核验提供了参考依据,其次,将待校验任务领域的子指标数据与对应的理论子指标数据进行匹配,实现对待校验任务领域存在的差异指标数据进行确定,且在确定了差异指标数据后根据差异指标数据的数据头部信息和数据尾部信息对差异指标在相应任务领域中的相对位置进行准确有效的确认,从而实现对构建的指标知识图谱进行完善,保障了构建的指标知识图谱的准确性。
实施例6:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤2中,将用户输入的目标请求进行自然语言处理,包括:
获取历史输入文本,并将历史输入文本进行拆分,得到N个语句段,且分别对N个语句段中包含的词汇的词性进行分析,得到不用语句段的词性构成;
基于词性构成分别对N个语句段进行多模式的语义学习,得到不同模式下的语义特征,并将得到的语义特征以及对语义特征的分析流程作为训练样本训练后得到自然语言处理模型;
获取用户输入的目标请求,并基于目标请求中携带的目标要求模式将目标请求转换为目标要求模式下的目标文本,且将目标文本输出自然语言处理模型进行分析,得到目标请求对应的目标语义特征;
基于目标语义特征从对应模式的预设语料库中匹配目标自然语言语料集合,并基于目标要求模式下的预设语法规则确定目标自然语言语料集合中各目标自然语言语料之间的目标语序,且基于目标语序对目标自然语言语料进行排序得到最终的自然语言。
该实施例中,历史输入文本是提前设定好的,用于为构建自然语言出苦力模型提供数据支撑。
该实施例中,语句段指的是对历史输入文本进行拆分后得到的多个语句,目的是为了提高对历史输入文本的处理效率以及处理准确率,从而便于确保训练得到的自然语言处理模型的准确率。
该实施例中,词性是用于表征不同词汇的类型,具体可以是连接词等。
该实施例中,词性构成是用于表征每一语句段中包含的词汇类型,具体可以是连接词、人称词以及表征结果或目的的词。
该实施例中,多模式指的是将历史数据文本采用不同模式的自然语言进行分析,例如可以是采用汉语、英语等方式分别对不同的语句段进行分析。
该实施例中,语义学习指的是对不同语句段的主旨内容进行确定,目的是通过对历史输入文本的处理实现对自然语言的处理流程进行确认。
该实施例中,语义特征是用于表征不同语句段表征的语句内容特点,即每个语句段想要传达的主旨思想。
该实施例中,分析流程指的是对历史文本的拆分、语句中词性的分析以及不同模式下的语义学习情况等。
该实施例中,自然语言处理模型是根据语义特征以及对语义特征的分析流程构建的,目的是为了对用户输入的目标请求转换为相应的自然语言,从而实现对构建的指标知识图谱进行分析。
该实施例中,目标要求模式指的是用户需要采用的模式,例如可以是汉语或英语中的任意一种。
该实施例中,目标文本指的是将目标请求转换为相应的脚本文件,目的是为了将用户输入的目标请求转换为相应的自然语言。
该实施例中,目标语义特征指的是通过自然语言处理模型对用户输入的目标文本进行自然语言处理后得到的目标文本对应的数据具体内容,即目标文本想要实现的最终功能。
该实施例中,预设语料库是提前设定好的,不同的模式对应不同的语料库,内部存储有不同的自然语言词汇。
该实施例中,目标自然语言语料集合指的是根据目标语义特征从预设语料库中匹配出的与目标语义特征内容相同,表达形式不同的自然语言词汇的集合。
该实施例中,预设语法规则是提前已知的,例如英文模式下需要遵循主谓宾的结构等。
该实施例中,目标自然语言语料是目标自然语言语料集合中包含的然语言语料。
该实施例中,目标语序是用于表征目标自然语言语料在构成逻辑语句时,需要满足的逻辑顺序。
上述技术方案的有益效果是:通过对历史输入文本进行处理,实现根据历史输入文本的处理结果对不同模式下的语义特征以及对语义特征的分析流程进行准确有效的确认,从而保障了构建的自然语言处理模型的准确可靠性,其次,将用户输入的目标请求转换为目标文本,并通过构建的自然语言处理模型对得到的目标文本进行分析,实现对用户的目标输入请求的目标语义特征进行准确可靠的分析,最后,根据得到的目标语义特征从对应模式的预设语料库中匹配目标自然语言语料集合,实现对目标请求对应的自然语言进行有效获取,从而保障了对用户的目标需求进行确认的可靠性,也提高了通过指标知识图谱对指标数据分析的准确率和效率。
实施例7:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤2中,对处理得到的自然语言进行关键分析需求识别,得到目标需求,包括:
获取对用户输入的目标请求进行自然语言处理后得到的自然语言,并提取自然语言对应的目标语义;
基于目标语义确定自然语言中的关键字,并基于关键字得到用户的关键分析需求,同时,基于关键分析需求判断用户的目标意图是否存在缺失,并在存在缺失时,确定自然语言中的缺失语言成分;
基于缺失语言成分确定待补充自然语料标签,并基于待补充自然语料标签对用户的历史语料信息进行检索,得到目标补充自然语料,且对目标补充自然语料进行自然语言处理后对关键分析需求进行补充;
基于补充结果得到用户最终的目标需求。
该实施例中,目标语义指的是自然语言对应的主旨内容。
该实施例中,关键字指的是对自然语言的主旨思想产生较大影响以及能够代表自然语言内容的数据片段。
该实施例中,关键分析需求是用于表征用户最终需要对指标数据进行查询或分析的目的,具体可以是查询某一类指标数据等。
该实施例中,目标意图指的是用户需要通过指标知识图谱和自然语言实现对指标数据的最终处理结果。
该实施例中,基于关键分析需求判断用户的目标意图是否存在缺失是用于校验根据自然语言判断出的关键分析需求是否满足对指标数据的查询逻辑,从而便于校验对自然语言的识别是否准确。
该实施例中,缺失语言成分是用于表征得到的自然语言中缺失的语句成分,具体可以是主谓宾中的任意一成分等。
该实施例中,待补充自然语料标签是用于表征需要补充的自然语言的类型的一种标记符号。
该实施例中,历史语料信息是提前获取的,是用户在一段时间内的所有的分析请求的记录。
该实施例中,目标补充自然语料指的是能够对得到的自然语言进行补充的自然语言,即历史语料信息中与待补充自然语料标签相匹配的自然语言。
上述技术方案的有益效果是:通过根据自然语言的目标语义实现对用户的关键分析需求进行确定,并对得到的关键分析需求进行校验,且在存在目标意图缺失时,及时对用户的关键分析需求进行补充,从而保障了最终得到的目标需求的准确可靠性,保障了对指标数据查询或分析的准确率,同时提高了根据用户需求对指标数据的查询或分析效率。
实施例8:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤3中,将目标需求与指标知识图谱进行匹配,得到关键指标数据,包括:
获取得到的目标需求,并将目标需求输入预设指标查询引擎进行转换,得到目标需求对应的查询要素;
基于查询要素生成查询语句,并基于查询语句对指标知识图谱进行分析,确定指标知识图谱中各指标数据相对查询语句的归属率;
将归属率大于或等于预设阈值的指标数据判定为关键指标数据,并基于归属率递减的顺序将得到的指标数据进行排序,得到最终的关键指标数据,其中,关键指标数据至少为一个。
该实施例中,预设指标查询引擎是提前设定好的,用于根据目标需求生成相应的指标数据查询语句。
该实施例中,查询要素是用于表征目标需求对应的对指标数据的查询要点,例如可以是对金融相关的指标数据进行查询等。
该实施例中,查询语句是通过预设指标查询引擎生成的,目的是为了控制***快速对指标数据进行定位。
该实施例中,归属率是用于表征指标知识图谱中各指标数据满足查询语句要求的程度,取值越大表明越满足查询语句的查询要求。
该实施例中,预设阈值是提前设定好的,用于表征满足查询要求的最低标准,是可以根据实际情况进行调整的。
该实施例中,基于查询语句对指标知识图谱进行分析,包括:
获取查询到的关键指标数据的总个数,并基于总个数计算查询到的关键指标数据的准确率,具体步骤包括:
根据如下公式计算查询到的关键指标数据的准确率:
其中,η表示查询到的关键指标数据的准确率,且取值范围为(0,1);α表示误差因子,且取值范围为(0.01,0.03);M表示查询到的关键指标数据的总个数;m表示查询到的关键指标数据中不符合查询要求的关键指标数据的个数,且取值小于M;s表示关键指标数据中被误判为不符合查询要求的关键指标数据的个数,且取值小于m;
将计算得到的准确率与预设准确率阈值进行比较;
若计算得到的准确率大于或等于预设准确率阈值,则判定基于指标知识图谱和自然语言对指标数据的分析效果合格;
否则,判定基于指标知识图谱和自然语言对指标数据的分析效果不合格,并对指标知识图谱的构建流程和自然语言的处理流程进行优化,直至计算得到的准确率大于或等于预设准确率阈值。
上述预设准确率阈值是提前设定好的,是用于表征对指标数据进行分析的最低要求,是可以进行调整的。
上述技术方案的有益效果是:通过预设指标查询引擎根据目标需求生成相应的查询语句,实现对指标知识图谱中包含的指标数据进行准确可靠的检索,其次,对检索到的指标数据相对查询语句的归属率进行确定,最后,根据归属率的取值对最终需要的关键指标数据进行准确可靠的确定,同时,通过计算对关键指标数据查询的准确率,且在准确率小于预设准确率阈值时,及时对指标知识图谱的构建流程和自然语言的处理流程进行优化,从而便于确保对指标数据的分析效果,保障了对指标数据查询或分析的准确率。
实施例9:
在实施例1的基础上,本实施例提供了一种基于知识图谱和自然语言的指标数据分析方法,步骤3中,生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示,包括:
获取得到的关键指标数据,并确定关键指标数据对应的指标分析需求;
基于指标分析需求确定对关键指标数据进行展示的目标图表类型,并基于目标图表类型从预设图表模板库中匹配目标图表模板;
提取目标图表模板的配置参数,并基于配置参数确定目标图表对待展示数据的格式要求,且基于格式要求对关键指标数据进行格式转换;
将转换后的关键指标数据与目标图表模板进行融合,得到关键指标数据对应的目标图像,并将关键指标数据以及对应的目标图像反馈至查询终端进行显示,其中,目标图像为柱状图、饼状图或折线图。
该实施例中,指标分析需求指的是关键指标数据对应的分析目的或者分析需求,具体可以是通过关键指标数据确定数据的走势或是不同数据所占的比例等。
该实施例中,目标图表类型指的是需要将关键指标数据进行展示的图表种类,具体可以是柱状图、饼状图以及折线图等图像。
该实施例中,预设图表模板库是提前设定好的,用于存储不同的图表模板。
该实施例中,目标图表模板指的是适用于对当前关键数据进行展示的图表。
该实施例中,配置参数指的是目标图表模板对待展示数据的取值范围、数据的展示格式等的要求。
该实施例中,目标图像指的是将关键指标数据与对应的目标图表模板进行融合后得到的最终的图像。
上述技术方案的有益效果是:通过确定对关键指标数据的指标分析需求,实现根据指标分析需求将指标数据生成相应的目标图像,并将目标图像与关键指标数据进行展示,提高了对指标数据分析的可靠性,也便于根据指标分析结果及时了解当前业务的运行情况。
实施例10:
本实施例提供了一种基于知识图谱和自然语言的指标数据分析***,如图3所示,包括:
图谱构建模块,用于获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
自然语言处理模块,用于将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
分析模块,用于将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示。
上述技术方案的有益效果是:通过将指标数据生成响应的指标知识图谱,从而便于根据用户的查询或分析需求快速从指标知识图谱中定位需要的关键指标数据,提高了根据用户需求对指标数据的查询或分析效率,同时,也保障了对指标数据查询或分析的准确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,包括:
步骤1:获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
步骤2:将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
步骤3:将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示;
其中,步骤1中,获取待分析业务对应的指标数据集,包括:
获取待分析业务的业务属性,并基于业务属性以及数据获取终端的身份信息生成指标数据获取请求;
构建数据获取终端与预设服务器之间的通讯链路,并基于通讯链路将指标数据获取请求传输至预设服务器,且基于预设服务器将指标数据获取请求拆分为第一子响应请求和第二子响应请求;
基于预设服务器对第一子响应请求进行第一解析,并将解析结果与预设注册身份信息库进行匹配,且在存在相匹配的预设注册身份信息时,对第二子响应请求进行第二解析,确定待获取指标数据标识;
基于待获取指标数据标识对预设指标数据库进行检索,得到指标数据集,并将指标数据集打包后基于通讯链路反馈至数据获取终端;
其中,步骤1中,提取指标数据集中各指标数据的数据特征,包括:
获取得到的指标数据集,并将指标数据集中各指标数据分割为长度相等的N个数据段,同时,确定指标数据集中各指标数据的协议类型,并基于协议类型将各指标数据对应的N个数据段依次输入对应的特征识别模型;
基于特征识别模型对输入的数据段进行分析,得到各数据段对应的数据类型值以及数据目标取值,并基于各数据段对应的数据类型值以及数据目标取值得到各指标数据的数据特征;
基于数据特征对指标数据集中各指标数据进行聚类处理,并基于聚类结果得到的各指标数据对应的分类结果;
其中,步骤2中,将用户输入的目标请求进行自然语言处理,包括:
获取历史输入文本,并将历史输入文本进行拆分,得到N个语句段,且分别对N个语句段中包含的词汇的词性进行分析,得到不用语句段的词性构成;
基于词性构成分别对N个语句段进行多模式的语义学习,得到不同模式下的语义特征,并将得到的语义特征以及对语义特征的分析流程作为训练样本训练后得到自然语言处理模型;
获取用户输入的目标请求,并基于目标请求中携带的目标要求模式将目标请求转换为目标要求模式下的目标文本,且将目标文本输出自然语言处理模型进行分析,得到目标请求对应的目标语义特征;
基于目标语义特征从对应模式的预设语料库中匹配目标自然语言语料集合,并基于目标要求模式下的预设语法规则确定目标自然语言语料集合中各目标自然语言语料之间的目标语序,且基于目标语序对目标自然语言语料进行排序得到最终的自然语言。
2.根据权利要求1所述的一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,步骤1中,基于数据特征构建指标数据集对应的指标知识图谱,包括:
获取得到的指标数据以及对应的数据特征,并基于数据特征确定指标数据中的重复指标数据,且对重复指标数据进行去重后得到标准指标数据;
基于指标数据的数据特征确定标准指标数据对应的任务领域,并基于待处理业务的业务处理逻辑确定标准指标数据对应的任务领域之间的第一逻辑关系,且基于第一逻辑关系构建任务领域之间的指标知识图谱的基础架构;
基于基础架构构建结果确定每一任务领域对应的子指标数据,并将子指标数据与对应任务领域进行关联,同时,基于数据特征确定每一子指标数对应的关键词,并基于关键词确定子指标数据之间的第二逻辑关系;
基于第二逻辑关系将子指标数据转换为结构化数据,并将转换得到的结构化数据与构建的基础框架进行融合,得到指标数据集对应的指标知识图谱。
3.根据权利要求2所述的一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,得到指标数据集对应的指标知识图谱,包括:
获取得到的指标知识图谱,并基于抽样检测随机抽取指标知识图谱中待校验任务领域包含的子指标数据,同时,基于待校验任务领域的业务范围,并基于业务范围确定待校验任务领域对应的理论子指标数据;
将子指标数据与理论子指标数据进行匹配,并当子指标数据与理论子指标数据存在差异时,判定构建的指标知识图谱存储缺陷,且基于判定结果依次对指标知识图谱中各任务领域进行校验,得到各任务领域中子指标数据与对应理论子指标数据的差异指标数据;
提取差异指标数据的数据头部信息和数据尾部信息,并基于数据头部信息和数据尾部信息确定差异指标数据在对应任务领域中与子指标数据的相对位置关系,且基于相对位置关系将差异指标数据在指标知识图谱中进行补全,得到最终的指标知识图谱。
4.根据权利要求1所述的一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,步骤2中,对处理得到的自然语言进行关键分析需求识别,得到目标需求,包括:
获取对用户输入的目标请求进行自然语言处理后得到的自然语言,并提取自然语言对应的目标语义;
基于目标语义确定自然语言中的关键字,并基于关键字得到用户的关键分析需求,同时,基于关键分析需求判断用户的目标意图是否存在缺失,并在存在缺失时,确定自然语言中的缺失语言成分;
基于缺失语言成分确定待补充自然语料标签,并基于待补充自然语料标签对用户的历史语料信息进行检索,得到目标补充自然语料,且对目标补充自然语料进行自然语言处理后对关键分析需求进行补充;
基于补充结果得到用户最终的目标需求。
5.根据权利要求1所述的一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,步骤3中,将目标需求与指标知识图谱进行匹配,得到关键指标数据,包括:
获取得到的目标需求,并将目标需求输入预设指标查询引擎进行转换,得到目标需求对应的查询要素;
基于查询要素生成查询语句,并基于查询语句对指标知识图谱进行分析,确定指标知识图谱中各指标数据相对查询语句的归属率;
将归属率大于或等于预设阈值的指标数据判定为关键指标数据,并基于归属率递减的顺序将得到的指标数据进行排序,得到最终的关键指标数据,其中,关键指标数据至少为一个。
6.根据权利要求1所述的一种基于知识图谱和自然语言的指标数据分析方法,其特征在于,步骤3中,生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示,包括:
获取得到的关键指标数据,并确定关键指标数据对应的指标分析需求;
基于指标分析需求确定对关键指标数据进行展示的目标图表类型,并基于目标图表类型从预设图表模板库中匹配目标图表模板;
提取目标图表模板的配置参数,并基于配置参数确定目标图表对待展示数据的格式要求,且基于格式要求对关键指标数据进行格式转换;
将转换后的关键指标数据与目标图表模板进行融合,得到关键指标数据对应的目标图像,其中,目标图像为柱状图、饼状图或折线图。
7.一种基于知识图谱和自然语言的指标数据分析***,其特征在于,包括:
图谱构建模块,用于获取待分析业务对应的指标数据集,提取指标数据集中各指标数据的数据特征,并基于数据特征构建指标数据集对应的指标知识图谱;
自然语言处理模块,用于将用户输入的目标请求进行自然语言处理,并对处理得到的自然语言进行关键分析需求识别,得到目标需求;
分析模块,用于将目标需求与指标知识图谱进行匹配,得到关键指标数据,并生成关键指标数据对应的目标图像,且将关键指标数据以及目标图像进行展示;
其中,图谱构建模块,包括:
获取待分析业务的业务属性,并基于业务属性以及数据获取终端的身份信息生成指标数据获取请求;
构建数据获取终端与预设服务器之间的通讯链路,并基于通讯链路将指标数据获取请求传输至预设服务器,且基于预设服务器将指标数据获取请求拆分为第一子响应请求和第二子响应请求;
基于预设服务器对第一子响应请求进行第一解析,并将解析结果与预设注册身份信息库进行匹配,且在存在相匹配的预设注册身份信息时,对第二子响应请求进行第二解析,确定待获取指标数据标识;
基于待获取指标数据标识对预设指标数据库进行检索,得到指标数据集,并将指标数据集打包后基于通讯链路反馈至数据获取终端;
获取得到的指标数据集,并将指标数据集中各指标数据分割为长度相等的N个数据段,同时,确定指标数据集中各指标数据的协议类型,并基于协议类型将各指标数据对应的N个数据段依次输入对应的特征识别模型;
基于特征识别模型对输入的数据段进行分析,得到各数据段对应的数据类型值以及数据目标取值,并基于各数据段对应的数据类型值以及数据目标取值得到各指标数据的数据特征;
基于数据特征对指标数据集中各指标数据进行聚类处理,并基于聚类结果得到的各指标数据对应的分类结果;
其中,自然语言处理模块,包括:
获取历史输入文本,并将历史输入文本进行拆分,得到N个语句段,且分别对N个语句段中包含的词汇的词性进行分析,得到不用语句段的词性构成;
基于词性构成分别对N个语句段进行多模式的语义学习,得到不同模式下的语义特征,并将得到的语义特征以及对语义特征的分析流程作为训练样本训练后得到自然语言处理模型;
获取用户输入的目标请求,并基于目标请求中携带的目标要求模式将目标请求转换为目标要求模式下的目标文本,且将目标文本输出自然语言处理模型进行分析,得到目标请求对应的目标语义特征;
基于目标语义特征从对应模式的预设语料库中匹配目标自然语言语料集合,并基于目标要求模式下的预设语法规则确定目标自然语言语料集合中各目标自然语言语料之间的目标语序,且基于目标语序对目标自然语言语料进行排序得到最终的自然语言。
CN202310126462.7A 2023-02-16 2023-02-16 一种基于知识图谱和自然语言的指标数据分析方法及*** Active CN116244410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310126462.7A CN116244410B (zh) 2023-02-16 2023-02-16 一种基于知识图谱和自然语言的指标数据分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310126462.7A CN116244410B (zh) 2023-02-16 2023-02-16 一种基于知识图谱和自然语言的指标数据分析方法及***

Publications (2)

Publication Number Publication Date
CN116244410A CN116244410A (zh) 2023-06-09
CN116244410B true CN116244410B (zh) 2023-10-20

Family

ID=86629198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310126462.7A Active CN116244410B (zh) 2023-02-16 2023-02-16 一种基于知识图谱和自然语言的指标数据分析方法及***

Country Status (1)

Country Link
CN (1) CN116244410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955648B (zh) * 2023-07-19 2024-01-26 上海企卓元科技合伙企业(有限合伙) 一种基于非隐私数据关联的知识图谱分析方法
CN116975137B (zh) * 2023-09-25 2023-12-22 哈尔滨工程大学三亚南海创新发展基地 一种基于应用需求的数据格式转换方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739878A (zh) * 2018-12-13 2019-05-10 北京达佳互联信息技术有限公司 大数据查询方法、装置、服务器及存储介质
CN111125352A (zh) * 2019-12-23 2020-05-08 同方知网(北京)技术有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
WO2021213314A1 (zh) * 2020-04-20 2021-10-28 北京京东拓先科技有限公司 数据处理方法、装置及计算机可读存储介质
CN114297229A (zh) * 2021-12-28 2022-04-08 杭州康晟健康管理咨询有限公司 一种数据查询方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW476895B (en) * 2000-11-02 2002-02-21 Semcity Technology Corp Natural language inquiry system and method
CN107256267B (zh) * 2017-06-19 2020-07-24 北京百度网讯科技有限公司 查询方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739878A (zh) * 2018-12-13 2019-05-10 北京达佳互联信息技术有限公司 大数据查询方法、装置、服务器及存储介质
CN111125352A (zh) * 2019-12-23 2020-05-08 同方知网(北京)技术有限公司 一种基于知识图谱的关联数据可视化数据驾驶舱构建方法
WO2021213314A1 (zh) * 2020-04-20 2021-10-28 北京京东拓先科技有限公司 数据处理方法、装置及计算机可读存储介质
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
CN114297229A (zh) * 2021-12-28 2022-04-08 杭州康晟健康管理咨询有限公司 一种数据查询方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Decade of Knowledge Graphs in Natural Language Processing:A survey;Phillip Schneider etc.;ResearchGate;全文 *
Peter Kraker etc..Open Knowledge Maps:Creating a Visual Interface to the World's Scientific Knowledge Based on Natural Language Processing.Journal for Library Culture.2016,全文. *
基于知识图谱的信息查询***设计与实现;杨荣等;计算机与数字工程(第04期);全文 *
领域知识图谱小样本构建与应用;张华平等;人工智能(第01期);全文 *

Also Published As

Publication number Publication date
CN116244410A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CA3174601C (en) Text intent identifying method, device, computer equipment and storage medium
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及***
CN113495900A (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
US9043367B2 (en) Self-learning data lenses for conversion of information from a first form to a second form
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN113239163A (zh) 一种基于交通大数据的智能问答方法及***
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN112765310A (zh) 一种基于深度学习与相似度匹配的知识图谱问答的方法
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
CN117332789A (zh) 一种面向对话场景的语义分析方法及***
CN111782789A (zh) 智能问答方法与***
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN116028608A (zh) 问答交互方法、装置、计算机设备及可读存储介质
CN114254109B (zh) 用于确定行业类别的方法及装置
CN115115432A (zh) 基于人工智能的产品信息推荐方法及装置
CN114254620A (zh) 政策解析方法、装置和存储介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN113627189A (zh) 一种面向保险条款的实体识别信息抽取、存储、展示方法
CN114003750A (zh) 物料上线方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant