CN116127047B - 企业信息库的建立方法与装置 - Google Patents
企业信息库的建立方法与装置 Download PDFInfo
- Publication number
- CN116127047B CN116127047B CN202310348347.4A CN202310348347A CN116127047B CN 116127047 B CN116127047 B CN 116127047B CN 202310348347 A CN202310348347 A CN 202310348347A CN 116127047 B CN116127047 B CN 116127047B
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- enterprise
- information
- information base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种企业信息库的建立方法,包括:获取目标企业的企业数据;对企业数据进行规范化处理得到规范化数据;对规范化数据进行文本解析得到解析后数据;对解析后数据进行信息抽取得到各类知识图谱数据;对各类知识图谱数据进行知识精炼得到精炼知识数据;将精炼知识数据进行知识融合得到可入库数据;将可入库数据进行知识入库形成企业信息库。本发明还公开了一种企业信息库的建立装置。本发明的企业信息库的建立方法中,可避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
Description
技术领域
本发明属于数据库技术领域,尤其涉及一种企业信息库的建立方法与装置。
背景技术
企业信息库是存储大量的企业数据、信息文档的资料库,其根本任务是高效地、精准地挖掘出用户所需的企业信息资源。然而,传统的企业信息库数据来源有限,多为结构化和半结构化的数据,且对非结构化的文本数据挖掘深度不够,但非结构化的文本数据往往是结构化数据的第一手资料来源。同时,传统的企业信息库构建采用人工或规则的方式进行数据处理,导致维护困难,信息准确率低,成本较高。
发明内容
本发明实施例提供一种企业信息库的建立方法,旨在解决因现有的企业信息库的数据来源局限于结构化与半结构化形式,并采用人工规则进行数据处理,而导致企业信息库的维护困难、信息准确率低与维护成本较高的技术问题。
本发明实施例是这样实现的,一种企业信息库的建立方法,包括:
获取目标企业的企业数据;
对所述企业数据进行规范化处理,得到规范化数据;
对所述规范化数据进行文本解析,得到解析后数据;
对所述解析后数据进行信息抽取,得到各类知识图谱数据;
对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
将所述精炼知识数据进行知识融合,得到可入库数据;以及
将所述可入库数据进行知识入库,形成企业信息库。
本发明实施例还提供了一种企业信息库的建立装置,包括:
数据获取单元,用于获取目标企业的企业数据;
数据清洗单元,用于对所述企业数据进行规范化处理,得到规范化数据;
文本解析单元,用于对所述规范化数据进行文本解析,得到解析后数据;
信息抽取预测单元,用于对所述解析后数据进行信息抽取,得到各类知识图谱数据;
知识精炼单元,用于对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
知识融合单元,用于将多组所述知识数据进行知识融合,得到可入库数据;以及
知识入库单元,用于将所述可入库数据进行知识入库,形成企业信息库。
本发明实施例的企业信息库的建立方法中,企业信息库的数据来源为目标企业的企业数据,为非结构化的文本数据,对企业数据进行规范化处理后得到规范化数据,对规范化数据进行文本解析得到解析后数据,根据解析后数据得到深度解析的文本信息,并通过信息抽取与知识精炼得到信息详尽的各类知识图谱数据与精炼知识数据,来提升信息输出的准确率,采用AI模型将非结构化文本转换成结构化的多元组数据,避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
附图说明
图1为可以应用本发明实施例的企业信息库的建立方法和装置的示例性***架构;
图2至图9为本发明实施例的企业信息库的建立方法的流程示意图;
图10为本发明实施例的企业信息库的建立装置的结构示意图;
图11为可以应用本发明实施例的企业信息库的建立方法的建立模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。此外,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,对于方向和位置关系的描述中所指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。
此外,本发明可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其它工艺的应用和/或其它材料的使用。
图1示例性地示出了根据本公开实施例的可以应用企业信息库的建立方法和装置的示例性***架构100。需要注意的是,图1所示仅为可以应用本公开实施例的***架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。
如图1所示,根据该实施例的***架构100可以包括终端设备(如智能手机101、平板电脑102与笔记本电脑103等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。终端设备上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的企业信息库的建立方法一般可以由服务器105执行。相应地,本公开实施例所提供的企业信息库的建立装置一般可以设置于服务器105中。本公开实施例所提供的企业信息库的建立方法也可以由不同于服务器105且能够与终端设备和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的企业信息库的建立装置也可以设置于不同于服务器105且能够与终端设备和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的企业信息库的建立方法也可以由终端设备执行,或者也可以由不同于图1所示的终端设备的其他终端设备执行。相应地,本公开实施例所提供的企业信息库的建立装置也可以设置于终端设备中,或设置于不同于终端设备的其他终端设备中。
例如,用于描述目标对象的文本数据可以原本存储在图1所示的终端设备中的任意一个(例如,智能手机101,但不限于此)之中,或者存储在外部存储设备上并可以导入到智能手机101中。然后,智能手机101可以将用于描述目标对象的文本数据发送到其他终端设备、服务器、或服务器集群,并由接收该用于描述目标对象的文本数据的其他服务器、或服务器集群来执行本公开实施例所提供的企业信息库的建立方法。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
实施例一
请参阅图2,本发明实施例的企业信息库的建立方法包括步骤:
S1:获取目标企业的企业数据;
S2:对企业数据进行规范化处理,得到规范化数据;
S3:对规范化数据进行文本解析,得到解析后数据;
S4:对解析后数据进行信息抽取,得到各类知识图谱数据;
S5:对各类知识图谱数据进行知识精炼,得到精炼知识数据;
S6:将精炼知识数据进行知识融合,得到可入库数据;以及
S7:将可入库数据进行知识入库,形成企业信息库。
本发明实施例的企业信息库的建立方法中,企业信息库的数据来源为目标企业的企业数据,为非结构化的文本数据,对企业数据进行规范化处理后得到规范化数据,对规范化数据进行文本解析得到解析后数据,根据解析后数据得到深度解析的文本信息,并通过信息抽取与知识精炼得到信息详尽的各类知识图谱数据与精炼知识数据,来提升信息输出的准确率,采用AI模型将非结构化文本转换成结构化的多元组数据,避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
在步骤S1中,目标企业为设定、选定的企业,可以是自身应用本发明实施例的企业信息库的建立方法来建立自己的企业信息库的企业,也可以是应用本发明实施例的企业信息库的建立方法建立其他企业的企业信息库中所选择的其他企业。
企业数据不仅包括结构化和非结构化的数据,更包括非结构化的文本,甚至非结构化的文本往往是结构化数据的第一手资料来源,如企业年报、招股书等,因此,运用AI模型,基于非结构化文本解析结构化数据的企业信息库显得尤为重要。
在本实施例中,所设定的目标企业为上市公司,企业数据为财务类/经济类数据(如上交所与深交所的上市公司的年度报告、招股说明书、财经新闻数据等),可以理解,上市公司的企业数据更为公开透明,且来源也更为广泛与准确、数据也更为详细,能够提升对企业数据的获取准确度与效率。
更多地,在获取目标企业的企业数据之前,先建立一个数据采集库,将所获取到众多的企业数据都存入数据采集库中,以便于存储与管理。
在步骤S2中,由于所获取的众多企业数据中可能会存在一些重复的、错误的数据,因此,需要对所获取的企业数据进行规范化处理,在本实施例中为去重、去噪等处理,以去除企业数据中重复的、错误的内容,从而得到规范化数据,一方面可控制数据量来减少后续的数据处理过程,提升后续的数据处理效率,另一方面可保证数据的准确性。
在其他实施例中,规范化处理还可包括其他处理手段,并不限于上述的去重去噪,具体实施时具体选择即可。
更多地,建立一个业务库,在对企业数据进行规范化处理后,将规范化数据存储入业务库中,既可与企业数据进行区分,也可便于后续将规范化数据直接输出处理。
由于从公开的网站等数据来源所获取的众多企业数据的格式不一,如PDF格式、图片格式、word格式与HTML格式等,虽然企业数据经过了去重去噪的规范化处理,但仍不能直接使用。
因此,在步骤S3中,对规范化数据进行深度的文本解析而转化为文本类型的数据,如将PDF格式或图片格式的数据转化为文本格式、将HTML格式或word格式的数据转化为文本数据等,便于后续的数据处理,即便于后续的信息抽取。
在步骤S4中,对解析后数据进行信息抽取主要为对解析后的属性、关系与通用信息进行抽取,进而得到各类知识图谱数据,如结构化、网状结构与事件类或事实类的知识图谱数据。
知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。实体指的可以是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。
简单而言,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力,可帮助企业构建企业信息库,摆脱原始的人工输入,可以应用于智能搜索、文本分析、机器阅读理解、异常监控以及风险控制等场景,达到真正的智能和自动。
在步骤S5中,知识精炼为对各类知识图谱进行实体对齐、信息补全、属性对齐、时间对齐与指代消解,来减少各类知识图谱中的重复的实体名称、补全缺少的信息、减少重复的属性名称、减少重复的时间表达方式与统一不同的实体名称,从而实现对各类知识图谱的精炼而得到精炼知识数据。
在步骤S6中,精炼知识数据的数据量众多且各自之间没有明确的联系,因此,需要将精炼知识数据融合关联起来,并确定精炼知识数据之间的逻辑关系,同时还得确保精炼知识数据的可信度,将可信的、建立了确定的逻辑关系且融合起来的精炼知识数据输出为可入库数据存储相应的库中,如此,便可凭借其中之一的精炼知识数据找到最终需要的准确可信的数据。
为在可入库数据存储入数据库后便于搜索查找,在步骤S7中,将可入库数据进行知识入库可以理解为,在可入库数据存储后建立关键词检索功能与知识关联检索功能,如此,通过检索关键词即可检索到相应的可入库数据的详细内容,以及与该关键词相关联的其他可入库数据的详细内容,提升数据检索效率。
实施例二
更进一步地,步骤S1包括步骤:
S11:设定目标企业,从设定的数据网站上获取目标企业的企业数据;其中,企业数据至少包括目标企业的年度报告、招股说明书与财经新闻数据。
具体地,可设定的目标企业与数据网站均为一个或多个,较佳地,设定的目标企业和数据网站均为多个,如此可提供足够多的数据与更多的数据来源,进而构建足够大、足够详细的企业信息库。在本实施例中,目标企业为上交所和深交所的上市公司,以保证企业数据来源的广泛性、公开性与准确性。
通过设定目标企业与设定数据网站,以保证所获取的目标企业的企业数据为用户想要的,可减小获取数据的范围,提升数据获取速度。目标企业的年度报告、招股说明书与财经新闻数据相对来说更为公开透明,更易于从权威、准确的数据来源获取得到,则可保证数据来源的准确性与充足性,进而提升所形成的企业信息库所提供数据的准确性与充足性。
而且,年度报告、招股说明书与财经新闻数据等企业数据为非结构化的文本数据,非结构化数据的来源相比于结构化数据与半结构化数据来说更为广泛,能够提升企业数据的获取来源,保证数据量的充足,并且非结构化数据中蕴藏着大量的有用信息。
可根据实际需求来定期或持续性地获取目标企业的企业数据,在本实施例中,设定为定期获取目标企业的企业数据,定期的时间根据具体需求进行设置即可,既可保证数据的有效获取与更新,还可减少数据的获取量与处理量,降低***负担。
示例性地,设定目标企业为A公司,设定网站为A公司的官方网站,企业数据为A公司的年度报告,设定时间为间隔一年,则为间隔一个月从A公司的官方网站上获取A公司的年度报告。
在又一个例子中,设定目标企业为上交所和深交所上市公司,设定网站为上交所和深交所官网,目标企业数据为企业年报,每日自动从网站爬取数据。
在其他实施例中,企业数据还可包括更多的数据,如还可包括季度报告等,以增大数据来源,提升数据量。
实施例三
请参阅图3,更进一步地,步骤S3包括步骤:
S31:将规范化数据中的PDF格式的文字坐标解析转化为连续的文本数据;以及
S32:将规范化数据中的HTML格式的数据解析转化为纯文本数据,得到解析后数据。
具体地,本实施例中,由于PDF格式是一种特殊的数据格式,包含文本块和文本块的坐标,不能直接作为纯文本数据使用,需要通过PDF解析模块将PDF数据转换成纯文本数据,并且保存文本块的坐标。同时,HTML格式的数据包含大量的标签等特殊符号,需要通过HTML解析模块将HTML格式数据转换成纯文本数据,并且保存所属标签的位置信息。
实施例五
在本实施例中,步骤S4包括步骤S41:对解析后数据进行属性抽取、关系抽取与通用信息抽取,得到结构化的知识图谱数据、网状结构的知识图谱数据与事件类或事实类的知识图谱数据。
请参阅图4,更进一步地,步骤S41包括步骤:
S411:抽取解析后数据中的时间、实体、属性、值四元组属性信息,形成结构化的知识图谱数据;
S412:抽取解析后数据中的主体、关系、主体三元组关系信息,形成网状结构的知识图谱数据;以及
S413:抽取解析后数据中的时间、主体、动作、客体、参数、条件六元组动作信息,形成事件类或事实类的知识图谱数据。
也即是说,本实施例中对解析后数据的属性抽取为,对解析后数据中的时间、实体、属性与值四元组属性信息进行抽取,通过时间、实体、属性与值四元组属性信息来确定与实体相关的属性信息,进而形成结构化的知识图谱数据;
本实施例中对解析后数据的关系抽取为,对解析后数据中的主体、关系与主体三元组关系信息进行抽取,通过主体、关系与主体三元组关系信息来确定实体之间的关系,建立对应的联系,从而形成网状结构的知识图谱数据;
本实施例中对解析后数据的通用信息抽取为,对解析后数据中的时间、主体、动作、客体、参数与条件六元组动作信息进行抽取,通过时间、主体、动作、客体、参数与条件六元祖动作信息来确定实体已发生的动作,从而确定实体有关的事件或事实,从而形成事件类或事实类的知识图谱数据。
实施例六
请参阅图5,更进一步地,步骤S5包括步骤:
S51:将各类知识图谱数据中同一实体的多种名称合并成一个名称,实现实体对齐;
S52:将各类知识图谱数据中省略了设定信息的句子连接到出现过的设定信息,实现信息补全;
S53:将各类知识图谱数据中同一属性的多种名称合并成一个名称,实现属性对齐;
S54:将各类知识图谱数据中同一时间的多种表达方式合并成一种表达方式,实现时间对齐;
S55:将各类知识图谱数据中指向同一实体的简称或代称转换成统一的实体名称,实现指代消解;以及
S56:将各类知识图谱数据输出,得到精炼知识数据。
在步骤S51中,可以理解,由于各类知识图谱初始的数据来源可能不同,而在不同的数据来源中,同一实体可能有着不同的名称,如西红柿与番茄,此时需要进行实体对齐,即将各类知识图谱数据中同一实体的多种名称合并为一个名称,所合并的名称可以为多个名称中更为常见、更为常用的名称,保证实体名称的准确性与规范化,进而使得与名称不同但实际上为同一实体关联的数据,可以准确地关联到实体上。
在步骤S52中,某些数据来源的数据可能并不规范、并不准确,可能会缺少一些设定信息,设定信息如主语与时间等,这些数据虽然在直接阅读时可能并不会造成太大影响,但在录入企业信息库时,却容易导致数据关联与存储出现错误,此时,需要进行信息补全,即将各类知识图谱数据中省略了设定信息的句子连接到上文出现过的设定信息,如上文出现过的时间与主语等,以保证整个文本语句的完整与准确。
在步骤S53中,由于各类知识图谱初始的数据来源可能不同,而在不同的数据来源中,同一属性可能有着不同的名称,此时需要进行属性对齐,即将各类知识图谱数据中同一属性的多种名称合并为一个名称,保证属性名称的准确性与规范化。
在步骤S54中,由于各类知识图谱初始的数据来源可能不同,而在不同的数据来源中,同一时间可能有着不同的表达方式,如早上8点与AM8:00,此时需要进行时间对齐,即将各类知识图谱数据中同一时间的多种表达方式合并为一种表达方式,保证时间表达方式的准确性与规范化。
在步骤S55中,由于各类知识图谱初始的数据来源可能不同,而在不同的数据来源中,一个实体可能有着不同的简称或代称,如阿里巴巴可能被简称为阿里,此时需要进行指代消解,即将将各类知识图谱数据中指向同一实体的简称或代称转换成统一的实体名称,此时所转换为的统一的实体名称可以为更为常见、更为常用的实体名称,保证实体名称的准确性与规范化,进而使得与名称不同但实际上为同一实体关联的数据,可以准确地关联到实体上。
值得一提的是,本实施例通过深度学习来进行,既可保证准确性,也可提升信息抽取能力,另外,对各类知识图谱数据进行实体对齐、信息补全、属性对齐、时间对齐与指代消解分别、同时地进行,以保证知识精炼的效率,进而提升企业信息库的建立速度,提升用户满意度。
实施例七
请参阅图6,更进一步地,步骤S6包括步骤:
S61:将精炼知识数据进行合并;
S62:确定精炼知识数据中各个知识点之间的逻辑关系;
S63:依据各个知识点的来源数量计算每个知识点的可信度;以及
S64:将可信度大于来源阈值的知识点输出为可入库数据。
具体地,通过知识精炼得到众多的精炼知识数据后,首先可将众多的精炼知识数据合并、融合起来成为一个集合,不但便于存储,也便于确定精炼知识数据中各个知识点之间的逻辑关系,知识点可以理解为精炼知识数据中与企业数据相关联的重要的详细信息,是直接影响企业信息库的数据准确度的内容,因此,需要计算、验证知识点的可信度,在本实施例中,通过依据各个知识点的来源的数量来进行计算,基于数据来源划分等级,以及基于知识点的来源数量,赋予每个知识点可信度得分。
在本实施例中,来源阈值可以是自动给出的经过大量相关计算后得出的阈值,也可以是用户根据自身需求所选择、设定的阈值,根据需求进行选择即可。
实施例八
请参阅图7,更进一步地,步骤S7包括步骤:
S71:将可入库数据中的完整信息元入库持久化存储,建立全文索引,以提供关键词检索功能;以及
S72:将可入库数据中的多元组数据统一转成三元组数据保存到图数据库,以提供知识关联检索功能,形成企业信息库。
具体地,通过将可入库数据中的完整信息元入库持久化存储,既可保证可入库数据的持久化使用,也可保证数据可准确溯源,而建立全文索引以提供关键词检索功能,则可便于通过关键词对可入库数据的全文查找检索,提升数据检索速度。
而将可入库数据中的多元组数据统一转成三元组数据保存到图数据库,可简化数据的关系,控制数据量使得数据更容易进行检索。其中,图数据库是以点、边为基础存储单元,以高效存储、查询图数据为设计原理的数据管理***,其能够快速响应复杂关联查询,可以直观地可视化关系,是存储、查询、分析高度互联数据的最优办法,因此,能够提供较佳的知识关联检索功能,提升使用体验。
实施例九
请参阅图8,更进一步地,步骤S7之后包括步骤:
S8:获取人工标注数据;
S9:获取自动标注数据;
S01:根据人工标注数据与自动标注数据,对信息抽取的功能进行信息抽取训练;以及
S02:将经过信息抽取训练后的信息抽取的功能进行更新。
可以理解,人工标注数据即由人工标注的数据,可作为数据参考与其他数据进行比对来进行校验工作从而提升准确率,在本实施例中,人工标注数据为由人工对企业数据以及后续的其他数据进行标注,人工标注数据的具体内容为本领域的常规技术,在此不做赘述。
自动标注数据为通过本建立方法执行而进行标注的企业数据,可通过知识点比对来产生自动标注数据,如同一实体在年度报告与财经报告进行比对而实现信息验证,识别错误的信息并结合人工标注数据生成正确的信息,以对信息抽取功能进行信息抽取训练,然后将训练后的信息抽取功能进行更新,则可用以提升信息抽取功能的能力,而无需软件工程师的参与进行升级与维护,使得企业信息库的维护成本更为低廉可控。
实施例十
请参阅图9,更进一步地,步骤S9包括步骤:
S91:根据已入库的不同来源的可入库数据进行信息验证;
S92:识别可入库数据中的错误的抽取信息,并生成正确的抽取信息;以及
S93:将正确的抽取信息输出为自动标注数据。
具体地,不同来源的可输入数据中的同一实体的信息可能会存在一定的差别,因此,在抽取得到实体之后,需要根据已入库的不同来源的同一实体的相关数据进行信息验证,识别错误的抽取信息,生成正确的抽取信息,从而产生自动标注数据,实现抽取能力的更新,提升抽取能力,来降低维护成本。生成自动标注数据例如,同一实体在年度报告与财经报告进行信息验证,若是存在错误,则识别错误的抽取信息,生成正确的抽取信息。
本发明实施例的企业信息库的建立方法的技术方案大致为,根据PDF和HTML数据,得到深度解析的文本信息,并通过信息抽取得到信息详尽的知识点,最后通过知识点比对,产生自动标注数据,强化企业信息库的信息抽取水平,形成高质量的企业信息库,为多种应用场景,如智能问答、智能检索和商科研究课题提供数据支撑。
实施例十一
请参阅图10,本发明的企业信息库的建立装置200包括:
数据获取单元201,用于获取目标企业的企业数据;
数据清洗单元202,用于对企业数据进行规范化处理,得到规范化数据;
文本解析单元203,用于对规范化数据进行文本解析,得到解析后数据;
信息抽取预测单元204,用于对解析后数据进行信息抽取,得到各类知识图谱数据;
知识精炼单元205,用于对各类知识图谱数据进行知识精炼,得到精炼知识数据;
知识融合单元206,用于将多组知识数据进行知识融合,得到可入库数据;以及
知识入库单元207,用于将可入库数据进行知识入库,形成企业信息库。
本发明实施例的企业信息库的建立装置200中,企业信息库的数据来源为目标企业的企业数据,为非结构化的文本数据,对企业数据进行规范化处理后得到规范化数据,对规范化数据进行文本解析得到解析后数据,根据解析后数据得到深度解析的文本信息,并通过信息抽取与知识精炼得到信息详尽的各类知识图谱数据与精炼知识数据,来提升信息输出的准确率,采用AI模型将非结构化文本转换成结构化的多元组数据,避免传统的人工规则处理方式导致的规则冲突问题,且更便于维护、维护成本更低,能够形成高质量的企业信息库,从而提升企业的业务管理水平,并可为多种应用场景如智能问答、智能检索和商科研究课题提供数据支撑。
请参阅图11,为可应用本发明实施例的企业信息库的建立方法的建立模型的结构示意图,将各个功能进行模块化形成功能模块,每个功能模块的功能都清楚的显示并被执行,与本发明实施例的企业信息库的建立方法的流程步骤对应,形成一个完整的建立模型,输入年度报告、招股说明书与财经新闻等企业数据即可输出而建立企业信息库。
更多地,为上述的企业信息库的建立装置200与上述的建立模型提供一个应用界面,用户在该应用界面的搜索框中搜索某个上市公司的名字,企业信息库即可根据该上市公司的名字来显示对应的企业信息,同时,还可显示该上市公司的关联数据,满足更多的用户需求。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。
而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本说明书的描述中,参考术语“实施例一”、“实施例二”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种企业信息库的建立方法,其特征在于,包括:
获取目标企业的企业数据;
对所述企业数据进行规范化处理,得到规范化数据;
对所述规范化数据进行文本解析,得到解析后数据;
对所述解析后数据进行信息抽取,得到各类知识图谱数据;
对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
将所述精炼知识数据进行知识融合,得到可入库数据;以及
将所述可入库数据进行知识入库,形成企业信息库;
所述对所述规范化数据进行文本解析,得到解析后数据,包括:
将所述规范化数据中的PDF格式的文字坐标解析转化为连续的文本数据,并保存所述PDF格式的文字中文本块的坐标;以及
将所述规范化数据中的HTML格式的数据解析转化为纯文本数据,并保存所述HTML格式数据的所属标签的位置信息,得到解析后数据。
2.根据权利要求1所述的企业信息库的建立方法,其特征在于,所述对所述解析后数据进行信息抽取,得到各类知识图谱数据,包括:
对所述解析后数据进行属性抽取、关系抽取与通用信息抽取,得到结构化的知识图谱数据、网状结构的知识图谱数据与事件类或事实类的知识图谱数据。
3.根据权利要求2所述的企业信息库的建立方法,其特征在于,所述对所述解析后数据进行属性抽取、关系抽取与通用信息抽取,得到结构化的知识图谱数据、网状结构的知识图谱数据与事件类或事实类的知识图谱数据,包括:
抽取所述解析后数据中的时间、实体、属性、值四元组属性信息,形成结构化的知识图谱数据;
抽取所述解析后数据中的主体、关系、主体三元组关系信息,形成网状结构的知识图谱数据;以及
抽取所述解析后数据中的时间、主体、动作、客体、参数、条件六元组动作信息,形成事件类或事实类的知识图谱数据。
4.根据权利要求1所述的企业信息库的建立方法,其特征在于,所述对各类所述知识图谱数据进行知识精炼,得到精炼知识数据,包括:
将各类所述知识图谱数据中同一实体的多种名称合并成一个名称,实现实体对齐;
将各类所述知识图谱数据中省略了设定信息的句子连接到出现过的所述设定信息,实现信息补全;
将各类所述知识图谱数据中同一属性的多种名称合并成一个名称,实现属性对齐;
将各类所述知识图谱数据中同一时间的多种表达方式合并成一种表达方式,实现时间对齐;
将各类所述知识图谱数据中指向同一实体的简称或代称转换成统一的实体名称,实现指代消解;以及
将各类所述知识图谱数据输出,得到精炼知识数据。
5.根据权利要求1所述的企业信息库的建立方法,其特征在于,所述将所述精炼知识数据进行知识融合,得到可入库数据,包括:
将所述精炼知识数据进行合并;
确定所述精炼知识数据中各个知识点之间的逻辑关系;
依据各个所述知识点的来源数量计算每个所述知识点的可信度;以及
将可信度大于来源阈值的所述知识点输出为可入库数据。
6.根据权利要求1所述的企业信息库的建立方法,其特征在于,所述将所述可入库数据进行知识入库,形成企业信息库,包括:
将所述可入库数据中的完整信息元入库持久化存储,建立全文索引,以提供关键词检索功能;以及
将所述可入库数据中的多元组数据统一转成三元组数据保存到图数据库,以提供知识关联检索功能,形成企业信息库。
7.根据权利要求1所述的企业信息库的建立方法,其特征在于,所述将所述可入库数据进行知识入库,形成企业信息库之后,包括:
获取人工标注数据;
获取自动标注数据;
根据所述人工标注数据与所述自动标注数据,对所述信息抽取的功能进行信息抽取训练;以及
将经过信息抽取训练后的所述信息抽取的功能进行更新。
8.根据权利要求7所述的企业信息库的建立方法,其特征在于,所述获取自动标注数据,包括:
根据已入库的不同来源的所述可入库数据进行信息验证;
识别所述可入库数据中的错误的抽取信息,并生成正确的抽取信息;以及
将所述正确的抽取信息输出为自动标注数据。
9.一种企业信息库的建立装置,其特征在于,包括:
数据获取单元,用于获取目标企业的企业数据;
数据清洗单元,用于对所述企业数据进行规范化处理,得到规范化数据;
文本解析单元,用于对所述规范化数据进行文本解析,得到解析后数据;
信息抽取预测单元,用于对所述解析后数据进行信息抽取,得到各类知识图谱数据;
知识精炼单元,用于对各类所述知识图谱数据进行知识精炼,得到精炼知识数据;
知识融合单元,用于将多组所述知识数据进行知识融合,得到可入库数据;以及
知识入库单元,用于将所述可入库数据进行知识入库,形成企业信息库;
所述文本解析单元,还用于:
将所述规范化数据中的PDF格式的文字坐标解析转化为连续的文本数据,并保存所述PDF格式的文字中文本块的坐标;以及
将所述规范化数据中的HTML格式的数据解析转化为纯文本数据,并保存所述HTML格式数据的所属标签的位置信息,得到解析后数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310348347.4A CN116127047B (zh) | 2023-04-04 | 2023-04-04 | 企业信息库的建立方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310348347.4A CN116127047B (zh) | 2023-04-04 | 2023-04-04 | 企业信息库的建立方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127047A CN116127047A (zh) | 2023-05-16 |
CN116127047B true CN116127047B (zh) | 2023-08-01 |
Family
ID=86303042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310348347.4A Active CN116127047B (zh) | 2023-04-04 | 2023-04-04 | 企业信息库的建立方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127047B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702899B (zh) * | 2023-08-07 | 2023-11-28 | 上海银行股份有限公司 | 一种适用于公私联动场景的实体融合方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN111753717A (zh) * | 2020-06-23 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于提取文本的结构化信息的方法、装置、设备及介质 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7263517B2 (en) * | 2002-10-31 | 2007-08-28 | Biomedical Objects, Inc. | Structured natural language query and knowledge system |
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US9037529B2 (en) * | 2011-06-15 | 2015-05-19 | Ceresis, Llc | Method for generating visual mapping of knowledge information from parsing of text inputs for subjects and predicates |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析***及方法 |
US10740396B2 (en) * | 2013-05-24 | 2020-08-11 | Sap Se | Representing enterprise data in a knowledge graph |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN114359924A (zh) * | 2021-11-30 | 2022-04-15 | 泰康保险集团股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN114254126A (zh) * | 2021-12-21 | 2022-03-29 | 钛镕智能科技(苏州)有限公司 | 一种基于大数据的供应链知识图谱分析方法 |
CN114610898A (zh) * | 2022-03-09 | 2022-06-10 | 北京航天智造科技发展有限公司 | 一种供应链运营知识图谱构建方法和*** |
CN114817481A (zh) * | 2022-06-08 | 2022-07-29 | 中星智慧云企(山东)科技有限责任公司 | 基于大数据的智慧供应链可视化方法及装置 |
-
2023
- 2023-04-04 CN CN202310348347.4A patent/CN116127047B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010182287A (ja) * | 2008-07-17 | 2010-08-19 | Steven C Kays | 適応型インテリジェント・デザイン |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN110489560A (zh) * | 2019-06-19 | 2019-11-22 | 民生科技有限责任公司 | 基于知识图谱技术的小微企业画像生成方法及装置 |
CN111753717A (zh) * | 2020-06-23 | 2020-10-09 | 北京百度网讯科技有限公司 | 用于提取文本的结构化信息的方法、装置、设备及介质 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、***及存储介质 |
CN112988715A (zh) * | 2021-04-13 | 2021-06-18 | 速度时空信息科技股份有限公司 | 一种基于开源方式的全球网络地名数据库的构建方法 |
Non-Patent Citations (3)
Title |
---|
基于知识图谱构建5G协议知识库;徐健;;移动通信(08);77-83 * |
大规模地名本体数据库***的建构技术与方法;俞敬松;王惠临;杨洁;;图书情报工作(08);127-132 * |
面向电子商务的垂直搜索引擎的研究和实现;刘鸣;中国优秀硕士学位论文全文数据库信息科技辑(第2期);I138-4614 * |
Also Published As
Publication number | Publication date |
---|---|
CN116127047A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102591421B1 (ko) | 의도 추천 방법, 장치, 기기 및 저장매체 | |
Hofmann et al. | Text mining and visualization: Case studies using open-source tools | |
US20180218015A1 (en) | Intelligent internet system with adaptive user interface providing one-step access to knowledge | |
US8266148B2 (en) | Method and system for business intelligence analytics on unstructured data | |
Das et al. | Towards methods for systematic research on big data | |
CN112463991B (zh) | 历史行为数据的处理方法、装置、计算机设备及存储介质 | |
WO2016200667A1 (en) | Identifying relationships using information extracted from documents | |
Jirkovský et al. | Semantic Heterogeneity Reduction for Big Data in Industrial Automation. | |
US20170300531A1 (en) | Tag based searching in data analytics | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
US20180307744A1 (en) | Named entity-based category tagging of documents | |
CN116127047B (zh) | 企业信息库的建立方法与装置 | |
Ivánová et al. | Searching for spatial data resources by fitness for use | |
CN114385620A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
Kiu et al. | TaxoFolk: a hybrid taxonomy–folksonomy classification for enhanced knowledge navigation | |
Lane et al. | Big data: web-crawling and analysing financial news using RapidMiner | |
CN111400456A (zh) | 资讯推荐方法及装置 | |
CN111723177B (zh) | 信息提取模型的建模方法、装置及电子设备 | |
CN114328947A (zh) | 一种基于知识图谱的问答方法和装置 | |
Aslam | LOPDF: a framework for extracting and producing open data of scientific documents for smart digital libraries | |
Chen et al. | Design of Online Education Information Management System Based on Data Mining Algorithm | |
Dau et al. | Formal concept analysis for qualitative data analysis over triple stores | |
Cao | E-Commerce Big Data Mining and Analytics | |
CN114254081B (zh) | 企业大数据搜索***、方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |