CN113326357A - 文档信息的查阅方法、装置、电子设备和计算机可读介质 - Google Patents
文档信息的查阅方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN113326357A CN113326357A CN202110887854.6A CN202110887854A CN113326357A CN 113326357 A CN113326357 A CN 113326357A CN 202110887854 A CN202110887854 A CN 202110887854A CN 113326357 A CN113326357 A CN 113326357A
- Authority
- CN
- China
- Prior art keywords
- target
- document
- entity
- knowledge
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供了一种文档信息的查阅方法、装置、电子设备和计算机可读介质,属于图谱构建技术领域。方法包括:根据目标文档的文档信息生成目标文档图谱;在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,目标节点对应目标实体;通过位置关联关系确定目标实体的目标位置信息,其中,目标文档图谱中携带有实体与其所在的位置信息的对应关系;基于目标位置信息,从目标文档的当前界面跳转至目标实体所在的目标位置,以在目标位置处查阅目标实体的文档信息。本申请提高了文档查阅效率。
Description
技术领域
本申请涉及图谱构建技术领域,尤其涉及一种文档信息的查阅方法、装置、电子设备和计算机可读介质。
背景技术
协同办公是指利用计算机和网络向多人提供的软件服务,满足企业员工远程办公、实时协作和高效管理的需求,实现及时沟通、数据共享、移动办公等。随着技术的进步,协同办公的内涵在办公自动化(OA)的基础上不断丰富,其核心功能是简化办公流程、整合多种办公场景,具体包括统一通信应用、企业内容管理、企业社交软件、协作平台等。
在线文档作为协作办公中重要一个协作应用场景,实现多人共创。当下的在线文档支持多人同时编辑一篇文档,文档中支持***文本、图片、表格、文件、视频、任务列表、Markdown等多种类型的内容,还可以线上通知同事对细节进行评论、对文档点赞、在文档内投票,使沟通更充分,互动更简单。
若用户想要查看某个内容,如查看相关知识块或查看某段落,则需要自己手动在文档中查阅该内容,查阅效率低,且容易出现查阅漏点。
发明内容
本申请实施例的目的在于提供一种文档信息的查阅方法、装置、电子设备和计算机可读介质,以解决查阅效率低的问题。具体技术方案如下:
第一方面,提供了一种文档信息的查阅方法,所述方法包括:
根据目标文档的文档信息生成目标文档图谱,其中,所述目标文档图谱中包含具有连接关系的多个节点,每个节点对应所述目标文档中的一个实体,每个所述实体为与所述目标文档关联的一个文档信息,所述连接关系包括所述目标文档的文档结构关系和实体关联关系;
在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,所述目标节点对应目标实体;
通过位置关联关系确定所述目标实体的目标位置信息,其中,所述目标文档图谱中携带有所述实体与其所在的位置信息的对应关系;
基于所述目标位置信息,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置,以在所述目标位置处查阅所述目标实体的文档信息。
可选地,所述根据目标文档的文档信息生成目标文档图谱包括:
通过实体识别方案识别所述目标文档中的实体和所述实体的实体类型,其中,每个所述实体类型包括至少一个实体,所述实体类型包括核心内容、作者、章节、段落、知识块和边缘知识中的至少一个;
通过关系抽取方案提取所述目标文档中的实体关联关系和文档结构关系;
以所述核心内容为中心,基于所述实体、所述实体关联关系和所述文档结构关系,生成所述目标文档图谱。
可选地,所述目标实体为除所述边缘知识以外的实体,所述通过位置关联关系确定所述目标实体的目标位置信息包括:
确定所述目标文档中与所述目标实体相关联的至少一个待选实体内容,并确定所述待选实体内容在所述目标文档中所在的待选位置信息;
建立所述待选实体内容和所述待选位置信息之间的位置关联关系;
在所述目标文档图谱中展示所述至少一个待选实体内容;
根据接收到的确认指令和所述位置关联关系,从所述待选位置信息中选取目标位置信息,其中,所述确认指令是基于待查阅的待选实体内容得到的。
可选地,所述目标实体为边缘知识,所述通过位置关联关系确定所述目标实体的目标位置信息包括:
确定所述边缘知识的来源文档和所述来源文档的来源位置,其中,所述来源文档中记录有所述边缘知识的至少部分内容;
建立所述边缘知识、所述来源文档和所述来源位置之间的关联关系,并将所述关联关系作为位置关联关系存储在所述目标文档图谱中;
通过所述位置关联关系,确定所述边缘知识对应的来源文档的来源位置。
可选地,所述通过关系抽取方案提取所述目标文档中的实体关联关系和文档结构关系包括:
通过关系抽取方案,提取所述目标文档中所述核心内容、所述章节、所述段落、所述知识块和所述边缘知识之间的结构关系,其中,所述核心内容、所述章节、所述段落、所述知识块和所述边缘知识的节点级数依次降低;
通过关系抽取方案,提取所述作者与所述章节、所述段落、所述知识块之间的关联关系,提取所述核心内容与所述知识块之间的关联关系。
可选地,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置包括:
在所述目标实体为除所述边缘知识之外的实体的情况下,从所述目标文档的当前界面跳转至所述目标文档中所述目标实体所在的目标位置;
在所述目标实体为边缘知识的情况下,从所述目标文档的当前界面跳转至所述边缘知识所在的来源文档的来源位置。
可选地,生成所述目标文档图谱之前,所述方法还包括:
确定目标类型的目标知识块在所述目标文档中的出现次数,其中,所述目标文档中包含至少一种类型的知识块;
基于所述出现次数确定所述目标文档图谱中核心节点和关联节点之间的连接线的粗度,其中,所述核心节点用于指示所述核心内容,所述关联节点用于指示所述目标知识块,所述出现次数与所述连接线的粗度成正比关系。
可选地,所述目标文档图谱还包括事件,所述事件包括所述目标文档的版本记录或修订记录中的至少一个,所述生成所述目标文档图谱包括:
建立所述事件和所述核心内容之间的连接关系;
以所述核心内容为中心,基于所述实体、所述事件、所述实体关联关系和所述文档结构关系,生成所述目标文档图谱。
可选地,所述根据目标文档的文档信息生成目标文档图谱之后,所述方法还包括:
在所述目标文档为在线文档的情况下,基于所述在线文档中实体、事件、实体关联关系和文档结构关系中至少一个的变动信息,对应更新所述目标文档图谱。
第二方面,提供了一种文档信息的查阅装置,所述装置包括:
生成模块,用于根据目标文档的文档信息生成目标文档图谱,其中,所述目标文档图谱中包含具有连接关系的多个节点,每个节点对应所述目标文档中的一个实体,每个所述实体为与所述目标文档关联的一个文档信息,所述连接关系包括所述目标文档的文档结构关系和实体关联关系;
选取模块,用于在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,所述目标节点对应目标实体;
确定模块,用于通过位置关联关系确定所述目标实体的目标位置信息,其中,所述目标文档图谱中携带有所述实体与其所在的位置信息的对应关系;
跳转模块,用于基于所述目标位置信息,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置,以在所述目标位置处查阅所述目标实体的文档信息。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的文档信息的查阅方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的文档信息的查阅方法。
本申请实施例有益效果:
本申请应用于知识图谱技术领域的图谱构建,本申请实施例提供了一种文档信息的查阅方法,终端根据目标文档的文档信息生成目标文档图谱,在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,通过位置关联关系确定所述目标实体的目标位置信息,基于所述目标位置信息,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置,以在所述目标位置处查阅所述目标实体的文档信息。
在本申请中,用户若需要查看关于目标实体的文档信息,则可以直接在目标文档图谱中选取该目标实体对应的目标节点,则终端从目标文档的当前界面跳转至目标实体所在的目标位置,用户可以在该目标位置处查看关于目标实体的文档信息,无需用户逐页翻阅目标文档或来源文档,只要在目标文档图谱中点击目标节点即可,实现自动查阅目标实体相关的文档信息,提高文档查阅效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文档信息的查阅方法硬件环境示意图;
图2为本申请实施例提供的一种文档信息的查阅的方法流程图;
图3为本申请实施例提供的文档图谱的模型示意图;
图4为本申请实施例提供的目标文档图谱的结构示意图;
图5为本申请实施例提供的一种文档信息的查阅装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种文档信息的查阅方法的实施例。
可选地,在本申请实施例中,上述文档信息的查阅方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种文档信息的查阅方法可以由服务器103来执行,也可以由终端101来执行,还可以是由服务器103和终端101共同执行,用于提高文档信息的查阅速率。
下面将结合具体实施方式,以终端为主体,对本申请实施例提供的一种文档信息的查阅方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:根据目标文档的文档信息生成目标文档图谱。
其中,目标文档图谱中包含具有连接关系的多个节点,每个节点对应目标文档中的一个实体,每个实体为与目标文档关联的一个文档信息,连接关系包括目标文档的文档结构关系和实体关联关系。
在本申请实施例中,用户打开目标文档后,终端获取目标文档的文档信息,其中,文档信息包括目标文档的核心内容、作者、章节、段落、知识块和知识块的边缘知识。由于每个文档信息对应一个实体,则实体类型也包括核心内容、作者、章节、段落、知识块和知识块的边缘知识。同一类型的实体可以有多个,不同实体对应不同节点。其中,边缘知识为引用的其他文档中的知识,边缘知识并不存在于该目标文档中。
示例性地,若该目标文档由三个作者共同完成,则作者为一个实体类型,每个作者对应一个实体,则目标文档图谱中包含三个关于作者的节点。
实体关联关系为实体之间的对应关系,示例性地,一个作者对应至少一个章节、(表明该章节为该作者所撰写),或一个作者对应至少一个知识块(表明该知识块为该作者所撰写)。
文档结构关系为文档的结构层次,示例性地,该目标文档包括至少一个章节、每个章节包括至少一个段落、每个段落包括至少一个知识块,每个知识块包括至少一个边缘知识。
终端以实体为节点,以实体关联关系和文档结构关系为基础建立各节点之间的连接线,生成目标文档图谱。
如图3所示,图3为文档图谱的模型示意图,可以看出,图谱以核心内容为中心向外延伸多个节点,节点可以对应实体,节点还可以对应事件。其中,事件为文档的版本记录或修订记录中的至少一个。实体包括:人、章节、段落、文档、知识块、实体物、实体组织、实体地点。
步骤202:在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点。
其中,目标节点对应目标实体。
用户确定需要查看的目标实体,然后在目标文档图谱中点击该目标实体对应的目标节点,终端接收到选取指令,从多个节点中选取待查阅的目标节点。
步骤203:通过位置关联关系确定目标实体的目标位置信息。
其中,目标文档图谱中携带有实体与其所在的位置信息的对应关系。
目标文档图谱中包含每个实体对应的位置信息,若该目标实体为除边缘知识之外的实体,该目标位置信息为目标实体在目标文档中的位置信息,若该目标实体为边缘知识,由于边缘知识不存在于目标文档中,则该目标位置信息为该边缘知识的引用的来源文档位置信息。
示例性地,若目标实体为作者,则目标位置信息为目标文档中该作者撰写的文档信息的位置;若目标实体为段落,则目标位置信息为该段落在目标文档中的第x页第x段的位置。若目标实体为xx边缘知识,该xx边缘知识出自nn来源文档,则nn来源文档的文档链接、或文档存储位置为该xx边缘知识的位置信息。
步骤204:基于目标位置信息,从目标文档的当前界面跳转至目标实体所在的目标位置,以在目标位置处查阅目标实体的文档信息。
终端确定目标位置信息后,从目标文档的当前界面跳转至目标实体所在的目标位置,其中,目标位置可以为目标文档中的位置,也可以目标文档中引用的来源文档的位置,目标位置处包括与目标实体相关的文档信息或关于目标实体的详细信息,则可以在该目标位置处查找目标实体的文档信息。
在本申请中,用户若需要查看关于目标实体的文档信息,则可以直接在目标文档图谱中选取该目标实体对应的目标节点,则终端从目标文档的当前界面跳转至目标实体所在的目标位置,用户可以在该目标位置处查看关于目标实体的文档信息,无需用户逐页翻阅目标文档或来源文档,只要在目标文档图谱中点击目标节点即可,实现自动查阅目标实体相关的文档信息,提高文档查阅效率。
另外,目标文档图谱中包含目标文档的实体关联关系和文档结构关系,有利于用户梳理目标文档的逻辑,提高目标文档的易读性。
作为一种可选的实施方式,根据目标文档的文档信息生成目标文档图谱包括:通过实体识别方案识别目标文档中的实体和实体的实体类型,其中,每个实体类型包括至少一个实体,实体类型包括核心内容、作者、章节、段落、知识块和边缘知识中的至少一个;通过关系抽取方案提取目标文档中的实体关联关系和文档结构关系;以核心内容为中心,基于实体、实体关联关系和文档结构关系,生成目标文档图谱。
在本申请实施例中,终端通过实体命名识别的方式识别目标文档中的实体,并根据实体类型对实体进行标注,每个实体类型包括至少一个实体,每个实体对应目标文档图谱中的一个节点。实体类型包括核心内容、作者、章节、段落、知识块和边缘知识中的至少一个。
示例性地,实体命名识别可以采用NLP(Natural Language Processing,自然语言处理),本申请对实体命名识别的方式不做具体限制。
终端还通过关系抽取方案,提取目标文档中的实体关联关系和文档结构关系。文档结构关系按照节点级数由高到低的顺序依次为:核心内容、章节、段落、知识块和边缘知识,核心内容包括至少一个章节、一个章节包括至少一个段落、一个段落包括至少一个知识块,一个知识块包括至少一个边缘知识。
实体关联关系包括作者与章节之间的关系、作者与段落之间的关系、作者与知识块之间的关系,核心内容与知识块之间的关系、核心内容与事件之间的关系。其中,一个作者可以对应至少一个章节,也可以对应至少一个段落,也可以对应至少一个知识块,核心内容可以对应至少一个知识块,核心内容可以对应至少一个事件。
在本申请中,目标文档图谱中包括多个节点:核心内容、作者、章节、段落、知识块和边缘知识,还包括实体关联关系和文档结构关系,有利于用户快速了解目标文档的内容,包括:核心内容、各知识块、边缘知识,也有利于用户根据文档结构关系了解目标文档的知识脉络。
可选地,目标文档可以为在线文档,作者在编辑目标文档的过程中生成目标文档图谱,随着作者对在线文档内容的调整,如调整实体、事件、实体关联关系和文档结构关系中的至少一个,目标文档图谱也会随之调整,实现目标文档图谱和目标文档的一致性。
作者在撰写在线文档过程中可以根据目标文档图谱快速了解文档脉络,从而调整文档脉络使文档脉络更清晰,边缘知识可以为作者提供灵感扩展,作者能够根据边缘知识丰富相关知识块的内容,提高目标文档的内容丰富性,作者直接点击该边缘知识的节点即可查看边缘知识的相关详细内容,提高作者的文档创造效率。本申请通过目标文档图谱实现目标文档的整体脉络可视化,提高作者创作文档效率,提高读者了解目标文档内容的效率。
图4为目标文档图谱的结构示意图。可以看出,目标文档图谱以A产品为中心节点,A产品包括四个章节,“功能特色”章节还包括两个段落,每个作者对应至少一个章节或至少一个段落,A产品包括五个知识块,知识块可以提及产品和提及知识,还可以为文档引用,其中,文档引用“c知识块”对应边缘知识“c技术架构图”,提及产品“d知识块”和提及知识“e产品”对应边缘知识“xx***”。
作为一种可选的实施方式,目标实体为除边缘知识以外的实体,通过位置关联关系确定目标实体的目标位置信息包括:确定目标文档中与目标实体相关联的至少一个待选实体内容,并确定待选实体内容在目标文档中所在的待选位置信息;建立待选实体内容和待选位置信息之间的位置关联关系;在目标文档图谱中展示至少一个待选实体内容;根据接收到的确认指令和位置关联关系,从待选位置信息中选取目标位置信息,其中,确认指令是基于待查阅的待选实体内容得到的。
在本申请实施例中,用户选取目标节点后,终端确定与目标节点对应的目标实体,由于与目标实体相关联的待选实体内容可能为多个,则终端确定全部的待选实体内容,即终端从目标文档中选取与目标实体相关联的至少一个待选实体内容,其中,待选实体内容可以包含关于目标实体的详细文档信息,也可以是根据大数据确定的与目标实体有关联的文档信息。示例性地,目标实体为xx技术,则待选实体内容可以是论述xx技术的详细文档信息,也可以是与xx技术有密切关系的rr技术的详细文档信息。
终端确定待选实体内容后,可以确定待选实体内容在目标文档中的待选位置信息,并建立待选实体内容和待选位置信息之间的位置关联关系,然后在目标文档图谱中显示全部待选实体内容,具体可以在目标节点处展示全部待选实体内容,也可以将待选实体内容和目标节点采用连接线连接,以使用户确认待选实体内容对应的节点是否与用户选取的目标节点相同。用户可以在多个待选实体内容中选取所要查阅的待选实体内容,然后点击确认该待选实体内容,终端根据确认指令,确定该待查阅的待选实体内容,并根据位置关联关系确定该待查阅的待选实体内容对应的目标位置信息。
在本申请中,用户点击目标文档图谱中的目标节点,则可以快速定位目标节点对应的目标实体在目标文档中的位置信息,便于用户快速查找目标实体在目标文档中的相关文档信息,提高用户查阅目标实体的效率。若存在与目标实体相关的多个待选实体内容,用户还可以根据自身需求选择所要查阅的一个待选实体内容,用户也可以依次选择每个待选实体内容,目标文档图谱可以将全部待选实体内容展示出来,避免用户自行查找出现漏查情况,提高查阅完整度。
作为一种可选的实施方式,目标实体为边缘知识,通过位置关联关系确定目标实体的目标位置信息包括:确定知识块的来源文档和来源文档的来源位置,其中,来源文档中记录有边缘知识的至少部分内容;建立边缘知识、来源文档和来源位置之间的关联关系,并将关联关系作为位置关联关系存储在目标文档图谱中;通过位置关联关系,确定边缘知识对应的来源文档的来源位置。
目标实体为边缘知识时,终端可以确定包含有至少部分边缘知识的来源文档和该来源文档的来源位置,其中,来源文档和来源位置可以是目标文档中记载的内容,也可以是终端根据边缘知识从数据库中获取的。若来源文档为终端从数据库中获取的,由于数据库中可能包含多个包含边缘知识的文档,终端选取阅读量或收藏率最大的一个作为边缘知识的来源文档。
终端建立边缘知识、来源文档和来源位置之间的关联关系,并将关联关系作为位置关联关系存储在目标文档图谱中。当用户在目标文档图谱中点击边缘知识的节点时,终端根据预存的关联关系,可以跳转至边缘知识的来源位置,从而定位来源文档。
在本申请中,用户可以直接点击边缘知识的节点,从而跳转至该边缘知识所在的来源文档的界面,便于用户充分了解该边缘知识的文档信息,无需用户自行查找。对于作者而言,作者在撰写目标文档过程中,对于已生成的目标文档图谱中的边缘知识,可以为作者提供边缘知识的灵感拓展,提高文档撰写效率。
作为一种可选的实施方式,从目标文档的当前界面跳转至包含目标位置信息的目标界面包括:在目标实体为除边缘知识之外的实体的情况下,从目标文档的当前界面跳转至目标文档中目标实体所在的目标位置;在目标实体为边缘知识的情况下,从目标文档的当前界面跳转至边缘知识所在的来源文档的来源位置。
若目标实体为除边缘知识之外的实体,用户在目标文档图谱中点击该目标实体对应的目标节点后,终端从目标文档的当前界面跳转至目标文档中目标实体所在的目标位置,使用户快速查阅目标实体的相关知识。若目标实体为边缘知识,用户在目标文档图谱中点击该目标实体对应的目标节点后,终端从目标文档的当前界面跳转至来源文档的来源位置,该来源位置可以是一个链接,也可以是一个网页,也可以是已存储的一个文件夹。
作为一种可选的实施方式,生成目标文档图谱之前,方法还包括:确定目标类型的目标知识块在目标文档中的出现次数,其中,目标文档中包含至少一种类型的知识块;基于出现次数确定目标文档图谱中核心节点和关联节点之间的连接线的粗度,其中,核心节点用于指示核心内容,关联节点用于指示目标知识块,出现次数与连接线的粗度成正比关系。
目标文档中包含至少一种类型的知识块,由于一个目标文档中知识块都是和核心内容相关联的,因此在目标文档图谱中各知识块和核心内容之间是有连接线的。目标知识块在目标文档中出现的次数,出现次数越多,表示该目标知识块越重要,越贴合核心内容。在目标文档图谱中,表示目标知识块的节点为关联节点,表示核心内容的节点为核心节点,那么核心节点和关联节点之间的连接线的粗度会根据目标知识块的出现次数来确定。具体的,出现次数越多,连接线越粗。如图4中,“b知识块”与核心内容的连接线最粗。
作为一种可选的实施方式,目标文档图谱还包括事件,事件包括目标文档的版本记录或修订记录中的至少一个,生成目标文档图谱包括:建立事件和核心内容之间的连接关系;以核心内容为中心,基于实体、事件、实体关联关系和文档结构关系,生成目标文档图谱。
若目标文档发生版本变动或出现修订记录,则该版本变动记录和修订记录应该保存下来以供用户查看,事件可以表示版本记录或修订记录中的至少一个,终端在生成目标文档图谱的过程中,将事件也考虑进来,丰富了目标文档图谱的特征,更加直观的显示目标文档的变化。
基于相同的技术构思,本申请实施例还提供了一种文档信息的查阅装置,如图5所示,该装置包括:
生成模块501,用于根据目标文档的文档信息生成目标文档图谱,其中,目标文档图谱中包含具有连接关系的多个节点,每个节点对应目标文档中的一个实体,每个实体为与目标文档关联的一个文档信息,连接关系包括目标文档的文档结构关系和实体关联关系;
选取模块502,用于在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,目标节点对应目标实体;
确定模块503,用于通过位置关联关系确定目标实体的目标位置信息,其中,目标文档图谱中携带有实体与其所在的位置信息的对应关系;
跳转模块504,用于基于目标位置信息,从目标文档的当前界面跳转至目标实体所在的目标位置,以在目标位置处查阅目标实体的文档信息。
可选地,生成模块501用于:
通过实体识别方案识别目标文档中的实体和实体的实体类型,其中,每个实体类型包括至少一个实体,实体类型包括核心内容、作者、章节、段落、知识块和边缘知识中的至少一个;
通过关系抽取方案提取目标文档中的实体关联关系和文档结构关系;
以核心内容为中心,基于实体、实体关联关系和文档结构关系,生成目标文档图谱。
可选地,目标实体为除边缘知识以外的实体,确定模块503用于:
确定目标文档中与目标实体相关联的至少一个待选实体内容,并确定待选实体内容在目标文档中所在的待选位置信息;
建立待选实体内容和待选位置信息之间的位置关联关系;
在目标文档图谱中展示至少一个待选实体内容;
根据接收到的确认指令和位置关联关系,从待选位置信息中选取目标位置信息,其中,确认指令是基于待查阅的待选实体内容得到的。
可选地,目标实体为边缘知识,确定模块503用于:
确定边缘知识的来源文档和来源文档的来源位置,其中,来源文档中记录有边缘知识的至少部分内容;
建立边缘知识、来源文档和来源位置之间的关联关系,并将关联关系作为位置关联关系存储在目标文档图谱中;
通过位置关联关系,确定边缘知识对应的来源文档的来源位置。
可选地,生成模块501还用于:
通过关系抽取方案,提取目标文档中核心内容、章节、段落、知识块和边缘知识之间的结构关系,其中,核心内容、章节、段落、知识块和边缘知识的节点级数依次降低;
通过关系抽取方案,提取作者与章节、段落、知识块之间的关联关系,提取核心内容与知识块之间的关联关系。
可选地,跳转模块504用于:
在目标实体为除边缘知识之外的实体的情况下,从目标文档的当前界面跳转至目标文档中目标实体所在的目标位置;
在目标实体为边缘知识的情况下,从目标文档的当前界面跳转至边缘知识所在的来源文档的来源位置。
可选地,该装置还用于:
确定目标类型的目标知识块在目标文档中的出现次数,其中,目标文档中包含至少一种类型的知识块;
基于出现次数确定目标文档图谱中核心节点和关联节点之间的连接线的粗度,其中,核心节点用于指示核心内容,关联节点用于指示目标知识块,出现次数与连接线的粗度成正比关系。
可选地,目标文档图谱还包括事件,事件包括目标文档的版本记录或修订记录中的至少一个,生成模块501还用于:
建立事件和核心内容之间的连接关系;
以核心内容为中心,基于实体、事件、实体关联关系和文档结构关系,生成目标文档图谱。
可选地,该装置还用于:
在目标文档为在线文档的情况下,基于在线文档中实体、事件、实体关联关系和文档结构关系中至少一个的变动信息,对应更新目标文档图谱。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器603、处理器601、通信接口602及通信总线604,存储器603中存储有可在处理器601上运行的计算机程序,存储器603、处理器601通过通信接口602和通信总线604进行通信,处理器601执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种文档信息的查阅方法,其特征在于,所述方法包括:
根据目标文档的文档信息生成目标文档图谱,其中,所述目标文档图谱中包含具有连接关系的多个节点,每个节点对应所述目标文档中的一个实体,每个所述实体为与所述目标文档关联的一个文档信息,所述连接关系包括所述目标文档的文档结构关系和实体关联关系;
在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,所述目标节点对应目标实体;
通过位置关联关系确定所述目标实体的目标位置信息,其中,所述目标文档图谱中携带有所述实体与其所在的位置信息的对应关系;
基于所述目标位置信息,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置,以在所述目标位置处查阅所述目标实体的文档信息。
2.根据权利要求1所述的方法,其特征在于,所述根据目标文档的文档信息生成目标文档图谱包括:
通过实体识别方案识别所述目标文档中的实体和所述实体的实体类型,其中,每个所述实体类型包括至少一个实体,所述实体类型包括核心内容、作者、章节、段落、知识块和边缘知识中的至少一个;
通过关系抽取方案提取所述目标文档中的实体关联关系和文档结构关系;
以所述核心内容为中心,基于所述实体、所述实体关联关系和所述文档结构关系,生成所述目标文档图谱。
3.根据权利要求2所述的方法,其特征在于,所述目标实体为除所述边缘知识以外的实体,所述通过位置关联关系确定所述目标实体的目标位置信息包括:
确定所述目标文档中与所述目标实体相关联的至少一个待选实体内容,并确定所述待选实体内容在所述目标文档中所在的待选位置信息;
建立所述待选实体内容和所述待选位置信息之间的位置关联关系;
在所述目标文档图谱中展示所述至少一个待选实体内容;
根据接收到的确认指令和所述位置关联关系,从所述待选位置信息中选取目标位置信息,其中,所述确认指令是基于待查阅的待选实体内容得到的。
4.根据权利要求2所述的方法,其特征在于,所述目标实体为边缘知识,所述通过位置关联关系确定所述目标实体的目标位置信息包括:
确定所述边缘知识的来源文档和所述来源文档的来源位置,其中,所述来源文档中记录有所述边缘知识的至少部分内容;
建立所述边缘知识、所述来源文档和所述来源位置之间的关联关系,并将所述关联关系作为位置关联关系存储在所述目标文档图谱中;
通过所述位置关联关系,确定所述边缘知识对应的来源文档的来源位置。
5.根据权利要求2所述的方法,其特征在于,所述通过关系抽取方案提取所述目标文档中的实体关联关系和文档结构关系包括:
通过关系抽取方案,提取所述目标文档中所述核心内容、所述章节、所述段落、所述知识块和所述边缘知识之间的结构关系,其中,所述核心内容、所述章节、所述段落、所述知识块和所述边缘知识的节点级数依次降低;
通过关系抽取方案,提取所述作者与所述章节、所述段落、所述知识块之间的关联关系,提取所述核心内容与所述知识块之间的关联关系。
6.根据权利要求2所述的方法,其特征在于,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置包括:
在所述目标实体为除所述边缘知识之外的实体的情况下,从所述目标文档的当前界面跳转至所述目标文档中所述目标实体所在的目标位置;
在所述目标实体为边缘知识的情况下,从所述目标文档的当前界面跳转至所述边缘知识所在的来源文档的来源位置。
7.根据权利要求2所述的方法,其特征在于,生成所述目标文档图谱之前,所述方法还包括:
确定目标类型的目标知识块在所述目标文档中的出现次数,其中,所述目标文档中包含至少一种类型的知识块;
基于所述出现次数确定所述目标文档图谱中核心节点和关联节点之间的连接线的粗度,其中,所述核心节点用于指示所述核心内容,所述关联节点用于指示所述目标知识块,所述出现次数与所述连接线的粗度成正比关系。
8.根据权利要求2所述的方法,其特征在于,所述目标文档图谱还包括事件,所述事件包括所述目标文档的版本记录或修订记录中的至少一个,所述生成所述目标文档图谱包括:
建立所述事件和所述核心内容之间的连接关系;
以所述核心内容为中心,基于所述实体、所述事件、所述实体关联关系和所述文档结构关系,生成所述目标文档图谱。
9.根据权利要求8所述的方法,其特征在于,所述根据目标文档的文档信息生成目标文档图谱之后,所述方法还包括:
在所述目标文档为在线文档的情况下,基于所述在线文档中实体、事件、实体关联关系和文档结构关系中至少一个的变动信息,对应更新所述目标文档图谱。
10.一种文档信息的查阅装置,其特征在于,所述装置包括:
生成模块,用于根据目标文档的文档信息生成目标文档图谱,其中,所述目标文档图谱中包含具有连接关系的多个节点,每个节点对应所述目标文档中的一个实体,每个所述实体为与所述目标文档关联的一个文档信息,所述连接关系包括所述目标文档的文档结构关系和实体关联关系;
选取模块,用于在接收到选取指令的情况下,从多个节点中选取待查阅的目标节点,其中,所述目标节点对应目标实体;
确定模块,用于通过位置关联关系确定所述目标实体的目标位置信息,其中,所述目标文档图谱中携带有所述实体与其所在的位置信息的对应关系;
跳转模块,用于基于所述目标位置信息,从所述目标文档的当前界面跳转至所述目标实体所在的目标位置,以在所述目标位置处查阅所述目标实体的文档信息。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110887854.6A CN113326357A (zh) | 2021-08-03 | 2021-08-03 | 文档信息的查阅方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110887854.6A CN113326357A (zh) | 2021-08-03 | 2021-08-03 | 文档信息的查阅方法、装置、电子设备和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113326357A true CN113326357A (zh) | 2021-08-31 |
Family
ID=77426949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110887854.6A Pending CN113326357A (zh) | 2021-08-03 | 2021-08-03 | 文档信息的查阅方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326357A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114237829A (zh) * | 2021-12-27 | 2022-03-25 | 南方电网物资有限公司 | 一种电力设备的数据采集与处理方法 |
WO2024149183A1 (zh) * | 2023-01-13 | 2024-07-18 | 维沃移动通信有限公司 | 文档显示方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160132613A1 (en) * | 2014-11-07 | 2016-05-12 | Open Text S.A. | System, method and architecture for a document as a node on a social graph |
CN108256094A (zh) * | 2018-01-29 | 2018-07-06 | 华南师范大学 | 一种学科知识表达方法及设备 |
CN108710695A (zh) * | 2018-05-23 | 2018-10-26 | 掌阅科技股份有限公司 | 基于电子书的思维导图生成方法及电子设备 |
CN112541359A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
-
2021
- 2021-08-03 CN CN202110887854.6A patent/CN113326357A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160132613A1 (en) * | 2014-11-07 | 2016-05-12 | Open Text S.A. | System, method and architecture for a document as a node on a social graph |
CN108256094A (zh) * | 2018-01-29 | 2018-07-06 | 华南师范大学 | 一种学科知识表达方法及设备 |
CN108710695A (zh) * | 2018-05-23 | 2018-10-26 | 掌阅科技股份有限公司 | 基于电子书的思维导图生成方法及电子设备 |
CN112541359A (zh) * | 2020-11-27 | 2021-03-23 | 北京百度网讯科技有限公司 | 文档内容识别方法、装置、电子设备及介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114237829A (zh) * | 2021-12-27 | 2022-03-25 | 南方电网物资有限公司 | 一种电力设备的数据采集与处理方法 |
WO2024149183A1 (zh) * | 2023-01-13 | 2024-07-18 | 维沃移动通信有限公司 | 文档显示方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10169311B2 (en) | Workflow system and method for creating, distributing and publishing content | |
JP5855222B2 (ja) | 同期デジタルコンテンツ | |
US9563850B2 (en) | Method and interface for displaying locations associated with annotations | |
US20150186478A1 (en) | Method and System for Tree Representation of Search Results | |
US20110099490A1 (en) | Method and apparatus for presenting polymorphic notes in a graphical user interface | |
US20130018848A1 (en) | Determining and presenting provenance and lineage for content in a content management system | |
CN109492152B (zh) | 推送定制内容的方法、装置、计算机设备及存储介质 | |
US10534825B2 (en) | Named entity-based document recommendations | |
CN113326357A (zh) | 文档信息的查阅方法、装置、电子设备和计算机可读介质 | |
CN113079417A (zh) | 生成弹幕的方法、装置、设备和存储介质 | |
Robinson et al. | Symbol Store: sharing map symbols for emergency management | |
CN113014476A (zh) | 群组创建方法及装置 | |
US20150379112A1 (en) | Creating an on-line job function ontology | |
CN106462933A (zh) | 使用内容结构来社交地连接用户 | |
US20160188581A1 (en) | Contextual searches for documents | |
CN103678263A (zh) | 一种文档章节之间的关联关系的图形界面展现方法及*** | |
US9384285B1 (en) | Methods for identifying related documents | |
KR102103015B1 (ko) | 인스턴트 메신저 어플리케이션의 동작 방법 및 장치 | |
US10452412B2 (en) | Graphical user interface for non-hierarchical file system | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
CN111352917B (zh) | 信息录入方法、装置、电子设备及存储介质 | |
CN112416143A (zh) | 文本信息编辑方法、装置和电子设备 | |
CN113704593B (zh) | 一种运营数据处理方法及相关装置 | |
CN115334354B (zh) | 视频标注方法和装置 | |
CN116028597B (zh) | 对象检索方法、装置、非易失性存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210831 |
|
RJ01 | Rejection of invention patent application after publication |