CN113704383A - 篇章语义标注的方法、***及装置 - Google Patents
篇章语义标注的方法、***及装置 Download PDFInfo
- Publication number
- CN113704383A CN113704383A CN202110987422.2A CN202110987422A CN113704383A CN 113704383 A CN113704383 A CN 113704383A CN 202110987422 A CN202110987422 A CN 202110987422A CN 113704383 A CN113704383 A CN 113704383A
- Authority
- CN
- China
- Prior art keywords
- semantic
- discourse
- document
- chapter
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了篇章语义标注的方法、***及装置,包括,获取生语料文档,建立所述生语料文档的篇‑章‑节‑段‑句‑槽的层次语义结构;将所述层次语义结构对应层次融合成统一的篇章语义文档;基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注,本发明满足工程上对于大空间、多层次、长时间的业务活动进行语义描述的要求,实现具有复杂层次结构的篇章语义标注。
Description
技术领域
本发明涉及篇章语义领域,尤其是涉及一种篇章语义标注的方法、***及装置。
背景技术
自然语言研究研究人的思维模式,而人的思维最重要的特点是具有层次性、抽象性,人最擅长直觉地看到事物高层的抽象联系。自然语言研究的语义代表人脑认知的事物之间的抽象联系,因此真正能代表人思维的语义应该也具有层次性、抽象性。语义技术通过预先定义的方式实现抽象性,比如通过预先定义的词性***进行词性标注,而不会反过来通过语料发现一个新的词性。但是,现有的语义理论和技术对于语义层次的定义仅限于句子级,关于篇章语义的定义和标注的方法几乎没有,也没有能够在工程上使用的篇章语义标注方法。
现有方法的不足表现为句子级的语义不能满足工程上对于大空间、多层次、长时间的业务活动进行语义描述的要求,基于单句子及句内词的语义标注方法无法实现具有复杂层次结构的篇章语义标注。
发明内容
本发明的目的在于提供一种篇章语义标注的方法、***及装置,旨在解决篇章语义标注。
本发明提供一种篇章语义标注的方法,包括:
S1、获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
S2、将所述层次语义结构对应层次融合成统一的篇章语义文档;
S3、基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
S4、将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
本发明还提供一种篇章语义标注的***,包括,
语义结构模块:用于获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
融合模块:用于将所述层次语义结构对应层次融合成统一的篇章语义文档;
修改模块:用于基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
存储模块:用于将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
本发明实施例还提供一种篇章语义标注的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述一种篇章语义标注的方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述方法的步骤。
采用本发明实施例,满足工程上对于大空间、多层次、长时间的业务活动进行语义描述的要求,实现具有复杂层次结构的篇章语义标注。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的篇章语义标注的方法的流程图;
图2是现有技术中的文档结构示意图;
图3是本发明实施例的篇章语义标注的方法的逻辑结构示意图;
图4是本发明实施例的篇章语义标注的方法的生语料文档的格式示意图;
图5是本发明实施例的篇章语义标注的方法的篇章语义文档的格式示意图;
图6是本发明实施例的篇章语义标注的方法的标注语料格式示意图;
图7是本发明实施例的篇章语义标注的方法的篇章语义结构示意图;
图8是本发明实施例的篇章语义标注的方法的篇章语义融合示意图;
图9是本发明实施例的篇章语义标注的方法的具体流程图;
图10是本发明实施例的篇章语义标注的***的示意图;
图11是本发明实施例的篇章语义标注的装置的示意图。
附图标记说明:
101:语义结构模块;102:融合模块;103:修改模块;104:存储模块。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种篇章语义标注的方法,
图1是本发明实施例的篇章语义标注的方法的流程图,如图1所示,具体包括:
S1、获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
S1具体包括:获取生语料文档,根据对应的篇-章-节字典、段落语义字典、句子语义字典和槽位字典,建立所述文章的篇-章-节-段-句-槽的层次语义结构,其中,篇-章-节字典和段落语义字典的以句子语义为基本单位。
S2、将所述层次语义结构对应层次融合成统一的篇章语义文档;
S2具体包括:将所述文章的语义层次对应层次并基于表的形式融合成统一的篇章语义文档。
S3、基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
S3具体包括:对融合篇章语义文档进行层次和序号修改,并获取人工没有定义的章节按照层次进行的定义。
S4、将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
根据上述方法,具体实施方法如下;
句子级的语义不能满足工程上对于大空间、多层次、长时间的业务活动进行语义描述的要求,
图2是现有技术中的文档结构示意图;如图2所示,“J10043_H井压裂工程设计.docx”的文档,描述对一口井压裂工程的全过程,具有一个很大的时间和空间范围。
压裂工程本身是一件非常复杂的工程,尤其是人无法到达的8千米的地下,因此压裂的成功与失败纯粹靠预先设计,要考虑的时间和空间的范围都很大,要描述这么一件复杂的工程,必然导致一个具有复杂结构的描述报告。这个工程设计报告包括9个章节、一个章节有5个层次、层次下正文有文字形成的段落也有图和表,因此,即使能识别每个句子的语义,比如识别出“前置液阶段使用胍胶起裂主缝,配合滑溜水段塞处理……”的语义名称为“前置液阶段工作状态检测”,但单从这个句子的语义无法理解整个设计文献的语义,无法描述这个文献想要表达的对一口井实施压裂工程的全部思考过程,因此工程上需要定义更大粒度的篇章语义,以描述人的更大粒度的生产社会活动。
基于单句子及句内词的语义标注方法无法实现具有复杂层次结构的篇章语义标注
语义的标注一般采用对句子或者句子上的词打标签以实现标注任务,比如打空格实现词之间的分割、通过加“/”符号实现词和实体名之间的标记。这种简单的基于句子粒度的标注无法满足具有复杂层次语义结构标注的要求,比如在图1中要标出“2地质工程分析”这一章的语义是什么,这一章里面包含很多节、段、句、词,仅仅对一个词或句子进行标注无法实现对整个文献的理解,比如仅仅标出“前置液阶段/工艺使用胍胶起裂主缝,配合滑溜水段塞……”即找到“前置阶段”属于“工艺”这个业务对象类型对整个工程设计过程的理解没有帮助。
正如仅仅依靠氧原子O和氢原子H的特性是无法理解分子层次的水H2O的特性一样,事物不同层次有其独特而又相互联系不可分割的特性,因此,仅仅从词和句子进行语义定义和标注,无法实现对篇章高层次语义的理解,因此对于工程实践而言,需要建立不同层次、层级间不可分割的整体篇章语义定义和标注方法。
本发明实施例提出一种基于层次对齐的篇章语义标注方法,其基本思想是按照层次和每层顺序进行共性归并,归并的层次结构就是整个业务的篇章语义,描述如下:
首先,建立单文献的篇-章-节-段-句-槽的层次语义文档,其中各级语义根据对应的语义字典查询获得。将传统文献的篇章结构和传统语义理论中的句子语义通过段落语义连接起来,建立文献即业务的分层篇章语义,或者说篇章语义是将传统章节结构延伸到句子框架语义而形成的;
其次,对语料库中所有文献篇章语义记录进行汇聚,按照篇-章-节-段-句-槽进行分层归并和排序;对于还没有定义的章节描述,按照层次对它进行人工定义;
最后,对归并后的篇章语义文献进行分层检查,对每层的条目重新分配节点序号,使篇章语义逻辑符合人的思维。
图3是本发明实施例的篇章语义标注的方法的逻辑结构示意图,如图3所示;
篇章语义标注方法由数据层1、方法层2和应用层3构成。数据层的功能是实现文件的存储、读写、修改等,包含生语料文档、语义字典、篇章语义文档和文档和标注后的熟语料库4部分;方法层2实现对生语料的加工、融合、格式转换,形成最终的篇章语义文本,包括建立单篇文献的篇-章-节-段-句-槽语义结构将文献融合到统一的篇章语义文档、对融合篇章语义文档进行层次和序号修改、保存篇章语义文档等4部分;应用层3实现与用户的交互操作,包括读取文献、编辑Word文档、保存标注文档3个部分,其中对于文档的多层次编辑采用word进行。
数据层1由生语料文档1-1、语义字典1-2、篇章语义文档1-3和文档和标注后的熟语料库1-4部分组成。生语料文档1-1的格式如图1所示,一般是一个word的docx文档,对于其他格式的文档比如doc、pdf需要预先转换为docx格式;该word文档的篇-章-节的结构通过word的Heading进行标记。
图4是本发明实施例的篇章语义标注的方法的生语料文档的格式示意图,如图4所示;
图4列出了字典名称及其对应的字段,在篇-章-节字典中,需要包含篇-章-节对应的级别;在段落语义字典中,需要包含一列句子语义组合,段落语义的识别也分为根据原文的识别和根据句子语义组合进行识别2种方法。由于段落有时候很长,因此多数情况下根据原文识别是不现实的,而采用根据句子语义组合进行识别具有更好的可行性。
图5是本发明实施例的篇章语义标注的方法的篇章语义文档的格式示意图,如图5所示;
篇章语义文档1-3是最后所有文档的共性的文档模板,它是所有文档的表头,是整个语料文献的抽象知识结构,如图5所示。其中的章-节在word中以Heading级别进行标识,这是word提供的层次结构;对于段-句-槽是关于正文的结构,其层次结构接在章-节之后,由此形成描述篇章语义的完整的篇-章-节-段-句-槽的层次结构。篇章标注熟语料1-4保存对每篇文献的所有结果。
图6是本发明实施例的篇章语义标注的方法的标注语料格式示意图,如图6所示;
标注语料的格式采用表格进行存储,包含word文本-表格排序、标题、标题级别、正文段落、表的序号、段落文本、图片张数、Heading n、标题模板、Heading n_篇章语义、段落语义、句子拆分文本、句子语义、NER-模式和对象语义、对象、句子-图-表语义等字段,这些字段是通过word文档的拆分和标注后得到的全信息表,通过它可以实现不同文档格式的转换,比如转换为图的表达方式。
方法层2由建立单篇文献的篇-章-节-段-句-槽语义结构2-1、将文献融合到统一的篇章语义文档2-2、对融合篇章语义文档进行层次和序号修改2-3、保存篇章语义文档2-4等4部分组成。其中建立单篇文献的篇-章-节-段-句-槽语义结构2-1对输入的word文档进行预处理,将word格式的层次结构拆分为以句子为单位的结构化形式。
图7是本发明实施例的篇章语义标注的方法的篇章语义结构示意图,如图7所示;
其结构如图7所示,从而实现以句子为单位的自然语言处理。图7和图5的区别在于,图7在篇-章-节-段-句-槽这个语义结构的基础上,增加了原句,体现了以句子为单位的分析思想,只所以分拆到句子,是因为句子级的自然语言处理技术是成熟的。模块将文献融合到统一的篇章语义文档2-2的作用是将新文献的语义结构和已经保存的篇章语义结构进行融合。
图8是本发明实施例的篇章语义标注的方法的篇章语义融合示意图,如图8所示;
找到不能融合的部分作为标注的素材。因为语义融合是一个按照层次和逻辑要求进行计算的过程,采用基于表的融合方式比基于图的融合方式更适合,因为图往往假定对象具有唯一性,而对于现实中的对象往往不满足唯一性,比如同一批生产出来的产品。对融合篇章语义文档进行层次和序号修改2-3是指在word中找出篇章结构和段句槽的语义未定义项“NNNN”,将带有“NNNN”标签的句子输出到图3对应的语义字典中,从而实现一个篇章语义加工循环。保存篇章语义文档2-4表示对整篇文档加工的结果如图6所示的文档进行更新,从而实现一个完整的语义融合过程。由于文献是一个复杂的结构,因此融合后的数据量是以句子为单位进行存储的一个大表单,相当于给每一句增加了一个复杂的层次结构的属性框架,这个框架更加准确地描述了句子的意义,这比单独的句子语义的含义要更加准确。
应用层3包括读取文献3-1、编辑Word文档3-2、保存标注文档3-3等3个部分。
模块读取文献3-1实现文档选择功能,将word文档读入软件平台。编辑Word文档3-2是立用word的编辑功能,对融合后的语义文档进行层次检查、修改,对每一层的顺序进行排序,使得篇章语义在层次和逻辑上都是一致的。对于工程应用软件,自然语言处理需要与专业工具相结合,发挥专业工具的专长,比如和AutoCAD、Nx等工程软件结合,这里将word作为文本编辑的专业工具融入篇章语义的标注平台,可以发挥各自的强项。
图9是本发明实施例的篇章语义标注的方法的具体流程图,如图9所示;
基于层次对齐的篇章语义标注方法流程图包括2个前后关联的大流程:原始文档处理流程和篇章语义融合流程,具体流程步骤如下:
步骤1:读取原始word文档
输入文档是word的docx格式,主要是要利用word强大的编辑功能,尤其是其具有的标题层次设置功能,给篇章语义的层次结构提供了最合适的工具。对于其他形式的输入文档,如dox、txt、pdf等,都需要预先转变为docx的形式进行处理。
通过设置一个标尺变量给文档中的表赋予标号,以便和docx中的表进行对应。
步骤2:按xml同时排列段落和表格
Python-docx模块以paragraph的方式只处理word中的文本和图片,没有解析word文档中的表格,而工程文件中图表是其主要内容,因此,需要从word本身的脚发明实施例件Document.xml的进行解析,将paragraph和table按行一起排序,这样就能对word中的文、表、图统一处理。
用docx模块的document.tables方法可以取得表的序号,这个序号和步骤1获得的表序号对应,由此获得表在整个解析文本中的具体内容。其中的表名用表位置的上一行文字作为表名,如果同一位置有几张图,需要在表名加下标编号。
图的名称用图所在位置的下一行的图示说明命名。
图和表在篇章语义中都当实体处理。
步骤3:标题级别按层次关系排列
从docx模块获得的标题包含[标题级别,标题文本]2列,但是标题级别是一个层次关系,标为1列不利于理解和相关的格式变换,比如从excel到word或者3元组的构成。
步骤4:段落处理
该步骤包含步骤4-1到4-4,其目的是给段落命名。段落处在常用的篇章结构和处理手段比较成熟的句子之间,是篇章语义的关键。
步骤4-1:段落语义识别
本步骤的功能是根据语义字典查找段落的语义名称,我们定义的段落是包含有句号”。”的复杂句子,其他含有逗号、冒号“,:”等其他标点符号的句子我们认为是一个句子,不认为是2个句子或者段落,因为这些符号代表语义上是连贯的。
图4所示的段落的语义字典包含段落语义、段落文本、句子语义组合3个部分,段落名称定义采用2种方式,其一是直接采用原文查找,其二是采用句子语义组合进行查找。句子原文一般比较长,对于自然语言处理的效率会比较低,采用句子语义组合会更符合段落设置的本意。
步骤4-2:将段落拆分到句子
按照段落中的“。”将段落拆分到句子,扩展表的长度,扩展出来的句子保留前面所有的篇章节的层次结构。
步骤5:句子处理
句子处理就是分析句子的语义、模式以及对应的实体,句子是自然语言处理的最小单位,其他高于句子的高层次的处理都是以句子为基础的。
步骤5-1:句子语义识别
我们定义句子的语义或者句子的名称和数据库的表名对应,即句子是针对某个表的字段进行描述的。
在工程项目中,底层数据库是比较完备的,而且字段数量比较大,比如一张“碳酸盐岩铸体薄片鉴定”表具有179个属性、“钻井地质信息”具有104个属性,这跟常见的框架语义只有几个属性的情况有很大的区别,工程表的内容丰富而全面,因此除非特殊情况,一般是不需要重新建立结构化表单的。这一点是工程上的优势,也是工程上的难点。
步骤5-2:句子槽位识别
本步骤要识别出句子的模式,它是句子的实体被替换后剩下部分构成的模式,这种模式背后反映的是人的思维模式,这是现在自然语言处理中非常重要的一部分。比如原句“JHW023和JHW025井全程采用14m3/min大排量施工”的句子模式为“O全程采用O施工”,其中2个O的位置就是槽位,“O全程采用O施工”就是整个句子的模式,代表人的思维模式。O可以用不同的类型替代,使整个句子模式语义更加明确。
步骤5-3:句子中实体识别
句子中的实体识别是对步骤5-2的消歧处理,比如“毛坝三井深多少”有2种解读“毛坝三井深多少”“毛坝三井深多少”,这2种解读对非专业人员而言都是对的,但是对于专业人员而言,只有“毛坝三井深多少”这一种解读是对的,因为“毛坝三井”不是井而是集输站,深多少是指该集输站所有井的深度(平均、最大、最小等)。因此,句子中实体出现的歧义,需要更高层次的知识进行校对才能确定实体的真实意义。
步骤6:把图和表作为对象添加到实体中
在步骤2中已经识别出来图和表的名称中,以“图”“表”为图表句的名称。
步骤7:保存预处理文件
按照表5的格式将word文件解析为一个结构化文件进行保存,其最小粒度是句子,其他各列都是句子的不同层次的属性,这样一个复杂的篇-章-节-段-句-槽的层次结构,就是篇章语义的层次表达方式。
步骤8:读取篇章语义excel文档
在第7步原始文档处理流程结束后存档,这里将单独加工的文件拿出来,将它和已经保存的语义文件进行按层次的融合。
步骤9:读取篇章语义excel文档
第一个篇章语义文档和第文档的预处理结果是一样的,但是篇章语义是所有文章的共性文档,是和原始文档同构的一个抽象文档,是所有文档的表头。由于文档类型不同,篇章结构和句子都可能不同,因此篇章语义的结构非常复杂,类比于词性***,词性***至少是40个词性定义的复杂的层次结构,但是对于每一句子而言,一般是一个不超过10个词性的简单描述。所以,篇章语义是一个复杂的层次结构的表头,而每文档标注后的文档,只是这个篇章语义文档的一小部分填充。
步骤10:将原始excel文件按顺序append到语义excel文件
首先将采用DataFrame的append方法将原始excel文件附加到语义excel文件后面,形成一个叠加的大空间表单文件。然后根据选定的列对文档进行抽取,只保留篇章语义文档定义的层次。
在语义融合的过程中,不需要添加原文。
步骤11:融合文件去重
去掉完全相同的的行,但是保留原有的顺序。
步骤12:融合文件按照篇-章-节-段-句-槽排升序
采用DataFrame的sort_values方法进行排序,保证按篇-章-节-段-句-槽这样的层次进行重新排序,就能实现按照层次的融合,其结果如图7所示。
步骤13:将融合文件转换为word格式
Excel表单时的文档宜于分析但不方便阅读理解,因此需要将结构化文件转换为word的形式。在增加段落文本时,每个层次设置的缩进量相同,这样可以保证同层对齐。
步骤14:对融合文件按层次和顺序进行修改
在word界面中将对应的“原文→NNNN”的句子拷贝出来,这些句子已经在步骤4和步骤5中分别保存到图3所示的语义字典里面,因此,在语义字典里面填写相应的名称,然后再重复步骤1-13步,直到word的层级结构满足要求。
在word的每层中的标题如果对应的顺序如果不对,也需要重新对顺序进行编号调整,然后对整个语义字典对应的序号进行更新。
通过在word中理解、在excel语义字典中标注,然后在1-13步运算的循环下,直到篇章语义在层次和逻辑上都满意为止。
步骤15:替换原来的篇章语义excel文档
经过以上14个步骤调整完成后,将调整后的篇章语义excel文档保存为同一个文件,这样就完成过了篇章语义结构的一次更新。
本发明通过从篇章结构的同构性出发融合扩展出篇章语义结构,扩展了人们对篇章语义的抽象认识,扩大了自然语言处理工程问题的范围。对“HW152井压裂工程设计”的文档,没有篇章语义的时候只能看见62个对象之间的物理关联,而在篇章语义下,可以看见202个不同层次对象之间的关联,可以从篇、章、节、段、句的多个维度寻找对象之间的相互关联,分析不同层次背后的思维模式,将文章的关联节点数量扩大了4倍。
满足工程上对于大空间、多层次、长时间的业务活动进行语义描述的要求,实现具有复杂层次结构的篇章语义标注。
***实施例
根据本发明实施例,提供了一种篇章语义标注的***,图10是本发明实施例的篇章语义标注的***的示意图,如图10所示,具体包括:
语义结构模块:用于获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
语义结构模块具体用于:获取生语料文档,根据对应的篇-章-节字典、段落语义字典、句子语义字典和槽位字典,建立所述文章的篇-章-节-段-句-槽的层次语义结构,其中,篇-章-节字典和段落语义字典的以句子语义为基本单位。
融合模块:用于将所述层次语义结构对应层次融合成统一的篇章语义文档;
融合模块具体用于:将所述文章的语义层次对应层次并基于表的形式融合成统一的篇章语义文档。
修改模块:用于基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
存储模块:用于将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
本发明实施例是与上述方法实施例对应的***实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种篇章语义标注的***,如图11所示,包括:存储器110、处理器112及存储在存储器110上并可在处理器112上运行的计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
装置实施例二
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器112执行时实现上述方法实施例中的步骤。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替本发明各实施例技术方案,并不使相应技术方案的本质脱离本方案的范围。
Claims (10)
1.一种篇章语义标注的方法,其特征在于,包括,
S1、获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
S2、将所述层次语义结构对应层次融合成统一的篇章语义文档;
S3、基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
S4、将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
2.根据权利要求1所述的方法,其特征在于,S1具体包括:获取生语料文档,根据对应的篇-章-节字典、段落语义字典、句子语义字典和槽位字典,建立所述文章的篇-章-节-段-句-槽的层次语义结构,其中,篇-章-节字典和段落语义字典的以句子语义为基本单位。
3.根据权利要求2所述的方法,其特征在于,S2具体包括:将所述文章的语义层次对应层次并基于表的形式融合成统一的篇章语义文档。
4.根据权利要求3所述的方法,其特征在于,所述S3具体包括:对融合篇章语义文档进行层次和序号修改,并获取人工没有定义的章节按照层次进行的定义。
5.一种篇章语义标注的***,其特征在于,包括,
语义结构模块:用于获取生语料文档,建立所述生语料文档的篇-章-节-段-句-槽的层次语义结构;
融合模块:用于将所述层次语义结构对应层次融合成统一的篇章语义文档;
修改模块:用于基于正确的逻辑思维对融合后的篇章语义文档进行层次和序号修改;
存储模块:用于将修改后的篇章语义文档存储到熟语料库,完成对所述篇章语义的标注。
6.根据权利要求5所述的***,其特征在于,所述语义结构模块具体用于:获取生语料文档,根据对应的篇-章-节字典、段落语义字典、句子语义字典和槽位字典,建立所述文章的篇-章-节-段-句-槽的层次语义结构,其中,篇-章-节字典和段落语义字典的以句子语义为基本单位。
7.根据权利要求6所述的***,其特征在于,所述融合模块具体用于:将所述文章的语义层次对应层次并基于表的形式融合成统一的篇章语义文档。
8.根据权利要求7所述的***,其特征在于,所述修改模块具体用于:对融合篇章语义文档进行层次和序号修改,并获取人工没有定义的章节按照层次进行的定义。
9.一种篇章语义标注的装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的篇章语义标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的篇章语义标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987422.2A CN113704383A (zh) | 2021-08-26 | 2021-08-26 | 篇章语义标注的方法、***及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987422.2A CN113704383A (zh) | 2021-08-26 | 2021-08-26 | 篇章语义标注的方法、***及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704383A true CN113704383A (zh) | 2021-11-26 |
Family
ID=78655085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110987422.2A Pending CN113704383A (zh) | 2021-08-26 | 2021-08-26 | 篇章语义标注的方法、***及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704383A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN115249015A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 基于篇章聚类和语句融合的标注一致性检验方法及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738033A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 报告模板生成方法、装置及存储介质 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** |
-
2021
- 2021-08-26 CN CN202110987422.2A patent/CN113704383A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110738033A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 报告模板生成方法、装置及存储介质 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN114254158B (zh) * | 2022-02-25 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN115249015A (zh) * | 2022-09-21 | 2022-10-28 | 中科雨辰科技有限公司 | 基于篇章聚类和语句融合的标注一致性检验方法及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8166037B2 (en) | Semantic reconstruction | |
JP4343213B2 (ja) | 文書処理装置および文書処理方法 | |
CN113704383A (zh) | 篇章语义标注的方法、***及装置 | |
CN106528583A (zh) | 一种网页正文提取比对方法 | |
CN103559199B (zh) | 网页信息抽取方法和装置 | |
CN105677638B (zh) | Web信息抽取方法 | |
CN103440232A (zh) | 一种科技论文标准化自动检测编辑方法 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
CN103440233A (zh) | 一种科技论文标准化自动检测编辑*** | |
WO2013134200A1 (en) | Digital resource set integration methods, interface and outputs | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及*** | |
CN111833981A (zh) | 结构化报告制作编写方法 | |
Wu et al. | Web news extraction via path ratios | |
CN116226349A (zh) | 基于表格语义fasttext问句解析的问答方法及*** | |
CN115982379A (zh) | 基于知识图谱的用户画像构建方法和*** | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN111753536A (zh) | 一种专利申请文本的自动撰写方法和装置 | |
US9619445B1 (en) | Conversion of content to formats suitable for digital distributions thereof | |
CN112199960A (zh) | 一种标准知识元粒度解析*** | |
KR102034392B1 (ko) | 문자열 데이터를 이용한 인터넷 족보 생성 방법 및 장치 | |
CN107491524B (zh) | 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置 | |
CN114169336A (zh) | 用户自定义多模态分布式半自动标注*** | |
JPH09282218A (ja) | Html文書本型整形方法及びその装置 | |
JP2003288332A (ja) | 構造化文書作成支援方法及び構造化文書作成支援システム | |
Ramesh et al. | Automatically identify and label sections in scientific journals using conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |