CN112069791B - 以语用为核心的自然语言文本辅助知识库书写和检测***与方法 - Google Patents

以语用为核心的自然语言文本辅助知识库书写和检测***与方法 Download PDF

Info

Publication number
CN112069791B
CN112069791B CN201910429085.8A CN201910429085A CN112069791B CN 112069791 B CN112069791 B CN 112069791B CN 201910429085 A CN201910429085 A CN 201910429085A CN 112069791 B CN112069791 B CN 112069791B
Authority
CN
China
Prior art keywords
language
relation
writing
genre
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910429085.8A
Other languages
English (en)
Other versions
CN112069791A (zh
Inventor
谷松
赵丽新
张新华
李国霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910429085.8A priority Critical patent/CN112069791B/zh
Publication of CN112069791A publication Critical patent/CN112069791A/zh
Application granted granted Critical
Publication of CN112069791B publication Critical patent/CN112069791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

以语用为核心的自然语言文本辅助知识库书写和检测***,以汉语为输入语言,包括语用体裁库、语用要素表达子***、语用体裁真值库、语用关系子***以及知识推理子***,本发明还提供了以汉语为输入语言的书写和检测方法,在自然语言书写过程中,以高层次的语用要素类型和语用要素关系决定低层次词性标注、句法语义表示和分析,可识别自然语言的语用,计算语用真值,对知识构成及其自身层次上是否正确进行判断,可以解决知识表达形式的正确性问题,而不仅仅是词法、句法方面的形式判断,并且本发明是根据书写顺序实时判断,书写者严格按***的流程和规范进行书写的知识可以直接构成***的知识库,对以后的使用带来很大的方便。

Description

以语用为核心的自然语言文本辅助知识库书写和检测***与 方法
技术领域
本发明属于计算语言学领域,特别涉及一种以语用为核心的自然语言文本辅助知识库书写和检测***与方法。
背景技术
自然语言的语用真值,指的是语句与语句之间的确定关系的真值,主要通过关系表达式进行计算。特定体裁的语用真值是指对其语用要素及其特定计算关系而设定的真值。
传统自然语言识别中,一种趋势是对词法、句法、语义等进行标注,例如哈工大的语言云***;另外一种趋势是基于统计方法比对语义相似度,例如中国知网的学术不端文献检测(ALMC)***。两种趋势的共同点在于均不涉及实际意义上的语用真值计算。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种以语用为核心的自然语言文本辅助知识库书写和检测***与方法,在识别自然语言词法、句法、语义的基础上,增加了句子之间的语用真值及特定题材的语用真值计算。
为了实现上述目的,本发明采用的技术方案是:
一种以语用为核心的自然语言文本辅助知识库书写和检测***,以汉语为输入语言,包括:
语用体裁库,存储若干种语用体裁,语用体裁是有固定语用要素的由句子构成的有特殊使用目的体裁,这种特殊使用目的可以用确定的语用表达式计算语用体裁真值;常见的语用体裁如论文摘要、借条、合同、通知、报导、诉状以及专利申请书等,其书写范围包括词库、语法、动词以及语用格。语用要素是指各语用体裁中的必要构成部分,例如,体裁为论文摘要时,语用要素为目的、方法、结果、结论或者对象、方法、结果;体裁为借条时,语用要素为债权人、借款金额、利息计算、还款时间、债务人、借款日期;体裁为劳动合同时,语用要素为劳动者、用人单位、合同期限、工作内容、劳动报酬、劳动纪律。
语用要素表达子***,分别匹配不同语用体裁,包括语用要素标记数据库和语用要素关系计算数据库,语用要素标记数据库存储不同语用体裁中的语用要素标记以及各标记所标注的语用要素类型(比如摘要中的对象类、方法类、结果类),语用要素标记指与语用要素对应的常用关键词,例如关于摘要的语用要素标记包括“对于、采用、得到”等,标记“对于”标注的语用要素是“对象”(对象是指研究的所指),标记“采用”标注的语用要素是“方法”(方法包括研究所采用的具体方法、原理、理论、条件、手段等),标记“得到”标注的语用要素是“结果”(是指实验的、研究的数据,被确定的关系,得到的效果和性能等)。语用要素关系计算数据库存储不同语用体裁中语用要素关系对应的表达式,所述语用关系标记指与语用关系对应的常用关键词,语用要素关系是指每种语用体裁的各个语用要素之间存在的以形式逻辑、公式计算为基础的特定的计算关系。本发明的语用要素与以往“要素”的含义不完全相同。语用要素是指针对语用真值计算而设置的要素,各语用要素之间的关系存在确定的表达式。如摘要这种语用体裁中,可以根据需要设置“目的”、“方法”、“结果”、“结论”四个要素,也可以设置成“目的”、“方法”、“结果”三个要素,还可以设置为“对象”、“方法”、“结果”三个要素,也就是说,同一种体裁下可以对应不同的语用要素方案,书写者可以根据自己的需要选择语用要素方案。以三要素的语用体裁为例,可以设三要素为三元组w=(i,j,k),当j为一个二元关系式,i和k分别为对象集合和结果集合,符合j的定义域,真值为j的值域,k∈j的值域;
语用体裁真值库,存储不同语用体裁中语用要素关系对应的语用真值表;例如,以摘要的三要素(对象、方法、结果)为例,三者之间关系对应的结构语用真值表如下,其中A为对象,B为方法,C为结果。
A B C A∧B∧C
True True True True
True True False False
True False True False
True False False False
False True True False
False True False False
False False True False
False False False False
以摘要的三要素(对象、方法、结果)关系对应的创新语用真值表如下,其中A为对象,B为方法,C为结果。
A B C A∨B∨C
New New New New
Old Old New New
New New Old New
New Old New New
New Old Old Old
Old New New New
Old New Old New
Old Old Old Old
以摘要的四要素(目的、方法、结果、结论)关系对应的创新语用真值表如下,其中A为目的,B为方法,C为结果,D为结论。
A B C D A∨B∨C
New New New New New
New New New Old New
Old Old New New New
Old Old New Old New
New New Old New New
New New Old Old New
New Old New New New
New Old New Old New
New Old Old New Old
New Old Old Old New
Old New New New New
Old New New Old New
Old New Old New New
Old New Old Old New
Old Old Old New Old
Old Old Old Old Old
语用关系子***,包括语用关系标记数据库和语用关系表达式数据库,语用关系标记数据库存储标注语用关系的各种标记,如因果关系的标记为“因为……所以”;递进关系为“不但……而且”;转折关系为“虽然……但是”等;同时还包含多元语用关系,如“因为……所以……但是”。语用关系表达式数据库存储各语用关系所对应的逻辑和数学运算关系;例如,蕴涵关系对应的逻辑运算式为:如果p,则q,(表达式p→q),蕴涵关系在推理机中的真值表为:
p q p→q
True True True
True False False
False True True
False False True
知识推理子***,包括知识层级数据库以及知识网络计算数据库。知识层级是指将知识按照上下位所标记的关系排列而成的树形结构,知识网络是指知识层级中概念与概念之间以逻辑与数学形式***为中介的计算关系。例如,“因为物体所受的合外力不等于0,所以该物体的加速度等于0,且物体的形变为0”,这与知识推理子***中的牛顿第二定律相悖,该知识表述的真值为假。
本发明还可包括存储汉语的词性标记和语法规则的词法、语法子***。从建库的角度,词法、语法子***与所述语用体裁库是平级关系;从识别先后顺序角度,语用体裁库高于词法、语法子***。
以生成语法为例:np(名词短语)+vp(动词短语)=S(句子)。
本发明所述语用要素表达子***具有语用要素标注的功能
本发明还提供了以语用为核心的自然语言文本辅助知识库书写和检测方法,以汉语为输入语言,包括(但不限于)如下步骤:
步骤1,书写者从语用体裁库选择具体的语用体裁,开始输入汉语。另外,书写者也可以直接上传PDF、图片、语音等形式的文件,***也可以对这类文件进行检测;
步骤2,***对书写者输入内容或上传内容首先进行切词处理,本***中切词工具是以自然语言和科技语言语料库为基础,通过对语料库的机器学习形成的。此切词工具是专门针对科技表达的。
步骤3,根据书写者的输入顺序,利用语用要素标记数据库,识别语用要素标记,并判断语用要素标记对应的语用要素类型;书写者可以选择在带有***辅助选项的界面下通过选择正确项完成书写;也可以选择在单纯书写界面下完成书写。
步骤4,根据书写者或是预先规定的(构式)的输入顺序,利用语用关系标记数据库,识别语用关系标记;
步骤5,根据词法、语法子***,对书写者输入内容进行语法规则运算,并将语法规则运算出的语法结构转换为知识表达格式;如将“物体的速度(n+aux+n)”转换为“物体的[速度]”(此格式为机器可计算格式)。如:“一个巨大的物体”其语法规则为adj+adj+n=np对应的知识表达结构为该物质的第一属性加该物质的第二属性加该物质;同样adj+adj+n=np语法规则对“巨大一个的物体”对应的知识表达结构为该物质的第二属性加该物质的第一属性;又如:(n+aux+n)对应的知识表达结构为该物质的附加(导出)属性,将“物体的速度(n+aux+n)”转换为“物体[速度]”。
步骤6,根据知识推理子***,判断所书写知识是否正确,如正确,则提取其内涵(比如“物体的[速度]”在知识***中对应的内涵为“v≠0”),并继续以下步骤,否则向书写者给出错误提示;
步骤7,根据书写者的输入顺序,利用语用关系表达式数据库,推理所述语用关系是否成立。如果成立则语用真值为真,继续进行下面的步骤,否则向书写者给出错误提示。
步骤8,重复步骤2-4,直至识别出的语用要素类型构成所选体裁的所有语用要素。如直至书写完毕,所识别的语用要素类型也未构成所选体裁的所有语用要素,则给出错误提示;并且书写者重复步骤1~5,直到语用真值为真(结构语用真值为真,且给出体裁语用真值)方为完成。
与现有技术自然语言从词汇、短语、句法层次处理技术手段相比,本发明在自然语言书写过程中,以高层次的语用要素类型和语用要素关系决定低层次词性标注、句法语义表示和分析,可识别自然语言的语用,计算语用真值,对知识构成及其自身层次上是否正确进行判断,可以解决知识表达形式的正确性问题,而不仅仅是词法、句法方面的形式判断,并且本发明是根据书写顺序实时判断,书写者严格按***的流程和规范进行书写的知识可以直接构成***的知识库,对以后的使用带来很大的方便。比如辅助书写、智能查询、智能教育。
附图说明
图1是本发明***框架示意图。
图2是本发明语用要素表达子***示意图。
图3是本发明语用关系子***示意图。
图4是本发明知识推理子***示意图。
图5是本发明词法、语法子***示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1,本发明是一种以语用为核心的自然语言文本辅助知识库书写和检测***,以汉语为输入语言,包括:
语用体裁库,存储若干种语用体裁。
语用要素表达子***,分别匹配不同语用体裁,参考图2,包括语用要素标记数据库和语用要素关系计算数据库。
语用体裁真值库,存储不同语用体裁中语用要素关系对应的语用真值表。
语用关系子***,参考图3,包括语用关系标记数据库和语用关系表达式数据库,语用关系标记数据库存储标注语用关系的各种标记。
知识推理子***,参考图4,包括知识层级数据库以及知识网络计算数据库。
词法、语法子***,参考图5,存储汉语的词性标记和语法规则。
实施例1
体裁为论文摘要,内容如下:
本文对于物体的运动状态进行了研究,根据伽利略的(力、速度、时间的关系)实验,提出惯性概念,即一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态,直到外力使物体的这种状态改变为止。本文进一步(对于物体的运动状态)进行了实验,得到在物体所受的力不等于零时要么体积发生变化,要么运动状态发生变化且满足f=ma。
(***知识库:物体为刚体:体积不变化
经典实验:伽利略的实验(力、速度、时间的关系):
∑f=0;v0=vt
∑f≠0;v0≠vt
f(重力)=mg;g=(vt-v0)/t=9.8
f(弹力)=kΔL)
在上述论文摘要内容书写过程中,实时进行自然语言的语用真值识别,包括以下步骤。
1)书写者选择(数据库会给书写者相应的选择项)语用体裁为“论文摘要”,并且***会自动显示“本文”
2)书写出“对于”后,***基于语用要素标记数据库识别出标记“对于”。
3)书写出“物体的运动状态”后,根据语用要素标记数据库中各语用要素标记所标注的语用要素类型,标记出“对于”后的内容“物体的运动状态”的语用要素类型为【对象】,在知识***中比对此对象的创新性真值为False;自动显示“进行了研究”
4)基于词法、语法子***,n+aux+n转换“物体的运动状态”形式为:【物体:运动状态】(此种形式表示“物体”的导出属性是“运动状态”)。
5)在知识推理子***中搜索“物体”是否存在“运动状态”属性。如果存在,则提取“【物体:运动状态】”的内涵为v≠0,并继续进行下面的步骤;如果不存在,则向书写者给出错误提示,要求改写。本实施例中,知识推理子***中存在“物体”的“运动状态”属性,所以继续下面的步骤。
6)书写出“根据”后,根据语用要素标记数据库识别出标记“根据”。
7)书写出“伽利略的实验”后,根据语用要素标记数据库中各语用要素标记所能标注的语用要素类型,标记出“根据”后的内容“伽利略的实验”的类型为【方法:经典实验】,在知识***中比对此方法的创新性真值为False;
8)在知识推理子***的【方法:经典实验】中查找“伽利略的实验”。如果存在,则提取内涵,继续下面步骤;如果不存在,则标注为创新。本实施例中,知识推理子***中存在“伽利略的实验”,并提取其内涵为“∑f≠0;v0≠vt”或“Σf=0,a=0,vt=v0”,所以继续下面的步骤。
9)书写出“提出”后,根据语用要素标记数据库识别出标记“提出”。
10)书写出“惯性概念”后,根据数据库中各语用要素标记所能标注的语用要素类型,标记“提出”后的内容“惯性概念”的类型选择为【方法:过程】;
11)在知识推理子***中查找“惯性概念”,如果存在,则提取内涵;如果不存在,则标注为创新。本实施例中,知识推理子***中不存在“惯性概念”,创新性真值暂时标注为True。
12)提示书写者定义创新概念“惯性概念”。
13)书写者书写“即”,根据词法、语法子***,判断“即”是定义创新知识的标记。
14)识别出“惯性概念”的定义为“一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态,直到外力使物体的这种状态改变为止。”
15)根据知识***,将“一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态”的内涵表示为“Σf=0,a=0,vt=v0”。与知识***比对上述定义的创新性,结果显示,上述定义在知识***中存在,则上述定义创新性真值为False,即“惯性概念”创新性真值为False。
16)将书写者定义内容“一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态,直到外力使物体的这种状态改变为止。”与***知识***比对。
将“直到外力使物体的这种状态改变为止”的内涵表示为“Σf≠0,a≠0,vt≠v0”。
(当物体为刚体时,知识推理正确)
此定义与知识***无矛盾。
17)根据语用关系标记数据库,识别出标记“直到……为止”。
18)根据语用关系表达式数据库中“充要条件关系”的计算式,将“Σf=0,a=0,vt=v0”和“Σf≠0,a≠0,vt≠v0”代入。
19)根据知识推理子***推理上述语用关系是否成立。如果成立,则继续进行下面的步骤;如果不成立,则标注为知识性错误。本实施例中,由于知识推理子***中存在f=ma,m≠0,(Vt=V0)体积不变的条件,所以上述关系“如果Σf≠0,a≠0,vt≠v0,则(Σf=0,a=0,vt=v0)”成立。
20)书写出“对”,基于语用要素标记数据库识别出标记“对”。
21)书写出“物体的运动状态”后,根据语用要素标记数据库中各语用要素标记所标注的语用要素类型,标记出“对”后的内容“物体的运动状态”的语用要素类型为【对象】物体的运动状态。
22)书写者可以选择“进行了实验”。
23)书写出“得到”后,根据语用要素标记数据库识别出标记“得到”。
24)书写出“在物体所受的力不等于零时要么体积发生变化,要么运动状态发生变化且满足f=ma。”后,根据语用要素标记数据库中各语用要素标记所能标注的语用要素类型,标记“得到”后的内容“在物体所受的力不等于零时要么体积发生变化,要么运动状态发生变化且满足f=ma。”的类型为【结果】。在知识***中比对此结果的创新性真值为1。(因为***中没有f=ma的关系式)
25)根据知识推理子***,将“在物体所受的力不等于零时要么体积发生变化”的内涵表示为“∑f≠0;v0≠vt”,与知识***比对,“∑f≠0;v0≠vt”与“F(弹力)=kΔL”不矛盾。将“在物体所受的力不等于零时要么运动状态发生变化且满足f=ma”的内涵表示为∑F≠0;v0≠vt,且f=ma与***知识F(重力)=mg;g=(vt-v0)/t=9.8不矛盾。
26)根据语用要素关系计算数据库,运用语用要素关系表达式(记为g),即【对象】、【方法】和【结果】之间的关系。
(例如g=(【对象】∩【方法】)∧(【方法】∩【结果】),
或g=(【对象】∩【结果】)∧(【方法】∩【结果】),)。
本实施例中,“物体的运动状态”、“惯性概念”、“一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态,直到外力使物体的这种状态改变为止。”、“伽利略的实验”、“在物体所受的力不等于零时要么体积发生变化,要么运动状态发生变化且满足f=ma。”的关系式g=(“物体的运动状态”∩“惯性概念”)∧(“物体的运动状态”∩“伽利略的实验”)∧(“惯性概念”∩“一切物体在没有受到外力作用的时候,总保持匀速直线运动状态或静止状态,直到外力使物体的这种状态改变为止。”∧(“伽利略的实验”∩)“在物体所受的力不等于零时要么体积发生变化,要么运动状态发生变化且满足f=ma。”)=(vt,v0)。表明本实施例中的【对象】、【方法】和【结果】之间的关系正确。
27)运用知识推理子***判断出【对象】、【方法】和【结果】的内涵之间无矛盾。
21)运用语用体裁真值库推理语用体裁的真值。如果真值为真,语用体裁合格;如果真值为假,语用体裁不合格。本实施例中,由于【对象】:False,【方法】:False,【结果】:True;因此此摘要的语用体裁真值为1(1为真,0为假),具体说明计算过程和结果。
实施例2
体裁为借条,内容如下:
借条
今自张三处借到人民币2000元(贰仟圆整)。双方约定于2009年4月1日前全部还清。
借款人:李四
日期:2008年4月1日
在书写上述借条内容过程中,实时进行自然语言的语用真值识别,包括以下步骤。
1)书写者选择语用体裁为“借条”,书写出“自”后,根据语用要素标记数据库识别出标记“自”。
2)继续书写出“张三”后,可选择“张三”为“自然人”。
3)根据语用要素标记数据库中各语用要素标记所能标注的语用要素类型,标记出“自”后的内容“张三”的语用要素类型为【债权人】。
4)书写出“借到”后,根据语用要素标记数据库识别出标记“借到”。
5)书写出“2000元人民币”后,根据数据库中各语用要素标记所能标注的语用要素类型,标记出“2000元人民币”的语用要素类型为【标的物】。
6)书写者可选择标的物为“货币”。
7)书写者选择“2000元人民币”是否属于张三。如果是,则继续判断;如果不是,则判断借条不成立。
8)书写出“双方约定于2009年4月1日前全部还清”后,根据语用要素标记数据库识别出标记“于……还清”。
9)根据数据库中各语用要素标记所能标注的语用要素类型,标记出“2009年4月1日前”的语用要素类型为【还款日期】。
10)书写出“借款人”后,根据语用要素标记数据库识别出标记“借款人”。
11)书写出“李四”后,可选择“李四”为“自然人”。
8)根据数据库中各语用要素标记所能标注的语用要素类型,标记出“李四”的语用要素类型为【借款人】。
9)书写出“日期”后,根据语用要素标记数据库识别出标记“日期”。
10)书写出“2008年4月1日”后,根据数据库中各语用要素标记所能标注的语用要素类型,标记出“2008年4月1日”的语用要素类型为【借款日期】。
11)判断借条中包含【债权人】、【标的物】、【还款日期】、【借款日期】、【借款人】四个要素时,此借条为合格借条。
12)根据借条的语用体裁真值库判断【债权人】、【标的物】、【还款日期】、【借款日期】、【借款人】均为真时,则判断此借条的结构语用真值为真;否则为假。本实施例中,由于“债权人是自然人”为真、“借款人是自然人”为真、“标的物货款大于0”为真、“【还款日期】-【借款日期】≤100年”为真,所以此借条体裁语用真值为真。
实施例3
体裁为买卖合同,内容如下:
买卖合同
卖方:**汽车贸易公司
买方:李四
买方(比如非行为能力人不能成为买方)李四自**汽车贸易公司处买到一辆长安牌SC7103A的白色奥拓汽车。双方当日内买方向卖方支付60000元人民币,卖方将该汽车交给买方。
卖方签名:张三 买方签名:李四日期:2008年4月1日 日期:2008年4月1日
在上述买卖合同内容书写过程中,实时进行自然语言的语用真值识别,包括以下步骤。
1)书写出“卖方”后,根据语用要素标记数据库识别出标记“卖方”。
2)书写出“**汽车贸易公司”后,可选择“**汽车贸易公司”为“法人”。知识***内检索“**汽车贸易公司”是否存在。如存在,继续书写;如不存在,判断买卖合同不成立。
3)根据语用要素标记数据库中各语用要素标记所能标注的语用要素类型,标记出“卖方”后的内容“**汽车贸易公司”的语用要素类型为【卖方】。
4)书写出“买到”后,根据语用要素标记数据库识别出标记“买到”。
5)书写出“一辆长安牌SC7103A的白色奥拓汽车”后,根据语用要素标记数据库中各语用要素标记所能标注的语用要素类型,标记出“买到”后的内容“一辆长安牌SC7103A的白色奥拓汽车”的语用要素类型为【标的物】。
6)知识***判断“长安牌SC7103A的白色奥拓汽车”是否存在。如存是,继续书写;如不存在(如:无生产许可证的组装车),判断买卖合同不成立。
7)书写者选择“一辆长安牌SC7103A的白色奥拓汽车”是否属于【卖方】。如果是,则继续书写;如果不是,则判断买卖合同不成立。
8)书写出“向卖方支付60000元人民币”后,根据语用要素标记数据库识别出标记“……向……支付”。
9)根据数据库中各语用要素标记所能标注的语用要素类型,标记出“60000元人民币”的语用要素类型为【货款】(人民币属于货款而点钞券不属于货款)。
10)书写者选择“60000元人民币”是否属于【买方】。如果是,则继续书写;如果不是,则判断买卖合同不成立。
11)判断“向”前是否为【买方】,“向”后是否为【卖方】。
12)判断“……将……交给……”。“将”前是否为【卖方】,“交给”后是否为【买方】,“将”后是否为【标的物】。
13)书写出“买方签名”和“卖方签名”后,当【卖方】属于“法人”类别时,***判断【卖方签名】是否属于【卖方】的法人代表。如果是,则继续书写;如果不是,则判断买卖合同不成立。
14)书写出“日期”后,根据语用要素标记数据库识别出标记“日期”。
15)当【买方】为自然人时,判断【卖方签名】与【卖方】是否一致。如果是,则继续书写;如果不是,则判断买卖合同不成立。
16)判断买卖合同中包含【卖方】、【买方】、【标的物】、【货款】、【买卖时间】、【卖方签名】、【买房签名】7要素时,合同成立;否则合同不成立。
18)根据买卖合同的语用体裁真值库判断【卖方】、【买方】、【标的物】、【货款】、【买卖时间】、【卖方签名】、【买房签名】均为真时,买卖合同的语用真值为真。本实施例中“卖方是自然人或法人”为真、“买方是自然人或法人”为真、“标的物是实体”为真、“货款大于0”为真、“日期为当前日期”为真、“买方签名与买方一致”为真、“卖方签名与卖方一致”为真时,则判断此借条的语用真值为真;否则为假。

Claims (9)

1.以语用为核心的自然语言文本辅助知识库书写和检测***,以汉语为输入语言,其特征在于,包括:
语用体裁库,存储若干种语用体裁,语用体裁是有固定语用要素的由句子构成的有特殊使用目的体裁;
语用要素表达子***,分别匹配不同语用体裁,包括语用要素标记数据库和语用要素关系计算数据库,语用要素标记数据库存储不同语用体裁中的语用要素标记以及各标记所标注的语用要素类型,语用要素关系计算数据库存储不同语用体裁中语用要素关系对应的表达式;
语用体裁真值库,存储不同语用体裁中语用要素关系对应的语用真值表;
语用关系子***,包括语用关系标记数据库和语用关系表达式数据库,语用关系标记数据库存储标注语用关系的各种标记,语用关系表达式数据库存储各语用关系所对应的逻辑和数学运算关系;
知识推理子***,包括知识层级数据库以及知识网络计算数据库;
词法、语法子***,存储汉语的词性标记和语法规则。
2.根据权利要求1所述以语用为核心的自然语言文本辅助知识库书写和检测***,其特征在于,所述体裁为论文摘要、借条、合同、通知、报导、诉状或专利申请书,其书写范围包括词库、语法、动词以及语用格。
3.根据权利要求2所述以语用为核心的自然语言文本辅助知识库书写和检测***,其特征在于,所述体裁为论文摘要时,语用要素为目的、方法、结果、结论,或者为对象、方法、结果;体裁为借条时,语用要素为债权人、借款金额、利息计算方式、还款时间、债务人、借款日期;体裁为劳动合同时,语用要素为劳动者、用人单位、合同期限、工作内容、劳动报酬、劳动纪律。
4.根据权利要求1所述以语用为核心的自然语言文本辅助知识库书写和检测***,其特征在于,所述语用要素表达子***具有语用要素标注的功能。
5.根据权利要求1所述以语用为核心的自然语言文本辅助知识库书写和检测***,其特征在于,所述语用要素标记指与语用要素对应的常用关键词;所述语用关系标记指与语用关系对应的常用关键词;所述语用要素关系是指每种语用体裁的各个语用要素之间存在的以形式逻辑、公式计算为基础的特定的计算关系。
6.根据权利要求1所述以语用为核心的自然语言文本辅助知识库书写和检测***,其特征在于,所述知识层级是指将知识按照上下位所标记的关系排列而成的树形结构,所述知识库中概念与概念之间的关系是以逻辑与数学形式***为中介的计算关系。
7.以语用为核心的自然语言文本辅助知识库书写和检测方法,以汉语为输入语言,基于权利要求1至6任一项所述以语用为核心的自然语言文本辅助知识库书写和检测***实现,其特征在于,包括如下步骤:
步骤1,书写者从语用体裁库选择具体的语用体裁,开始输入汉语,或者直接上传PDF、图片、语音形式的文件;
步骤2,***对书写者输入内容或上传内容首先进行切词处理;
步骤3,根据书写者的输入顺序,利用语用要素标记数据库,识别语用要素标记,并判断语用要素标记对应的语用要素类型;
步骤4,根据书写者或是预先规定的的输入顺序,利用语用关系标记数据库,识别语用关系标记;
步骤5,根据词法、语法子***,对书写者输入内容进行语法规则运算,并将语法规则运算出的语法结构转换为知识表达格式;
步骤6,根据知识推理子***,判断所书写知识是否正确,如正确,则提取其内涵,并继续以下步骤,否则向书写者给出错误提示;
步骤7,根据书写者的输入顺序,利用语用关系表达式数据库,推理所述语用关系是否成立;如果成立则语用真值为真,继续进行下面的步骤,否则向书写者给出错误提示;
步骤8,重复步骤2-4,直至识别出的语用要素类型构成所选体裁的所有语用要素,如直至书写完毕,所识别的语用要素类型也未构成所选体裁的所有语用要素,则给出错误提示;并且书写者重复步骤1~5,直到语用真值为真,即结构语用真值为真,且给出体裁语用真值,方为完成。
8.根据权利要求7所述以语用为核心的自然语言文本辅助知识库书写和检测方法,其特征在于,所述步骤1中,书写者选择语用体裁后,进一步选择该语用体裁的语用要素方案,所述语用要素方案指组成语用体裁的必需的几种语用要素类型。
9.根据权利要求7所述以语用为核心的自然语言文本辅助知识库书写和检测方法,其特征在于,所述步骤2中,识别语用要素标记并确定后,将从当前语用要素标记开始至下一个语用要素标记之间的主要内容,作为当前语用要素标记对应的语用要素类型。
CN201910429085.8A 2019-05-22 2019-05-22 以语用为核心的自然语言文本辅助知识库书写和检测***与方法 Active CN112069791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910429085.8A CN112069791B (zh) 2019-05-22 2019-05-22 以语用为核心的自然语言文本辅助知识库书写和检测***与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910429085.8A CN112069791B (zh) 2019-05-22 2019-05-22 以语用为核心的自然语言文本辅助知识库书写和检测***与方法

Publications (2)

Publication Number Publication Date
CN112069791A CN112069791A (zh) 2020-12-11
CN112069791B true CN112069791B (zh) 2024-04-26

Family

ID=73658100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910429085.8A Active CN112069791B (zh) 2019-05-22 2019-05-22 以语用为核心的自然语言文本辅助知识库书写和检测***与方法

Country Status (1)

Country Link
CN (1) CN112069791B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299125A (en) * 1990-08-09 1994-03-29 Semantic Compaction Systems Natural language processing system and method for parsing a plurality of input symbol sequences into syntactically or pragmatically correct word messages
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的***和方法
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN106708800A (zh) * 2016-11-22 2017-05-24 彭炜明 一种基于句本位语法构建汉语树库的形式化方案
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与***
CN108470024A (zh) * 2018-03-12 2018-08-31 北京灵伴即时智能科技有限公司 一种融合句法语义语用信息的汉语韵律结构预测方法
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299125A (en) * 1990-08-09 1994-03-29 Semantic Compaction Systems Natural language processing system and method for parsing a plurality of input symbol sequences into syntactically or pragmatically correct word messages
CN1460948A (zh) * 2002-05-22 2003-12-10 夏普株式会社 修改或改进词语使用的方法和装置
CN102439590A (zh) * 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的***和方法
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN106708800A (zh) * 2016-11-22 2017-05-24 彭炜明 一种基于句本位语法构建汉语树库的形式化方案
CN108319583A (zh) * 2017-01-06 2018-07-24 光讯网络科技有限公司 从中文语料库提取知识的方法与***
CN108470024A (zh) * 2018-03-12 2018-08-31 北京灵伴即时智能科技有限公司 一种融合句法语义语用信息的汉语韵律结构预测方法
CN109033135A (zh) * 2018-06-06 2018-12-18 北京大学 一种面向软件项目知识图谱的自然语言查询方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
信息抽取中关键技术的研究;张素香;《中国博士学位论文全文数据库 信息科技辑》(第200705期);I138-61 *
面向自然语言处理的汉语虚词研究与广义虚词知识库构建;昝红英 等;《当代语言学》;第11卷(第2期);124-135 *

Also Published As

Publication number Publication date
CN112069791A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN108491377B (zh) 一种基于多维度信息融合的电商产品综合评分方法
CN109684440B (zh) 基于层级标注的地址相似度度量方法
CN109597994B (zh) 短文本问题语义匹配方法和***
Jung Semantic vector learning for natural language understanding
JP5936698B2 (ja) 単語意味関係抽出装置
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
CN110990525A (zh) 一种基于自然语言处理的舆情信息抽取及知识库生成方法
Biemann et al. Language-independent methods for compiling monolingual lexical data
US9880998B1 (en) Producing datasets for representing terms and objects based on automated learning from text contents
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN105843897A (zh) 一种面向垂直领域的智能问答***
CN112668319A (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN111581953A (zh) 一种自动解析英文文本语法现象的方法
Hindocha et al. Short-text Semantic Similarity using GloVe word embedding
Sun A natural language interface for querying graph databases
Das et al. RST signalling corpus annotation manual
CN112395484A (zh) 一种面向自动驾驶汽车的用户满意度评价方法
CN112069791B (zh) 以语用为核心的自然语言文本辅助知识库书写和检测***与方法
Goshima et al. Quantifying news tone to analyze the Tokyo Stock Exchange with deep learning
Ghosh et al. FinRAD: Financial Readability Assessment Dataset-13,000+ Definitions of Financial Terms for Measuring Readability
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Rubtsova et al. Aspect extraction from reviews using conditional random fields
Yadav et al. Enhancing sentiment analysis using domain-specific lexicon: A case study on GST
CN110134866A (zh) 信息推荐方法及装置
Jácome et al. Contextual Analysis of Comments in B2C Facebook Fan Pages Based on the Levenshtein Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant