CN104142917B - 一种用于语言理解的层次语义树构建方法及*** - Google Patents

一种用于语言理解的层次语义树构建方法及*** Download PDF

Info

Publication number
CN104142917B
CN104142917B CN201410216929.8A CN201410216929A CN104142917B CN 104142917 B CN104142917 B CN 104142917B CN 201410216929 A CN201410216929 A CN 201410216929A CN 104142917 B CN104142917 B CN 104142917B
Authority
CN
China
Prior art keywords
semantic
node
word
level
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410216929.8A
Other languages
English (en)
Other versions
CN104142917A (zh
Inventor
晋耀红
朱筠
刘小蝶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN201410216929.8A priority Critical patent/CN104142917B/zh
Publication of CN104142917A publication Critical patent/CN104142917A/zh
Application granted granted Critical
Publication of CN104142917B publication Critical patent/CN104142917B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种用于语言理解的层次语义树构建方法及***,该方法主要包括以下步骤:对语句进行分词并加载语义知识库;根据LV规则识别语句的所有节点,根据语义知识和词语位置及搭配识别节点的层次;把句末标点生成特殊的节点,作为语义树的根节点;根据上述生成的节点信息对其进行合并,识别语句的语义边语块,把0级语义边作为子节点挂于根节点;循环遍历其各个子节点直至无低层次语义边,作为叶子节点挂于子节点。该方案在没有句法资源的情况下,仅使用语义信息和词语位置及搭配而得到语义结构树,使计算机能够进入自然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了自然语言语义理解的第一步,可用于信息检索、自动文摘、机器翻译、文本分类以及信息过滤等。

Description

一种用于语言理解的层次语义树构建方法及***
技术领域
本发明涉及一种自然语言处理领域,具体地说是利用语义知识和词语的位置及搭配而得到的层次语义树构建方法及***。
背景技术
随着电子信息技术的发展,数字信息资源被越来越多的广泛使用。这就需要机器也能理解自然语言,在“懂”的基础上完成对自然语言的各种处理,如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等等。可见,使得计算机能够进入自然语言的语义深层,是达到上述目的一个条件。要想让机器了解自然语言的意义,首先要了解自然语言语句的结构,语句结构是自然语言的一种基本结构,一般包括语法结构和语义结构。为了更好的对语句的语义进行描述,采用语句结构树是一种简单且清晰有效的方式。语句的结构树类型主要包括两种:一种是句法结构树,一种是语义结构树。句法结构树主要包括短语结构树、依存树等,其自动构建主要在句法标注的基础上,采用基于统计的方法来实现,此类句法结构树的构建不使用或较少使用词语的语义知识。
语义结构树的构建必须使用语义知识,构建语义树是在HNC(概念层次网络)理论的指导下,在没有句法资源的情况下,仅使用语义知识和语词语位置及搭配而进行的,使得计算机能够进入自然语言的语义深层,在理解的基础上进行自然语言的各种处理,实现自然语言语义理解的第一步,为后续应用在信息检索、机器翻译、信息过滤、文本分类等过程中创造条件。
在中国专利文献CN1606004A中公开了一种从文本标识语义结构的方法和装置,形成至少两个候选语义结构,基于所述语义结构的似然性对每一候选语义结构确定语义得分,也基于单词在文本中的位置以及从该单词形成的语义实体在该语义结构中的位置对每一语义结构确定句法得分,将句法得分和语义得分组合来对该文本的至少一部分选择语义结构。该方案中定义实体的模式,该模式包括语义类型和概率、马尔科夫概率和语义规则,这些语义内容的获取需要训练大规模的数据,对文本的领域依赖性强,由于任务的复杂性,取得的效果不一定理想,后续的所有的操作都依赖这一步的结果,其效果将大打折扣。
发明内容
本发明所要解决的技术问题在于现有技术中的标识语义结构的方法需要训练大规模的数据,对文本的领域依赖性强,从而提出一种无需训练的层次语义树构建方法和***。
为解决上述技术问题,本发明提供一种用于语言理解的层次语义树构建方法及***,包括如下步骤:
S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
S2、根据分词结果,识别出该语句的语义节点;
S3、利用语义知识和词语位置及搭配获得语义节点的层次;
S4、识别该语句中不同层次的语义边;
S5、根据各层次的语义边生成层次语义树。
优选地,所述步骤S1中,对待处理语句进行分词时,按照领域词典和通用词典对待处理语句进行分词。
优选地,所述语义知识包括词语的广义概念类及其子类,所述词语的广义概念类包括动态、静态、物、人、属性、逻辑。
优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的过程,包括:
对于分词后的词语,如果词语的语义知识中有逻辑概念,对该词语标记为L,如果词语的语义知识中有动态概念,标记为V;
对所有标记为L或V的词语,进行LV排除处理;
对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有后标记,对后标记的词语标记为L1H,根据上述所有标记生成语义节点。
优选地,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的过程,还包括:将句末标点生成语义节点作为根节点。
优选地,所述步骤S3中“利用语义知识和词语位置及搭配获得语义节点的层次”的过程,包括:
所有L标记和v标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层次减小一层为-1。
优选地,所述步骤S4中“识别该语句中不同层次的语义边”的过程,包括
对所有标记为V的语义节点,进行核心动词识别,生成语块;
对所有标记为L的语义节点,生成语块;
根据语块生成语义边。
优选地,所述进行核心动词识别的过程包括:
排除不能构成核心动词的词语;
其余的词语根据构成和词语本身所具有的特征赋予不同的权值,根据权值的排序结果和位置信息选择核心动词。
优选地,所述根据各层次的语义边生成层次语义树的过程,包括:
选择根节点;
把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;
遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节点,直到没有新的子节点产生。
一种所述的层次语义树构建方法对应的层次语义树构建***,包括:
预处理单元:输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
第一序列生成单元:根据分词结果,识别出该语句的语义节点;利用语义知识和词语位置及搭配获得语义节点的层次;
第二序列生成单元:识别该语句中不同层次的语义边;
层次语义树生成单元:根据各层次的语义边生成层次语义树。
本发明的上述技术方案相比现有技术具有以下优点,
(1)本实施例所述的层次语义树构建方法,主要包括预处理、节点识别、语义边识别、语义树生成的过程,输出上述结构树即可得到层次语义树。本实施例中的层次语义树构建的方案,对语句的分析都是利用规则方法进行实现的。本方案中通过节点及其层次的识别、语义边及其层次的识别,来控制规则在不同层次、不同阶段的调度。在此原则指导下,首先需要对规则进行层次分类,每一类规则只在固定分析层次中调用,且每一条规则只关注对邻近语串中语言现象的分析,不需要兼顾对整体形势的判断,而是通过调度来解决规则的兼容性问题。
(2)本发明中的层次语义树构建方法,在没有句法资源的情况下,仅使用语义信息和词语位置及搭配而得到的语义结构树,使计算机能够进入自然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了自然语言语义理解的第一步。构建语义树,可广泛应用在自然语言处理领域,如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等方便。本实施例中的语义树的构建方法,已经应用到专利文献汉英机器翻译上,显著提高了专利文献译文的可读性和准确性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明所述的层次语义树构建方法的流程图;
图2本发明所述的层次语义树构建方法的节点生成流程图;
图3本发明所述的层次语义树构建方法的语义边生成流程图;
图4、图5本发明所述的层次语义树构建方法的一个应用实例的结果示意图;
图6是本发明所述的层次语义树构建***的结构框图。
具体实施方式
实施例1:
本实施例中提供一种用于语言理解的层次语义树构建方法及***,语义树即语义结构树,是针对自然语言中的一个句子而言,指的是一个句子中特征语块(核心动词语块)和由其决定的其他语块之间的语义关系。如一个句子中的特征语块V是表示作用的动词,该特征语块决定此句中必有作用者语块、对象语块、内容语块,只有如此句子的语义才完整。虽然后三者在一定的上下文环境中可以省略其一,但是这四种语块是句子成立即语义完整的必要构件,又叫主要语块。而相比较而言,辅助语块不是句子成立的必要构件,主要是表示动作的方式、手段、途径、条件、时间等。主要语块和辅助语块都可由一定的逻辑概念来提示,因此使用LV(逻辑概念和动态概念)准则来识别句子的语义结构成为可能。本实施例中的层次语义树构建方法,就是利用LV准则来识别一个句子的主要语块和辅助语块,该方案可实现自动对语句进行划分,用于语言翻译中,可以大大提高了机器翻译的可读性和准确性。
本实施例中的层次语义树构建方法,主要的处理过程包括:待处理语句 S110经过预处理S120、节点识别S130、语义边识别S140、语义树生成S150后得到语义树S160,流程图如图1所示,具体包括如下步骤:
S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识。对待处理语句进行分词时,按照领域词典和通用词典对待处理语句进行分词。
S2、根据分词结果,识别出该语句的语义节点。主要包括以下过程:对于分词后的词语,如果词语的语义知识中有虚词义项,对该词语标记为L,如果词语的语义知识中有动词义项,标记为V;对所有标记为L或V的词语,进行 LV排除处理;对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有后标记,对后标记的词语也进行标记,根据上述所有标记生成语义节点。
上述过程具体的方式如下:
对每个词语进行LV识别,如果词语的语义知识中有虚词义项,则该词语标记为L,如果词语的语义知识中有动词义项,则该词语标记为V。所述语义知识包括词语的广义概念类及其子类(即概念类别),所述词语的概念广义概念类包括动态、静态、物、人、属性和逻辑。
对所有标记为L或V的词语,进行LV排除处理,如果该词语前面有“的”、“一种”这样的词语,则取消其L和V标记;如果该词语后面有“的”这样的词语,则取消其L和V标记;
对所有L标记,如果该节点的概念类别是l1,则其标记修改为L1;判断其是否有后标记,“当…时候”中,“时候”是“当”的后标记,对后标记的词语,生成一个标记为L1H的标记;如果该节点的概念类别是l 0,则其标记修改为L0。
把所有L标记(包括L0、L1和L1H)和V标记,带上位置信息,生成一个语义节点,记入一个队列,称之为第一序列。如果一个词语上生成超过1个语义节点,都记入第一序列。
S3、利用语义知识和词语位置获得语义节点的层次。首先,将所有L标记和v标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层次减小一层。具体如下:
对第一序列中的所有语义节点,进行LV层次识别,所有L标记和V标记的默认层次都记为0;
当两个L相邻时,即出现L1L2时,L2的层次减1;
当L和V相邻时,即出现L1V2时,V2的层次减1;
当L和V相邻时,即出现V1L2时,L2的层次减1;
对句号标点符号,生成一个语义节点,其标记为SST,记入第一序列。
S4、识别该语句中不同层次的语义边。包括:首先,对所有标记为V的语义节点,进行核心动词识别,生成语块;然后,对所有标记为L的语义节点,生成语块;从而,根据语块生成语义边。
具体方式如下:
生成一个队列,称之为第二序列;
对第一序列中所有标记为V的语义节点,进行EG识别,生成语块,其标记为CHK_EG,把语块加入第二序列;
对第一序列中所有标记为L的语义节点,进行以下处理:
对所有标记为L1的语义节点,生成一个语块,其标记是CHK_ABK,其起始位置为L1节点的起始位置;判断该节点后是否有L1H,如果有,则语块结束位置是L1H的结束位置;如果其后没有L1H,则语块结束位置是紧邻的下一个标记为L的语义节点的起始位置pos-1,语块层次是语义节点的层次,把语块加入第二序列;
对所有标记为L0的语义节点,生成一个语块,其标记是CHK_L0,其起始位置是L0的起始位置,其结束位置是L0的结束位置,语块层次是语义节点的层次,把语块加入第二序列;
对所有标记为L0的语义节点,生成一个语块,其标记是CHK_GBK,其起始位置是L0的结束位置pos+1,其结束位置是紧邻的下一个语块(其标记是
CHK_EG或CHK_ABK或CHK_L0)的起始位置pos-1,语块层次是语义节点的层次,把语块加入第二序列;
对第一序列中标记为SST的语义节点,生成一个语块,其标记是CHK_SST,加入到第二序列。该过程中得到的语块CHK_SST、CHK_ABK、CHK_EG、CHK_L0 即为语义边。
上述过程中,EG识别是指核心动词识别,主要是通过设计一系列有序的权值来判断每一个动态概念作为EG的权值大小,该过程包括:首先,排除不能构成核心动词的词语,将语句中有可能构成EG的词语进行初步排除,包括动态概念与静态概念、逻辑概念、属性兼类以及不同动态概念的兼类。然后,其余的词语根据搭配和词语本身所具有的特征赋予不同的权值,根据权值的排序结果和位置信息选择核心动词。也就是把排除后剩下的候选词语全部生成EG,并根据它们构成或词语本身所具有的特征赋予不同的权值,综合考虑权值排序结果及位置信息选择一个合适的词语作为语句的EG。
S5、根据各层次的语义边生成层次语义树。首先,选择根节点;然后,把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;最后,遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节点,直到没有新的叶子节点产生。
本实施例所述的层次语义树构建方法,主要包括以下步骤:对语句进行分词并加载语义知识库;根据LV规则和语言规则,识别语句的所有节点及其层次;把句末标点符号生成特殊的节点,作为语义树的根节点;根据上述生成的节点信息对其进行合并,识别语句的语义边语块,把0级语义边语块作为子节点挂于根节点;遍历各个子节点直至无低层次语义边语块,作为叶子节点挂于子节点。输出上述结构树即可得到层次语义树。本实施例中的层次语义树构建的方案,对语句的分析都是利用规则方法进行实现的。规则***受到质疑的一个原因在于,若规则描述过于简单,则规则产生的结果或者互相矛盾,或者不足以分析句子。若想完全依赖规则准确地给出分析结果,就需要每一条规则能够描写复杂的语言现象,这使得规则的概括性差,书写需要大量人工,不具有可行性。为解决这一矛盾,本方案中通过节点及其层次的识别、语义边及其层次的识别,来控制规则在不同层次、不同阶段的调度。在此原则指导下,首先需要对规则进行层次分类,每一类规则只在固定分析层次中调用,且每一条规则只关注对邻近语串中语言现象的分析,不需要兼顾对整体形势的判断,而是通过调度来解决规则的兼容性问题。本实施例中解决的策略有两条:首先避免规则的贪婪匹配,使规则调用具有层次性,并在每一个层次上依据激活信息调用相应规则;其次,调度会根据不同处理阶段的语句特征对规则生成的结果进行选择合成。这样,既减少了需要匹配的规则,也减少了不同规则所产生的矛盾对最终分析的影响,以此加强对规则调用的控制,也使得基于规则的层次语义树的构建成为可能。
上述构建语义树是在概念层次网络理论的指导下,在没有句法资源的情况下,仅使用语义信息和语言规则而得到的语义结构树,使计算机能够进入自然语言的语义深层,在理解的基础上完成对自然语言的各种处理,实现了自然语言语义理解的第一步。构建语义树,可广泛应用在自然语言处理领域,如信息检索、自动文摘、机器翻译、文本分类以及信息过滤等方便。本实施例中的语义树的构建方法,已经应用到专利文献汉英机器翻译上,显著提高了专利文献译文的可读性和准确性。
实施例2:
本实施例中给出一个具体的层次语义树构建方法,该方案的基本流程也是如图1所示,本实施例中层次语义树构建方法100开始于步骤S110即输入待处理语句,然后在步骤S120中对待处理语句进行预处理,即按照领域词典和通用词典对待处理语句进行分词,并加载词语的语义知识,语义知识主要包括词语的广义概念类即V(动态)、G(静态)、W(物)、P(人)、U(属性)、L (逻辑)六大广义概念类和其统筹下的若干子类;其次,在步骤S130中识别该语句的语义节点并对其的层次进行区分,第一步是对分词后的结果,采用 LV规则识别所有的语义节点,第二步是利用语义知识和词语位置,比较判断出节点的层次;再次,在步骤S140中识别该语句的不同层次的语义边,把小句层面的语义节点的识别结果,识别为小句层面的语义边,把语块层面的语义节点的识别结果,识别为语块层面的语义边;然后,在步骤S150中生成层次语义树,根据语义边的识别结果,根据调度分层次生成在树结构上;最后,在步骤S160中输出待处理语句的层次语义树。
图2是说明节点识别300的示意图。如图2所示,节点识别的入口S310是待处理语料的分词结果。在步骤S311中对词语和标点区别对待。对于词语来说,需要对每一个词加载概念类别等语义知识。语义知识简单包括如下两个方面:词语属性,其包括广义概念类GCC、概念类别CC、LV属性LV、语素QH、是否是纯V动词CHUNV;句类属性,其包括广义作用句GXGY、主语块数量GBK_NUM、是否块扩句EPER、是否GBK2原型句蜕GBK2_YT、被动语态ALL_PASS、是否构成双向关系句R0、是否构成比较判断句JD0。需要特别说明的是,概念类别的分类及其说明如下表所示:
其中知识库体例的基本格式如下:
词形
$Feature[Value]$
例如:
半导体元件
$GCC[W] CC[pw]$
表示
$CC[v] SC_GXY[GX] EPER[Y] GBK_NUM[3;4] SC_GBK1_PP[Y]$
其中,GCC[W]表示该词条(“半导体元件”)的概念大类是物W,CC[pw]表示概念类别是人造物PW;CC[v]表示该词条(“表示”)的概念类别是动词, SC_GXY[GX]表示是广义作用句,EPER[Y]表示是块扩句,GBK_NUM[3;4]表示是三主块或四主块句,SC_GBK1_PP[Y]表示GBK1必须是人或生命体。
对于标点来说,句号要生成特殊的语义节点,标记为SST,作为根节点。
在步骤S330中,对每个词语进行“LV”识别,如果词语的语义知识中有逻辑l概念,生成语义节点,则该词语标记为L,如果词语的语义知识中有动态v概念等,生成语义节点,则该词语标记为V。同时,分别对标记为V和L的词语通过相应的若干排歧规则进行兼类排除处理。对所有标记为V的词语,可通过如下面两条规则为例进行兼类排除处理:对于标记为V的词语,如果该词语前面有“的”、“一种”这样的词语,则取消其V标记;如果该词语后面有“的”这样的词语,则取消其V标记。
在步骤S340中,对所有L标记,如果该词语的概念类别是l1,则其标记修改为L1;判断其是否有后标记,如果有后标记,对后标记的词语,生成一个标记为L1H的标记。如在汉语中的“当……时候”,其中,“当”的概念类别是 l 1,则其标记可以修改为L1,而“时候”是“当”的后标记,把“时候”标记为L1H。如果该词语的概念类别是l0,则其标记修改为L0,如汉语的“把”字。
步骤S350即是识别出的所有节点。
在步骤S360中,对所有节点进行LV层次识别即区分节点的LEVEL信息。对第一序列中的所有语义节点,进行LV层次识别,其包括以下操作:所有L标记和V标记的默认层次都记为0;当两个L相邻时,即出现L1、L2时,L2的层次减1,如“把在书架上的那本数学书拿下来”,其中“把”和“在”是两个相邻的L概念,此时,“把”为L1,其层次为0;而“在”为L2,其层次为-1;当 L和V相邻时,即出现L1、V2时,V2的层次减1,如“把位于书架上的那本数学书拿下来”,其中“把”和“位于”是两个相邻的L和V概念,此时,“把”为L1,其层次为0;而“位于”为V2,其层次为-1;当V和L相邻时,即出现V1、L2时,L2的层次减1,如“应用与用户有关的模块”,其中“应用”和“与”是两个相邻的V和L概念,此时,“应用”为V1,其层次为0,而“与”是L2,其层次为-1。
步骤S370中,得到的结果就是该语句的区分了LEVEL信息的所有节点,并记入第一序列,称之为第一序列:把所有L标记(包括L0、L1和L1H)和V标记,带上在语句中的位置信息,作为语义节点,记入第一序列;如果一个词语上生成超过1个语义节点,都记入第一序列;对标点符号,生成的语义节点SST,也一同记入第一序列。
图3是说明语义边识别400的示意图。如图4所示,语义边识别的入口是所有节点及其层次LEVEL信息。
首先先生成一个队列,称之为第二序列。
在步骤S410中,对第一序列中所有标记为V的语义节点,进行EG识别,生成语块,其标记为CHK_EG,把语块加入第二序列。
如“本发明可以快速访问与电子设备10对接的各种设备。”中“访问、对接”是标记为V的语义节点,通过语言规则对两个语义节点进行加权和降权,“访问”通过“可以、快速”两词加权,而“对接”通过与紧邻其后的“的”对其降权,在此句中“访问”权值较高,被选为小句的EG,标记为CHK_EG。
在步骤S420中,对第一序列中所有标记为L的语义节点,进行以下处理:
对所有标记为L1的语义节点,生成一个语块,其标记是CHK_ABK,其起始位置为L1节点的起始位置;判断该节点后是否有L1H,如果有,则语块结束位置是L1H的结束位置;如果其后没有L1H,则语块结束位置是紧邻的下一个标记为L的语义节点的起始位置pos-1,语块层次是语义节点的层次,把语块加入第二序列。
如下示例说明小句层面的CHK_ABK的生成情况:如“存储器130可以以不同方式被分离。”,其中“以”是标记为L1的语义节点,其后没有标记为L1、 L1H的语义节点,则可生成一个标记为CHK_ABK的语块,其起始位置为“以”语义节点的起始位置,结束位置是CHK_EG的起始位置并不包括该位置,即该句的CHK_ABK语块是“以不同方式”;如“本发明用刀片以螺旋滚动方式除去杂草。”,其中“用”是标记为L1的语义节点,其后有标记为L1的语义节点“以”,则可生成一个标记为CHK_ABK的语块,其起始位置为“用”语义节点的起始位置,结束位置是“以”的起始位置并不包括该位置,即该句第一个CHK_ABK语块是“用刀片”,同上,“以螺旋滚动方式”也是该句的一个CHK_ABK;又如“在电子设备10上呈现媒体内容”,其中,“在”是标记为L1的语义节点,其后有标记为L1H的语义节点“上”,则可生成一个标记为CHK_ABK的语块,其起始位置为“以”语义节点的起始位置,结束位置是“内”语义节点的位置,即该句的CHK_ABK语块是“在电子设备10上”。上述三例的L1和L1H都是小句层面的,其层次默认为0,CHK_ABK的层次也是0。如下示例说明语块内部的CHK_ABK的生成情况,在句子“用户有权访问通过操作***137呈现的媒体内容。”中,“访问”是句子的CHK_EG,“通过操作***137呈现的媒体内容”是一个CHK_GBK语块,其是由句子“通过操作***137呈现媒体内容”降级蜕化而来的,其中“呈现”是该CHK_GBK语块的V语义节点,可以生成CHK_EG,其层次是-1;其中“通过”是标记为L1的语义节点,其层次是-1,则“通过操作***137”可生成一个标记为CHK_ABK的语块。同样,在GBK语块内部生成的CHK_ABK的层次是-1。
对所有标记为L0的语义节点,生成一个语块,其标记是CHK_L0,其起始位置是L0的起始位置,其结束位置是L0的结束位置,语块层次是语义节点的层次,把语块加入第二序列。如下示例说明小句层面的CHK_L0的生成情况,在句子“用户将用户名和/或密码组合输入到用户接口150和/或认证设备70。”中,“由”被标记为L0,其层次信息为0,则将其生成一个标记是CHK_L0语块,起始位置和结束位置都是L0;如下示例说明语块层面的CHK_L0的生成情况,在语块“由用户访问的媒体内容”中,“由”被标记为L0,其层次信息为-1,则将其生成一个标记是CHK_L0语块,起始位置和结束位置都是L0。
对第一序列中标记为SST的语义节点,生成一个语块,其标记是CHK_SST,加入到第二序列。
在步骤S430中,利用所有的语块CHK_L0与CHK_ABK和CHK_EG之间的关系,生成一个语块,其标记是CHK_GBK,其起始位置是CHK_L0的结束位置pos+1,其结束位置是紧邻的下一个语块(其标记是CHK_ABK或CHK_EG)的起始位置 pos-1,语块层次是语义节点的层次,把语块加入第二序列。如在上述示例“用户将用户名和/或密码组合输入到用户接口150和/或认证设备70。”中,“将”生成语块CHK_L0,“输入到”生成语块CHK_EG,则“用户”、“用户名和/或密码组合”和“用户接口150和/或认证设备70”是CHK_GBK语块。
在步骤S440中,得到的CHK_EG、CHK_ABK、CHK_L0、CHK_SST即是所有的语义边。
确定以SST为根节点,第一层次CHK_EG、CHK_L0、CHK_ABK、CHK_GBK为其子节点并挂于其下,第二层次的CHK_EG、CHK_L0、CHK_ABK、CHK_GBK围棋子节点的子节点挂于其下,以此类推,直至全部为叶子节点。
实施例3:
本实施例中给出一个具体的应用实例,图4和图5是说明示例语句的层次语义树构建结果的示意图。如图4所示,待处理语句是“网络浏览器使用统一资源定位符将HTML请求发送给由***控制的服务器。”,小句层面的语义树结构是:GBK1“网络浏览器”+ABK“使用统一资源定位符”+L0“将”+GBK2“HTML 请求”+EG“发送给”+GBK3“由***控制的服务器”,其中,CHK_SST(句号) 语块作为根节点。第一层次的语义节点是L1(使用)、L0(将)、V(发送给),三个层次全部都为0;第一层次的语义边是CHK_ABK(使用统一资源定位符)、 CHK_L0(将)、CHK_EG(发送给)、CHK_GBK(网络浏览器、HTML请求、远程服务器),六个语块层次全部都为0,其作为根节点的子节点挂出。根据CHK_EG “发送给”表示传递的动作,可以确定CHK_GBK的语义角色如下:“网络浏览器”是作用者GBK1,“HTML请求”是内容GBK2,“远程服务器”是目标地GBK3。GBK1、GBK2语块层面语义关系比较简单,虽然“浏览器”是“网络浏览器”的语义中心,“请求”是“HTML请求”的语义中心,“服务器”是“远程服务器”的语义中心,但是因为没有语块层次的语义边,语块的词语都作为叶子节点挂出。在GBK3中语块层面的语义树结构:L0“由”+GBK2“***”+EG“控制”+CHK_L1“的”+GBK3“服务器”,其中GBK3语块作为根节点。第二层次的语义节点是L0(由)、V(控制)、L1(的),三个层次全部都为-1;第二层次的语义边是CHK_L0(由)、CHK_EG(控制)、CHK_L1(的)、CHK_GBK(***、服务器),五个语块层次全部都为-1,其作为子节点挂出。根据CHK_EG“控制”是表示广义的作用的概念,可以确定CHK_GBK的语义角色如下:“***”是作用者GBK1,“服务器”是内容GBK2。本实施例中该语句建立的语义树如图4 和图5所示。
实施例4:
本实施例中给出一种实现上述实施例所述的层次语义树构建方法的***,本实施例中的层次语义树构建***500,结构框图如图6所示,包括
预处理单元S520:输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
第一序列生成单元S530:根据分词结果,识别出该语句的语义节点;利用语义知识和词语位置获得语义节点的层次;
第二序列生成单元S540:识别该语句中不同层次的语义边;
层次语义树生成单元S550:根据各层次的语义边生成层次语义树。
此外,在实施时,还包括输入语句单元和层次语义树输出单元S560.
优选地,所述预处理单元S520中,对待处理语句进行分词时,按照领域词典和通用词典对待处理语句进行分词。本实施例中,所述语义知识包括词语的广义概念类及其子类,所述词语的广义概念类包括动态、静态、物、人、属性、逻辑。
优选地,第一序列生成单元S530中,包括:
第一子单元:对于分词后的词语,如果词语的语义知识中有逻辑概念,对该词语标记为L,如果词语的语义知识中有动态概念,标记为V;
第二子单元:对所有标记为L或V的词语,进行LV排除处理;
第三子单元:对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有后标记,对后标记的词语标记为L1H,根据上述所有标记生成语义节点。
还包括第四子单元:将句末标点生成语义节点作为根节点。
第一序列生成单元S530还包括:
第五子单元:所有L标记和v标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层次减小一层为-1。
第二序列生成单元S540包括:
核心动词识别单元:对所有标记为V的语义节点,进行核心动词识别,生成语块;
语块生成单元:对所有标记为L的语义节点,生成语块;
语义边生成单元:根据语块生成语义边。
核心动词识别单元中,进行核心动词识别,还包括:
排除子单元:排除不能构成核心动词的词语;
选择子单元:其余的词语根据构成和词语本身所具有的特征赋予不同的权值,根据权值的排序结果和位置信息选择核心动词。
层次语义树生成单元S550,包括:
根节点子单元:选择根节点;
子节点子单元:把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;
遍历子单元:遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节点,直到没有新的子节点产生。
图6是说明本发明实施例中的层次语义树构建***500的示意图。层次语义树构建设备500包括五个单元:预处理单元S520、第一序列生成单元S530、第二序列生成单元S540、层次语义树生成单元S550和层次语义树输出单元 S560。步骤S510表示语句的输入,一般指的是一个完整的句子,而非句群或篇章。预处理单元S520包括对语句进行分词处理、对成对的括号、引号、书名号等特殊标点的处理、加载语义知识库、对语句中出现的数字和英文缩写进行绑定并加载其语义信息、对逗号、冒号、顿号、句号等有效标点进行处理并加载其语义信息以及采用消歧规则对兼类的词语进行消歧处理,预处理单元的操作主要目的是排除干扰使得后续的识别步骤更加简洁易行。第一序列生成单元S530主要是采取LV原则对所有含有l或v概念的词语进行处理以识别所有语义节点L/V,并利用LV语义节点所呈现的位置关系区分其层次,默认都是0,其表示第一层次,第二层次则是-1;根据逗号、冒号、顿号、句号等有效标点的语义信息识别标点类的语义节点。第二序列生成单元S540主要根据所有的语义节点L/V/SST及其层次识别节点边CHK_EG、CHK_L0、CHK_ABK、 CHK_GBK及其层次。层次语义树生成单元S550主要是针对CHK_GBK内部结构的分析,根据语块内部组合符识别其中并列语义结构、上述降级蜕化句的语义结构及其它。特别需要说明的是,降级蜕化句的识别与小句层面类似,不同的是CHK_ABK、CHK_L0、CHK_EG的层次信息是-1。层次语义树输出单元S560主要是根据层次语义树生成单元的结果将其输出以得到的层次语义树,具体包括:确定以SST为根节点,第一层次CHK_EG、CHK_L0、CHK_ABK、CHK_GBK为其子节点并挂于其下,第二层次的CHK_EG、CHK_L0、CHK_ABK、CHK_GBK围棋子节点的子节点挂于其下,以此类推,直至全部为叶子节点。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种用于语言理解的层次语义树构建方法,其特征在于,包括如下步骤:
S1、输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
S2、根据分词结果,识别出该语句的语义节点,包括:对于分词后的词语,如果词语的语义知识中有逻辑概念,对该词语标记为L,如果词语的语义知识中有动态概念,标记为V;对所有标记为L或V的词语,进行LV排除处理;对所有L标记根据其概念类别进行标记,并判断其是否有后标记,如果有后标记,对后标记的词语标记为L1H,根据上述所有标记生成语义节点;
S3、利用语义知识和词语位置及搭配获得语义节点的层次;将所有L标记和V标记的默认层次都记为0,当出现两个上述标记相邻时,第二个标记的层次减小一层,包括:对第一序列中的所有语义节点,进行LV层次识别,所有L标记和V标记的默认层次都记为0;当两个L相邻时,即出现L1L2时,L2的层次减1;当L和V相邻时,即出现L1V2时,V2的层次减1;当L和V相邻时,即出现V1L2时,L2的层次减1;对句号标点符号,生成一个语义点,其标记为SST,记入第一序列;
S4、识别该语句中不同层次的语义边;
S5、根据各层次的语义边生成层次语义树。
2.根据权利要求1所述的层次语义树构建方法,其特征在于,包括:所述步骤S1中,对待处理语句进行分词时,按照领域词典和通用词典对待处理语句进行分词。
3.根据权利要求1或2所述的层次语义树构建方法,其特征在于,所述语义知识包括词语的广义概念类及其子类,所述词语的广义概念类包括动态、静态、物、人、属性、逻辑。
4.根据权利要求3所述的层次语义树构建方法,其特征在于,所述步骤S2中“根据分词结果,识别出该语句的语义节点”的过程,还包括:将句末标点生成语义节点作为根节点。
5.根据权利要求4所述的层次语义树构建方法,其特征在于,所述步骤S4中“识别该语句中不同层次的语义边”的过程,包括
对所有标记为V的语义节点,进行核心动词识别,生成语块;
对所有标记为L的语义节点,生成语块;
根据语块生成语义边。
6.根据权利要求5所述的层次语义树构建方法,其特征在于,所述进行核心动词识别的过程包括:
排除不能构成核心动词的词语;
其余的词语根据构成和词语本身所具有的特征赋予不同的权值,根据权值的排序结果和位置信息选择核心动词。
7.根据权利要求6所述的层次语义树构建方法,其特征在于,所述根据各层次的语义边生成层次语义树的过程,包括:
选择根节点;
把层次高的语块,按照该层次中的顺序,挂到根节点上,作为子节点;
遍历所有子节点,将每个子节点范围内的所有语块作为该子节点的子节点,直到没有新的子节点产生。
8.一种层次语义树构建***,所述***用于执行如权利要求1-7任一项所述的层次语义树构建方法,其特征在于,包括:
预处理单元:输入待处理语句,对待处理语句进行分词,并加载分词后词语的语义知识;
第一序列生成单元:根据分词结果,识别出该语句的语义节点;利用语义知识和词语位置及搭配获得语义节点的层次;
第二序列生成单元:识别该语句中不同层次的语义边;
层次语义树生成单元:根据各层次的语义边生成层次语义树。
CN201410216929.8A 2014-05-21 2014-05-21 一种用于语言理解的层次语义树构建方法及*** Expired - Fee Related CN104142917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410216929.8A CN104142917B (zh) 2014-05-21 2014-05-21 一种用于语言理解的层次语义树构建方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410216929.8A CN104142917B (zh) 2014-05-21 2014-05-21 一种用于语言理解的层次语义树构建方法及***

Publications (2)

Publication Number Publication Date
CN104142917A CN104142917A (zh) 2014-11-12
CN104142917B true CN104142917B (zh) 2018-05-01

Family

ID=51852093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410216929.8A Expired - Fee Related CN104142917B (zh) 2014-05-21 2014-05-21 一种用于语言理解的层次语义树构建方法及***

Country Status (1)

Country Link
CN (1) CN104142917B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657348B (zh) * 2015-02-06 2017-11-14 北京师范大学 一种中文句子中谓语语块提取方法及***
CN107562731B (zh) * 2015-08-19 2020-09-04 刘战雄 一种基于疑问语义的自然语言语义计算的方法及装置
CN106021286B (zh) * 2016-04-29 2019-05-28 东北电力大学 一种基于语言结构的语言理解方法
US11222253B2 (en) * 2016-11-03 2022-01-11 Salesforce.Com, Inc. Deep neural network model for processing data through multiple linguistic task hierarchies
CN106897371B (zh) * 2017-01-18 2020-04-21 南京云思创智信息科技有限公司 中文文本分类***及方法
CN109271621B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN107679035B (zh) * 2017-10-11 2020-06-12 石河子大学 一种信息意图检测方法、装置、设备和存储介质
CN110209829B (zh) * 2018-02-12 2021-06-29 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN108874791B (zh) * 2018-07-06 2022-05-24 北京联合大学 一种基于最小语义块的语义分析与汉英调序方法及***
CN109446719A (zh) * 2018-11-15 2019-03-08 北京神舟航天软件技术有限公司 一种构件式自定义产品结构树的实现方法
CN109815490B (zh) * 2019-01-04 2023-11-14 平安科技(深圳)有限公司 文本分析方法、装置、设备及存储介质
CN110276080B (zh) * 2019-06-28 2023-10-17 第四范式(北京)技术有限公司 一种语义处理方法和***
CN113128226A (zh) * 2019-12-31 2021-07-16 阿里巴巴集团控股有限公司 命名实体识别方法、装置、电子设备及计算机存储介质
CN111782781A (zh) * 2020-05-29 2020-10-16 平安科技(深圳)有限公司 一种语义分析方法、装置、计算机设备及存储介质
CN111814487B (zh) * 2020-07-17 2024-05-31 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN115017913B (zh) * 2022-04-21 2023-01-31 广州世纪华轲科技有限公司 基于主从框架模式的语义成分解析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5424947A (en) * 1990-06-15 1995-06-13 International Business Machines Corporation Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis
CN1430160A (zh) * 2001-12-30 2003-07-16 中国科学院声学研究所 自然语言句群语义的表示与获取方法
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2885712B1 (fr) * 2005-05-12 2007-07-13 Kabire Fidaali Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5424947A (en) * 1990-06-15 1995-06-13 International Business Machines Corporation Natural language analyzing apparatus and method, and construction of a knowledge base for natural language analysis
CN1430160A (zh) * 2001-12-30 2003-07-16 中国科学院声学研究所 自然语言句群语义的表示与获取方法
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hierarchical Semantic-Category-Tree Model for Chinese-English Machine Translation;Zhu Xiaojian,Jin Yaohong;《中国通信》;20121231(第12期);81-86页 *

Also Published As

Publication number Publication date
CN104142917A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN104142917B (zh) 一种用于语言理解的层次语义树构建方法及***
Zhang et al. Generating fluent adversarial examples for natural languages
Zhai et al. Neural models for sequence chunking
Zhang et al. Top-down tree long short-term memory networks
Ruwandika et al. Identification of hate speech in social media
Mujahid et al. Arabic ChatGPT tweets classification using RoBERTa and BERT ensemble model
Xu et al. Metic: Multi-instance entity typing from corpus
Whitehead et al. Learning from lexical perturbations for consistent visual question answering
Dirting et al. Multi-label classification of hate speech severity on social media using bert model
Saifullah et al. Cyberbullying Text Identification based on Deep Learning and Transformer-based Language Models
Zheng et al. Training a convolutional neural network with terminology summarization data improves SNOMED CT enrichment
Ta et al. GAN-BERT, an Adversarial Learning Architecture for Paraphrase Identification.
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Polignano et al. An Emotion-driven Approach for Aspect-based Opinion Mining.
Gutiérrez et al. A graph-based approach to wsd using relevant semantic trees and n-cliques model
Miao et al. Dual Neural Network Classification Based on BERT Feature Extraction for Authorship Verification.
Hamdy et al. nlpUP at SemEval-2020 Task 12: A blazing fast system for offensive language detection
Goertzel et al. Guiding symbolic natural language grammar induction via transformer-based sequence probabilities
Samadi et al. Attacks against Ranking Algorithms with Text Embeddings: A Case Study on Recruitment Algorithms
Sayadi et al. Character-level dialect identification in arabic using long short-term memory
Vishnu et al. A Deep Learning-Based Model for an efficient Hate-speech Detection in Twitter
Abdiansah et al. Automatic Language Identification for Indonesian-Malaysian Language Using Machine Learning
Wang et al. Improving Mental Health using Machine Learning to Assist Humans in the Moderation of Forum Posts.
Kumar et al. Prediction of Part of Speech Tags for Punjabi using Support Vector Machines.
Wu et al. Dealing With Hierarchical Types and Label Noise in Fine-Grained Entity Typing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180501

Termination date: 20210521