CN110362691A

CN110362691A - 一种句法树库构建***

Info

Publication number: CN110362691A
Application number: CN201910656652.3A
Authority: CN
Inventors: 王伟
Original assignee: Dalian Yuzhixing Technology Co Ltd
Current assignee: Dalian Yuzhixing Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-22
Anticipated expiration: 2039-07-19
Also published as: CN110362691B

Abstract

本发明提供一种句法树库构建***，主要包括：分词标注模块，词义标注模块，组块连接模块，成分标识及成分关系标注模块，句法树校对模块。本发明可以让更多人参与到句法树的构建工作，从而构建大规模、多领域、高质量的句法树库，克服了传统构建句法树方法存在的成本高、效率低、一致性差、规模小、领域窄和更新慢等问题，以及解决了标注操作只能在较大屏幕上进行等问题。

Description

一种句法树库构建***

技术领域

本发明涉及自然语言处理中的句法分析技术领域，具体而言，尤其涉及一种句法树库构建***。

背景技术

句法树是一种以树形结构表示的自然语言句子的句法分析结果，句法树的每个节点上都标注了丰富信息以刻画句法分析的粒度。由大量句法树构建的句法树库是机器自动句法分析的一个重要资源，特别是有监督学习的句法分析器都是通过句法树库训练后才能应用。当前已经有一些人工构建的句法树库，比如，美国宾州树库PTB(英文)和CTB(中文)、清华中文句法树库TCT、台湾Sinica中文树库等，这些不同的句法树库有着各自不同的标注体系。

句法树库的规模和质量对自动句法分析器性能至关重要，句法树库的规模越大、质量越高，则自动句法分析的效果越好。但是，现有句法树库普遍存在着规模小、领域窄等问题。主要原因在于：传统句法树标注方法，要求标注人是语言学家或是具备一定语言学背景的人，而且只有标注人记住了标注体系专用的标记符才能进行句法树标注，比如，以清华中文树库TCT为例，有词性标注集(名词n、动词v、形容词a和副词d等)、成分标识集(NP、VP、PP和DP等)、成分关系标识集(vp-SB、vp-RT、fj-BL和fj-LG等)等。为了保证标注结果的质量，必须有专门的校对者对标注结果进行人工校对。这种方法对标注人和校对人的要求都较高，而且若是标注特定领域的句子，标注人和校对人就必须要兼具语言学和专业知识，而具备这样条件的人就更少了，大大限制了更多人来参与标注工作。传统的句法树标注过程，如图1所示。

发明内容

鉴于传统构建句法树方法存在着成本高、效率低、一致性差、规模小、领域窄和更新慢、以及标注操作只能在较大屏幕上进行，无法在小屏幕的移动设备上进行等问题，本发明提出一种句法树库构建***，可以让更多人参与到句法树的构建工作，从而构建大规模、多领域、高质量的句法树库。

本发明采用的技术手段如下：

一种句法树库构建***，主要包括：

分词标注模块，对预分词完毕的句子进行分词标注；

词义标注模块，对分词标注后的句子进行词义标注；

组块连接模块，对词义标注后的句子进行组块并将组块连接信息转换为一棵句法树；

成分标识及成分关系标注模块，对于组块后的句法成分标识以及成分关系进行自动标注；

句法树校对模块，通过对标注结果进行过自动校对，得到最终标注结果。

进一步地，在所述分词标注模块被设置为响应第一模式操作将词素组合成词；和/或，响应第二模式操作将词拆解为词素。

进一步地，所述词义标注模块被设置为响应第三模式操作从多义词候选词义列表中选择相应的候选词义。

进一步地，所述词义标注模块在进行词义标注之前，利用词义词典构建多义词候选词义列表。

进一步地，所述组块连接模块包括组块连接部和句法树生成部；

所述组块连接部被设置为响应第四模式操作，将至少两个相邻的词进行组块，再将至少两个相邻的词或组块再组，反复再组直至整个句子组合成一个完整组块；

所述句法树生成部保存全部组块连接完成的信息，并将上述信息转换生成句法树。

进一步地，所述成分标识及成分关系标注模块具体用于：

根据事先人工标注的少量的句法树中的词义信息和组块标识所构成的训练库，采用机器学习方式先进行训练，进而实现句子成分标识的自动标注；

根据事先人工标注的少量的句法树中的词义信息和句法成分关系所构成的训练库，采用机器学习的方式先进行训练，进而实现句子成分关系的自动标注。

进一步地，所述句法树校对模块具体用于，通过对标注结果进行过滤分类并累计投票，直至当能以绝对投票数确定某一标注结果为最终结果时，停止对该句的继续标注，完成标注结果的自动校对。

较现有技术相比，本发明具有以下优点：

1、本发明降低了句法树标注操作的门槛，标注人不需要掌握较高的语言学知识，只要能正常理解本族语言就可以操作，因而可以使更多人参与标注工作，更易于构建更大规模的句法树库。

2、应用本发明***标注时不需要掌握各种复杂的词性和成分标识符，因而避免了标识符标注错误的问题，而且操作简单，标注效率高，可以更快地构建大规模的高质量的句法树库，对于专业领域的文本标注，只要能读懂该领域文本的人都可以标注，因而可以构建大规模特定领域的句法树库。

3、凡是属于映射类的语言，都可以采用本发明的句法树标注方法，因此可以很容易构建多语种的句法树库，使之更快构建相应规模的世界少资源语言及包括我国少数民族语言的句法树库。

4、采用机器自动校对机制，减少了对高质量校对人员的要求，避免了因校对人员缺乏而导致的在构建大规模句法树库时的标注结果量大而校对工作跟不上的瓶颈问题，对于同样一个句子通过容纳足够多的人进行标注，直至某种标注结果以绝对条件胜出时为止，因而更能保证标注结果正确性。

5、标注操作仅是在句子的全部词所占用的屏幕区域进行，因此在手机小屏幕上就可以进行标注工作，可充分利用标注人的碎片时间，只要有网络，无论在何处，随时随地可以参与句法树标注工作，更易于构建大规模的、多领域的、更新及时的句法树库。

本发明可为自然语言处理领域提供源源不断的各种句法树库资源，为句法分析器性能的提高，以及其他各种基于句法树库信息的应用***的性能提高，发挥它应有的作用。基于上述理由本发明可在自然语言处理领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有句法树构建过程框图。

图2为本发明句法树构建过程框图。

图3为输入句子的举例。

图4为输入句子的分词标注过程举例。

图5为输入句子的自动词义标注的结果。

图6为输入句子的从候选词义选择的结果。

图7为输入句子完成分词标注和词义标注的结果。

图8为一个句子从开始第一个组块直到最后一个完整组块的连接操作。

图9为通过在屏幕上连接2个节点组合成新节点的流程图。

图10为通过生成的节点数组递归生成句法树的基本流程图。

图11为以括号形式表示的递归生成句法树的结果。

图12为以可视化形式表示递归生成句法树的结果。

图13为由语义码序列得出词性、成分标识、成分关系的过程。

图14为句法树标注结果的自动校对的流程图。

图15为句法树标注平台的客户/服务器型***框图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图2所示，本发明提供了一种句法树库构建***，主要包括：

分词标注模块，对预分词完毕的句子进行分词标注。在所述分词标注模块被设置为响应第一模式操作将词素组合成词；和/或，响应第二模式操作将词拆解为词素。

具体地，输入待标注文本的句子，一般来说，输入的待标注句子基本上都是没有经过分词的句子。对于输入句子进行分词标注，这个工作通常是利用现有成熟的分词工具进行预分词，然后标注人再对预分词结果中的错误部分进行修改，即采用“自动+少量人工”模式。对于已经分好词的句子，或者不需要分词的语种如英语，则跳过此步骤。作为较佳的实施方式，将快速点击或拖拉相邻词素作为第一模式操作进行词合成，也可以快速点击词的相邻多个词素的首字和尾字为第一模式操作进行词合成。本发明中将长按目标词作为第二模式操作进行词素分解。

词义标注模块，对分词标注后的句子进行词义标注。所述词义标注模块被设置为响应第三模式操作从多义词候选词义列表中选择相应的候选词义。进一步地，所述词义标注模块在进行词义标注之前，利用词义词典构建多义词候选词义列表。

具体地，利用指定词义词典，比如同义词词林、HowNet、WordNet等，对句子中的词进行词义标注。先用机器对单义词进行自动标注，然后由人工再对多义词进行标注，也采用“自动+少量人工”模式。词义标注也为后面的句法成分相关的标注提供基础。传统的这个标注环节是词性标注，需要记忆和区别词性，既不方便也容易出错。作为较佳的实施方式，将点击确认作为第三模式操作候选词义的选择。

组块连接模块，对词义标注后的句子进行组块并将组块连接信息转换为一棵句法树。所述组块连接模块包括组块连接部和句法树生成部；所述组块连接部被设置为响应第四模式操作将至少两个相邻的词进行组块，再将至少两个相邻的词或组块再组，反复再组直至整个句子组合成一个完整组块；所述句法树生成部保存全部组块连接完成的信息，并将上述信息转换生成句法树。

具体地，作为较佳的实施方式，将连接操作作为第四模式操作对两个或以上相邻的词或组块组合成一个新的组块，连接操作可以通过在屏幕上快速点击或拖拉操作实现。一个待标注句子的组块连接是从句子中的词开始组块，直至最后整个句子组合成一个完整组块为止。标注人只要把要组块的位置确定下来直接连接就好，之后的其他标注就不再需要人工参与。这部分操作可以在很小的屏幕空间就可操作，比如手机屏幕。传统的标注方法由于直接显示树结构需要占用较大的屏幕空间，一般需要在具有较大屏幕的计算机上才可操作，这不方便在灵活的移动空间进行标注，也不方便更多的人参与。

成分标识及成分关系标注模块，对于组块后的句法成分标识以及成分关系进行自动标注。所述成分标识及成分关系标注模块具体用于：根据事先人工标注的少量的句法树中的词义信息和组块标识所构成的训练库，采用机器学习方式先进行训练，进而实现句子成分标识的自动标注；以及，根据事先人工标注的少量的句法树中的词义信息和句法成分关系所构成的训练库，采用机器学习的方式先进行训练，进而实现句子成分关系的自动标注。

具体地，对于组块后的句法成分标识的标注，则根据事先人工标注的少量的句法树中的词义信息和组块标识所构成的训练库，采用机器学习方式先进行训练，然后实现自动标注。传统的成分标识标注，几乎都是人工标注，需要记住复杂的成分标识，既操作不便又容易产生错误，而且标注效率低。成分关系标注和成分标识标注操作步骤类似，只不过信息内容不同。对于组块后的句法成分关系的标注，则根据事先人工标注的少量的句法树中的词义信息和句法成分关系所构成的训练库，采用机器学习的方式先进行训练，然后实现自动标注。传统的成分关系标注，几乎都是人工标注，需要记住复杂的成分标识，既操作不便又容易产生错误，而且标注效率低。

句法树校对模块，通过对标注结果进行过自动校对，得到最终标注结果。所述句法树校对模块具体用于，通过对标注结果进行过滤分类并累计投票，直至当能以绝对投票数确定某一标注结果为最终结果时，停止对该句的继续标注，完成自动结果校对。

具体地，通过对很多的不同标注人的标注结果进行自动过滤分类并累计投票，直至当能以绝对投票数确定某一标注结果为最终结果时，停止对该句的继续标注，完成标注结果的自动校对。传统的校对方法，都是人工进行的，对校对人员的要求较高，大规模量的标注结果势必需要更多校对人员，而校对人员的资质、校对人员的数量、校对的质量、校对的规模、校对的效率，这些都对构建大规模句法树有极大影响。

下面通过具体的实施实例，对本发明的方案做进一步说明：

实施例1

如图15所示，本实施例提供了一种便于大众参与的句法树标注平台的客户/服务器型***框图。可实现多人同时标注的功能，可以运行在本地服务器，也可运行在远程云服务器。本实施例以短语结构的句法树标注为例，其工作过程描述如下：

1.输入句子

假设输入一个含n个词的句子“w1、w2、w3、….、Wn”，如图3，其已经过分词工具完成预分词操作。为了便于说明，这里假设其中词“W2”由2字符组成，词“W5”由3字符组成，其余的词都是由1个字符组成。

2.分词标注

虽然采用分词工具进行了预先自动分词，但由于分词工具不保证全都正确，因此这里分词标注是检查和修正环节。若是分词结果全部正确，那么直接进行下一步操作；若是其中有个别分词错误，则可以快速点击或拖动词素组合成词，也可以长按要分解的词分离为几个词素，分词标注的过程示意图，见图4。比如可以快速点击“W3”和“W4”，可以组合成“W34”，也可以快速点击词的首字和尾字比如点击“W6”和“W8”，可以组合成词“W678”；可以长按住“W2”拆分为“W2-1”和“W2-2”。

3.词义标注

1)按照指定的语义分类词典，由机器自动对单义词进行标注。按照背景颜色进行区别，比如绿色(方便黑白文本说明，这里无斜纹背景)表示单义词不需标注，红色(有斜纹背景)是需词义标注的多义词，一个句子的初始自动词义标注结果的示意图，见图5。

2)按照语义词典标准，点击多义词显示该多义词候选的每个词义对应的一些例词构成的例词行，再点击候选词义的例词所在的行，直接确定词义，见图6。比如，词“W2”后，那么有“S1”至“Sm”共m个例词行对应的候选词义，这些词义编码实际中并不显示(虚线网格背景表示)，而只是显示词义的多个例词，以方便用户选择操作。比如根据上下文确定“W2”的词义是第2行的词例所表示的词义，那么直接点击第2行区域，自动把“W2”的该行词义编码“S2”对应到“W2”，从而完成词义标注。

4.组块连接

对两个(或以上)的邻词或邻组块，通过连接组合而生成一个新的组块，可以快速点击或拖拉相应的位置实现。为了能够在一个指定屏幕区域(句子的全部词所覆盖的区域)就可以完成句法树的标注，两个词之间或两个组块之间的边界是通过改变背景颜色来区分(为了黑白文本描述方便，这里采用词框中的点型背景进行区分)。比如，句子已经完成分词标注和词义标注的初始状态，见图7。组块连接可分为两个步骤进行，参见随后的1)和2)的描述。

1)通过逐渐组块连接直至完成所有的组块连接

首先，从词的级别开始快速点击或拖动而形成组块，比如开始时点击“W2”和“W3”，形成“W2W3”组块，同时组块间的背景颜色自动变化，如这里“W1”背景颜色发生变化，见图8。这个组块连接操作和分词标注步骤中的组词操作基本相同，但产生的结果是本质上不同。然后，把句子中的其余部分不断地进行组块连接操作，直至完成最后一个完整的组块为止。图8显示了从句子的词开始组块时的二种背景颜色，生成最后整体组块的一种颜色的过程。

2)将全部组块连接完成的信息转换成一棵句法树

a.将在屏幕上每次连接2个节点组合成新节点的信息写入节点数组并显示组块后的结果，相关流程图见图9。本流程图是按2个节点的二叉树类型进行说明，这个可以扩展到三叉树类型的操作，本发明不再赘述。

b.将写入完成的节点数组，自动转换为句法树，这里采用递归方式描述，其相关流程图见图10。这个工作也可以采用其他算法去实现，本发明不再赘述。

举例，图8中的句子“w1、w2、w3、….、Wn”通过逐渐组块操作生成的数组，再通过递归调用生成句法树结果，以括号形式表示的见图11，以可视化形式表示的见图12。

5.成分标识标注

因为已经有了词义标注，所以每个词都有相应的语义码对应。通过抽取两个词的语义码(可以简化，见随后说明)构成一个连接后的组块成分标识。同时也可以把新组块的成分标识和其他的词或组块再组合成一个新的组块的标识。为了便于说明，这里举一个例句“远在五千多年前，人类发明了文字。”，见图13。比如第一层的词级的“Dn04”和词级的“Dn05”组块后的标识为第2层的“Dn Dn”，在第三层新组块标识“Dn Dn”和词级的“Ca18”构成新组块的标识为第4层的“Dn Ca”。对于组块时所提取的标识符内容，可根据情况进行简化，以保证在整个标识集能有效区分为前提即可。比如举例中“Dn04”的组块标识选择了该语义码的前2位“Dn”。组块的标识在整个标识集能有效区分为前提下，通过机器学习的方式进行化简。比如“Dn 04+Dn Dn＝>Dn Dn”(第3层)；“Gb Kd+Dk05＝>Gb Dk”(第3层)。这种全用语义码序列表示成分标识的句法树，称为最简语义句法树，它相对于传统的句法树表示而言，因为没有人为操作，因而标注错误率低，一致性好，而且含有的信息价值量大。

考虑到可能需要兼顾传统句法树表示，可以将最简句法树转换为传统句法树。具体方法：对于一定规模量的传统句法树进行词义标注，然后按原句法树的组块连接关系构成最简语义句法树的相应组块的成分标识，从而构成一个传统句法成分标识与最简语义句法树的成分标识相对应的训练句法树库，通过机器学习方式得到它们的映射关系。在进行句法树标注时，把一系列组块的语义码序列，通过机器学习方式转换为传统句法树表示中的词性、句法成分等。成分标识可以从语义码中得出，比如“Gb02+Dk05＝>VP+NP”，可以看出“Gb02”的信息比“VP”丰富得多。对于传统的词性标注，与得到句法成分的操作类似，可以直接从语义码中得出。因为语义码包含信息比词性更丰富，词性信息甚至可以根本不要，只不过是为了照顾与传统句法树的结构信息兼容，才抽取词性和转换到传统句法标识内容。

6.成分关系标注

参照以上成分标识标注的步骤，通过机器学习的方式，从组块过程中的语义码序列中直接转换得出，比如“Gb02+Dk05＝>动宾”，这里不再赘述。

7.句法树校对

通过对一个句子的很多标注人标注的结果，进行自动过滤分类并累计投票，直至能以绝对投票数确定某一标注结果而停止对该句子的标注为止，从而完成自动校对句法树标注结果，句法树标注结果的校对过程的基本流程图，见图14。

本发明降低了句法树标注操作的门槛，标注人不需要掌握较高的语言学知识，只要能正常理解本族语的普通人就可以操作，因而可以使更多人参与标注工作，更易于构建更大规模的句法树库；标注时不需要掌握各种复杂的词性和成分标识符，因而避免了标识符标注错误的问题，而且操作简单，标注效率高，可以更快地构建大规模的高质量的句法树库；对于专业领域的文本标注，只要能读懂该领域文本的人都可以标注，因而可以构建大规模特定领域的句法树库。凡是属于映射类的语言，都可以采用本发明的句法树标注方法，因此可以很容易获得多个语种的句法树库，使之更快建立相应规模的世界少资源的语言及包括我国少数民族语言的句法树库。采用机器自动校对机制，减少了对高质量校对人员的数量要求，避免了因校对人员缺乏而导致的在构建大规模句法树库时的标注结果量大而校对工作跟不上的瓶颈问题。对于同样一个句子通过容纳足够多的人进行标注，直至某种标注结果以绝对条件胜出时为止，因而更能保证标注结果正确性。标注操作仅是在句子的全部词所占用的屏幕区域进行，因此在手机小屏幕上就可以进行标注工作，可充分利用标注人的碎片时间，只要有网络，无论在何处，随时随地可以参与句法树标注工作，更易于构建大规模的、多领域的、更新及时的句法树库。本发明可为自然语言处理领域提供源源不断的各种句法树库资源，为句法分析器性能的提高，以及其他各种基于句法树库信息的应用***的性能提高，发挥它应有的作用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种句法树库构建***，其特征在于，主要包括：

分词标注模块，对预分词完毕的句子进行分词标注；

词义标注模块，对分词标注后的句子进行词义标注；

句法树校对模块，通过对标注结果进行自动校对，得到最终标注结果。

2.根据权利要求1所述的一种句法树库构建***，其特征在于，在所述分词标注模块被设置为响应第一模式操作将词素组合成词；和/或，响应第二模式操作将词拆解为词素。

3.根据权利要求1所述的一种句法树库构建***，其特征在于，所述词义标注模块被设置为响应第三模式操作从多义词候选词义列表中选择相应的候选词义。

4.根据权利要求3所述的一种句法树库构建***，其特征在于，所述词义标注模块在进行词义标注之前，利用词义词典构建多义词候选词义列表。

5.根据权利要求1所述的一种句法树库构建***，其特征在于，所述组块连接模块包括组块连接部和句法树生成部；

所述组块连接部被设置为响应第四模式操作将至少两个相邻的词进行组块，再将至少两个相邻的词或组块再组，反复再组直至整个句子组合成一个完整组块；

6.根据权利要求1所述的一种句法树库构建***，其特征在于，所述成分标识及成分关系标注模块具体用于：

7.根据权利要求1所述的一种句法树库构建***，其特征在于，所述句法树校对模块具体用于，通过对标注结果进行过滤分类并累计投票，直至当能以绝对投票数确定某一标注结果为最终结果时，停止对该句的继续标注，完成标注结果的自动校对。