CN108170679A

CN108170679A - 基于计算机可识别自然语言描述的语义匹配方法及***

Info

Publication number: CN108170679A
Application number: CN201711460123.3A
Authority: CN
Inventors: 杨学红
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-15
Anticipated expiration: 2037-12-28
Also published as: CN108170679B

Abstract

本发明属于编程技术领域，具体涉及基于计算机可识别自然语言描述的语义匹配方法及其相应的语义匹配***。该基于计算机可识别自然语言描述的语义匹配方法包括步骤：步骤S1)：以目标语言的语法规则限定的逻辑和步骤作为参考，将自然语言需求描述约束为具备逻辑的步骤的结构；步骤S2)：对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合；步骤S3)：对目标语言中的消息名/操作名进行分词，获得包括消息名/操作名中的词根的备用词语集合；步骤S4)：计算候选词语集合和备用词语集合的匹配度。该语义匹配方法及语义匹配***，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程。

Description

基于计算机可识别自然语言描述的语义匹配方法及***

技术领域

本发明属于编程技术领域，具体涉及一种基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***。

背景技术

自然语言仍然是目前软件需求文档的描述语言。从自然语言描述的功能需求到流程的自动生成不仅能帮助用户和开发人员能够快速地在需求上达成共识，还能加快流程的开发。

但是，由于用户和开发人员的关注点不同，他们对需求的描述也往往不一样。用户和开发人员在用自然语言描述功能需求的过程中，用户关心的是软件所能提供的功能以及所能达到的性能水平等，开发人员则可能从技术的角度去刻画软件的需求；而且，他们并不知道开发语言所使用的具体的消息和操作的命名规则，他们对需求的描述所用到的实词并不一定和开发语言中的消息名和操作名中使用的词语完全一样。另外，在大多数情况下，用户并不熟悉那些专业的术语和技术问题。

但目前的软件需求文档大部分还是用自然语言撰写，这其中有两方面原因：一是因为用户和开发人员大多没有形式化描述需求的能力；二是因为自然语言词汇丰富，表达能力强大。但是，自然语言也不可避免的存在缺点，包括模糊性、二义性和不一致性。

为了弥补自然语言的不足，需要一种能将自然语言表达的流程需求描述进行约束和形式化的方法，使得计算机能够理解需求。如何协调用户和开发人员对于自然语言应用上的分歧，成为目前亟待解决的技术问题。

发明内容

本发明所要解决的技术问题是针对现有技术中上述不足，提供一种基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***，能有效消除用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程。

解决本发明技术问题所采用的技术方案是该基于计算机可识别自然语言描述的语义匹配方法，包括步骤：

步骤S1)：以目标语言的语法规则限定的逻辑和步骤作为参考，将自然语言需求描述约束为具备逻辑的步骤的结构；

步骤S2)：对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合；

步骤S3)：对目标语言中的消息名/操作名进行分词，获得包括消息名/操作名中的词根的备用词语集合；

步骤S4)：计算候选词语集合和备用词语集合的匹配度。

优选的是，步骤S2)包括：

步骤S21)：根据设定的限定词，获取自然语言描述的需求语句，将需求语句分词后形成初级词语集合；

步骤S22)：移除初级词语集合中的停用词，形成适用词语集合；

步骤S23)：对适用词语集合中的各词语进行同义词扩展；

步骤S24)：对扩展词语集合进行词根还原，获得包括自然语言需求描述中的词根的候选词语集合。

优选的是，步骤S21)中，对于需求语句转为目标语言设定的限定词以前缀作为标识；

步骤S22)中，将助词、介词、连词类作为停用词预存作为停用词词库；

步骤S23)中，根据同义词词库对适用词语集合中的各词语进行同义词扩展；

步骤S24)中，词根还原算法为Porter算法或者Lucene算法。

优选的是，步骤S4)包括步骤：

步骤S41)：遍历备用词语集合的词语，筛选与候选词语集合存在交集的词语；

步骤S42)：对满***集的词语，计算匹配度。

优选的是，步骤S4)中，候选词语集合和备用词语集合的匹配度的公式为：

其中，count为查找到的语义相近的词语个数，|wordset_A|为需求描述语句中分词个数，|wordset_B|为消息名/操作名中的分词个数。

一种基于计算机可识别自然语言描述的语义匹配***，包括约束模块、候选词语集合构成模块、备用词语集合构成模块和匹配模块，其中：

所述约束模块，用于以目标语言的语法规则限定的逻辑和步骤作为参考，将自然语言需求描述约束为具备逻辑的步骤的结构；

所述候选词语集合构成模块，用于对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合；

所述备用词语集合构成模块，用于对目标语言中的消息名/操作名进行分词，获得包括消息名/操作名中的词根的备用词语集合；

所述匹配模块，用于计算候选词语集合和备用词语集合的匹配度。

优选的是，所述候选词语集合构成模块包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元，其中：

所述初级词语集合单元，用于根据设定的限定词，获取自然语言描述的需求语句，将需求语句分词后形成初级词语集合；

所述适用词语集合单元，用于移除初级词语集合中的停用词，形成适用词语集合；

所述同义词扩展单元，用于对适用词语集合中的各词语进行同义词扩展；

所述词根还原单元，用于对扩展词语集合进行词根还原，获得包括自然语言需求描述中的词根的候选词语集合。

优选的是，所述初级词语集合单元中，对于需求语句转为目标语言设定的限定词以前缀作为标识；

所述适用词语集合单元中，将助词、介词、连词类作为停用词预存作为停用词词库；

所述同义词扩展单元中，根据同义词词库对适用词语集合中的各词语进行同义词扩展；

所述词根还原单元中，词根还原算法为Porter算法或者Lucene算法。

优选的是，所述匹配模块包括求交单元、匹配单元，其中：

所述求交单元，用于遍历备用词语集合的词语，筛选与候选词语集合存在交集的词语；

所述匹配单元，对满***集的词语，计算匹配度。

优选的是，所述匹配单元中，候选词语集合和备用词语集合的匹配度的公式为：

本发明的有益效果是：该基于计算机可识别自然语言描述的语义匹配方法及其相应的语义匹配***，在分词、移除停用词、词根还原和相似计算的基础上，增加同义词扩展和修改相似计算，以适用于需求描述中与消息名/操作名的匹配，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程。

附图说明

图1为本发明实施例中基于计算机可识别自然语言描述的语义匹配方法的流程图；

图2为本发明实施例中获得包括需求描述中词根的候选词语集合的步骤图；

图3为本发明实施例中基于计算机可识别自然语言描述的语义匹配***的结构框图；

图中：

1-约束模块；2-候选词语集合构成模块；3-备用词语集合构成模块；4-匹配模块。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***作进一步详细描述。

为了在需求描述与开发语言之间建立桥梁，本发明从语义匹配的角度出发，基于词根和同义词形成具有层级的词库(可以理解为英语词典词库wordnet)，提出一种基于计算机可识别自然语言描述的语义匹配方法，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程，极大地加快了项目进度。

如图1所示，本发明中基于计算机可识别自然语言描述的语义匹配方法，包括如下步骤：

步骤S1)：以目标语言的语法规则限定的逻辑和步骤作为参考，将自然语言需求描述约束为具备逻辑的步骤的结构。

自然语言描述的流程功能需求具有一定的步骤性，这种步骤性通过句子中的介词体现出来，介词例如after，if，then，or else，at the same time等。然而，这种对于人类很简单的具备逻辑的步骤关系却不容易被计算机所识别并理解。因此需要指定一个约束规则，进行自然语言到目标语言转化前的准备，使得用户和开发人员以该约束规则进行需求描述，以便于使需求描述对计算机直接体现出步骤性。这里的目标语言可以为选择编程的计算机语言。

在该步骤中，对自然语言需求描述进行约束，使其表现为一种有逻辑有步骤的结构，而且，构成这些有逻辑有步骤的结构的词语可以被整合形成词库wordset_A。

步骤S2)：对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合。

用户和开发人员在用自然语言描述功能需求的时候，并不知道程序文件中具体的消息和操作的命名信息，他们对需求的描述所用到的实词并不一定和程序文件中的消息名和操作名中使用的词语完全一样。在该步骤中，利用计算机以目标语言的语法规则限定的逻辑和步骤作为参考，将约束后的需求描述中固定的句式自动地进行形式化。形式化通常按照目标开发语言(例如，以自动化业务流程组合语言BPEL)进行，即将需求描述转化为能够被计算机理解的一种语言。本发明的初衷为针对流程组合语言，通过将约束处理后的具有一定步骤性的需求描述，经过形式化转化为流程组合语言相应的语句。从而，通过形式化实现在流程的需求描述与目标语言之间的桥梁。

因此，该步骤中，从语义匹配的角度出发，利用同义词词库，基于词根和同义词对自然语言需求描述进行匹配算法，对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合。

以下将结合图2，对自然语言描述的需求语句A在得到最终的wordset_A的过程进行详细说明。具体包括如下步骤：

步骤S21)：根据设定的限定词，获取自然语言描述的需求语句，将需求语句分词后形成初级词语集合。

其中，自然语言描述的需求语句A经约束和形式化后，得到约束语句A'。如果约束语句A'中包括谁的设定的限定词，则提取约束语句A'的自然语言需求描述句子，并进行分词，得到初级词语集合为wordset'_A。通常情况下，初级词语是需求描述将要转化的目标语言所规定的，因此可以提前设定限定词，以从目标语言的词库中获取。

一种优选方式是，对于需求语句A转为目标语言设定的限定词可以以前缀作为标识，例如，以自动化业务流程组合语言BPEL作为示例，约束语句A'的前缀为[RECEIVE]或者[INVOKE]，则提取约束语句A'的自然语言需求描述句子为A”，A”经过分词后的初级词语集合为wordset'_A。这里，[RECEIVE]表示接受一个消息，[INVOKE]表示调用一个服务。

步骤S22)：移除初级词语集合中的停用词，形成适用词语集合。

通常情况下，需求语句中除了名字、形容词、动词类等实词之外，还可能带有助词、介词、连词等没有实际意义的虚词，基于实现从所有的目标文件中寻找与需求语句在语义上最匹配的消息和操作的目的，这些与语义不相关的词语将会对语义的匹配产生干扰，因此有必要在计算匹配度的过程中将它们剔除掉。因此，进一步优选的是，为了保证词库的纯净性，将助词、介词、连词等作为停用词提前存储作为停用词词库D。根据停用词词库D，对词语集合为wordset'_A移除停用词，即从wordset'_A中移除停用词，得到适用词语集合对于wordset'_A中的任意一个词语w，如果w∈D，则

步骤S23)：对适用词语集合中的各词语进行同义词扩展。

在该步骤中，根据同义词词库C(可以理解为总英语字典)对适用词语集合中的各词语进行同义词扩展。对于中任意一个词语w，在同义词词库C中查询w的同义词集合synonyms(w)，将w所有的同义词添加到中，得到扩展词语集合wordset"_A。

步骤S24)：对扩展词语集合进行词根还原。

在对扩展词语集合wordset"_A进行词根还原的步骤中，对于wordset"_A中任意一个词语w，用词根还原算法计算得到w的词根w'，用w'代替wordset"_A的w，得到获得包括自然语言需求描述中的词根的候选词语集合wordset_A，即wordset _A＝wordset"_A-w+w'。这里，w'记为Porter(w)。具体的词根还原算法可以为Porter算法或者Lucene算法，这里不做限定。

经过上述各步骤，对自然语言描述的需求语句依次进行分次、移除停用词、同义词扩展和词根还原的处理，即可获得自然语言描述的语句中的词根、与词根同层次的扩展，而又不受停用词干扰，因此能最大限度地实现用户和开发人员在沟通过程中语义的扩充包容，为向计算机语言转化提供更为丰富的候选匹配基础。

步骤S3)：对目标语言中的消息名/操作名进行分词，获得包括消息名/操作名中的词根的备用词语集合。

在该步骤中，对消息名/操作名进行分词，形成后的词语集合为约束后的需求描述中固定的句式。消息名/操作名B经过分词后的备用词语集合为wordset_B。

这里应该理解的是，由于每种计算机语言都具有特殊性，对消息名/操作名B的限定需要具体语言具体分析。

步骤S4)：计算候选词语集合和备用词语集合的匹配度。

本发明本着将自然语言描述的流程功能需求自动转换为开发语言描述的应用，为了提升准确性在语义处理方面增加了词根和同义词的匹配算法。因此，对步骤S2)中得到的候选词语集合和步骤S3)中得到的备用词语集合进行匹配度计算，以保证在备用词语集合以最大相似度匹配候选词语集合中的词语。

目前，匹配度计算方法包括Dice-Euclidean相似度算法。在本实施例中，为了更加准确的查找自然语言所对应的流程，考虑到词根和同义词，对相似度计算算法Dice算法进行了改进，以DicePlus算法计算wordset_A和wordset_B的匹配度。

改进的扩展的相似度计算算法DicePlus包括步骤：

步骤S41)：遍历备用词语集合的词语，筛选与候选词语集合存在交集的词语。

在该步骤中，遍历备用词语集合wordset_B中的每一词语，如果wordset_B中的词语w在wordset_A中存在，或者词语w的同义词在wordset_A中存在，从而判断备用词语集合wordset_B中的词语与候选词语集合wordset_A中的词语是否存在交集。

步骤S42)：对满***集的词语，计算匹配度。

计算匹配度是为了找到满足匹配度的程序语句代替相应的需求描述语句，如果找不到，则需要开发人员自己编写相应的语句。在该步骤中，采用以下公式计算候选词语集合wordset_A与备用词语集合wordset_B的匹配度

基于上述匹配度算法和相似度算法，便可以将自然语言描述的需求转化为计算机能够识别的描述语言，即可实现根据自然语言描述的语句的计算机自动编程。此时，即使用户需求描述所用到的实词并不一定与开发人员所使用的词语完全一样(如receive和get都表示接收消息)，仍然可以进行精准匹配。

自然语言和计算机语言处于持续的发展和更新中，本发明的语义匹配方法，不可能具备穷举性，可以在以后的使用中自学习添加，慢慢积累词库，不断丰富和完善匹配。

本发明的基于计算机可识别自然语言描述的语义匹配方法，在分词、移除停用词、词根还原和相似计算的基础上，增加同义词扩展和修改相似计算，以适用于需求描述中与消息名/操作名的匹配，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程。

相应的，本实施例还提供基于计算机可识别自然语言描述的语义匹配***，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语音的自动编程。

如图3所示，该基于计算机可识别自然语言描述的语义匹配***包括约束模块1、候选词语集合构成模块2、备用词语集合构成模块3和匹配模块4，其中：

约束模块1，用于以目标语言的语法规则限定的逻辑和步骤作为参考，将自然语言需求描述约束为具备逻辑的步骤的结构；

候选词语集合构成模块2，用于对约束后的自然语言需求描述中固定的句式，获得包括自然语言需求描述中的词根的候选词语集合；

备用词语集合构成模块3，用于对目标语言中的消息名/操作名进行分词，获得包括消息名/操作名中的词根的备用词语集合；

匹配模块4，用于计算候选词语集合和备用词语集合的匹配度。

其中，候选词语集合构成模块2包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元，其中：

初级词语集合单元，用于根据设定的限定词，获取自然语言描述的需求语句，将需求语句分词后形成初级词语集合。在初级词语集合单元中，对于需求语句转为目标语言设定的限定词以前缀作为标识；

适用词语集合单元，用于移除初级词语集合中的停用词，形成适用词语集合。在适用词语集合单元中，将助词、介词、连词类作为停用词预存作为停用词词库；

同义词扩展单元，用于对适用词语集合中的各词语进行同义词扩展。在同义词扩展单元中，根据同义词词库对适用词语集合中的各词语进行同义词扩展；

词根还原单元，用于对扩展词语集合进行词根还原，获得包括自然语言需求描述中的词根的候选词语集合。在词根还原单元中，词根还原算法为Porter算法或者Lucene算法。

匹配模块4包括求交单元、匹配单元，其中：

求交单元，用于遍历备用词语集合的词语，筛选与候选词语集合存在交集的词语；

匹配单元，对满***集的词语，计算匹配度。

在匹配单元中，候选词语集合和备用词语集合的匹配度的公式为：

本发明的基于计算机可识别自然语言描述的语义匹配***，在分词、移除停用词、词根还原和相似计算的基础上，增加同义词扩展和修改相似计算，以适用于需求描述中与消息名/操作名的匹配，能协调用户和开发人员对于自然语言应用上的分歧，实现机器语言的自动编程。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于计算机可识别自然语言描述的语义匹配方法，其特征在于，包括步骤：

步骤S4)：计算候选词语集合和备用词语集合的匹配度。

2.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法，其特征在于，步骤S2)包括：

步骤S23)：对适用词语集合中的各词语进行同义词扩展；

3.根据权利要求2所述的基于计算机可识别自然语言描述的语义匹配方法，其特征在于，

步骤S21)中，对于需求语句转为目标语言设定的限定词以前缀作为标识；

步骤S24)中，词根还原算法为Porter算法或者Lucene算法。

4.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法，其特征在于，步骤S4)包括步骤：

步骤S42)：对满***集的词语，计算匹配度。

5.根据权利要求4所述的基于计算机可识别自然语言描述的语义匹配方法，其特征在于，步骤S4)中，候选词语集合和备用词语集合的匹配度的公式为：

6.一种基于计算机可识别自然语言描述的语义匹配***，其特征在于，包括约束模块、候选词语集合构成模块、备用词语集合构成模块和匹配模块，其中：

7.根据权利要求6所述的基于计算机可识别自然语言描述的语义匹配***，其特征在于，所述候选词语集合构成模块包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元，其中：

8.根据权利要求7所述的基于计算机可识别自然语言描述的语义匹配***，其特征在于，

所述初级词语集合单元中，对于需求语句转为目标语言设定的限定词以前缀作为标识；

9.根据权利要求6所述的基于计算机可识别自然语言描述的语义匹配***，其特征在于，所述匹配模块包括求交单元、匹配单元，其中：

所述匹配单元，对满***集的词语，计算匹配度。

10.根据权利要求9所述的基于计算机可识别自然语言描述的语义匹配***，其特征在于，所述匹配单元中，候选词语集合和备用词语集合的匹配度的公式为：