CN108170679B - 基于计算机可识别自然语言描述的语义匹配方法及*** - Google Patents

基于计算机可识别自然语言描述的语义匹配方法及*** Download PDF

Info

Publication number
CN108170679B
CN108170679B CN201711460123.3A CN201711460123A CN108170679B CN 108170679 B CN108170679 B CN 108170679B CN 201711460123 A CN201711460123 A CN 201711460123A CN 108170679 B CN108170679 B CN 108170679B
Authority
CN
China
Prior art keywords
word set
natural language
word
words
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711460123.3A
Other languages
English (en)
Other versions
CN108170679A (zh
Inventor
杨学红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201711460123.3A priority Critical patent/CN108170679B/zh
Publication of CN108170679A publication Critical patent/CN108170679A/zh
Application granted granted Critical
Publication of CN108170679B publication Critical patent/CN108170679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于编程技术领域,具体涉及基于计算机可识别自然语言描述的语义匹配方法及其相应的语义匹配***。该基于计算机可识别自然语言描述的语义匹配方法包括步骤:步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;步骤S4):计算候选词语集合和备用词语集合的匹配度。该语义匹配方法及语义匹配***,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。

Description

基于计算机可识别自然语言描述的语义匹配方法及***
技术领域
本发明属于编程技术领域,具体涉及一种基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***。
背景技术
自然语言仍然是目前软件需求文档的描述语言。从自然语言描述的功能需求到流程的自动生成不仅能帮助用户和开发人员能够快速地在需求上达成共识,还能加快流程的开发。
但是,由于用户和开发人员的关注点不同,他们对需求的描述也往往不一样。用户和开发人员在用自然语言描述功能需求的过程中,用户关心的是软件所能提供的功能以及所能达到的性能水平等,开发人员则可能从技术的角度去刻画软件的需求;而且,他们并不知道开发语言所使用的具体的消息和操作的命名规则,他们对需求的描述所用到的实词并不一定和开发语言中的消息名和操作名中使用的词语完全一样。另外,在大多数情况下,用户并不熟悉那些专业的术语和技术问题。
但目前的软件需求文档大部分还是用自然语言撰写,这其中有两方面原因:一是因为用户和开发人员大多没有形式化描述需求的能力;二是因为自然语言词汇丰富,表达能力强大。但是,自然语言也不可避免的存在缺点,包括模糊性、二义性和不一致性。
为了弥补自然语言的不足,需要一种能将自然语言表达的流程需求描述进行约束和形式化的方法,使得计算机能够理解需求。如何协调用户和开发人员对于自然语言应用上的分歧,成为目前亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是针对现有技术中上述不足,提供一种基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***,能有效消除用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。
解决本发明技术问题所采用的技术方案是该基于计算机可识别自然语言描述的语义匹配方法,包括步骤:
步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
步骤S4):计算候选词语集合和备用词语集合的匹配度。
优选的是,步骤S2)包括:
步骤S21):根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
步骤S22):移除初级词语集合中的停用词,形成适用词语集合;
步骤S23):对适用词语集合中的各词语进行同义词扩展;
步骤S24):对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
优选的是,步骤S21)中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
步骤S22)中,将助词、介词、连词类作为停用词预存作为停用词词库;
步骤S23)中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
步骤S24)中,词根还原算法为Porter算法或者Lucene算法。
优选的是,步骤S4)包括步骤:
步骤S41):遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
步骤S42):对满***集的词语,计算匹配度。
优选的是,步骤S4)中,候选词语集合和备用词语集合的匹配度的公式为:
Figure BDA0001530098500000031
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
一种基于计算机可识别自然语言描述的语义匹配***,包括约束模块、候选词语集合构成模块、备用词语集合构成模块和匹配模块,其中:
所述约束模块,用于以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
所述候选词语集合构成模块,用于对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
所述备用词语集合构成模块,用于对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
所述匹配模块,用于计算候选词语集合和备用词语集合的匹配度。
优选的是,所述候选词语集合构成模块包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元,其中:
所述初级词语集合单元,用于根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
所述适用词语集合单元,用于移除初级词语集合中的停用词,形成适用词语集合;
所述同义词扩展单元,用于对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元,用于对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
优选的是,所述初级词语集合单元中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
所述适用词语集合单元中,将助词、介词、连词类作为停用词预存作为停用词词库;
所述同义词扩展单元中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元中,词根还原算法为Porter算法或者Lucene算法。
优选的是,所述匹配模块包括求交单元、匹配单元,其中:
所述求交单元,用于遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
所述匹配单元,对满***集的词语,计算匹配度。
优选的是,所述匹配单元中,候选词语集合和备用词语集合的匹配度的公式为:
Figure BDA0001530098500000051
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
本发明的有益效果是:该基于计算机可识别自然语言描述的语义匹配方法及其相应的语义匹配***,在分词、移除停用词、词根还原和相似计算的基础上,增加同义词扩展和修改相似计算,以适用于需求描述中与消息名/操作名的匹配,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。
附图说明
图1为本发明实施例中基于计算机可识别自然语言描述的语义匹配方法的流程图;
图2为本发明实施例中获得包括需求描述中词根的候选词语集合的步骤图;
图3为本发明实施例中基于计算机可识别自然语言描述的语义匹配***的结构框图;
图中:
1-约束模块;2-候选词语集合构成模块;3-备用词语集合构成模块;4-匹配模块。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明基于计算机可识别自然语言描述的语义匹配方法及其相应的基于计算机可识别自然语言描述的语义匹配***作进一步详细描述。
为了在需求描述与开发语言之间建立桥梁,本发明从语义匹配的角度出发,基于词根和同义词形成具有层级的词库(可以理解为英语词典词库wordnet),提出一种基于计算机可识别自然语言描述的语义匹配方法,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程,极大地加快了项目进度。
如图1所示,本发明中基于计算机可识别自然语言描述的语义匹配方法,包括如下步骤:
步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构。
自然语言描述的流程功能需求具有一定的步骤性,这种步骤性通过句子中的介词体现出来,介词例如after,if,then,or else,at the same time等。然而,这种对于人类很简单的具备逻辑的步骤关系却不容易被计算机所识别并理解。因此需要指定一个约束规则,进行自然语言到目标语言转化前的准备,使得用户和开发人员以该约束规则进行需求描述,以便于使需求描述对计算机直接体现出步骤性。这里的目标语言可以为选择编程的计算机语言。
在该步骤中,对自然语言需求描述进行约束,使其表现为一种有逻辑有步骤的结构,而且,构成这些有逻辑有步骤的结构的词语可以被整合形成词库wordsetA
步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合。
用户和开发人员在用自然语言描述功能需求的时候,并不知道程序文件中具体的消息和操作的命名信息,他们对需求的描述所用到的实词并不一定和程序文件中的消息名和操作名中使用的词语完全一样。在该步骤中,利用计算机以目标语言的语法规则限定的逻辑和步骤作为参考,将约束后的需求描述中固定的句式自动地进行形式化。形式化通常按照目标开发语言(例如,以自动化业务流程组合语言BPEL)进行,即将需求描述转化为能够被计算机理解的一种语言。本发明的初衷为针对流程组合语言,通过将约束处理后的具有一定步骤性的需求描述,经过形式化转化为流程组合语言相应的语句。从而,通过形式化实现在流程的需求描述与目标语言之间的桥梁。
因此,该步骤中,从语义匹配的角度出发,利用同义词词库,基于词根和同义词对自然语言需求描述进行匹配算法,对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合。
以下将结合图2,对自然语言描述的需求语句A在得到最终的wordsetA的过程进行详细说明。具体包括如下步骤:
步骤S21):根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合。
其中,自然语言描述的需求语句A经约束和形式化后,得到约束语句A'。如果约束语句A'中包括谁的设定的限定词,则提取约束语句A'的自然语言需求描述句子,并进行分词,得到初级词语集合为wordset'A。通常情况下,初级词语是需求描述将要转化的目标语言所规定的,因此可以提前设定限定词,以从目标语言的词库中获取。
一种优选方式是,对于需求语句A转为目标语言设定的限定词可以以前缀作为标识,例如,以自动化业务流程组合语言BPEL作为示例,约束语句A'的前缀为[RECEIVE]或者[INVOKE],则提取约束语句A'的自然语言需求描述句子为A”,A”经过分词后的初级词语集合为wordset'A。这里,[RECEIVE]表示接受一个消息,[INVOKE]表示调用一个服务。
步骤S22):移除初级词语集合中的停用词,形成适用词语集合。
通常情况下,需求语句中除了名字、形容词、动词类等实词之外,还可能带有助词、介词、连词等没有实际意义的虚词,基于实现从所有的目标文件中寻找与需求语句在语义上最匹配的消息和操作的目的,这些与语义不相关的词语将会对语义的匹配产生干扰,因此有必要在计算匹配度的过程中将它们剔除掉。因此,进一步优选的是,为了保证词库的纯净性,将助词、介词、连词等作为停用词提前存储作为停用词词库D。根据停用词词库D,对词语集合为wordset'A移除停用词,即从wordset'A中移除停用词,得到适用词语集合
Figure BDA0001530098500000081
对于wordset'A中的任意一个词语w,如果w∈D,则
Figure BDA0001530098500000082
步骤S23):对适用词语集合中的各词语进行同义词扩展。
在该步骤中,根据同义词词库C(可以理解为总英语字典)对适用词语集合
Figure BDA0001530098500000083
中的各词语进行同义词扩展。对于
Figure BDA0001530098500000084
中任意一个词语w,在同义词词库C中查询w的同义词集合synonyms(w),将w所有的同义词添加到
Figure BDA0001530098500000091
中,
Figure BDA0001530098500000092
得到扩展词语集合wordset"A
步骤S24):对扩展词语集合进行词根还原。
在对扩展词语集合wordset"A进行词根还原的步骤中,对于wordset"A中任意一个词语w,用词根还原算法计算得到w的词根w',用w'代替wordset"A的w,得到获得包括自然语言需求描述中的词根的候选词语集合wordsetA,即wordset A=wordset"A-w+w'。这里,w'记为Porter(w)。具体的词根还原算法可以为Porter算法或者Lucene算法,这里不做限定。
经过上述各步骤,对自然语言描述的需求语句依次进行分次、移除停用词、同义词扩展和词根还原的处理,即可获得自然语言描述的语句中的词根、与词根同层次的扩展,而又不受停用词干扰,因此能最大限度地实现用户和开发人员在沟通过程中语义的扩充包容,为向计算机语言转化提供更为丰富的候选匹配基础。
步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合。
在该步骤中,对消息名/操作名进行分词,形成后的词语集合为约束后的需求描述中固定的句式。消息名/操作名B经过分词后的备用词语集合为wordsetB
这里应该理解的是,由于每种计算机语言都具有特殊性,对消息名/操作名B的限定需要具体语言具体分析。
步骤S4):计算候选词语集合和备用词语集合的匹配度。
本发明本着将自然语言描述的流程功能需求自动转换为开发语言描述的应用,为了提升准确性在语义处理方面增加了词根和同义词的匹配算法。因此,对步骤S2)中得到的候选词语集合和步骤S3)中得到的备用词语集合进行匹配度计算,以保证在备用词语集合以最大相似度匹配候选词语集合中的词语。
目前,匹配度计算方法包括Dice-Euclidean相似度算法。在本实施例中,为了更加准确的查找自然语言所对应的流程,考虑到词根和同义词,对相似度计算算法Dice算法进行了改进,以DicePlus算法计算wordsetA和wordsetB的匹配度。
改进的扩展的相似度计算算法DicePlus包括步骤:
步骤S41):遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语。
在该步骤中,遍历备用词语集合wordsetB中的每一词语,如果wordsetB中的词语w在wordsetA中存在,或者词语w的同义词在wordsetA中存在,从而判断备用词语集合wordsetB中的词语与候选词语集合wordsetA中的词语是否存在交集。
步骤S42):对满***集的词语,计算匹配度。
计算匹配度是为了找到满足匹配度的程序语句代替相应的需求描述语句,如果找不到,则需要开发人员自己编写相应的语句。在该步骤中,采用以下公式计算候选词语集合wordsetA与备用词语集合wordsetB的匹配度
Figure BDA0001530098500000101
Figure BDA0001530098500000102
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
基于上述匹配度算法和相似度算法,便可以将自然语言描述的需求转化为计算机能够识别的描述语言,即可实现根据自然语言描述的语句的计算机自动编程。此时,即使用户需求描述所用到的实词并不一定与开发人员所使用的词语完全一样(如receive和get都表示接收消息),仍然可以进行精准匹配。
自然语言和计算机语言处于持续的发展和更新中,本发明的语义匹配方法,不可能具备穷举性,可以在以后的使用中自学习添加,慢慢积累词库,不断丰富和完善匹配。
本发明的基于计算机可识别自然语言描述的语义匹配方法,在分词、移除停用词、词根还原和相似计算的基础上,增加同义词扩展和修改相似计算,以适用于需求描述中与消息名/操作名的匹配,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。
相应的,本实施例还提供基于计算机可识别自然语言描述的语义匹配***,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语音的自动编程。
如图3所示,该基于计算机可识别自然语言描述的语义匹配***包括约束模块1、候选词语集合构成模块2、备用词语集合构成模块3和匹配模块4,其中:
约束模块1,用于以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
候选词语集合构成模块2,用于对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
备用词语集合构成模块3,用于对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
匹配模块4,用于计算候选词语集合和备用词语集合的匹配度。
其中,候选词语集合构成模块2包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元,其中:
初级词语集合单元,用于根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合。在初级词语集合单元中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
适用词语集合单元,用于移除初级词语集合中的停用词,形成适用词语集合。在适用词语集合单元中,将助词、介词、连词类作为停用词预存作为停用词词库;
同义词扩展单元,用于对适用词语集合中的各词语进行同义词扩展。在同义词扩展单元中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
词根还原单元,用于对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。在词根还原单元中,词根还原算法为Porter算法或者Lucene算法。
匹配模块4包括求交单元、匹配单元,其中:
求交单元,用于遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
匹配单元,对满***集的词语,计算匹配度。
在匹配单元中,候选词语集合和备用词语集合的匹配度的公式为:
Figure BDA0001530098500000121
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
本发明的基于计算机可识别自然语言描述的语义匹配***,在分词、移除停用词、词根还原和相似计算的基础上,增加同义词扩展和修改相似计算,以适用于需求描述中与消息名/操作名的匹配,能协调用户和开发人员对于自然语言应用上的分歧,实现机器语言的自动编程。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (8)

1.一种基于计算机可识别自然语言描述的语义匹配方法,其特征在于,包括步骤:
步骤S1):以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
步骤S2):对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
步骤S3):对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
步骤S4):计算候选词语集合和备用词语集合的匹配度,以将满足匹配度的目标语言代替所述自然语言需求描述中相应的语句,所述目标语言为选择编程的计算机语言;
步骤S4)包括步骤:
步骤S41):遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
步骤S42):对满***集的词语,计算匹配度。
2.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S2)包括:
步骤S21):根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
步骤S22):移除初级词语集合中的停用词,形成适用词语集合;
步骤S23):对适用词语集合中的各词语进行同义词扩展;
步骤S24):对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
3.根据权利要求2所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,
步骤S21)中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
步骤S22)中,将助词、介词、连词类作为停用词预存作为停用词词库;
步骤S23)中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
步骤S24)中,词根还原算法为Porter算法或者Lucene算法。
4.根据权利要求1所述的基于计算机可识别自然语言描述的语义匹配方法,其特征在于,步骤S4)中,候选词语集合和备用词语集合的匹配度的公式为:
Figure FDA0003169491630000021
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
5.一种基于计算机可识别自然语言描述的语义匹配***,其特征在于,包括约束模块、候选词语集合构成模块、备用词语集合构成模块和匹配模块,其中:
所述约束模块,用于以目标语言的语法规则限定的逻辑和步骤作为参考,将自然语言需求描述约束为具备逻辑的步骤的结构;
所述候选词语集合构成模块,用于对约束后的自然语言需求描述中固定的句式,获得包括自然语言需求描述中的词根的候选词语集合;
所述备用词语集合构成模块,用于对目标语言中的消息名/操作名进行分词,获得包括消息名/操作名中的词根的备用词语集合;
所述匹配模块,用于计算候选词语集合和备用词语集合的匹配度,以将满足匹配度的目标语言代替所述自然语言需求描述中相应的语句,所述目标语言为选择编程的计算机语言;
所述匹配模块包括求交单元、匹配单元,其中:
所述求交单元,用于遍历备用词语集合的词语,筛选与候选词语集合存在交集的词语;
所述匹配单元,对满***集的词语,计算匹配度。
6.根据权利要求5所述的基于计算机可识别自然语言描述的语义匹配***,其特征在于,所述候选词语集合构成模块包括初级词语集合单元、适用词语集合单元、同义词扩展单元和词根还原单元,其中:
所述初级词语集合单元,用于根据设定的限定词,获取自然语言描述的需求语句,将需求语句分词后形成初级词语集合;
所述适用词语集合单元,用于移除初级词语集合中的停用词,形成适用词语集合;
所述同义词扩展单元,用于对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元,用于对扩展词语集合进行词根还原,获得包括自然语言需求描述中的词根的候选词语集合。
7.根据权利要求6所述的基于计算机可识别自然语言描述的语义匹配***,其特征在于,
所述初级词语集合单元中,对于需求语句转为目标语言设定的限定词以前缀作为标识;
所述适用词语集合单元中,将助词、介词、连词类作为停用词预存作为停用词词库;
所述同义词扩展单元中,根据同义词词库对适用词语集合中的各词语进行同义词扩展;
所述词根还原单元中,词根还原算法为Porter算法或者Lucene算法。
8.根据权利要求5所述的基于计算机可识别自然语言描述的语义匹配***,其特征在于,所述匹配单元中,候选词语集合和备用词语集合的匹配度的公式为:
Figure FDA0003169491630000041
其中,count为查找到的语义相近的词语个数,|wordsetA|为需求描述语句中分词个数,|wordsetB|为消息名/操作名中的分词个数。
CN201711460123.3A 2017-12-28 2017-12-28 基于计算机可识别自然语言描述的语义匹配方法及*** Active CN108170679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711460123.3A CN108170679B (zh) 2017-12-28 2017-12-28 基于计算机可识别自然语言描述的语义匹配方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711460123.3A CN108170679B (zh) 2017-12-28 2017-12-28 基于计算机可识别自然语言描述的语义匹配方法及***

Publications (2)

Publication Number Publication Date
CN108170679A CN108170679A (zh) 2018-06-15
CN108170679B true CN108170679B (zh) 2021-09-03

Family

ID=62519156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711460123.3A Active CN108170679B (zh) 2017-12-28 2017-12-28 基于计算机可识别自然语言描述的语义匹配方法及***

Country Status (1)

Country Link
CN (1) CN108170679B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413267B (zh) * 2019-08-08 2023-05-26 四川爱创科技有限公司 基于业务规则的自适应业务流程建模方法
CN114238619B (zh) * 2022-02-23 2022-04-29 成都数联云算科技有限公司 基于编辑距离的中文名词筛选方法及***及装置及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101595474A (zh) * 2007-01-04 2009-12-02 思解私人有限公司 语言分析
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103699667A (zh) * 2013-12-24 2014-04-02 天津大学 Web服务的多维度语义模型建立方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106407196A (zh) * 2015-07-29 2017-02-15 成都诺铱科技有限公司 应用于物流管理软件的语义分析智能指令机器人
CN107391111A (zh) * 2017-06-22 2017-11-24 刘武丰 人工智能协同开发框架及实现方法
CN107463683A (zh) * 2017-08-09 2017-12-12 上海壹账通金融科技有限公司 代码元素的命名方法及终端设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1417707A (zh) * 2002-12-02 2003-05-14 刘莎 一种自然语言语义信息统一编码方法
US8326775B2 (en) * 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US7735068B2 (en) * 2005-12-01 2010-06-08 Infosys Technologies Ltd. Automated relationship traceability between software design artifacts
CN103309852A (zh) * 2013-06-14 2013-09-18 瑞达信息安全产业股份有限公司 一种基于统计和规则的特定领域的合成词发现方法
CN104133812B (zh) * 2014-07-17 2017-03-08 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置
CN106776532B (zh) * 2015-11-25 2020-07-07 ***通信集团公司 一种知识问答方法及装置
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN106055537B (zh) * 2016-05-23 2019-03-12 王立山 一种自然语言机器识别方法及***
CN106372117B (zh) * 2016-08-23 2019-06-14 电子科技大学 一种基于词共现的文本分类方法及其装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101595474A (zh) * 2007-01-04 2009-12-02 思解私人有限公司 语言分析
CN103186574A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103699667A (zh) * 2013-12-24 2014-04-02 天津大学 Web服务的多维度语义模型建立方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN106407196A (zh) * 2015-07-29 2017-02-15 成都诺铱科技有限公司 应用于物流管理软件的语义分析智能指令机器人
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN107391111A (zh) * 2017-06-22 2017-11-24 刘武丰 人工智能协同开发框架及实现方法
CN107463683A (zh) * 2017-08-09 2017-12-12 上海壹账通金融科技有限公司 代码元素的命名方法及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于领域需求结构化描述的自动分析建模方法;欧阳柳波等;《计算机工程与应用》;20150605;第52卷(第20期);52-57 *

Also Published As

Publication number Publication date
CN108170679A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
Täckström et al. Efficient inference and structured learning for semantic role labeling
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
US9633006B2 (en) Question answering system and method for structured knowledgebase using deep natural language question analysis
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
Danenas et al. Natural language processing-enhanced extraction of SBVR business vocabularies and business rules from UML use case diagrams
US7493251B2 (en) Using source-channel models for word segmentation
US20140163951A1 (en) Hybrid adaptation of named entity recognition
de Araújo et al. Re-bert: automatic extraction of software requirements from app reviews using bert language model
US11031009B2 (en) Method for creating a knowledge base of components and their problems from short text utterances
EP1422634A2 (en) Statistical method and apparatus for statistical learning of translation relationships among phrases
Chanlekha et al. Thai named entity extraction by incorporating maximum entropy model with simple heuristic information
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和***
US11113470B2 (en) Preserving and processing ambiguity in natural language
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
Chang et al. Illinois-Coref: The UI system in the CoNLL-2012 shared task
Loftsson Tagging Icelandic text: A linguistic rule-based approach
CN111159330A (zh) 一种数据库查询语句的生成方法及装置
CN110096599B (zh) 知识图谱的生成方法及装置
US20100228538A1 (en) Computational linguistic systems and methods
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN108170679B (zh) 基于计算机可识别自然语言描述的语义匹配方法及***
CN113779062A (zh) Sql语句生成方法、装置、存储介质及电子设备
Altabba et al. An Arabic morphological analyzer and part-of-speech tagger
Kadim et al. Parallel HMM-based approach for arabic part of speech tagging.
US10354646B2 (en) Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant