CN112579444A

CN112579444A - 基于文本认知的自动分析建模方法、***、装置及介质

Info

Publication number: CN112579444A
Application number: CN202011437720.6A
Authority: CN
Inventors: 黄翰; 刘雨瑶; 王业超; 黄俊聪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-30
Anticipated expiration: 2040-12-10
Also published as: CN112579444B

Abstract

本发明公开了一种基于文本认知的自动分析建模方法、***、装置及介质，其中方法包括：获取文档，对所述文档中的语句进行筛选，获取与图元素提取相关的语句；根据预先定义的规则构建领域字典；结合构建获得的领域字典，采用依存句法分析工具对与图元素提取相关的语句进行语义分析，获得语义分析结果；制定基于语义分析的图元素提取规则；根据制定的提取规则对语义分析结果提取图元素；按照用例图的方式对提取获得的图元素进行存储。本发明能够实现自动化的需求分析建模方法，能够自动根据需求文档，分析出相应的Uml用例图，从而提高需求分析建模的准确率和软件开发的效率，可广泛应用于自然语言处理、软件工程需求分析领域。

Description

基于文本认知的自动分析建模方法、***、装置及介质

技术领域

本发明涉及自然语言处理、软件工程需求分析领域，尤其涉及一种基于文本认知的自动分析建模方法、***、装置及介质。

背景技术

软件工程需求分析过程是软件开发过程的重要环节，能否准确的根据需求文档，了解用户的真正意图，识别每个子***的用户和功能需求至关重要。然而，通过传统的人工识别方式，存在着不准确、不全面、有歧义的问题。引发这些问题的原因在于，需求文档书写不规范，自然语言表达存在歧义，不同人有不同理解。

目前的自动化建模方法，需要在需求编写阶段，按照一定的结构和句式编写需求，格式死板，句式单一，难以表达复杂丰富的需求。每一套解析规则，仅仅能解决一种编写风格的需求文档。且句式发生变化时，解析规则也需要发生相应的变化，可用性低。

因此，通过自动校验和解析需求文档的方法，首先能够判断一篇需求文档中的语句是否和图元素提取相关，能够自动解析出Uml图元素，避免人工分析不准确、不全面的问题，提高需求文档分析的效率；同时解决传统的自动化建模方法不够一般化的缺陷。

自然语言处理是使用机器处理人类语言的理论和技术。自然语言处理将语言作为计算对象来研究相应的算法，其目标是通过自然语言的形式与机器***进行人机交互，从而实现更高效和便捷的信息管理。自然语言处理的关键是让计算机“理解”自然语言。

对于自动生成Uml用例图(由图元素组成)方法，目前国内外存在一些自动解析工具。大部分国外解析工具仅仅适用于英文，对于中文需求文档并不适用。国内的自动解析工具，只能解析结构化的需求文档，对于半结构化或者不符合规范的文档，无法处理。

术语解释：

图元素：即生成用例图所必须的元素，例如“用户”“操作”等元素。

文本认知：主要是用计算机实现自动检测文本中是否存在已知的知识点类型，以及这些知识点之间的逻辑关系。即对文本的词语、句子的分析理解以及、对句子间逻辑关系的掌握，以及对整篇文章主题的理解。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于文本认知的自动分析建模方法、***、装置及介质。

本发明所采用的技术方案是：

一种基于文本认知的自动分析建模方法，包括以下步骤：

获取文档，对所述文档中的语句进行筛选，获取与图元素提取相关的语句；

根据预先定义的规则构建领域字典；

结合构建获得的领域字典，采用依存句法分析工具对与图元素提取相关的语句进行语义分析，获得语义分析结果；

制定基于语义分析的图元素提取规则；

根据制定的提取规则对语义分析结果提取图元素；

按照用例图的方式对提取获得的图元素进行存储。

进一步，所述对所述文档中的语句进行筛选，获取与图元素提取相关的语句，包括：

获取用于训练模型的训练集；

根据训练集，采用bert工具训练获得短文本分类的分类模型；

采用分类模型对所述文档中的语句进行分类，对分类后的结果进行筛选，获取与图元素提取相关的语句。

进一步，所述根据预先定义的规则构建领域字典，包括：

收集专用术语，获取每个专用术语的分类信息，所述分类信息包括同义词信息、变形信息和简单描述信息；

建立配置文件，采用json字符串的方式记录所述分类信息，以及按照预先定义的格式录入每个所述专业术语的信息；

根据配置文件中录入的信息，使用jieba分词工具对所述专用术语进行分词，构建获得领域字典。

进一步，所述采用依存句法分析工具对与图元素提取相关的语句进行语义分析，获得语义分析结果，包括：

采用hanlp的依存句法分析工具对筛选获得的语句进行语义分析，获得语义分析结果，所述语义分析结果包括语句中的主事格和主动词。

进一步，所述制定基于语义分析的图元素提取规则，包括：

根据文本有关需求描述的语句，分析语句中可作为用户图元素、操作图元素的成分；

对于每种句式组合和该组合对应图元素进行提取方法，编写制定相应的提取规则。

进一步，所述根据制定的提取规则对语义分析结果提取图元素，包括：

根据制定的提取规则对语义分析结果提取图元素；

按照usecase(actor,function)的方式进行存储提取到的图元素；

其中actor表示用例图中的用户，function表示用户可以进行的操作。

进一步，所述按照用例图的方式对提取获得的图元素进行存储，包括：

将图元素对应的子***的***名作为key，子***对应的用例图要素，也就是子***包含的所有用户和用例，作为value，转换成json字符串的方式进行存储。

本发明所采用的另一技术方案是：

一种基于文本认知的自动分析建模***，包括：

语句筛选模块，用于获取文档，对所述文档中的语句进行筛选，获取与图元素提取相关的语句；

字典构建模块，用于根据预先定义的规则构建领域字典；

语义分析模块，用于结合构建获得的领域字典，采用依存句法分析工具对与图元素提取相关的语句进行语义分析，获得语义分析结果；

规则制定模块，用于制定基于语义分析的图元素提取规则；

元素提取模块，用于根据制定的提取规则对语义分析结果提取图元素；

存储模块，用于按照用例图的方式对提取获得的图元素进行存储。

本发明所采用的另一技术方案是：

一种基于文本认知的自动分析建模装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明能够实现自动化的需求分析建模方法，能够自动根据需求文档，分析出相应的Uml用例图，从而提高需求分析建模的准确率和软件开发的效率。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种基于文本认知的自动分析建模方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种基于文本认知的自动分析建模方法，包括但不限于以下步骤：

S1、对于整篇需求文档中的每一句，进行筛选。采用基于bert中文短文本分类和句式筛选的分类模型，对文档当中的语句进行分类，判断每一句是否和图元素提取有关。

S2、根据预先定义的规则，构建领域字典。

S3、使用基于步骤S1中得到的校验结果，对于有可能和图元素提取相关的语句，基于步骤S2中的构造的领域字典，采用hanlp的依存句法分析工具对语句进行语义分析，得到语句中的主事格、主动词等成分。

S4、制定基于语义分析的一般化的图元素提取规则。

S5、根据S4中制定的图元素提取规则和S3中得到的依存句法分析结果，提取图元素。

S6、将S5中得到的经过分类整合的元素，按照用例图的方式进行存储。

进一步作为可选的实施方式，文档语句筛选步骤包括：

S11、收集软件工程领域的需求文档，提取每一篇文档对应的用例图中的要素，作为测试依据；具体提取方法如下：去除图元素提取无关语句，例如“目录”、“背景”等。将图元素提取相关语句和对应的用例图提取出来。

S12、收集其他文档，例如新闻稿，作为模型训练数据的负样本；

S13、使用bert工具，结合bert-base chinese与训练模型，和图元素提取相关语句和其他文档，训练短文本分类模型。

S14、收集图元素提取相关语句的一般句式，例如凡是和图元素提取相关的语句，一定包含“主事格”，“施事格”等。对S13中的分类结果进行筛选，对于符合句式的语句进行下一步操作。

进一步作为可选的实施方式，构建领域字典包括：

S21、根据专家知识(即软件工程领域的专家，根据工作经验总结所得出的专业术语)，收集领域内常用的专用术语，以及每个词语的同义词、简写、变形、简单描述，词性等信息；

S22、建立配置文件，使用json字符串的方式记录信息；

S23、按照预先定义的格式，录入每个专业术语的信息。

S24、下载jieba分词工具包，将专业领域字典中的词汇，按照<词语，词性>的方式，转存在userdict.txt文件中，每个词语的同义词、简写和变形都要作为一个单独的条目进行存储。之后使用jieba分词工具进行分词和词性标注。

进一步作为可选的实施方式，语义分析包括步骤：

S31、对于步骤S1中得到的，每一句的分词和词性标注结果，进行以下步骤；

S32、采用hanlp的依存句法分析工具，得到语句当中施事关系受事关系等；

关注其中的施事关系，一般施事关系的主语会作为图元素中的用户。

关注其中的受事关系，一般受事关系的客体会作为***作的对象，例如某***、某软件。

关注其中根节点，一般根节点会作为用户具体实施的操作。

对每个模式，定义其解析方式，即可以从每个模式中提取的建模元素。

例如：“学生可以通过选课***选课”，语义分析结果的结果为：

学生AGT

可以

通过

选课***

选ROOT

课PAT

进一步作为可选的实施方式，解析语句Uml元素步骤包括：

S41、根据需求描述的表达，分析语句中可能作为用户图元素、操作图元素的成分；分析结果不能依赖于特定的词语，例如分析结果中不能包含“执行……操作”，必须全部由语义分析结果的各种关系或者角色组成。

S42、对于每种可能的句式组合和对应图元素提取方式，编写相应的提取规则。

例如：{AGT：用户，ROOT+PAT：操作}

进一步作为可选的实施方式，提取图元素步骤包括：

S51、对于步骤S4中得到的语句的依存于法分析结果，循环遍历步骤S5中得到的一般化图元素提取规则，匹配到相应的句式规则，按照规则提取出可能的图元素；匹配的标准为，语句当中包含规则中的元素，即认为该语句与改规则匹配。若某语句匹配了多条规则，按照公式：

假设语句s中含有n个元素(s₁,s₂……s_n)，C_R表示规则R中的元素数。F(s,R)语句s与规则R的匹配度。若某语句匹配了多条规则，选取匹配度高的规则进行下一步操作。

S52、根据规则中的图元素提取方式，提取出与剧中的图元素。

S53、按照usecase(actor,function)的方式进行存储，其中actor表示用例图中的用户，function表示用户可以进行的操作。

进一步作为可选的实施方式，按照用例图的方式进行存储包括：

S61、对于步骤S5中得到的模型匹配结果，根据规则识别Uml图要素；

S62、根据步骤S5中得到的子***项，整合每个子***下的所有用例，和用户。

S63、校验同一子***下的边界是否相同,如果不相同，首先判断边界不同的原因是否只是因为表述不相同，若不是，则选取出现次数较多的边界名称，同时发出警告，表示文档可能存在表述有误的情况。

S64、按照预定义的格式，用键值对的方式，将每个子***的***名作为key，将其对应的用例图要素作为value，转换成json字符串的方式存储。

综上所述，本实施例是基于软件工程领域的需求文档。基于需求分析人员人工分析需求文档的方式，可能由于每个人对于文本的理解不同，造成需求分析结果不一致。本实施例能够实现自动化的需求分析建模方法，能够自动根据需求文档，分析出相应的Uml用例图，从而提高需求分析建模的准确率和软件开发的效率。而传统的自动化分析建模方法，要求必须按照固定的句式和结构撰写需求文本，不够灵活；而且需要制定大量的图元素提取规则，当句式发生变化时，需要重新编写规则。另外，本实施例提出的基于文本认知的自动分析建模方法，能够解析任意风格需求文本，并进行自动化建模。

本实施例还提供一种基于文本认知的自动分析建模***，包括：

语句筛选模块，用于获取文档，对文档中的语句进行筛选，获取与图元素提取相关的语句；

字典构建模块，用于根据预先定义的规则构建领域字典；

规则制定模块，用于制定基于语义分析的图元素提取规则；

本实施例的一种基于文本认知的自动分析建模***，可执行本发明方法实施例所提供的一种基于文本认知的自动分析建模方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种基于文本认知的自动分析建模装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于文本认知的自动分析建模装置，可执行本发明方法实施例所提供的一种基于文本认知的自动分析建模方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于文本认知的自动分析建模方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于文本认知的自动分析建模方法，其特征在于，包括以下步骤：

根据预先定义的规则构建领域字典；

制定基于语义分析的图元素提取规则；

根据制定的提取规则对语义分析结果提取图元素；

按照用例图的方式对提取获得的图元素进行存储。

2.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述对所述文档中的语句进行筛选，获取与图元素提取相关的语句，包括：

获取用于训练模型的训练集；

根据训练集，采用bert工具训练获得短文本分类的分类模型；

3.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述根据预先定义的规则构建领域字典，包括：

4.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述采用依存句法分析工具对与图元素提取相关的语句进行语义分析，获得语义分析结果，包括：

5.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述制定基于语义分析的图元素提取规则，包括：

6.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述根据制定的提取规则对语义分析结果提取图元素，包括：

根据制定的提取规则对语义分析结果提取图元素；

按照usecase(actor,function)的方式进行存储提取到的图元素；

7.根据权利要求1所述的一种基于文本认知的自动分析建模方法，其特征在于，所述按照用例图的方式对提取获得的图元素进行存储，包括：

8.一种基于文本认知的自动分析建模***，其特征在于，包括：

字典构建模块，用于根据预先定义的规则构建领域字典；

规则制定模块，用于制定基于语义分析的图元素提取规则；

9.一种基于文本认知的自动分析建模装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述的一种基于文本认知的自动分析建模方法。

10.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。