CN114970491B

CN114970491B - 一种文本衔接性判断方法、装置、电子设备及存储介质

Info

Publication number: CN114970491B
Application number: CN202210919249.7A
Authority: CN
Inventors: 徐大用; 习树峰; 蒋会春; 沈赣苏; 张少标; 房龄航; 秦宇; 张�杰; 凌君; 张波; 焦圆圆
Original assignee: Shenzhen Technology Institute of Urban Public Safety Co Ltd
Current assignee: Shenzhen Technology Institute of Urban Public Safety Co Ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-04
Anticipated expiration: 2042-08-02
Also published as: WO2023098658A1; ZA202301703B; CN114970491A

Abstract

本发明实施例涉及计算机技术领域，尤其涉及一种文本衔接性判断方法、装置、电子设备及存储介质。该方法包括：获取目标文本，对目标文本进行解析，得到目标文本的任务关键语段，基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体，基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。通过在锁定任务关键语段之后，进一步地获得任务关键语段中的标签命名实体，利用这些标签命名实体计算任务关键语段之间的衔接性，明确了在一段文本中，各个语段时间的衔接性关系可以充分的判断出，文本中后文的预案是否能解决前文中的问题，提高了工作效率。

Description

一种文本衔接性判断方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本衔接性判断方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，人工智能也可以逐渐理解文本内容。现有技术下，可以利用人工智能来识别文本的相似度，一致性等等。

但是，现有技术下，人工智能仅能分辨出文本是否在说同一问题，尤其在应急预案领域，对于人工智能的要求不仅限于使其识别文本中是否在说同一问题，更重要的是，需要判断文本中后文的预案是否能解决前文中的问题，这就涉及到了对文本衔接性的判断，判断文本的连贯性和实用性。

因此，需要一种文本衔接性判断方法，以解决上述问题。

发明内容

鉴于此，为解决现有技术中上述技术问题，本发明实施例提供文本衔接性判断方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供文本衔接性判断方法，该方法包括：获取目标文本；对目标文本进行解析，得到目标文本的任务关键语段；基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体；基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。

可选地，对目标文本进行解析，得到目标文本的任务关键语段，包括：将目标文本输入值预先设置的初始分析模型，确定初始分析结果；基于预先设置的知识库和初始分析结果，确定至少两个过程语段；利用预先设置的关键短语提取模型对各个过程语段进行关键短语提取，确定关键短语提取结果；根据关键短语提取结果，得到目标文本的任务关键语段。

可选地，利用预设的关键短语提取模型对各个过程语段进行关键短语提取，确定关键短语提取结果，包括：基于预设的分词模型对过程语段进行分词处理，得到分词结果；基于分词结果，和预设的权重规则，确定各个分词结果对应的权重；基于各个分词结果对应的权重和预先设定的选择规则，确定关键短语提取结果。

可选地，基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体，包括：将任务关键语段输入至预设的词性标注模型中，确定词性标注结果；基于词性标注结果和预先设置的目标词性，保留符合目标词性的目标词汇；将目标词汇输入至预先设定的命名实体识别模型中，得到任务关键语段中的标签命名实体。

可选地，基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果，包括：将各个标签命名实体输入至预先设定的语义评估模型，确定各个标签命名实体之间的语义相似度；基于语义相似度，确定标签命名实体之间是否存在连接；获取各个任务关键语段对应的标签命名实体的连接个数；获取各个任务关键语段对应的标签命名实体的元素个数；基于元素个数和连接个数，确定各个任务关键语段之间的衔接性判断结果。

可选地，基于语义相似度，确定标签命名实体之间是否存在连接，包括：当语义相似度大于预设的第一阈值时，认定标签命名实体之间存在连接；否则，认定标签命名实体之间不存在连接。

第二方面，本发明实施例提供一种文本衔接性判断装置，包括：获取模块，用于获取目标文本；解析模块，用于对目标文本进行解析，得到目标文本的任务关键语段；第一处理模块，用于基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体；第二处理模块，用于基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。

第三方面，本申请提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任一可能的实施方式的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面或第一方面任一可能的实施方式的方法的步骤。

本发明提供的文本衔接性判断方法、装置、电子设备及存储介质。该方法包括：获取目标文本，对目标文本进行解析，得到目标文本的任务关键语段，基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体，基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。通过在锁定任务关键语段之后，进一步地获得任务关键语段中的标签命名实体，利用这些标签命名实体计算任务关键语段之间的衔接性，明确了在一段文本中，各个语段时间的衔接性关系可以充分的判断出，文本中后文的预案是否能解决前文中的问题，提高了工作效率。

附图说明

图1为本发明实施例提供的文本衔接性判断方法流程示意图；

图2为本发明实施例提供的文本衔接性判断方法示意图；

图3为本发明实施例提供的文本衔接性判断装置结构示意图；

图4为本发明实施例提供文本衔接性判断电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步地解释说明，实施例并不构成对本发明实施例的限定。

图1为本发明实施例提供的文本衔接性判断方法流程示意图，该方法步骤执行过程，具体可以参见图1所示，该方法包括：

S110，获取目标文本。

示例性地，目标文本可以是任意类型的文本，包括但不限于：应急预案，抢险救灾职责等等各种类型，在此不做限定，同时文本的数据格式也不做限定，包括但不限于doc、docx等格式的文件。

在一种可选实施例中，在获得其他格式类型的文件后，也可以通过文件格式转换工具，将目标文本类型转换为docx格式的文件，在之后的处理过程中，对docx格式的文件进行统一处理。

S120，对目标文本进行解析，得到目标文本的任务关键语段。

示例性地，在获取目标文本之后，将目标文本输入至预先设置的初始分析模型，确定初始分析结果，基于预先设置的知识库和初始分析结果，确定至少两个过程语段，利用预先设置的关键短语提取模型对各个过程语段进行关键短语提取，确定关键短语提取结果；根据关键短语提取结果，得到目标文本的任务关键语段。

在一种可选实施例中，预先设置的初始分析模型的作用是通过自上而下顺序读取存储数据的每一个实体属性包含标题索引、标题内容、标题级别、上级标题索引、正文，读取结束后得到平级的实体集合，并将目标文本划分出层次。例如，目标文本中包含有“组织机构和职责”，“监测和预警预报”这两个条目，并且，在“组织机构和职责”条目下有子条目“应急组织机构和职责”，“监测和预警预报”条目下有子条目“地质灾害的监测”，显然，“组织机构和职责”和“监测和预警预报”为同一层级，“应急组织机构和职责”和“地质灾害的监测”为同一层级，且低于“组织机构和职责”和“监测和预警预报”所在层级，按照如上的划分方式，通过预先设置的初始分析模型，将目标文本划分为若干层级，这个若干层级就是初始分析结果。

进一步地，划分层级之后，开始基于预先设置的知识库和初始分析结果，确定至少两个过程语段。

在一种可选实施例中，预先设置的知识库包括“章节知识库”和“组织机构知识库”，其中，“章节知识库”是由于不同专项预案对应的机构描述不同，因此需要建立“章节知识库”便于找到对应的内容。对应不同的文本，“章节知识库”需要对应不同的内容，例如，在处理有关应急预案的文本时，“章节知识库”可以如下表1所示：

表1

在一可选实施例中，假设存在一个目标文本，经过对过程语段进行定位，第一次首先定位到“组织机构与职责”和各响应等级所在的“应急响应”文本，即查找文段中包含有“组织机构与职责”“应急响应”的全部文本，进一步地，在完成第一次定位后，根据定位结果，进一步地对“组织机构与职责”中的“成员单位”文本与“应急响应”中“各响应等级”文本进行定位，最终，定位“各响应等级”中“成员单位”对应的文本。

进一步地，由于实际文本中机构单位很多是简写或者变体，因此需要建立“组织机构知识库”来保证可以在出现机构单位简写或者变体时，仍可以对成员单位进行精准定位。

在实际应用中，为了方便定位过程语段，也可以对机构单位简写或者变体进行替换，通常可以采用FlashText算法实现。但是，需要说明的是，实际应用中，替换或查找机构单位简写或者变体的方法不仅限于FlashText算法，本实例中仅为解释说明，在此不做限定，以实际应用为准。

进一步地，在确定了过程语段之后，需要对过程语段的关键短语进行提取，将关键短语所在的句子，作为任务关键语段。

示例性地，关键短语的提取方法可以是，基于预设的分词模型对过程语段进行分词处理，得到分词结果，基于分词结果，和预设的权重规则，确定各个分词结果对应的权重，基于各个分词结果对应的权重和预先设定的选择规则，确定关键短语提取结果。

在一个可选实施例中，关键短语的提取，首先要对目标文本进行清洗文本，去除异常字符、冗余字符、特殊字符、各种括号等杂质数据。之后，对文本进行分句，然后使用分词模型做分词和词性标注，同时加载应急预案领域特定字典库，防止领域名词被分开。例如，在应急预案文本中“区防指”、“救援机构”、“牵头单位”这些应急领域专属名词是不能被分开的。接下来计算词频，对分词后的词进行词频统计，计算每一个词的权重。词的权重可以根据预先设定的数据进行赋值，也可以用权重计算模型进行计算，在此不做限定，以实际应用为准。最终，根据预先设定的选择规则选出合适的短语，并根据预先设定的计算规则，计算出每一个短语所占的权重。

在实际应用中，可以参照如下方式设置短语选择规则：规则1：一个短语不能超过25个char；规则2：一个短语不能超过12个token（词）；规则3：一个短语中不能出现超过一个虚词；规则4：短语的前后不可以是虚词、停用词，短语末尾不可是动词；规则5：候选短语中不可以超过规定个数（1个）的停用词；规则6：候选短语第一个词必须是动词(v)、副词（d）、介词（p）；规则7：候选短语不得是一个名词。以上规则都是根据预案文本数据制定的。权重计算规则，则可以按照如下方式设计：候选短语的权重计算公式为：短语权重、短语长度权重、词性权重三项的乘积，其中短语权重为短语中各个词的权重之和。例如，短语[('组织','v',0.6762), ('做好', 'v',0.8136), ('医疗', 'n',4.4245),('救护','v',1.5946)]，短语权重为：

0.6762+0.8136+4.4245+1.5946=7.5089

通常认为较短字段应该有更多的权重，因此短语长度权重是通过多次验证得到的数值，最终的权重值为{1: 1, 2: 5.6, 3:1.1, 4:2.0, 5:0.7, 6:0.9, 7:0.48,8: 0.43,9: 0.24, 10:0.15, 11:0.07, 12:0.05}。词性权重表示的是短语第一个词转换到最后一个词的词性转化权重，如：{"v|n": 0.6575342465753424，"n": 0.9154147615937296}。最终，对短语的权重按照大小进行排序，并按照预先设定的规则进行选择。例如，假设共有5个短语，分别为短语A，短语B，短语C，短语D，短语E，分别对应的权重为：0.1，0.2，0.3，0.4，0.5，假设只需要取3个短语，则选择：短语C，短语D，短语E。

S130，基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体。

示例性地，命名实体可以是任何实体，包括但不限于：一种职责，一个地点，一个组织机构等等，在此不做限定，以实际应用为准。任务关键语段也可以是任意长度的文段，在此不做限定。

示例性地，在获得任务关键语段后，将任务关键语段输入至预设的词性标注模型中，确定词性标注结果，基于词性标注结果和预先设置的目标词性，保留符合目标词性的目标词汇，将目标词汇输入至预先设定的命名实体识别模型中，得到任务关键语段中的标签命名实体。

在一可选实施例中，在进行词性标注之前，首先要对任务关键语段中的实体进行标注，实体标注的方法包括但不限于BIEO标注等方式，当采用BIEO标注方式时，假设任务关键语段为：“负责协助市应急管理局处置台风影响期间发生的水务工程突发事件，为市防指提供抢险技术支撑。负责水文观测和预警预报，水务工程调度运行及抢险抢修，组织清疏河道、抽排积水。”，则标注结果参照如下表2所示：

表2

进一步地，根据任务关键文段，建立“实体词典”，实体词典是用来表明各个实体对应的磁性，假设存在有实体：“监测预警”、“抽排积水”、“光明交警大队”、“市生态环境局”、“教学场所”、“旅游景区”，则对应的“实体词典”如下表3所示：

表3

在一个可选地实施例中，在建立“实体词典”之后，使用实体词典作为分词的自定义词典并对职责任务文本进行分词词性标注并对词性标注结果进行数据分析。使用‘动名词+名词’，‘名词+名词’，‘名词+动名词’等词性结合的方式对实体词典中的Duty词性的实体、LOC词性的实体和ORG词性的实体进行数据扩充，假设存在有任务关键文段：“负责统筹指导重大险情灾情宣传报道，负责统筹指导抢险救灾舆情引导应对工作。”经过处理，则有如下表4所示词性标注结果：

表4

进一步地，在获得标注结果之后，对任务关键文段词性标注的结果进行形容词、副词、时间副词、修饰词等修饰内容的过滤，保留与任务相关的动词，普通名词、以及职责标签实体词汇等核心词汇，并对任务关键文段词性标注核心词汇进行职能标签短语抽取。其中，短语抽取可以采用包括但不限于NLTK正则表达式分块器等任何短语抽取方式。

在完成短语抽取，之后，对短语进行整理，获得任务关键文段对应的标签命名实体。假设存在有文段：“负责抢救遇险人员，转移和疏散被困群众，处置台风引发的次生灾害，协助相关部门开展灾后重建中的相关工作。”和“组织突击救护队伍，调度卫生技术力量,抢救受灾伤病人员；做好灾区卫生防疫工作，防止灾区疫情、疫病的传播蔓延。”经过上述方式的抽取，最终可以获得标签命名实体如下表5所示：

表5

S140，基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。

示例性地，在获得标签命名实体之后，基于语义相似度，确定标签命名实体之间是否存在连接，取各个任务关键语段对应的标签命名实体的连接个数，获取各个任务关键语段对应的标签命名实体的元素个数，基于元素个数和连接个数，确定各个任务关键语段之间的衔接性判断结果。

在一可选实施例中，语义的相似度可以根据任意的语义判别模型进行确定，在此不做限定，并且，在确定标签命名实体之间的语义相似度之后，判断标签命名实体之间的语义相似度是否大于预设的第一阈值，只有当述语义相似度大于预设的第一阈值时，才认定标签命名实体之间存在连接。

在确认标签命名实体之间的关系之后，则可以按照如下公式计算任务关键语段之间的衔接性：

，

其中，

表示任务关键语段A与任务关键语段B之间的衔接度；

表示任务关键语段A与任务关键语段B连接的标签命名实体个数；

表示任务关键语段A中所有标签命名实体个数；

表示任务关键语段B与任务关键语段A连接的标签命名实体个数；

表示任务关键语段B中所有标签命名实体个数。其中，

的取值越大，代表任务关键语段A和任务关键语段B的衔接性越好。

参阅图2所示，假设任务关键语段A中有标签命名实体5个，假设任务关键语段B中有标签命名实体6个，任务关键语段A与任务关键语段B连接的标签命名实体个数为2，任务关键语段B与任务关键语段A连接的标签命名实体个数为2，则任务关键语段A与任务关键语段B之间的衔接度为：

。

本发明通过在锁定任务关键语段之后，进一步地获得任务关键语段中的标签命名实体，利用这些标签命名实体计算任务关键语段之间的衔接性，明确了在一段文本中，各个语段时间的衔接性关系可以充分的判断出，文本中后文的预案是否能解决前文中的问题，提高了工作效率。

本发明实施例还公开了一种文本衔接性判断装置，如图3所示，包括：

获取模块301，用于获取目标文本；

详细内容参见上述任意实施例中步骤S110的相关描述，在此不再赘述。

解析模块302，用于对目标文本进行解析，得到目标文本的任务关键语段；

详细内容参见上述任意实施例中步骤S120的相关描述，在此不再赘述。

第一处理模块303，用于基于预设的命名实体识别模型及所述任务关键语段，得到任务关键语段中的标签命名实体；

详细内容参见上述任意实施例中步骤S130的相关描述，在此不再赘述。

第二处理模块304，用于基于标签命名实体，确定各个任务关键语段之间的衔接性判断结果。

详细内容参见上述任意实施例中步骤S140的相关描述，在此不再赘述。

作为本申请一个可选实施方式，解析模块302，用于：将目标文本输入至预先设置的初始分析模型，确定初始分析结果；基于预先设置的知识库和初始分析结果，确定至少两个过程语段；利用预先设置的关键短语提取模型对各个过程语段进行关键短语提取，确定关键短语提取结果；根据关键短语提取结果，得到目标文本的任务关键语段。

作为本申请一个可选实施方式，解析模块302，用于：基于预设的分词模型对过程语段进行分词处理，得到分词结果；基于分词结果，和预设的权重规则，确定各个分词结果对应的权重；基于各个分词结果对应的权重和预先设定的选择规则，确定关键短语提取结果。

作为本申请一个可选实施方式，第一处理模块303，用于：将任务关键语段输入至预设的词性标注模型中，确定词性标注结果；基于词性标注结果和预先设置的目标词性，保留符合目标词性的目标词汇；将目标词汇输入至预先设定的命名实体识别模型中，得到任务关键语段中的标签命名实体。

作为本申请一个可选实施方式，第二处理模块304，用于：将各个标签命名实体输入至预先设定的语义评估模型，确定各个标签命名实体之间的语义相似度；基于语义相似度，确定标签命名实体之间是否存在连接；获取各个任务关键语段对应的标签命名实体的连接个数；获取各个任务关键语段对应的标签命名实体的元素个数；基于元素个数和连接个数，确定各个任务关键语段之间的衔接性判断结果。

作为本申请一个可选实施方式，第二处理模块304，用于：当语义相似度大于预设的第一阈值时，认定标签命名实体之间存在连接；否则，认定标签命名实体之间不存在连接。

请参阅图4，图4是本发明可选实施例提供的一种电子设备的结构示意图，如图4所示，该电子设备可以包括：至少一个处理器41，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口43，存储器44，至少一个通信总线42。其中，通信总线42用于实现这些组件之间的连接通信。其中，通信接口43可以包括显示屏（Display）、键盘（Keyboard），可选通信接口43还可以包括标准的有线接口、无线接口。存储器44可以是高速RAM存储器（Random Access Memory，易挥发性随机存取存储器），也可以是非不稳定的存储器（non—volatile memory），例如至少一个磁盘存储器。存储器44可选的还可以是至少一个位于远离前述处理器41的存储装置。其中处理器41可以结合图4所描述的装置，存储器44中存储应用程序，且处理器41调用存储器44中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线42可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线42可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器44可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random—access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non—volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：harddisk drive，缩写：HDD）或固态硬盘（英文：solid—state drive，缩写：SSD）；存储器44还可以包括上述种类的存储器的组合。

其中，处理器41可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器41还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application—specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field—programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic，缩写：GAL）或其任意组合。

可选地，存储器44还用于存储程序指令。处理器41可以调用程序指令，实现如本申请任一实施例中所示的文本衔接性判断方法。

本发明实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的文本衔接性判断方法。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read—Only Memory，ROM）、随机存储记忆体（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard DiskDrive，缩写：HDD）或固态硬盘（Solid—State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。