CN117933245A

CN117933245A - 一种特种设备维护问答***的中文分词方法

Info

Publication number: CN117933245A
Application number: CN202410334443.8A
Authority: CN
Inventors: 张展彬
Original assignee: SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Current assignee: SICHUAN SPECIAL EQUIPMENT TESTING RESEARCH INSTITUTE
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-04-26
Anticipated expiration: 2044-03-22
Also published as: CN117933245B

Abstract

本发明公开了一种特种设备维护问答***的中文分词方法，属于数据处理技术领域，包括：S1、构建特种设备维护问答***中中文分词的训练数据集；S2、对训练数据集中的文本预处理，并定义其分词标签；S3、利用定义分词标签的训练数据集训练中文分词模型；其中，中文分词模型包括用于捕捉上下文信息的并列的N‑BEATS模型、GPT模型以及改进BiLSTM模型；S4、利用完成训练的中文分词模型，进行特种设备维护***的中文分词。本发明方法可以显著提高特种设备的管理和维护效率，减少停机时间，降低维护成本，并提高操作人员和维护人员的能力。它在各种工业领域和设备类型中都具有广泛的应用潜力。

Description

一种特种设备维护问答***的中文分词方法

技术领域

本发明属于数据处理技术领域，具体涉及一种特种设备维护问答***的中文分词方法。

背景技术

随着深度学习的发展已经拓展到了特种设备维护领域，基于特种设备维护的问答***是一种使用人工智能和自然语言处理技术开发的应用程序，旨在帮助工程师、维护人员和操作人员更轻松地管理和维护各种特征设备，以确保其正常运行和可靠性。这种问答***可以回答与特种设备维护有关的问题、提供维护建议、执行故障排除和提供相关信息。

而结合深度学习的中文分词则是该问答***的核心内容，常见的中文分词模型BiLSTM-CRF模型，它结合了双向长短时记忆网络 (Bidirectional Long Short-TermMemory, BiLSTM) 和条件随机场 (Conditional Random Field, CRF) 来解决中文分词任务。这个模型在中文分词中表现出色，因为它可以捕捉句子中的上下文信息，并同时考虑标签之间的关系。尽管BiLSTM-CRF模型在中文分词任务中表现出色，但它仍然有一些缺点和局限性，该模型对特种设备的型号、种类、规格要求更高，比如在对电梯、输油管道进行问答时，需要更详细的参数信息如：功率、电压等等这些，否则不能对其进行更加准确的理解，计算成本高昂：BiLSTM-CRF模型通常需要大量的计算资源来训练和推断，尤其是在处理大规模的文本数据时，这可能需要较高的硬件要求和更长的训练时间。对数据质量和标注准确性敏感：模型的性能高度依赖于训练数据的质量和标注准确性。如果标注数据包含错误或不一致性，模型的性能可能会受到影响。处理未登录词问题：对于未登录词（Out-of-Vocabulary，OOV）或稀有词，BiLSTM-CRF模型可能表现不佳，因为它通常是基于固定的词汇表进行训练的，无法很好地处理词汇表之外的词汇。

发明内容

针对现有技术中的上述不足，本发明提供的特种设备维护问答***的中文分词方法解决了现有的中文分词模型难以针对特种设备***进行准确分词的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种特种设备维护问答***的中文分词方法，包括以下步骤：

S1、构建特种设备维护问答***中中文分词的训练数据集；

S2、对训练数据集中的文本预处理，并定义其分词标签；

S3、利用定义分词标签的训练数据集训练中文分词模型；

其中，中文分词模型包括用于捕捉上下文信息的并列的N-BEATS模型、GPT模型以及改进BiLSTM模型，所述N-BEATS模型、GPT模型以及改进BiLSTM模型的输出基于其分配的权值通过CRF模型输出所述中文分词模型的分词结果；

S4、利用完成训练的中文分词模型，进行特种设备维护***的中文分词。

进一步地，所述步骤S2中，所述文本预处理是指将训练数据集中的中文文本划分为字符或词；

定义分词标签为标记训练数据集中每个字符或词的标签，包括词开头B、词中间I、词结尾E、单独成词的字符S以及非分词的字符0。

进一步地，所述步骤S3中，所述N-BEATS模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述N-BEATS模型的损失函数为交叉熵损失；

所述N-BEATS模型的输出为分词结果的概率分布。

进一步地，所述GPT模型的输出为预测的下一个分词或完整的分词序列。

进一步地，所述改进BiLSTM模型包括并列的第一BiLSTM单元以及第二BiLSTM单元；

所述第一BiLSTM单元将正向LSTM和反向LSTM的隐藏状态依次拼接得到向量C1(V1,V2,V3,X1,X2,X3)；

所述第二BiLSTM单元将正向LSTM和反向LSTM的隐藏状态交叉拼接得到向量C2(Y1,P1,Y2,P2,Y3,P3)；

其中，V1,V2,V3和X1,X2,X3分别为第一BiLSTM单元中正向LSTM和反向LSTM输出的隐藏状态；Y1,Y2,Y3和P1,P2,P3分别为第二BiLSTM单元中正向LSTM和反向LSTM输出的隐藏状态。

进一步地，所述向量C1和向量C2进行向量拼接后，根据向量C1和向量C2的预设权值，将拼接的向量通过一组卷积层后的输出向量作为所述改进BiLSTM模型的输出。

进一步地，所述步骤S3中，通过CRF模型输出所述中文分词模型的分词结果的方法为：

S31、将N-BEATS模型、GPT模型以及改进BiLSTM模型的输出进行拼接；

S32、基于拼接结果为N-BEATS模型、GPT模型以及改进BiLSTM模型的输出分配不同的权重；

S33、将N-BEATS模型、GPT模型以及改进BiLSTM模型的输出分别与其对应的权重相乘；

S34、将相乘得到的向量相加后输入至CRF模型，通过计算条件概率分布，获得中文分词模型的分词结果。

进一步地，所述步骤S34中，条件概率分布的计算公式为：

式中，为标签序列，/>为观察序列，/>为归一化因子，/>为特征函数/>的权重，/>为关于观察序列和标签序列的特征函数，下标i为标签序数，下标k为特征函数序数，K为特征函数总数。

本发明的有益效果为：

本发明方法提供的特种设备维护问答***的中文分词方法，可以显著提高特种设备的管理和维护效率，减少停机时间，降低维护成本，并提高操作人员和维护人员的能力。本发明中涉及的中文分词模型具有以下优点：

1) 适应性更强：深度学习模型可以根据不同领域和应用场景进行迁移学习，因此在新的任务中表现更好，传统模型需要手工调整和适应，工作量较大。

2) 上下文理解能力更强：深度学习模型可以利用大量的文本数据进行训练，从而更好地理解词语在不同上下文中的含义。传统模型通常基于词典和规则，对上下文理解有限，容易受到歧义的影响。

3) 自动特征提取：深度学习模型可以自动学习有关词语的特征表示，而传统模型通常需要手动选择和工程化特征。

4）特征空间组合：本发明模型为了能结合语义上下文，还有对局部信息进行更为准确的理解，对特征空间改进了更多的组合方式；比如在问到：请问为什么特种设备制造许可证（压力管道元件）上产品的口径范围钧大于等于DN50，小于DN50的压力管道元件没有制造许可证，基于多种特征空间组合实现了更准确的分词。

附图说明

图1为本发明提供的特种设备维护问答***的中文分词方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明实施例提供了一种特种设备维护问答***的中文分词方法，如图1所示，包括以下步骤：

S1、构建特种设备维护问答***中中文分词的训练数据集；

S2、对训练数据集中的文本预处理，并定义其分词标签；

S3、利用定义分词标签的训练数据集训练中文分词模型；

在本发明实施例的步骤S1中，收集并构建特种设备维护问答***中中文分词的训练数据集，其中包括已经标准好的句子和对应的分词标签。例如，数据集中的数据包括关于碳钢衬四氟压力管道定期检验数据以及压力管道元件组合装置相关数据。

在本发明实施例的步骤S2中，文本预处理是指将训练数据集中的中文文本划分为字符或词，以便后续模型处理。

在本发明实施例的步骤S2中，定义分词标签为标记训练数据集中每个字符或词的标签，包括词开头B、词中间I、词结尾E、单独成词的字符S以及非分词的字符0。

在本发明实施例的步骤S3中，中文分词模型使用深度学习框架进行构建，其包括用于捕捉上下文信息的并列的N-BEATS模型、GPT模型以及改进BiLSTM模型。

在本实施例中， N-BEATS模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述N-BEATS模型的损失函数为交叉熵损失；所述N-BEATS模型的输出为分词结果的概率分布。

具体地，在本实施例中，N-BEATS模型是一种用于时间序列预测的神经网络模型，旨在解决时间序列预测中的多步预测问题，其中模型需要根据过去的时间序列数据来预测未来多个时间步的值。N-BEATS模型的训练目标是最小化预测误差，通常使用均方误差或其他回归函数来衡量，一旦模型经过训练，它可以用来生成多个时间步的预测，因为N-BEATS模型的架构是端到端的，所以它不需要手动提取特征，可以直接从原始时间序列中学习特征。N-BEATS模型可以用于文本分类任务，将文本数据编码为时间序列形式，并预测每个文本的类别。这可能需要一些适应性的数据预处理和架构调整，但可以用于自动文本分类。

进一步地，N-BEATS模型进行中文分词步骤为：

将训练数据集中的文本数据处理为适合N-BEATS模型的格式，例如将文本编码为词嵌入向量。

构建N-BEATS模型，包括多个堆叠的基本模块，由多层全连接神经网络组成，这些网络层价格文本数据映射到一个潜在表示。

使用已标记的文本数据训练N-BEATS模型，使其学会将输入文本映射到标记的分词；使用交叉熵损失，以衡量模型的预测与实际分词之间的差距，使用反向传播算法和优化器来更新模型的权重，以减小损失函数的值。

使用验证数据集来评估模型的性能，以确保模型在未见过的数据上能够进行有效的分词。调整模型的超参数，如学习率、隐藏层大小和训练时期，以获得更好的性能。

使用已经训练好的N-BEATS模型来进行文本分词。将输入文本传递给模型，模型将生成分词的概率分布选择最可能的分词或根据需要进行后处理。

在本实施例中，所述GPT模型的输出为预测的下一个分词或完整的分词序列。

具体地，GPT模型进行中文分词步骤为：

将训练数据集中的文本数据进行清洗和预处理，包括分局、分段和移除特殊字符。

将编码的文本传递给GPT模型，请求模型生成分词；GPT模型是一个生成模型，可以自动预测下一个分词或生成一个完整的分词序列。

根据模型生成的分词序列，可以进行后处理，如去除不需要的分词、根据需要添加分词或修改生成的分词。

在本实施例中，BiLSTM模型（双向长短时记忆网络）是一种常用于序列数据建模的深度学习模型，适用用于自然语言处理任务，其旨在克服传统的循环神经网络难以捕捉长距离依赖关系的问题。

在本实施例中，改进BiLSTM模型包括并列的第一BiLSTM单元以及第二BiLSTM单元；

具体地，第一BiLSTM单元以及第二BiLSTM单元在进行中文分词时主要包括以下步骤：

输入序列：这个序列可以文本、时间序列等，其中每个元素代表一句话或一段文本，其中每个时间步对应一个词汇或字符。

词嵌入：当输入序列是文本时，首先将每个词汇映射为词嵌入向量（wordembeddings）。词嵌入向量是词汇的稠密表示，这些向量帮助模型理解词汇之间的语义关系。

时间步处理：输入序列的每个时间步（词汇或字符）将依次传递给LSTM层。在正向LSTM中，信息从左到右传递；在反向LSTM中，信息从右到左传递。

假设当前时间步为 t，BiLSTM 单元的输入包括三个部分：上一时刻的隐藏状态h_t-1、当前时刻的输入数据 x_t，以及上一时刻的细胞状态c_t-1。

输入门：输入门控制着当前时刻的输入信息对细胞状态的影响程度。它包括两个部分，sigmoid 函数和 tanh 函数。其中，Sigmoid 函数用于确定哪些信息应该更新或保留，其输出称为输入门的开放度（input gate openness）；Tanh 函数用于产生一个新的候选值向量，表示要添加到细胞状态的信息。

遗忘门：遗忘门决定要从细胞状态中删除多少信息，它是一个 sigmoid 函数，其输出称为遗忘门的开放度（forget gate openness）。

细胞状态更新：根据输入门的输出、遗忘门的输出和上一时刻的细胞状态，计算新的细胞状态。

输出门：输出门决定当前时刻的隐藏状态和细胞状态的哪些部分将作为输出，它包括 sigmoid 函数和 tanh 函数。其中，Sigmoid 函数用于确定当前时刻的隐藏状态的开放度（output gate openness）。Tanh 函数用于生成新的细胞状态，然后将其与 sigmoid函数的输出相乘，得到当前时刻的隐藏状态

记忆单元更新：LSTM单元在每个时间步根据输入和前一个时间步的隐藏状态来更新其内部记忆单元。这允许模型记住重要的信息并且忽略不重要的信息。

隐藏状态计算：LSTM单元计算每个时间步的隐藏状态，它是模型的表示，用于捕捉输入序列中的上下文信息。正向和反向LSTM分别计算两个方向的隐藏状态。

合并隐藏状态：第一BiLSTM单元将正向LSTM和反向LSTM的隐藏状态依次拼接得到向量C1(V1,V2,V3,X1,X2,X3)；

具体地，传统BiLSTM是将正向和反向LSTM的隐藏状态依次拼接在一起，形成一个综合的表示；而本实施例在此基础上，增加了一个BiLSTM单元将将正向和反向的状态交叉组合在一起，捕捉了每个时间步的上下文信息以及正反两个方向的信息，使得性能增加。

融合两种合并状态：将向量C1和向量C2进行向量拼接后，根据向量C1和向量C2的预设权值，将拼接的向量通过一组卷积层后的输出向量作为所述改进BiLSTM模型的输出。

本实施例中，将传统合并和交叉合并的向量拼接，再通过一组卷积层根据其重要程度的不同，将拼接的向量再卷积为之前的大小。这种融合再卷积的方式考虑了传统和交叉两种不同的情况，将两者的优点结合了起来，并且根据实际情况所占权重的大小可以灵活调整，有效的提高了模型的性能。

输出：BiLSTM的输出通常用于后续任务，它可以传递给其他层（如全连接层）进行附加处理，或者用于各种自然语言处理任务。

本发明实施例提供的改进后的BiLSTM模型，可以有效适应特种设备维护问答***的特征，在传统的中文表达中语言的顺序对表达的影响并不大，比如：“张三，你该写作业了”和“你该写作业了，张三”，所表达的意思基本相同。但在特种设备领域，语序对表达的意思的差异所占的影响非常大，比如“检测油管”，这之间任何的语序都不能出任何的偏差，否则所表达的意思差距很大。因此，本实施例提供的改进BiLSTM模型与特种设备问答***有着良好的锲合度，对语序的表达有着很好的把控，对语言的精准度有着更高的标准。总的来说，该模型在特种设备领域有着很好的性能。

在本发明实施例的步骤S3中，CRF模型用于建模标签之间的依赖关系，CRF模型是一种概率图模型，通常用于序列标注任务，如命名实体识别、中文分词、词性标注等。CRF是一个概率图模型，用于建模条件概率分布 P(Y|X)，其中 Y 是标签序列，X是输入序列。CRF考虑了给定输入序列下标签序列的依赖关系，因此在序列标注任务中非常有用。标签序列：在序列标注任务中，标签序列 Y是对输入序列 X 进行标注的输出。每个标签对应于输入序列中的一个位置或单位。CRF的核心思想是建模标签序列的条件概率分布，使得具有相邻标签之间的依赖关系。

基于此，本实施例步骤S3中，通过CRF模型输出所述中文分词模型的分词结果的方法为：

本实施例步骤S34中，条件概率分布的计算公式为：

在本实施例中，上述公式表明了给定观察序列X下标签序列Y的条件概率分布，其中，特征函数通常是关于局部观察/>和相邻标签/>、/>的函数，通过学习特征函数的权重/>，CRF可以捕捉到观察序列和标签序列之间的复杂关系，从而实现有效的序列标注和结构化预测。

在本发明实施例中，按照上述过程训练和验证中文分词模型后，就可以将其用于特种设备维护问答***中的中文分词任务，将未标注的文本输入到模型中，模型会为每个字符或词生成相应的标签序列，从而完成分词任务。

本发明实施例提供的中文分词模型的优势在于它可以利用上下文信息来更准确地进行分词，并且能够解决词边界模糊的情况。要实现本模型，可以使用深度学习框架来构建和训练模型，同时需要适配中文分词任务的数据集和标签定义。该模型结合了深度学习的序列建模能力和序列标注模型，充分利用上下文信息和标签之间的依赖性来进行中文分词，因此通常在分词任务中表现出色。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种特种设备维护问答***的中文分词方法，其特征在于，包括以下步骤：

S1、构建特种设备维护问答***中中文分词的训练数据集；

S2、对训练数据集中的文本预处理，并定义其分词标签；

S3、利用定义分词标签的训练数据集训练中文分词模型；

2.根据权利要求1所述的特种设备维护问答***的中文分词方法，其特征在于，所述步骤S2中，所述文本预处理是指将训练数据集中的中文文本划分为字符或词；

3.根据权利要求1所述的特种设备维护问答***的中文分词方法，其特征在于，所述步骤S3中，所述N-BEATS模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述N-BEATS模型的损失函数为交叉熵损失；

所述N-BEATS模型的输出为分词结果的概率分布。

4.根据权利要求1所述的特种设备维护问答***的中文分词方法，其特征在于，所述GPT模型的输出为预测的下一个分词或完整的分词序列。

5.根据权利要求1所述的特种设备维护问答***的中文分词方法，其特征在于，所述改进BiLSTM模型包括并列的第一BiLSTM单元以及第二BiLSTM单元；

6.根据权利要求5所述的特种设备维护问答***的中文分词方法，其特征在于，所述向量C1和向量C2进行向量拼接后，根据向量C1和向量C2的预设权值，将拼接的向量通过一组卷积层后的输出向量作为所述改进BiLSTM模型的输出。

7.根据权利要求1所述的特种设备维护问答***的中文分词方法，其特征在于，所述步骤S3中，通过CRF模型输出所述中文分词模型的分词结果的方法为：

8.根据权利要求7所述的特种设备维护问答***的中文分词方法，其特征在于，所述步骤S34中，条件概率分布的计算公式为：