CN117556049A

CN117556049A - 一种基于大语言模型生成的正则表达式的文本分类方法

Info

Publication number: CN117556049A
Application number: CN202410034646.5A
Authority: CN
Inventors: 谭光华; 陈禹; 林庭羽
Original assignee: Hangzhou Guangyun Technology Co ltd
Current assignee: Hangzhou Guangyun Technology Co ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-02-13
Anticipated expiration: 2044-01-10
Also published as: CN117556049B

Abstract

本发明涉及文本分类技术领域，具体涉及一种基于大语言模型生成的正则表达式的文本分类方法，包括以下步骤：S1：初始化文本分类方法，定义文本分类标签，采用大语言模型生成包括若干个分类标签的白正则表达式和黑正则表达式的正则表达式集合；S2：获取需要分类的文本数据；S3：采用大语言模型对文本数据的语义完整度进行判断，将语义不完整的文本数据滤除；S4：根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签。本发明应用正则表达式集合实现文本数据的分类，分类的准确度高。

Description

一种基于大语言模型生成的正则表达式的文本分类方法

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于大语言模型生成的正则表达式的文本分类方法。

背景技术

随着大数据和机器学习技术的飞速发展，文本分类已经成为自然语言处理领域的重要研究方向，传统的文本分类方法主要依赖于模型的训练和对关键词的提取，这通常需要海量的训练数据来确保分类的准确性，如中国专利公开的一种基于大语言模型的中文超长文本的分类方法（公开号：CN116821348A），该专利技术中以大语言模型为基础，提取关键词，并根据关键词在历史文本归类信息表中的分类信息，判定文本的分类信息，该分类方法不需要对文本进行整体解读，只需对提取的关键词进行分析处理即可，可以极大降低计算机的运算量，从而提升文本分类的速度和效率，但当遇到冷启动问题，即在某一新的领域或特定场景下，没有足够的数据支持模型的训练时，大语言模型提取关键词的效率较低，同时通过提取关键词的方法，容易导致识别到的语义与实际要表达的语义不匹配的情况出现，文本分类的准确度较低。

发明内容

本发明所要解决的技术问题：现有的文本分类方法数据依赖性强，且通过提取关键词进行分类的方法，准确度较低。

为解决上述技术问题，本发明采用如下技术方案：一种基于大语言模型生成的正则表达式的文本分类方法，包括以下步骤：

S1：初始化文本分类方法，定义文本分类标签，采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合，将经审核通过的正则表达式设置为白正则表达式，然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式；

S2：获取需要分类的文本数据；

S3：采用大语言模型对文本数据的语义完整度进行判断，将语义不完整的文本数据滤除；

S4：根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签。

本发明工作时，通过大语言模型生成的正则表达式集合，能够快速且准确地完成文本数据的分类，同时根据白正则表达式和黑正则表达式与文本数据进行匹配，可以将错误匹配的文本分类标签滤除，能够进一步提高分类的准确度。

作为优选，还包括以下步骤，获取带文本分类标签的标注数据和无文本分类标签的问答数据，每个问答数据均包括问题和答案，通过若干个预设的预处理规则对问答数据进行筛选，滤除与本次文本分类无关的问答数据。

本发明工作时，通过将无关的问答数据滤除，能够提高训练的速度，缩短训练周期。

作为优选，在所述步骤S1中，采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时，采用以下步骤：

A1：采用预设的句向量推理模型为标注数据生成语义上的向量表示；

A2：根据每个标注数据的向量表示召回预设的向量索引库中在语义空间中相匹配的问答数据；

A3：将召回的问答数据输入到大语言模型中进行二次分类判断，滤除与相对应的文本分类标签的语义不匹配的问答数据，对与相对应的文本分类标签的语义匹配的问答数据进行标注后设置为标注数据；

A4：通过预设的关键词词库对属于同一文本分类标签的标注数据进行分类，采用句法分析工具为标注数据生成句法树，通过每个标注数据的句法树，捕获该标注数据的句法信息和语义信息并与该标注数据一一对应地存储；

A5：将属于同一关键词的若干个标注数据，若干个标注数据各自的句法信息，以及预设的正则表达式范式输入给大语言模型，生成若干个正则表达式，并存储至该关键词对应的文本分类标签的正则表达式集合内。

本发明工作时，能够充分挖掘大语言模型生成正则表达式的小样本学习能力，基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式，从而完成大语言模型的语义理解能力的转化，自由度高，分类准确度高。

作为优选，在所述步骤S1中，将经审核通过的正则表达式设置为白正则表达式，然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时，采用以下步骤：

B1：生成的若干个正则表达式经审核通过后设置为白正则表达式，存储至该文本分类标签的正则表达式集合内；

B2：采用文本分类标签的白正则表达式与无文本分类标签的问答数据进行正则表达式匹配；

B3：将匹配到的问答数据输入到大语言模型中进行二次分类判断，筛选出与相对应的文本分类标签的语义不匹配的问答数据，获取该问答数据的句法信息和预设的正则表达式范式后，输入给大语言模型，生成若干个黑正则表达式，并存储至该文本分类标签的正则表达式集合内。

本发明工作时，通过对正则表达式的审核，能够提高白正则表达式的鲁棒性，可以提高分类的准确度，同时通过大语言模型的二次分类判断，然后生成黑正则表达式，可以对错误匹配的文本分类标签进行滤除，进一步提高了文本分类的准确度。

作为优选，训练句向量推理模型时，采用以下步骤：

C1：将问答数据中具有相同答案或者同类答案的问题设置为正样本，将问答数据中不同答案或者不同类的问题设置为负样本；

C2：同一答案对应的若干个问题两两组合成正样本对，通过对比学习的方法采用正样本对和负样本微调基座模型，训练得到句向量推理模型。

本发明工作时，通过构造合适的训练集微调训练句向量推理模型，可以提高句向量推理模型与需要分类的文本数据的匹配度，生成语义上的向量表示时更加准确，且具有强烈的区分性，方便区分出正样本和负样本。

作为优选，建立向量索引库时，采用以下步骤：

D1：采用句向量推理模型为问答数据中的问题生成语义上的向量表示；

D2：采用哈希算法分别为每个问答数据中的问题生成对应的标识符；

D3：将若干个问题的向量表示与对应的标识符一一对应地存储为向量索引库。

本发明工作时，通过建立高效、可快速检索的向量索引库能够提高召回的效率，提高训练效率，能够进一步缩短训练周期。

作为优选，建立关键词词库时，采用以下步骤：

E1：采用分词工具对标注数据和问答数据进行分词，获取若干个词汇并存储为数据集；

E2：采用TF-IDF算法对数据集进行分析，对若干个词汇进行赋值；

E3：将权重值大于预设的关键词阈值的词汇设置为关键词；

E4：采用词嵌入技术对数据集进行训练，获取每个词汇的向量表示；

E5：对关键词进行扩充，基于向量表示的相似性，筛选出语义上相匹配的词汇，并存储为关键词词库。

本发明工作时，能够实现对训练数据的分词，并提取出关键词，通过建立关键词词库能够为大语言模型生成正则表达式时提供语义线索。

作为优选，在所述步骤S2中，获取需要分类的文本数据后，还包括数据预处理的步骤，通过若干个预设的预处理规则对需要分类的文本数据进行筛选，滤除与本次文本分类无关的文本数据。

作为优选，在所述步骤S3中，采用大语言模型对文本数据的语义完整度进行判断时，采用以下步骤，将预设的小样本学习语料和思维链提示词输入给大语言模型，大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。

本发明工作时，输入小样本学习语料和思维链提示词给大语言模型，可以充分发挥大语言模型的思维链能力，使得大语言模型能够全面地评估文本数据的语义完整度，准确度较高。

作为优选，在所述步骤S4中，根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签时，采用以下步骤：

F1：遍历所有文本分类标签的白正则表达式与需要分类的文本数据进行匹配，当该文本数据存在相匹配的白正则表达式时转入步骤F2，当该文本数据不存在相匹配的白正则表达式时结束文本分类；

F2：遍历所有与该文本数据相匹配的文本分类标签的黑正则表达式，当不存在匹配的黑正则表达式且该文本数据仅与一个文本分类标签的白正则表达式相匹配时，采用该文本分类标签为该文本数据进行标注，当不存在匹配的黑正则表达式且该文本数据与多个文本分类标签的若干个白正则表达式相匹配时，转入步骤F3，当存在匹配的黑正则表达式时转入步骤F4；

F3：采用预设的句向量推理模型为该文本数据生成语义上的向量表示，根据该文本数据的向量表示召回在语义空间中相匹配的标注数据，选取若干个带文本分类标签的标注数据，然后获取若干个文本分类标签的众数并将其设置为该文本数据的文本分类标签；

F4：将存在匹配的黑正则表达式的文本分类标签滤除后，当存在与多个文本分类标签的若干个白正则表达式相匹配时，转入步骤F3，当仅与一个文本分类标签的白正则表达式相匹配时，采用该文本分类标签为该文本数据进行标注，当不存在相匹配的文本分类标签时结束文本分类。

本发明的有益技术效果包括：

1、本发明通过大语言模型生成的正则表达式集合，能够快速且准确地完成文本数据的分类，同时根据白正则表达式和黑正则表达式与文本数据进行匹配，可以将错误匹配的文本分类标签滤除，能够进一步提高分类的准确度。

2、本发明能够充分挖掘大语言模型生成正则表达式的小样本学习能力，基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式，从而完成大语言模型的语义理解能力的转化，自由度高，分类准确度高。

3、本发明通过对正则表达式的审核，能够提高白正则表达式的鲁棒性，可以提高分类的准确度，同时通过大语言模型的二次分类判断，然后生成黑正则表达式，可以对错误匹配的文本分类标签进行滤除，进一步提高了文本分类的准确度。

4、本发明通过构造合适的训练集微调训练句向量推理模型，可以提高句向量推理模型与需要分类的文本数据的匹配度，生成语义上的向量表示时更加准确，且具有强烈的区分性，方便区分出正样本和负样本。

5、本发明采用输入小样本学习语料和思维链提示词给大语言模型，可以充分发挥大语言模型的思维链能力，使得大语言模型能够全面地评估文本数据的语义完整度，准确度较高。

本发明的其它特点和优点将会在下面的具体实施方式、附图中详细的揭露。

附图说明

下面结合附图对本发明做进一步的说明：

图1为一种基于大语言模型生成的正则表达式的文本分类方法的流程图；

图2为大语言模型生成正则表达式集合的流程图；

图3为大语言模型生成白正则表达式和黑正则表达式的流程图；

图4为实施例一的文本分类流程图。

具体实施方式

下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明，但下述实施例仅为本发明的优选实施例，并非全部。基于实施方式中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例，都属于本发明的保护范围。

实施例一：

请参阅附图1，本实施例公开了一种基于大语言模型生成的正则表达式的文本分类方法，包括以下步骤：

S2：获取需要分类的文本数据；

本实施例工作时，通过大语言模型生成的正则表达式集合，能够快速且准确地完成文本数据的分类，同时根据白正则表达式和黑正则表达式与文本数据进行匹配，可以将错误匹配的文本分类标签滤除，能够进一步提高分类的准确度。

较佳的，还包括以下步骤，获取带文本分类标签的标注数据和无文本分类标签的问答数据，每个问答数据均包括问题和答案，通过若干个预设的预处理规则对问答数据进行筛选，滤除与本次文本分类无关的问答数据。

本实施例工作时，通过将无关的问答数据滤除，能够提高训练的速度，缩短训练周期。

较佳的，在所述步骤S2中，获取需要分类的文本数据后，还包括数据预处理的步骤，通过若干个预设的预处理规则对需要分类的文本数据进行筛选，滤除与本次文本分类无关的文本数据。

在具体实施时，预设的预处理规则可以由人工定义，在本实施例中，可以采用以下规则将与本次文本分类无关的问答数据滤除，过滤纯数字、链接和非中文的数据，过滤长度大于32的长文本以及长度小于4的短文本数据，过滤订单号、地址和***消息等无效数据，也可以利用现有的电商通用问题集合，过滤掉电商通用问题，包括发货相关问题、下单和闲聊等。

请参阅附图2，较佳的，在所述步骤S1中，采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时，采用以下步骤：

本实施例工作时，能够充分挖掘大语言模型生成正则表达式的小样本学习能力，基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式，从而完成大语言模型的语义理解能力的转化，自由度高，分类准确度高。

在具体实施时，可以将下述提示词输入至大语言模型中生成正则表达式：

“标注数据1，正则表达式1；

标注数据2，正则表达式2；

标注数据3，正则表达式3。

参考上述标注数据的正则表达式，结合关键词：关键词1，和每个标注数据的句法信息，为下面这批待生成标注数据生成多个正确的正则表达式，并直接返回相关的正则表达式：

待生成标注数据1，句法信息1；

待生成标注数据2，句法信息2；

待生成标注数据3，句法信息3。”

请参阅附图3，较佳的，在所述步骤S1中，将经审核通过的正则表达式设置为白正则表达式，然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时，采用以下步骤：

本实施例工作时，通过对正则表达式的审核，能够提高白正则表达式的鲁棒性，可以提高分类的准确度，同时通过大语言模型的二次分类判断，然后生成黑正则表达式，可以对错误匹配的文本分类标签进行滤除，进一步提高了文本分类的准确度。

在具体实施时，可以将下述提示词输入至大语言模型中生成黑正则表达式：

“针对错误匹配标注数据1，在正则表达式匹配的正则的基础上，结合句法信息，生成具有更多限定的正则表达式，用于匹配该问句，并直接返回正则表达式。”

在本实施例中，大语言模型优选为ChatGLM-6B对话语言模型，当然也可以采用其它任意一种现有的大语言模型。

请参阅附图4，较佳的，在所述步骤S4中，根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签时，采用以下步骤：

实施例二：

本实施例提供了一种基于大语言模型生成的正则表达式的文本分类方法，与实施例一相同之处不在赘述。

本实施例还包括训练句向量推理模型的步骤：

本实施例工作时，通过构造合适的训练集微调训练句向量推理模型，可以提高句向量推理模型与需要分类的文本数据的匹配度，生成语义上的向量表示时更加准确，且具有强烈的区分性，方便区分出正样本和负样本。

在本实施例中，基座模型优选为ERNIE双向语义表示模型，在微调基座模型前，采用分词、添加特殊的开始和结束标记符，以及进行必要的填充或截断将训练数据转化为基座模型能够接收的数据，将选取的正样本对设置为正样本对，将选取的负样本设置为负样本

，可以得到其ERNIE的向量编码，记录为/>，同时定义相似函数为余弦相似度，即：

；

。

训练过程中的三元组损失函数可定义为：

；

其中：为间隔，其作用是尽量拉开正样本的相似度和负样本的相似度的差距，该值可以随着训练次数的迭代增加而动态衰减改变。

在微调优化过程中，需要找出模型参数θ以最小化所有样本对的损失函数的总和，即：

；

其中，是ERNIE模型的参数。

实施例三：

本实施例还包括建立向量索引库的步骤：

本实施例工作时，通过建立高效、可快速检索的向量索引库能够提高召回的效率，提高训练效率，能够进一步缩短训练周期。

在具体实施时，哈希算法优选为SHA-256哈希算法，同时可以利用FAISS库作为框架建立向量索引库，当然，也可以采用其它的任意一种现有的哈希算法或者库。

实施例四：

本实施例还包括建立关键词词库的步骤：

E3：将权重值大于预设的关键词阈值的词汇设置为关键词；

本实施例工作时，能够实现对训练数据的分词，并提取出关键词，通过建立关键词词库能够为大语言模型生成正则表达式时提供语义线索。

在具体实施时，分词工具优选为jieba，词嵌入技术优选为FastText或者GloVe，当然也可以根据实际需求选用任意一种现有的分词工具或者词嵌入技术。

实施例五：

本实施例在所述步骤S3中，采用大语言模型对文本数据的语义完整度进行判断时，采用以下步骤，将预设的小样本学习语料和思维链提示词输入给大语言模型，大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。

本实施例工作时，输入小样本学习语料和思维链提示词给大语言模型，可以充分发挥大语言模型的思维链能力，使得大语言模型能够全面地评估文本数据的语义完整度，准确度较高。

在具体实施时，相关的思维链提示词可采用对象、部位以及属性等，例如可采用下述思维链提示词实现语义完整度的判断：

“例句1：这款面霜是否会过敏；

思维链提示词：这句话重点在于客户询问面霜是否会过敏，产品是面霜，产品特性是是否会过敏，因此完整表达了客户的询问意图；

结论：完整。

例句2：我皮肤太干了；

思维链提示词：这句话重点在于客户陈述自身的皮肤状态，描述对象是自己，部位是皮肤，属性是干，因此完整表达了客户的询问意图；

结论：完整。

例句3：我不喜欢脸上湿湿的感觉；

思维链提示词：这句话重点在于客户陈述自身的喜好，描述对象是自己，部位是脸，属性是湿，情绪是不喜欢，因此完整表达了客户的询问意图；

结论：完整。

例句4：这款是啥？能用；

思维链提示词：这句话重点在于客户询问产品的可用性，描述产品不清晰，询问用途不清晰，情绪是负向，有可能是表达不满，也有可能是询问产品功能功效，需要结合上下文分析用户此时的询问意图；

结论：不完整。

例句5：你这个不行啊；

思维链提示词：这句话重点在于客户表达产品不行，描述产品不清晰，情绪是负向，有可能是表达不满，也有可能是询问产品功能功效，需要结合上下文分析用户此时的询问意图；

结论：不完整。

结合上述几个例句的语义完整度推理分析的过程，以及最终的语义完整度的结论，详细推导下面这句话的语义完整度，并给出结论，完整或不完整：文本数据。”

本发明的有益技术效果包括：本发明通过大语言模型生成的正则表达式集合，能够快速且准确地完成文本数据的分类，同时根据白正则表达式和黑正则表达式与文本数据进行匹配，可以将错误匹配的文本分类标签滤除，能够进一步提高分类的准确度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，包括以下步骤：

S2：获取需要分类的文本数据；

2.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，还包括以下步骤，获取带文本分类标签的标注数据和无文本分类标签的问答数据，每个问答数据均包括问题和答案，通过若干个预设的预处理规则对问答数据进行筛选，滤除与本次文本分类无关的问答数据。

3.根据权利要求2所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，在所述步骤S1中，采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时，采用以下步骤：

4.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，在所述步骤S1中，将经审核通过的正则表达式设置为白正则表达式，然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时，采用以下步骤：

5.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，训练句向量推理模型时，采用以下步骤：

6.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，建立向量索引库时，采用以下步骤：

7.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，建立关键词词库时，采用以下步骤：

E3：将权重值大于预设的关键词阈值的词汇设置为关键词；

8.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，在所述步骤S2中，获取需要分类的文本数据后，还包括数据预处理的步骤，通过若干个预设的预处理规则对需要分类的文本数据进行筛选，滤除与本次文本分类无关的文本数据。

9.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，在所述步骤S3中，采用大语言模型对文本数据的语义完整度进行判断时，采用以下步骤，将预设的小样本学习语料和思维链提示词输入给大语言模型，大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。

10.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法，其特征在于，在所述步骤S4中，根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配，根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除，然后为该文本数据添加匹配的文本分类标签时，采用以下步骤：