CN117556049A - 一种基于大语言模型生成的正则表达式的文本分类方法 - Google Patents

一种基于大语言模型生成的正则表达式的文本分类方法 Download PDF

Info

Publication number
CN117556049A
CN117556049A CN202410034646.5A CN202410034646A CN117556049A CN 117556049 A CN117556049 A CN 117556049A CN 202410034646 A CN202410034646 A CN 202410034646A CN 117556049 A CN117556049 A CN 117556049A
Authority
CN
China
Prior art keywords
data
text
text classification
regular expressions
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410034646.5A
Other languages
English (en)
Other versions
CN117556049B (zh
Inventor
谭光华
陈禹
林庭羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Guangyun Technology Co ltd
Original Assignee
Hangzhou Guangyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Guangyun Technology Co ltd filed Critical Hangzhou Guangyun Technology Co ltd
Priority to CN202410034646.5A priority Critical patent/CN117556049B/zh
Publication of CN117556049A publication Critical patent/CN117556049A/zh
Application granted granted Critical
Publication of CN117556049B publication Critical patent/CN117556049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本分类技术领域,具体涉及一种基于大语言模型生成的正则表达式的文本分类方法,包括以下步骤:S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个分类标签的白正则表达式和黑正则表达式的正则表达式集合;S2:获取需要分类的文本数据;S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。本发明应用正则表达式集合实现文本数据的分类,分类的准确度高。

Description

一种基于大语言模型生成的正则表达式的文本分类方法
技术领域
本发明涉及文本分类技术领域,具体涉及一种基于大语言模型生成的正则表达式的文本分类方法。
背景技术
随着大数据和机器学习技术的飞速发展,文本分类已经成为自然语言处理领域的重要研究方向,传统的文本分类方法主要依赖于模型的训练和对关键词的提取,这通常需要海量的训练数据来确保分类的准确性,如中国专利公开的一种基于大语言模型的中文超长文本的分类方法(公开号:CN116821348A),该专利技术中以大语言模型为基础,提取关键词,并根据关键词在历史文本归类信息表中的分类信息,判定文本的分类信息,该分类方法不需要对文本进行整体解读,只需对提取的关键词进行分析处理即可,可以极大降低计算机的运算量,从而提升文本分类的速度和效率,但当遇到冷启动问题,即在某一新的领域或特定场景下,没有足够的数据支持模型的训练时,大语言模型提取关键词的效率较低,同时通过提取关键词的方法,容易导致识别到的语义与实际要表达的语义不匹配的情况出现,文本分类的准确度较低。
发明内容
本发明所要解决的技术问题:现有的文本分类方法数据依赖性强,且通过提取关键词进行分类的方法,准确度较低。
为解决上述技术问题,本发明采用如下技术方案:一种基于大语言模型生成的正则表达式的文本分类方法,包括以下步骤:
S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式;
S2:获取需要分类的文本数据;
S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;
S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。
本发明工作时,通过大语言模型生成的正则表达式集合,能够快速且准确地完成文本数据的分类,同时根据白正则表达式和黑正则表达式与文本数据进行匹配,可以将错误匹配的文本分类标签滤除,能够进一步提高分类的准确度。
作为优选,还包括以下步骤,获取带文本分类标签的标注数据和无文本分类标签的问答数据,每个问答数据均包括问题和答案,通过若干个预设的预处理规则对问答数据进行筛选,滤除与本次文本分类无关的问答数据。
本发明工作时,通过将无关的问答数据滤除,能够提高训练的速度,缩短训练周期。
作为优选,在所述步骤S1中,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时,采用以下步骤:
A1:采用预设的句向量推理模型为标注数据生成语义上的向量表示;
A2:根据每个标注数据的向量表示召回预设的向量索引库中在语义空间中相匹配的问答数据;
A3:将召回的问答数据输入到大语言模型中进行二次分类判断,滤除与相对应的文本分类标签的语义不匹配的问答数据,对与相对应的文本分类标签的语义匹配的问答数据进行标注后设置为标注数据;
A4:通过预设的关键词词库对属于同一文本分类标签的标注数据进行分类,采用句法分析工具为标注数据生成句法树,通过每个标注数据的句法树,捕获该标注数据的句法信息和语义信息并与该标注数据一一对应地存储;
A5:将属于同一关键词的若干个标注数据,若干个标注数据各自的句法信息,以及预设的正则表达式范式输入给大语言模型,生成若干个正则表达式,并存储至该关键词对应的文本分类标签的正则表达式集合内。
本发明工作时,能够充分挖掘大语言模型生成正则表达式的小样本学习能力,基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式,从而完成大语言模型的语义理解能力的转化,自由度高,分类准确度高。
作为优选,在所述步骤S1中,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时,采用以下步骤:
B1:生成的若干个正则表达式经审核通过后设置为白正则表达式,存储至该文本分类标签的正则表达式集合内;
B2:采用文本分类标签的白正则表达式与无文本分类标签的问答数据进行正则表达式匹配;
B3:将匹配到的问答数据输入到大语言模型中进行二次分类判断,筛选出与相对应的文本分类标签的语义不匹配的问答数据,获取该问答数据的句法信息和预设的正则表达式范式后,输入给大语言模型,生成若干个黑正则表达式,并存储至该文本分类标签的正则表达式集合内。
本发明工作时,通过对正则表达式的审核,能够提高白正则表达式的鲁棒性,可以提高分类的准确度,同时通过大语言模型的二次分类判断,然后生成黑正则表达式,可以对错误匹配的文本分类标签进行滤除,进一步提高了文本分类的准确度。
作为优选,训练句向量推理模型时,采用以下步骤:
C1:将问答数据中具有相同答案或者同类答案的问题设置为正样本,将问答数据中不同答案或者不同类的问题设置为负样本;
C2:同一答案对应的若干个问题两两组合成正样本对,通过对比学习的方法采用正样本对和负样本微调基座模型,训练得到句向量推理模型。
本发明工作时,通过构造合适的训练集微调训练句向量推理模型,可以提高句向量推理模型与需要分类的文本数据的匹配度,生成语义上的向量表示时更加准确,且具有强烈的区分性,方便区分出正样本和负样本。
作为优选,建立向量索引库时,采用以下步骤:
D1:采用句向量推理模型为问答数据中的问题生成语义上的向量表示;
D2:采用哈希算法分别为每个问答数据中的问题生成对应的标识符;
D3:将若干个问题的向量表示与对应的标识符一一对应地存储为向量索引库。
本发明工作时,通过建立高效、可快速检索的向量索引库能够提高召回的效率,提高训练效率,能够进一步缩短训练周期。
作为优选,建立关键词词库时,采用以下步骤:
E1:采用分词工具对标注数据和问答数据进行分词,获取若干个词汇并存储为数据集;
E2:采用TF-IDF算法对数据集进行分析,对若干个词汇进行赋值;
E3:将权重值大于预设的关键词阈值的词汇设置为关键词;
E4:采用词嵌入技术对数据集进行训练,获取每个词汇的向量表示;
E5:对关键词进行扩充,基于向量表示的相似性,筛选出语义上相匹配的词汇,并存储为关键词词库。
本发明工作时,能够实现对训练数据的分词,并提取出关键词,通过建立关键词词库能够为大语言模型生成正则表达式时提供语义线索。
作为优选,在所述步骤S2中,获取需要分类的文本数据后,还包括数据预处理的步骤,通过若干个预设的预处理规则对需要分类的文本数据进行筛选,滤除与本次文本分类无关的文本数据。
作为优选,在所述步骤S3中,采用大语言模型对文本数据的语义完整度进行判断时,采用以下步骤,将预设的小样本学习语料和思维链提示词输入给大语言模型,大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。
本发明工作时,输入小样本学习语料和思维链提示词给大语言模型,可以充分发挥大语言模型的思维链能力,使得大语言模型能够全面地评估文本数据的语义完整度,准确度较高。
作为优选,在所述步骤S4中,根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签时,采用以下步骤:
F1:遍历所有文本分类标签的白正则表达式与需要分类的文本数据进行匹配,当该文本数据存在相匹配的白正则表达式时转入步骤F2,当该文本数据不存在相匹配的白正则表达式时结束文本分类;
F2:遍历所有与该文本数据相匹配的文本分类标签的黑正则表达式,当不存在匹配的黑正则表达式且该文本数据仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在匹配的黑正则表达式且该文本数据与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当存在匹配的黑正则表达式时转入步骤F4;
F3:采用预设的句向量推理模型为该文本数据生成语义上的向量表示,根据该文本数据的向量表示召回在语义空间中相匹配的标注数据,选取若干个带文本分类标签的标注数据,然后获取若干个文本分类标签的众数并将其设置为该文本数据的文本分类标签;
F4:将存在匹配的黑正则表达式的文本分类标签滤除后,当存在与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在相匹配的文本分类标签时结束文本分类。
本发明的有益技术效果包括:
1、本发明通过大语言模型生成的正则表达式集合,能够快速且准确地完成文本数据的分类,同时根据白正则表达式和黑正则表达式与文本数据进行匹配,可以将错误匹配的文本分类标签滤除,能够进一步提高分类的准确度。
2、本发明能够充分挖掘大语言模型生成正则表达式的小样本学习能力,基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式,从而完成大语言模型的语义理解能力的转化,自由度高,分类准确度高。
3、本发明通过对正则表达式的审核,能够提高白正则表达式的鲁棒性,可以提高分类的准确度,同时通过大语言模型的二次分类判断,然后生成黑正则表达式,可以对错误匹配的文本分类标签进行滤除,进一步提高了文本分类的准确度。
4、本发明通过构造合适的训练集微调训练句向量推理模型,可以提高句向量推理模型与需要分类的文本数据的匹配度,生成语义上的向量表示时更加准确,且具有强烈的区分性,方便区分出正样本和负样本。
5、本发明采用输入小样本学习语料和思维链提示词给大语言模型,可以充分发挥大语言模型的思维链能力,使得大语言模型能够全面地评估文本数据的语义完整度,准确度较高。
本发明的其它特点和优点将会在下面的具体实施方式、附图中详细的揭露。
附图说明
下面结合附图对本发明做进一步的说明:
图1为一种基于大语言模型生成的正则表达式的文本分类方法的流程图;
图2为大语言模型生成正则表达式集合的流程图;
图3为大语言模型生成白正则表达式和黑正则表达式的流程图;
图4为实施例一的文本分类流程图。
具体实施方式
下面结合本发明实施例的附图对本发明实施例的技术方案进行解释和说明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。
实施例一:
请参阅附图1,本实施例公开了一种基于大语言模型生成的正则表达式的文本分类方法,包括以下步骤:
S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式;
S2:获取需要分类的文本数据;
S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;
S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。
本实施例工作时,通过大语言模型生成的正则表达式集合,能够快速且准确地完成文本数据的分类,同时根据白正则表达式和黑正则表达式与文本数据进行匹配,可以将错误匹配的文本分类标签滤除,能够进一步提高分类的准确度。
较佳的,还包括以下步骤,获取带文本分类标签的标注数据和无文本分类标签的问答数据,每个问答数据均包括问题和答案,通过若干个预设的预处理规则对问答数据进行筛选,滤除与本次文本分类无关的问答数据。
本实施例工作时,通过将无关的问答数据滤除,能够提高训练的速度,缩短训练周期。
较佳的,在所述步骤S2中,获取需要分类的文本数据后,还包括数据预处理的步骤,通过若干个预设的预处理规则对需要分类的文本数据进行筛选,滤除与本次文本分类无关的文本数据。
在具体实施时,预设的预处理规则可以由人工定义,在本实施例中,可以采用以下规则将与本次文本分类无关的问答数据滤除,过滤纯数字、链接和非中文的数据,过滤长度大于32的长文本以及长度小于4的短文本数据,过滤订单号、地址和***消息等无效数据,也可以利用现有的电商通用问题集合,过滤掉电商通用问题,包括发货相关问题、下单和闲聊等。
请参阅附图2,较佳的,在所述步骤S1中,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时,采用以下步骤:
A1:采用预设的句向量推理模型为标注数据生成语义上的向量表示;
A2:根据每个标注数据的向量表示召回预设的向量索引库中在语义空间中相匹配的问答数据;
A3:将召回的问答数据输入到大语言模型中进行二次分类判断,滤除与相对应的文本分类标签的语义不匹配的问答数据,对与相对应的文本分类标签的语义匹配的问答数据进行标注后设置为标注数据;
A4:通过预设的关键词词库对属于同一文本分类标签的标注数据进行分类,采用句法分析工具为标注数据生成句法树,通过每个标注数据的句法树,捕获该标注数据的句法信息和语义信息并与该标注数据一一对应地存储;
A5:将属于同一关键词的若干个标注数据,若干个标注数据各自的句法信息,以及预设的正则表达式范式输入给大语言模型,生成若干个正则表达式,并存储至该关键词对应的文本分类标签的正则表达式集合内。
本实施例工作时,能够充分挖掘大语言模型生成正则表达式的小样本学习能力,基于正则表达式范式可以通过大语言模型快速且高效地生成针对特定文本的正则表达式,从而完成大语言模型的语义理解能力的转化,自由度高,分类准确度高。
在具体实施时,可以将下述提示词输入至大语言模型中生成正则表达式:
“标注数据1,正则表达式1;
标注数据2,正则表达式2;
标注数据3,正则表达式3。
参考上述标注数据的正则表达式,结合关键词:关键词1,和每个标注数据的句法信息,为下面这批待生成标注数据生成多个正确的正则表达式,并直接返回相关的正则表达式:
待生成标注数据1,句法信息1;
待生成标注数据2,句法信息2;
待生成标注数据3,句法信息3。”
请参阅附图3,较佳的,在所述步骤S1中,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时,采用以下步骤:
B1:生成的若干个正则表达式经审核通过后设置为白正则表达式,存储至该文本分类标签的正则表达式集合内;
B2:采用文本分类标签的白正则表达式与无文本分类标签的问答数据进行正则表达式匹配;
B3:将匹配到的问答数据输入到大语言模型中进行二次分类判断,筛选出与相对应的文本分类标签的语义不匹配的问答数据,获取该问答数据的句法信息和预设的正则表达式范式后,输入给大语言模型,生成若干个黑正则表达式,并存储至该文本分类标签的正则表达式集合内。
本实施例工作时,通过对正则表达式的审核,能够提高白正则表达式的鲁棒性,可以提高分类的准确度,同时通过大语言模型的二次分类判断,然后生成黑正则表达式,可以对错误匹配的文本分类标签进行滤除,进一步提高了文本分类的准确度。
在具体实施时,可以将下述提示词输入至大语言模型中生成黑正则表达式:
“针对错误匹配标注数据1,在正则表达式匹配的正则的基础上,结合句法信息,生成具有更多限定的正则表达式,用于匹配该问句,并直接返回正则表达式。”
在本实施例中,大语言模型优选为ChatGLM-6B对话语言模型,当然也可以采用其它任意一种现有的大语言模型。
请参阅附图4,较佳的,在所述步骤S4中,根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签时,采用以下步骤:
F1:遍历所有文本分类标签的白正则表达式与需要分类的文本数据进行匹配,当该文本数据存在相匹配的白正则表达式时转入步骤F2,当该文本数据不存在相匹配的白正则表达式时结束文本分类;
F2:遍历所有与该文本数据相匹配的文本分类标签的黑正则表达式,当不存在匹配的黑正则表达式且该文本数据仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在匹配的黑正则表达式且该文本数据与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当存在匹配的黑正则表达式时转入步骤F4;
F3:采用预设的句向量推理模型为该文本数据生成语义上的向量表示,根据该文本数据的向量表示召回在语义空间中相匹配的标注数据,选取若干个带文本分类标签的标注数据,然后获取若干个文本分类标签的众数并将其设置为该文本数据的文本分类标签;
F4:将存在匹配的黑正则表达式的文本分类标签滤除后,当存在与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在相匹配的文本分类标签时结束文本分类。
实施例二:
本实施例提供了一种基于大语言模型生成的正则表达式的文本分类方法,与实施例一相同之处不在赘述。
本实施例还包括训练句向量推理模型的步骤:
C1:将问答数据中具有相同答案或者同类答案的问题设置为正样本,将问答数据中不同答案或者不同类的问题设置为负样本;
C2:同一答案对应的若干个问题两两组合成正样本对,通过对比学习的方法采用正样本对和负样本微调基座模型,训练得到句向量推理模型。
本实施例工作时,通过构造合适的训练集微调训练句向量推理模型,可以提高句向量推理模型与需要分类的文本数据的匹配度,生成语义上的向量表示时更加准确,且具有强烈的区分性,方便区分出正样本和负样本。
在本实施例中,基座模型优选为ERNIE双向语义表示模型,在微调基座模型前,采用分词、添加特殊的开始和结束标记符,以及进行必要的填充或截断将训练数据转化为基座模型能够接收的数据,将选取的正样本对设置为正样本对,将选取的负样本设置为负样本
,可以得到其ERNIE的向量编码,记录为/>,同时定义相似函数为余弦相似度,即:
训练过程中的三元组损失函数可定义为:
其中:为间隔,其作用是尽量拉开正样本的相似度和负样本的相似度的差距,该值可以随着训练次数的迭代增加而动态衰减改变。
在微调优化过程中,需要找出模型参数θ以最小化所有样本对的损失函数的总和,即:
其中,是ERNIE模型的参数。
实施例三:
本实施例提供了一种基于大语言模型生成的正则表达式的文本分类方法,与实施例一相同之处不在赘述。
本实施例还包括建立向量索引库的步骤:
D1:采用句向量推理模型为问答数据中的问题生成语义上的向量表示;
D2:采用哈希算法分别为每个问答数据中的问题生成对应的标识符;
D3:将若干个问题的向量表示与对应的标识符一一对应地存储为向量索引库。
本实施例工作时,通过建立高效、可快速检索的向量索引库能够提高召回的效率,提高训练效率,能够进一步缩短训练周期。
在具体实施时,哈希算法优选为SHA-256哈希算法,同时可以利用FAISS库作为框架建立向量索引库,当然,也可以采用其它的任意一种现有的哈希算法或者库。
实施例四:
本实施例提供了一种基于大语言模型生成的正则表达式的文本分类方法,与实施例一相同之处不在赘述。
本实施例还包括建立关键词词库的步骤:
E1:采用分词工具对标注数据和问答数据进行分词,获取若干个词汇并存储为数据集;
E2:采用TF-IDF算法对数据集进行分析,对若干个词汇进行赋值;
E3:将权重值大于预设的关键词阈值的词汇设置为关键词;
E4:采用词嵌入技术对数据集进行训练,获取每个词汇的向量表示;
E5:对关键词进行扩充,基于向量表示的相似性,筛选出语义上相匹配的词汇,并存储为关键词词库。
本实施例工作时,能够实现对训练数据的分词,并提取出关键词,通过建立关键词词库能够为大语言模型生成正则表达式时提供语义线索。
在具体实施时,分词工具优选为jieba,词嵌入技术优选为FastText或者GloVe,当然也可以根据实际需求选用任意一种现有的分词工具或者词嵌入技术。
实施例五:
本实施例提供了一种基于大语言模型生成的正则表达式的文本分类方法,与实施例一相同之处不在赘述。
本实施例在所述步骤S3中,采用大语言模型对文本数据的语义完整度进行判断时,采用以下步骤,将预设的小样本学习语料和思维链提示词输入给大语言模型,大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。
本实施例工作时,输入小样本学习语料和思维链提示词给大语言模型,可以充分发挥大语言模型的思维链能力,使得大语言模型能够全面地评估文本数据的语义完整度,准确度较高。
在具体实施时,相关的思维链提示词可采用对象、部位以及属性等,例如可采用下述思维链提示词实现语义完整度的判断:
“例句1:这款面霜是否会过敏;
思维链提示词:这句话重点在于客户询问面霜是否会过敏,产品是面霜,产品特性是是否会过敏,因此完整表达了客户的询问意图;
结论:完整。
例句2:我皮肤太干了;
思维链提示词:这句话重点在于客户陈述自身的皮肤状态,描述对象是自己,部位是皮肤,属性是干,因此完整表达了客户的询问意图;
结论:完整。
例句3:我不喜欢脸上湿湿的感觉;
思维链提示词:这句话重点在于客户陈述自身的喜好,描述对象是自己,部位是脸,属性是湿,情绪是不喜欢,因此完整表达了客户的询问意图;
结论:完整。
例句4:这款是啥?能用;
思维链提示词:这句话重点在于客户询问产品的可用性,描述产品不清晰,询问用途不清晰,情绪是负向,有可能是表达不满,也有可能是询问产品功能功效,需要结合上下文分析用户此时的询问意图;
结论:不完整。
例句5:你这个不行啊;
思维链提示词:这句话重点在于客户表达产品不行,描述产品不清晰,情绪是负向,有可能是表达不满,也有可能是询问产品功能功效,需要结合上下文分析用户此时的询问意图;
结论:不完整。
结合上述几个例句的语义完整度推理分析的过程,以及最终的语义完整度的结论,详细推导下面这句话的语义完整度,并给出结论,完整或不完整:文本数据。”
本发明的有益技术效果包括:本发明通过大语言模型生成的正则表达式集合,能够快速且准确地完成文本数据的分类,同时根据白正则表达式和黑正则表达式与文本数据进行匹配,可以将错误匹配的文本分类标签滤除,能够进一步提高分类的准确度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims (10)

1.一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,包括以下步骤:
S1:初始化文本分类方法,定义文本分类标签,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式;
S2:获取需要分类的文本数据;
S3:采用大语言模型对文本数据的语义完整度进行判断,将语义不完整的文本数据滤除;
S4:根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签。
2.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,还包括以下步骤,获取带文本分类标签的标注数据和无文本分类标签的问答数据,每个问答数据均包括问题和答案,通过若干个预设的预处理规则对问答数据进行筛选,滤除与本次文本分类无关的问答数据。
3.根据权利要求2所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,在所述步骤S1中,采用大语言模型生成包括若干个文本分类标签各自的正则表达式的正则表达式集合时,采用以下步骤:
A1:采用预设的句向量推理模型为标注数据生成语义上的向量表示;
A2:根据每个标注数据的向量表示召回预设的向量索引库中在语义空间中相匹配的问答数据;
A3:将召回的问答数据输入到大语言模型中进行二次分类判断,滤除与相对应的文本分类标签的语义不匹配的问答数据,对与相对应的文本分类标签的语义匹配的问答数据进行标注后设置为标注数据;
A4:通过预设的关键词词库对属于同一文本分类标签的标注数据进行分类,采用句法分析工具为标注数据生成句法树,通过每个标注数据的句法树,捕获该标注数据的句法信息和语义信息并与该标注数据一一对应地存储;
A5:将属于同一关键词的若干个标注数据,若干个标注数据各自的句法信息,以及预设的正则表达式范式输入给大语言模型,生成若干个正则表达式,并存储至该关键词对应的文本分类标签的正则表达式集合内。
4.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,在所述步骤S1中,将经审核通过的正则表达式设置为白正则表达式,然后根据白正则表达式采用大语言模型生成相对应的黑正则表达式时,采用以下步骤:
B1:生成的若干个正则表达式经审核通过后设置为白正则表达式,存储至该文本分类标签的正则表达式集合内;
B2:采用文本分类标签的白正则表达式与无文本分类标签的问答数据进行正则表达式匹配;
B3:将匹配到的问答数据输入到大语言模型中进行二次分类判断,筛选出与相对应的文本分类标签的语义不匹配的问答数据,获取该问答数据的句法信息和预设的正则表达式范式后,输入给大语言模型,生成若干个黑正则表达式,并存储至该文本分类标签的正则表达式集合内。
5.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,训练句向量推理模型时,采用以下步骤:
C1:将问答数据中具有相同答案或者同类答案的问题设置为正样本,将问答数据中不同答案或者不同类的问题设置为负样本;
C2:同一答案对应的若干个问题两两组合成正样本对,通过对比学习的方法采用正样本对和负样本微调基座模型,训练得到句向量推理模型。
6.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,建立向量索引库时,采用以下步骤:
D1:采用句向量推理模型为问答数据中的问题生成语义上的向量表示;
D2:采用哈希算法分别为每个问答数据中的问题生成对应的标识符;
D3:将若干个问题的向量表示与对应的标识符一一对应地存储为向量索引库。
7.根据权利要求3所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,建立关键词词库时,采用以下步骤:
E1:采用分词工具对标注数据和问答数据进行分词,获取若干个词汇并存储为数据集;
E2:采用TF-IDF算法对数据集进行分析,对若干个词汇进行赋值;
E3:将权重值大于预设的关键词阈值的词汇设置为关键词;
E4:采用词嵌入技术对数据集进行训练,获取每个词汇的向量表示;
E5:对关键词进行扩充,基于向量表示的相似性,筛选出语义上相匹配的词汇,并存储为关键词词库。
8.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,在所述步骤S2中,获取需要分类的文本数据后,还包括数据预处理的步骤,通过若干个预设的预处理规则对需要分类的文本数据进行筛选,滤除与本次文本分类无关的文本数据。
9.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,在所述步骤S3中,采用大语言模型对文本数据的语义完整度进行判断时,采用以下步骤,将预设的小样本学习语料和思维链提示词输入给大语言模型,大语言模型利用预设的思维链提示词对需要分类的文本数据的语义完整度进行判断。
10.根据权利要求1所述的一种基于大语言模型生成的正则表达式的文本分类方法,其特征在于,在所述步骤S4中,根据正则表达式集合中的若干个白正则表达式与文本数据进行匹配,根据正则表达式集合中的若干个黑正则表达式对与文本数据不匹配的文本分类标签进行滤除,然后为该文本数据添加匹配的文本分类标签时,采用以下步骤:
F1:遍历所有文本分类标签的白正则表达式与需要分类的文本数据进行匹配,当该文本数据存在相匹配的白正则表达式时转入步骤F2,当该文本数据不存在相匹配的白正则表达式时结束文本分类;
F2:遍历所有与该文本数据相匹配的文本分类标签的黑正则表达式,当不存在匹配的黑正则表达式且该文本数据仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在匹配的黑正则表达式且该文本数据与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当存在匹配的黑正则表达式时转入步骤F4;
F3:采用预设的句向量推理模型为该文本数据生成语义上的向量表示,根据该文本数据的向量表示召回在语义空间中相匹配的标注数据,选取若干个带文本分类标签的标注数据,然后获取若干个文本分类标签的众数并将其设置为该文本数据的文本分类标签;
F4:将存在匹配的黑正则表达式的文本分类标签滤除后,当存在与多个文本分类标签的若干个白正则表达式相匹配时,转入步骤F3,当仅与一个文本分类标签的白正则表达式相匹配时,采用该文本分类标签为该文本数据进行标注,当不存在相匹配的文本分类标签时结束文本分类。
CN202410034646.5A 2024-01-10 2024-01-10 一种基于大语言模型生成的正则表达式的文本分类方法 Active CN117556049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410034646.5A CN117556049B (zh) 2024-01-10 2024-01-10 一种基于大语言模型生成的正则表达式的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410034646.5A CN117556049B (zh) 2024-01-10 2024-01-10 一种基于大语言模型生成的正则表达式的文本分类方法

Publications (2)

Publication Number Publication Date
CN117556049A true CN117556049A (zh) 2024-02-13
CN117556049B CN117556049B (zh) 2024-05-17

Family

ID=89820826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410034646.5A Active CN117556049B (zh) 2024-01-10 2024-01-10 一种基于大语言模型生成的正则表达式的文本分类方法

Country Status (1)

Country Link
CN (1) CN117556049B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
US20180165607A1 (en) * 2015-08-31 2018-06-14 Trend Micro Incorporated Domain classification
CN108182234A (zh) * 2017-12-27 2018-06-19 中科鼎富(北京)科技发展有限公司 正则表达式筛选方法和装置
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN113761903A (zh) * 2020-06-05 2021-12-07 国家计算机网络与信息安全管理中心 一种针对海量高噪音口语化短文本的文本筛选方法
CN114595332A (zh) * 2022-03-30 2022-06-07 阳光保险集团股份有限公司 文本分类的预测方法、装置和电子设备
US20220180202A1 (en) * 2019-09-12 2022-06-09 Huawei Technologies Co., Ltd. Text processing model training method, and text processing method and apparatus
CN114818891A (zh) * 2022-04-14 2022-07-29 人民网股份有限公司 小样本多标签文本分类模型训练方法及文本分类方法
CN116561311A (zh) * 2023-04-21 2023-08-08 武汉大学 基于大语言模型的引文文本自动分类方法
US11748577B1 (en) * 2022-08-22 2023-09-05 Rohirrim, Inc. Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
US20230419037A1 (en) * 2022-06-24 2023-12-28 Salesforce, Inc. Systems and methods for text classification using label modular prompts

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
US20180165607A1 (en) * 2015-08-31 2018-06-14 Trend Micro Incorporated Domain classification
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法
CN108182234A (zh) * 2017-12-27 2018-06-19 中科鼎富(北京)科技发展有限公司 正则表达式筛选方法和装置
US20220180202A1 (en) * 2019-09-12 2022-06-09 Huawei Technologies Co., Ltd. Text processing model training method, and text processing method and apparatus
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN113761903A (zh) * 2020-06-05 2021-12-07 国家计算机网络与信息安全管理中心 一种针对海量高噪音口语化短文本的文本筛选方法
CN112364660A (zh) * 2020-10-27 2021-02-12 中国平安人寿保险股份有限公司 语料文本处理方法、装置、计算机设备及存储介质
CN114595332A (zh) * 2022-03-30 2022-06-07 阳光保险集团股份有限公司 文本分类的预测方法、装置和电子设备
CN114818891A (zh) * 2022-04-14 2022-07-29 人民网股份有限公司 小样本多标签文本分类模型训练方法及文本分类方法
US20230419037A1 (en) * 2022-06-24 2023-12-28 Salesforce, Inc. Systems and methods for text classification using label modular prompts
US11748577B1 (en) * 2022-08-22 2023-09-05 Rohirrim, Inc. Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models
CN116561311A (zh) * 2023-04-21 2023-08-08 武汉大学 基于大语言模型的引文文本自动分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD ARSLAN ETC.: "Enabling Digital Transformation through Business Text Classification with Small Datasets", 《 2023 15TH INTERNATIONAL CONFERENCE ON INNOVATIONS IN INFORMATION TECHNOLOGY (IIT)》, 25 December 2023 (2023-12-25), pages 38 - 42 *
PENA, A ETC.: "Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs", 《 ARXIV》, 1 September 2023 (2023-09-01), pages 1 - 12 *
吴薇: "大规模短文本的分类过滤方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 May 2007 (2007-05-15), pages 138 - 1565 *
黄敏婷 等: "基于医学大数据的预训练语言模型及其医学文本分类研究", 《中华医学图书情报杂志》, 31 December 2020 (2020-12-31), pages 39 - 46 *

Also Published As

Publication number Publication date
CN117556049B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN111143531A (zh) 一种问答对构建方法、***、装置及计算机可读存储介质
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及***
CN117390169B (zh) 表格数据问答方法、装置、设备及存储介质
CN112115252A (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN112347339A (zh) 一种搜索结果处理方法及装置
CN114997181A (zh) 一种基于用户反馈修正的智能问答方法及***
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
Wax Automated grammar engineering for verbal morphology
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测***
CN117216226A (zh) 一种知识定位方法、装置、存储介质及设备
CN116049376B (zh) 一种信创知识检索回复的方法、装置和***
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN117556049B (zh) 一种基于大语言模型生成的正则表达式的文本分类方法
CN116415598A (zh) 文本翻译方法、装置、设备和存储介质
CN116244277A (zh) 一种nlp识别与知识库构建方法及***
CN112052311B (zh) 一种基于词向量技术和知识图谱检索的短文本问答方法
CN114117069A (zh) 一种用于知识图谱智能问答的语义理解方法及***
CN114169325A (zh) 基于词向量表征的网页新词发现和解析方法
Sakhare A Sequence-to-Sequence Text Summarization Using Long Short-Term Memory Based Neural Approach
CN113157887B (zh) 知识问答意图识别方法、装置、及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant