CN117744652A

CN117744652A - 一种基于大语言模型的领域特征词挖掘方法和装置

Info

Publication number: CN117744652A
Application number: CN202311784350.7A
Authority: CN
Inventors: 任禾; 刘升平; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2023-12-23
Filing date: 2023-12-23
Publication date: 2024-03-22

Abstract

本发明涉及一种基于大语言模型的领域特征词挖掘方法和装置，该方法包括：获取领域文档；通过大语言模型生成领域文档的候选特征词；对领域文档的候选特征词进行去重处理；计算每一个候选特征词在不同类别的信息熵；根据信息熵的大小对候选特征词进行筛选得到领域特征词。本发明通过大语言模型提取领域文档关键词的能力提取领域文档的候选特征词，对领域文档的候选特征词进行去重处理使得后续对候选特征词进行筛选更快捷，以信息熵的领域区分能力对候选特征词进行筛选得到领域特征词，实现了领域特征词自动化、高质量和高效率的挖掘，降低了人工操作成本，保证了领域特征词的质量。

Description

一种基于大语言模型的领域特征词挖掘方法和装置

技术领域

本发明涉及特征词挖掘技术领域，具体涉及一种基于大语言模型的领域特征词挖掘方法和装置。

背景技术

在海量文本处理过程中，快速收集某个类别的特征词是非常重要的，因为这样能够大大优化文本分类的准确率。目前主要结合TF-IDF(词频-逆文档频率)的方法来从领域文档中抽取特征词，然后再通过人工分析抽取。

存在如下问题：使用TF-IDF方法挖掘出来的词，很多时候是高频词，领域区分度弱，真正具有领域分类能力的词不能被挖掘出来。有很多词，在领域文档中频繁出现，会同时出现在多篇领域文档中，使用IDF可能会打出较低的分数。究其原因，根据公式：IDF＝log(总文档数/包含特征词的文档数)，可以发现，IDF并不关注词在不同领域的分布，所以导致没有办法把真正属于我们目标领域的特征词通过公式的计算结果体现出来。人工二次筛选工作量大。因为上面两个问题，导致用现有方法抽取出来的特征词很多都不属于目标领域，需要人工仔细筛选才能找到干净的合适的特征词。这导致人工工作量较大，且质量很难保证。

发明内容

本发明提供一种基于大语言模型的领域特征词挖掘方法和装置，能够解决上述技术问题。

第一方面，本发明实施例提供一种基于大语言模型的领域特征词挖掘方法，包括：

获取领域文档；

通过大语言模型生成领域文档的候选特征词；

对领域文档的候选特征词进行去重处理；

计算每一个候选特征词在不同类别的信息熵；

根据信息熵的大小对候选特征词进行筛选得到领域特征词。

进一步地，上述一种基于大语言模型的领域特征词挖掘方法中，通过大语言模型生成领域文档的候选特征词，包括：

构造提示模板；

将提示模板中的文档替换成领域文档输入大语言模型；

大语言模型生成领域文档的候选特征词并输出。

进一步地，上述一种基于大语言模型的领域特征词挖掘方法中，计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的：

其中,W_i表示候选特征词中的每一个词，i表示每一个候选特征词的序号，j表示领域的编号，P(j|W_i)表示词W_i在第j个领域出现的概率，H_i越大，表示词W_i在多个领域中分布越均匀，这样的词就越没有区分性；反之H_i越小，就说明这个词的领域区分度越强。

进一步地，上述一种基于大语言模型的领域特征词挖掘方法中，根据信息熵的大小对候选特征词进行筛选得到领域特征词，包括：

将信息熵按照大小依次排序得到排序结果；

根据排序结果筛选出预设百分比的候选特征词得到领域特征词。

第二方面，本发明实施例还提供一种基于大语言模型的领域特征词挖掘装置，包括：

获取模块：用于获取领域文档；

生成模块：用于通过大语言模型生成领域文档的候选特征词；

去重模块：用于对领域文档的候选特征词进行去重处理；

计算模块：用于计算每一个候选特征词在不同类别的信息熵；

筛选模块：用于根据信息熵的大小对候选特征词进行筛选得到领域特征词。

进一步地，上述一种基于大语言模型的领域特征词挖掘装置中，生成模块用于通过大语言模型生成领域文档的候选特征词，包括：

构造提示模板；

将提示模板中的文档替换成领域文档输入大语言模型；

大语言模型生成领域文档的候选特征词并输出。

进一步地，上述一种基于大语言模型的领域特征词挖掘装置中，计算模块用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的：

进一步地，上述一种基于大语言模型的领域特征词挖掘装置中，筛选模块用于根据信息熵的大小对候选特征词进行筛选得到领域特征词，包括：

将信息熵按照大小依次排序得到排序结果；

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

处理器通过调用存储器存储的程序或指令，用于执行如上任一项一种基于大语言模型的领域特征词挖掘方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，程序或指令使计算机执行如上任一项一种基于大语言模型的领域特征词挖掘方法。

本发明的有益效果是：本发明获取领域文档，通过大语言模型生成领域文档的候选特征词，对领域文档的候选特征词进行去重处理，计算每一个候选特征词在不同类别的信息熵，根据信息熵的大小对候选特征词进行筛选得到领域特征词。本发明通过大语言模型提取领域文档关键词的能力提取领域文档的候选特征词，对领域文档的候选特征词进行去重处理使得后续对候选特征词进行筛选更快捷，以信息熵的领域区分能力对候选特征词进行筛选得到领域特征词，实现了领域特征词自动化、高质量和高效率的挖掘，降低了人工操作成本，保证了领域特征词的质量。

附图说明

图1为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图一；

图2为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图二；

图3为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图三；

图4为本发明实施例提供的一种基于大语言模型的领域特征词挖掘装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图一。

第一方面，本发明实施例提供一种基于大语言模型的领域特征词挖掘方法，结合图1，包括S101至S105五个步骤：

S101：获取领域文档。

具体的，领域文档可以是任一领域待挖掘领域特征词的文档，如人工智能领域、生物科学领域或建筑技术领域的文档。

下文给出一示例领域文档：

TF-IDF的使用场景TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。TF-IDF原理TF(Term Frequency)表示词频，即一个词在在一篇文章中出现的次数，但在实际应用时会有一个漏洞，就是篇幅长的文章给定词出现的次数会更多一点。因此我们需要对次数进行归一化，通常用给定词的次数除以文章的总词数。给定词出现的次数文章的总次数，这其中还有一个漏洞，就是“的”“是”“啊”等类似的词在文章中出现的此时是非常多的，但是这些大多都是没有意义词，对于判断文章的关键词几乎没有什么用处，我们称这些词为“停用词”，也就是说，在度量相关性的时候不应该考虑这些词的频率。IDF(Inverse Document Frequency)逆文本频率指数，如果包含关键词w的文档越少，则说明关键词w具有很好的类别区分能力。某一关键词的IDF，可以用总的文章数量除以包含该关键词的文章的数量，然后对结果取对数得到语料库文章的总数包含关键词的文章数量。

注：分母加1是为了避免没有包含关键词的文章时分母是0的情况一个词预测主题的能力越强，权重就越大，反之，权重越小，因此一个词的TF-IDF就是：drd。

S102：通过大语言模型生成领域文档的候选特征词。

具体的，通过大语言模型生成领域文档的候选特征词是通过预先构造提示模板，将提示模板中的文档替换成领域文档输入大语言模型，大模型生成领域文档的候选特征词进行输出。

如对上述示例领域文档通过大语言模型生成领域文档的候选特征词：

TF-IDF、搜索引擎、文件、用户查询、TF、IDF、停用词、语料库、文章总次数、关键词文章数量、类别区分能力和权重。

具体生成步骤下文结合S201至S203三个步骤进行介绍。

S103：对领域文档的候选特征词进行去重处理；

应理解，通过大语言模型生成领域文档的候选特征词可能有很多重复的词，这里通过对领域文档的候选特征词进行去重处理使得领域文档的候选特征词没有重复的词，使得后续对候选特征词进行筛选更快捷。

S104：计算每一个候选特征词在不同类别的信息熵。

具体的，计算每一个候选特征词在不同类别的信息熵的公式下文介绍，本发明利用了信息熵公式的领域区分能力。

S105：根据信息熵的大小对候选特征词进行筛选得到领域特征词。

具体的，本发明通过计算每一个候选特征词在不同类别的信息熵，根据信息熵的大小对候选特征词进行筛选得到领域特征词，应理解，这里利用了信息熵的领域区分能力，通过信息熵的大小对候选特征词进行筛选得到领域特征词实现了领域特征词自动化、高质量、高效率的挖掘，大大降低了人工操作成本，也在很大程度上保证了特征词的质量。

图2为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图二。

进一步地，上述一种基于大语言模型的领域特征词挖掘方法中，通过大语言模型生成领域文档的候选特征词，结合图2，包括S201至S203三个步骤：

S201：构造提示模板。

具体的，构造的提示模板可以是请阅读以下文档，请以列表的形式给出文档的关键词：\n{text}；也可以是请阅读以下文档，请列举文档的关键词：\n{text}，{text}表示文档的文本；提示模板根据实际情况灵活构造，并不以此限定本发明的保护范围。

S202：将提示模板中的文档替换成领域文档输入大语言模型。

示例性地，将请阅读以下文档，请以列表的形式给出文档的关键词：\n{text}中的{text}替换成待挖掘领域特征词的文档，将上述{text}替换为示例领域文档后，输入大语言模型。

S203：大语言模型生成领域文档的候选特征词并输出。

示例性地，将请阅读以下文档，请以列表的形式给出文档的关键词：\n{text}中的{text}替换成待挖掘领域特征词的文档后，输入大语言模型，大语言模型以列表形式生成领域文档的候选特征词如下：

1、TF-IDF

2、搜索引擎

3、文件

4、用户查询

5、TF

6、IDF

7、停用词

8、语料库

9、文章总次数

10、关键词文章数量

11、类别区分能力

12、权重。

具体的，这里通过计算每一个候选特征词在不同类别的信息熵，利用了信息熵公式的领域区分能力。

图3为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图三。

进一步地，上述一种基于大语言模型的领域特征词挖掘方法中，根据信息熵的大小对候选特征词进行筛选得到领域特征词，结合图3，包括S301至S302两个步骤：

S301：将信息熵按照大小依次排序得到排序结果；

S302：根据排序结果筛选出预设百分比的候选特征词得到领域特征词。

具体的，本发明实施例中通过公式计算每一个候选特征词在不同类别的信息熵后，将信息熵按照大小依次排序得到排序结果，根据排序结果筛选出预设百分比的候选特征词得到领域特征词，如将排序结果中的前70％筛选出来得到领域特征词，实现了领域特征词自动化、高质量、高效率的挖掘。

应理解，这里的预设百分比根据实际情况灵活设定，并不以此限定本发明的保护范围。

图4为本发明实施例提供的一种领域特征词挖掘装置图。

第二方面，本发明实施例还提供一种基于大语言模型的领域特征词挖掘装置，结合图4，包括：

获取模块401：用于获取领域文档。

具体的，获取模块401获取的领域文档可以是任一领域待挖掘领域特征词的文档，如人工智能领域、生物科学领域或建筑技术领域的文档。

下文给出一示例领域文档：

生成模块402：用于通过大语言模型生成领域文档的候选特征词。

具体的，通过大语言模型的生成模块402生成领域文档的候选特征词是通过预先构造提示模板，将提示模板中的文档替换成领域文档输入大语言模型，大模型生成领域文档的候选特征词进行输出。

去重模块403：用于对领域文档的候选特征词进行去重处理。

应理解，通过大语言模型的生成模块402生成领域文档的候选特征词可能有很多重复的词，这里通过去重模块403对领域文档的候选特征词进行去重处理使得领域文档的候选特征词没有重复的词，使得后续对候选特征词进行筛选更快捷。

计算模块404：用于计算每一个候选特征词在不同类别的信息熵。

具体的，通过计算模块404计算每一个候选特征词在不同类别的信息熵的公式下文介绍，本发明利用了信息熵公式的领域区分能力。

筛选模块405：用于根据信息熵的大小对候选特征词进行筛选得到领域特征词。

具体的，本发明通过计算每一个候选特征词在不同类别的信息熵，根据信息熵的大小通过筛选模块405对候选特征词进行筛选得到领域特征词，应理解，这里利用了信息熵的领域区分能力，通过信息熵的大小对候选特征词进行筛选得到领域特征词实现了领域特征词自动化、高质量、高效率的挖掘，大大降低了人工操作成本，也在很大程度上保证了特征词的质量。

进一步地，上述一种基于大语言模型的领域特征词挖掘装置中，生成模块402用于通过大语言模型生成领域文档的候选特征词，包括：

构造提示模板；

将提示模板中的文档替换成领域文档输入大语言模型；

大语言模型生成领域文档的候选特征词并输出。

具体的，本装置中构造的提示模板可以是请阅读以下文档，请以列表的形式给出文档的关键词：\n{text}；也可以是请阅读以下文档，请列举文档的关键词：\n{text}，{text}表示文档的文本；提示模板根据实际情况灵活构造，并不以此限定本发明的保护范围；如将请阅读以下文档，请以列表的形式给出文档的关键词：\n{text}中的{text}替换成待挖掘领域特征词的文档，将上述{text}替换为示例领域文档后，输入大语言模型；输入大语言模型，大语言模型以列表形式生成领域文档的候选特征词如下：

1、TF-IDF

2、搜索引擎

3、文件

4、用户查询

5、TF

6、IDF

7、停用词

8、语料库

9、文章总次数

10、关键词文章数量

11、类别区分能力

12、权重。

进一步地，上述一种领域特征词挖掘装置中，计算模块404用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的：

具体的，本装置中通过计算模块404计算每一个候选特征词在不同类别的信息熵，利用了信息熵公式的领域区分能力。

进一步地，上述一种基于大语言模型的领域特征词挖掘装置中，筛选模块405用于根据信息熵的大小对候选特征词进行筛选得到领域特征词，包括：

将信息熵按照大小依次排序得到排序结果；

具体的，本装置中筛选模块405通过公式计算每一个候选特征词在不同类别的信息熵后，将信息熵按照大小依次排序得到排序结果，筛选模块根据排序结果筛选出预设百分比的候选特征词得到领域特征词，如将排序结果中的前70％筛选出来得到领域特征词，实现了领域特征词自动化、高质量、高效率的挖掘。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线***504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线***504用于实现这些组件之间的连接通信。总线***504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线***504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***和应用程序。

其中，操作***，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法的程序可以包含在应用程序中。

在本发明实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法各实施例的步骤。

获取领域文档；

通过大语言模型生成领域文档的候选特征词；

对领域文档的候选特征词进行去重处理；

计算每一个候选特征词在不同类别的信息熵；

根据信息熵的大小对候选特征词进行筛选得到领域特征词。

本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大语言模型的领域特征词挖掘方法，其特征在于，包括：

获取领域文档；

通过大语言模型生成所述领域文档的候选特征词；

对所述领域文档的候选特征词进行去重处理；

计算每一个候选特征词在不同类别的信息熵；

根据信息熵的大小对所述候选特征词进行筛选得到领域特征词。

2.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法，其特征在于，所述通过大语言模型生成所述领域文档的候选特征词，包括：

构造提示模板；

将所述提示模板中的文档替换成领域文档输入大语言模型；

大语言模型生成所述领域文档的候选特征词并输出。

3.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法，其特征在于，计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的：

4.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法，其特征在于，所述根据信息熵的大小对所述候选特征词进行筛选得到领域特征词，包括：

将信息熵按照大小依次排序得到排序结果；

5.一种基于大语言模型的领域特征词挖掘装置，其特征在于，包括：

获取模块：用于获取领域文档；

生成模块：用于通过大语言模型生成所述领域文档的候选特征词；

去重模块：用于对所述领域文档的候选特征词进行去重处理；

筛选模块：用于根据信息熵的大小对所述候选特征词进行筛选得到领域特征词。

6.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置，其特征在于，所述生成模块用于通过大语言模型生成所述领域文档的候选特征词，包括：

构造提示模板；

将所述提示模板中的文档替换成领域文档输入大语言模型；

大语言模型生成所述领域文档的候选特征词并输出。

7.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置，其特征在于，所述计算模块用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的：

8.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置，其特征在于，所述筛选模块用于根据信息熵的大小对所述候选特征词进行筛选得到领域特征词，包括：

将信息熵按照大小依次排序得到排序结果；

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述一种基于大语言模型的领域特征词挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述一种基于大语言模型的领域特征词挖掘方法。