CN117744652A - 一种基于大语言模型的领域特征词挖掘方法和装置 - Google Patents

一种基于大语言模型的领域特征词挖掘方法和装置 Download PDF

Info

Publication number
CN117744652A
CN117744652A CN202311784350.7A CN202311784350A CN117744652A CN 117744652 A CN117744652 A CN 117744652A CN 202311784350 A CN202311784350 A CN 202311784350A CN 117744652 A CN117744652 A CN 117744652A
Authority
CN
China
Prior art keywords
domain
feature words
language model
candidate feature
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311784350.7A
Other languages
English (en)
Inventor
任禾
刘升平
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202311784350.7A priority Critical patent/CN117744652A/zh
Publication of CN117744652A publication Critical patent/CN117744652A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大语言模型的领域特征词挖掘方法和装置,该方法包括:获取领域文档;通过大语言模型生成领域文档的候选特征词;对领域文档的候选特征词进行去重处理;计算每一个候选特征词在不同类别的信息熵;根据信息熵的大小对候选特征词进行筛选得到领域特征词。本发明通过大语言模型提取领域文档关键词的能力提取领域文档的候选特征词,对领域文档的候选特征词进行去重处理使得后续对候选特征词进行筛选更快捷,以信息熵的领域区分能力对候选特征词进行筛选得到领域特征词,实现了领域特征词自动化、高质量和高效率的挖掘,降低了人工操作成本,保证了领域特征词的质量。

Description

一种基于大语言模型的领域特征词挖掘方法和装置
技术领域
本发明涉及特征词挖掘技术领域,具体涉及一种基于大语言模型的领域特征词挖掘方法和装置。
背景技术
在海量文本处理过程中,快速收集某个类别的特征词是非常重要的,因为这样能够大大优化文本分类的准确率。目前主要结合TF-IDF(词频-逆文档频率)的方法来从领域文档中抽取特征词,然后再通过人工分析抽取。
存在如下问题:使用TF-IDF方法挖掘出来的词,很多时候是高频词,领域区分度弱,真正具有领域分类能力的词不能被挖掘出来。有很多词,在领域文档中频繁出现,会同时出现在多篇领域文档中,使用IDF可能会打出较低的分数。究其原因,根据公式:IDF=log(总文档数/包含特征词的文档数),可以发现,IDF并不关注词在不同领域的分布,所以导致没有办法把真正属于我们目标领域的特征词通过公式的计算结果体现出来。人工二次筛选工作量大。因为上面两个问题,导致用现有方法抽取出来的特征词很多都不属于目标领域,需要人工仔细筛选才能找到干净的合适的特征词。这导致人工工作量较大,且质量很难保证。
发明内容
本发明提供一种基于大语言模型的领域特征词挖掘方法和装置,能够解决上述技术问题。
第一方面,本发明实施例提供一种基于大语言模型的领域特征词挖掘方法,包括:
获取领域文档;
通过大语言模型生成领域文档的候选特征词;
对领域文档的候选特征词进行去重处理;
计算每一个候选特征词在不同类别的信息熵;
根据信息熵的大小对候选特征词进行筛选得到领域特征词。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,通过大语言模型生成领域文档的候选特征词,包括:
构造提示模板;
将提示模板中的文档替换成领域文档输入大语言模型;
大语言模型生成领域文档的候选特征词并输出。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,根据信息熵的大小对候选特征词进行筛选得到领域特征词,包括:
将信息熵按照大小依次排序得到排序结果;
根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
第二方面,本发明实施例还提供一种基于大语言模型的领域特征词挖掘装置,包括:
获取模块:用于获取领域文档;
生成模块:用于通过大语言模型生成领域文档的候选特征词;
去重模块:用于对领域文档的候选特征词进行去重处理;
计算模块:用于计算每一个候选特征词在不同类别的信息熵;
筛选模块:用于根据信息熵的大小对候选特征词进行筛选得到领域特征词。
进一步地,上述一种基于大语言模型的领域特征词挖掘装置中,生成模块用于通过大语言模型生成领域文档的候选特征词,包括:
构造提示模板;
将提示模板中的文档替换成领域文档输入大语言模型;
大语言模型生成领域文档的候选特征词并输出。
进一步地,上述一种基于大语言模型的领域特征词挖掘装置中,计算模块用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
进一步地,上述一种基于大语言模型的领域特征词挖掘装置中,筛选模块用于根据信息熵的大小对候选特征词进行筛选得到领域特征词,包括:
将信息熵按照大小依次排序得到排序结果;
根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行如上任一项一种基于大语言模型的领域特征词挖掘方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行如上任一项一种基于大语言模型的领域特征词挖掘方法。
本发明的有益效果是:本发明获取领域文档,通过大语言模型生成领域文档的候选特征词,对领域文档的候选特征词进行去重处理,计算每一个候选特征词在不同类别的信息熵,根据信息熵的大小对候选特征词进行筛选得到领域特征词。本发明通过大语言模型提取领域文档关键词的能力提取领域文档的候选特征词,对领域文档的候选特征词进行去重处理使得后续对候选特征词进行筛选更快捷,以信息熵的领域区分能力对候选特征词进行筛选得到领域特征词,实现了领域特征词自动化、高质量和高效率的挖掘,降低了人工操作成本,保证了领域特征词的质量。
附图说明
图1为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图一;
图2为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图二;
图3为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图三;
图4为本发明实施例提供的一种基于大语言模型的领域特征词挖掘装置图;
图5为本发明实施例提供的一种电子设备的示意性框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图一。
第一方面,本发明实施例提供一种基于大语言模型的领域特征词挖掘方法,结合图1,包括S101至S105五个步骤:
S101:获取领域文档。
具体的,领域文档可以是任一领域待挖掘领域特征词的文档,如人工智能领域、生物科学领域或建筑技术领域的文档。
下文给出一示例领域文档:
TF-IDF的使用场景TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。TF-IDF原理TF(Term Frequency)表示词频,即一个词在在一篇文章中出现的次数,但在实际应用时会有一个漏洞,就是篇幅长的文章给定词出现的次数会更多一点。因此我们需要对次数进行归一化,通常用给定词的次数除以文章的总词数。给定词出现的次数文章的总次数,这其中还有一个漏洞,就是“的”“是”“啊”等类似的词在文章中出现的此时是非常多的,但是这些大多都是没有意义词,对于判断文章的关键词几乎没有什么用处,我们称这些词为“停用词”,也就是说,在度量相关性的时候不应该考虑这些词的频率。IDF(Inverse Document Frequency)逆文本频率指数,如果包含关键词w的文档越少,则说明关键词w具有很好的类别区分能力。某一关键词的IDF,可以用总的文章数量除以包含该关键词的文章的数量,然后对结果取对数得到语料库文章的总数包含关键词的文章数量。
注:分母加1是为了避免没有包含关键词的文章时分母是0的情况一个词预测主题的能力越强,权重就越大,反之,权重越小,因此一个词的TF-IDF就是:drd。
S102:通过大语言模型生成领域文档的候选特征词。
具体的,通过大语言模型生成领域文档的候选特征词是通过预先构造提示模板,将提示模板中的文档替换成领域文档输入大语言模型,大模型生成领域文档的候选特征词进行输出。
如对上述示例领域文档通过大语言模型生成领域文档的候选特征词:
TF-IDF、搜索引擎、文件、用户查询、TF、IDF、停用词、语料库、文章总次数、关键词文章数量、类别区分能力和权重。
具体生成步骤下文结合S201至S203三个步骤进行介绍。
S103:对领域文档的候选特征词进行去重处理;
应理解,通过大语言模型生成领域文档的候选特征词可能有很多重复的词,这里通过对领域文档的候选特征词进行去重处理使得领域文档的候选特征词没有重复的词,使得后续对候选特征词进行筛选更快捷。
S104:计算每一个候选特征词在不同类别的信息熵。
具体的,计算每一个候选特征词在不同类别的信息熵的公式下文介绍,本发明利用了信息熵公式的领域区分能力。
S105:根据信息熵的大小对候选特征词进行筛选得到领域特征词。
具体的,本发明通过计算每一个候选特征词在不同类别的信息熵,根据信息熵的大小对候选特征词进行筛选得到领域特征词,应理解,这里利用了信息熵的领域区分能力,通过信息熵的大小对候选特征词进行筛选得到领域特征词实现了领域特征词自动化、高质量、高效率的挖掘,大大降低了人工操作成本,也在很大程度上保证了特征词的质量。
图2为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图二。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,通过大语言模型生成领域文档的候选特征词,结合图2,包括S201至S203三个步骤:
S201:构造提示模板。
具体的,构造的提示模板可以是请阅读以下文档,请以列表的形式给出文档的关键词:\n{text};也可以是请阅读以下文档,请列举文档的关键词:\n{text},{text}表示文档的文本;提示模板根据实际情况灵活构造,并不以此限定本发明的保护范围。
S202:将提示模板中的文档替换成领域文档输入大语言模型。
示例性地,将请阅读以下文档,请以列表的形式给出文档的关键词:\n{text}中的{text}替换成待挖掘领域特征词的文档,将上述{text}替换为示例领域文档后,输入大语言模型。
S203:大语言模型生成领域文档的候选特征词并输出。
示例性地,将请阅读以下文档,请以列表的形式给出文档的关键词:\n{text}中的{text}替换成待挖掘领域特征词的文档后,输入大语言模型,大语言模型以列表形式生成领域文档的候选特征词如下:
1、TF-IDF
2、搜索引擎
3、文件
4、用户查询
5、TF
6、IDF
7、停用词
8、语料库
9、文章总次数
10、关键词文章数量
11、类别区分能力
12、权重。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
具体的,这里通过计算每一个候选特征词在不同类别的信息熵,利用了信息熵公式的领域区分能力。
图3为本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法图三。
进一步地,上述一种基于大语言模型的领域特征词挖掘方法中,根据信息熵的大小对候选特征词进行筛选得到领域特征词,结合图3,包括S301至S302两个步骤:
S301:将信息熵按照大小依次排序得到排序结果;
S302:根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
具体的,本发明实施例中通过公式计算每一个候选特征词在不同类别的信息熵后,将信息熵按照大小依次排序得到排序结果,根据排序结果筛选出预设百分比的候选特征词得到领域特征词,如将排序结果中的前70%筛选出来得到领域特征词,实现了领域特征词自动化、高质量、高效率的挖掘。
应理解,这里的预设百分比根据实际情况灵活设定,并不以此限定本发明的保护范围。
图4为本发明实施例提供的一种领域特征词挖掘装置图。
第二方面,本发明实施例还提供一种基于大语言模型的领域特征词挖掘装置,结合图4,包括:
获取模块401:用于获取领域文档。
具体的,获取模块401获取的领域文档可以是任一领域待挖掘领域特征词的文档,如人工智能领域、生物科学领域或建筑技术领域的文档。
下文给出一示例领域文档:
TF-IDF的使用场景TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。TF-IDF原理TF(Term Frequency)表示词频,即一个词在在一篇文章中出现的次数,但在实际应用时会有一个漏洞,就是篇幅长的文章给定词出现的次数会更多一点。因此我们需要对次数进行归一化,通常用给定词的次数除以文章的总词数。给定词出现的次数文章的总次数,这其中还有一个漏洞,就是“的”“是”“啊”等类似的词在文章中出现的此时是非常多的,但是这些大多都是没有意义词,对于判断文章的关键词几乎没有什么用处,我们称这些词为“停用词”,也就是说,在度量相关性的时候不应该考虑这些词的频率。IDF(Inverse Document Frequency)逆文本频率指数,如果包含关键词w的文档越少,则说明关键词w具有很好的类别区分能力。某一关键词的IDF,可以用总的文章数量除以包含该关键词的文章的数量,然后对结果取对数得到语料库文章的总数包含关键词的文章数量。
注:分母加1是为了避免没有包含关键词的文章时分母是0的情况一个词预测主题的能力越强,权重就越大,反之,权重越小,因此一个词的TF-IDF就是:drd。
生成模块402:用于通过大语言模型生成领域文档的候选特征词。
具体的,通过大语言模型的生成模块402生成领域文档的候选特征词是通过预先构造提示模板,将提示模板中的文档替换成领域文档输入大语言模型,大模型生成领域文档的候选特征词进行输出。
如对上述示例领域文档通过大语言模型生成领域文档的候选特征词:
TF-IDF、搜索引擎、文件、用户查询、TF、IDF、停用词、语料库、文章总次数、关键词文章数量、类别区分能力和权重。
去重模块403:用于对领域文档的候选特征词进行去重处理。
应理解,通过大语言模型的生成模块402生成领域文档的候选特征词可能有很多重复的词,这里通过去重模块403对领域文档的候选特征词进行去重处理使得领域文档的候选特征词没有重复的词,使得后续对候选特征词进行筛选更快捷。
计算模块404:用于计算每一个候选特征词在不同类别的信息熵。
具体的,通过计算模块404计算每一个候选特征词在不同类别的信息熵的公式下文介绍,本发明利用了信息熵公式的领域区分能力。
筛选模块405:用于根据信息熵的大小对候选特征词进行筛选得到领域特征词。
具体的,本发明通过计算每一个候选特征词在不同类别的信息熵,根据信息熵的大小通过筛选模块405对候选特征词进行筛选得到领域特征词,应理解,这里利用了信息熵的领域区分能力,通过信息熵的大小对候选特征词进行筛选得到领域特征词实现了领域特征词自动化、高质量、高效率的挖掘,大大降低了人工操作成本,也在很大程度上保证了特征词的质量。
进一步地,上述一种基于大语言模型的领域特征词挖掘装置中,生成模块402用于通过大语言模型生成领域文档的候选特征词,包括:
构造提示模板;
将提示模板中的文档替换成领域文档输入大语言模型;
大语言模型生成领域文档的候选特征词并输出。
具体的,本装置中构造的提示模板可以是请阅读以下文档,请以列表的形式给出文档的关键词:\n{text};也可以是请阅读以下文档,请列举文档的关键词:\n{text},{text}表示文档的文本;提示模板根据实际情况灵活构造,并不以此限定本发明的保护范围;如将请阅读以下文档,请以列表的形式给出文档的关键词:\n{text}中的{text}替换成待挖掘领域特征词的文档,将上述{text}替换为示例领域文档后,输入大语言模型;输入大语言模型,大语言模型以列表形式生成领域文档的候选特征词如下:
1、TF-IDF
2、搜索引擎
3、文件
4、用户查询
5、TF
6、IDF
7、停用词
8、语料库
9、文章总次数
10、关键词文章数量
11、类别区分能力
12、权重。
进一步地,上述一种领域特征词挖掘装置中,计算模块404用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
具体的,本装置中通过计算模块404计算每一个候选特征词在不同类别的信息熵,利用了信息熵公式的领域区分能力。
进一步地,上述一种基于大语言模型的领域特征词挖掘装置中,筛选模块405用于根据信息熵的大小对候选特征词进行筛选得到领域特征词,包括:
将信息熵按照大小依次排序得到排序结果;
根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
具体的,本装置中筛选模块405通过公式计算每一个候选特征词在不同类别的信息熵后,将信息熵按照大小依次排序得到排序结果,筛选模块根据排序结果筛选出预设百分比的候选特征词得到领域特征词,如将排序结果中的前70%筛选出来得到领域特征词,实现了领域特征词自动化、高质量、高效率的挖掘。
应理解,这里的预设百分比根据实际情况灵活设定,并不以此限定本发明的保护范围。
第三方面,本发明实施例还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行如上任一项一种基于大语言模型的领域特征词挖掘方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行如上任一项一种基于大语言模型的领域特征词挖掘方法。
图5是本公开实施例提供的一种电子设备的示意性框图。
如图5所示,电子设备包括:至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线***504耦合在一起。通信接口503,用于与外部设备之间的信息传输。可理解,总线***504用于实现这些组件之间的连接通信。总线***504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图5中将各种总线都标为总线***504。
可以理解,本实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作***和应用程序。
其中,操作***,包含各种***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法的程序可以包含在应用程序中。
在本发明实施例中,处理器501通过调用存储器502存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器501用于执行本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法各实施例的步骤。
获取领域文档;
通过大语言模型生成领域文档的候选特征词;
对领域文档的候选特征词进行去重处理;
计算每一个候选特征词在不同类别的信息熵;
根据信息熵的大小对候选特征词进行筛选得到领域特征词。
本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法可以应用于处理器501中,或者由处理器501实现。处理器501可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例提供的一种基于大语言模型的领域特征词挖掘方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于大语言模型的领域特征词挖掘方法,其特征在于,包括:
获取领域文档;
通过大语言模型生成所述领域文档的候选特征词;
对所述领域文档的候选特征词进行去重处理;
计算每一个候选特征词在不同类别的信息熵;
根据信息熵的大小对所述候选特征词进行筛选得到领域特征词。
2.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法,其特征在于,所述通过大语言模型生成所述领域文档的候选特征词,包括:
构造提示模板;
将所述提示模板中的文档替换成领域文档输入大语言模型;
大语言模型生成所述领域文档的候选特征词并输出。
3.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法,其特征在于,计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
4.根据权利要求1所述的一种基于大语言模型的领域特征词挖掘方法,其特征在于,所述根据信息熵的大小对所述候选特征词进行筛选得到领域特征词,包括:
将信息熵按照大小依次排序得到排序结果;
根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
5.一种基于大语言模型的领域特征词挖掘装置,其特征在于,包括:
获取模块:用于获取领域文档;
生成模块:用于通过大语言模型生成所述领域文档的候选特征词;
计算模块:用于计算每一个候选特征词在不同类别的信息熵;
去重模块:用于对所述领域文档的候选特征词进行去重处理;
筛选模块:用于根据信息熵的大小对所述候选特征词进行筛选得到领域特征词。
6.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置,其特征在于,所述生成模块用于通过大语言模型生成所述领域文档的候选特征词,包括:
构造提示模板;
将所述提示模板中的文档替换成领域文档输入大语言模型;
大语言模型生成所述领域文档的候选特征词并输出。
7.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置,其特征在于,所述计算模块用于计算每一个候选特征词在不同类别的信息熵是通过如下公式计算的:
其中,Wi表示候选特征词中的每一个词,i表示每一个候选特征词的序号,j表示领域的编号,P(j|Wi)表示词Wi在第j个领域出现的概率,Hi越大,表示词Wi在多个领域中分布越均匀,这样的词就越没有区分性;反之Hi越小,就说明这个词的领域区分度越强。
8.根据权利要求5所述的一种基于大语言模型的领域特征词挖掘装置,其特征在于,所述筛选模块用于根据信息熵的大小对所述候选特征词进行筛选得到领域特征词,包括:
将信息熵按照大小依次排序得到排序结果;
根据排序结果筛选出预设百分比的候选特征词得到领域特征词。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至4任一项所述一种基于大语言模型的领域特征词挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至4任一项所述一种基于大语言模型的领域特征词挖掘方法。
CN202311784350.7A 2023-12-23 2023-12-23 一种基于大语言模型的领域特征词挖掘方法和装置 Pending CN117744652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311784350.7A CN117744652A (zh) 2023-12-23 2023-12-23 一种基于大语言模型的领域特征词挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311784350.7A CN117744652A (zh) 2023-12-23 2023-12-23 一种基于大语言模型的领域特征词挖掘方法和装置

Publications (1)

Publication Number Publication Date
CN117744652A true CN117744652A (zh) 2024-03-22

Family

ID=90258965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311784350.7A Pending CN117744652A (zh) 2023-12-23 2023-12-23 一种基于大语言模型的领域特征词挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN117744652A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035388A (zh) * 2024-04-11 2024-05-14 材料科学姑苏实验室 一种文档关键词确定方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035388A (zh) * 2024-04-11 2024-05-14 材料科学姑苏实验室 一种文档关键词确定方法、装置、设备及介质
CN118035388B (zh) * 2024-04-11 2024-06-11 材料科学姑苏实验室 一种文档关键词确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
Shokripour et al. A time-based approach to automatic bug report assignment
Hu et al. Identification of highly-cited papers using topic-model-based and bibliometric features: The consideration of keyword popularity
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
AU2013329525C1 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US20150044660A1 (en) Caching Natural Language Questions and Results in a Question and Answer System
AU2009234120A1 (en) Search results ranking using editing distance and document information
CN107102993B (zh) 一种用户诉求分析方法和装置
US20110258227A1 (en) Method and system for searching documents
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和***
JP2012533819A (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
CN117744652A (zh) 一种基于大语言模型的领域特征词挖掘方法和装置
Vojnović et al. Ranking and suggesting popular items
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
JP2019204246A (ja) 学習データ作成方法及び学習データ作成装置
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
Joshi et al. Auto-grouping emails for faster e-discovery
CN104462552A (zh) 问答页面核心词提取方法和装置
CN103092838B (zh) 一种获取英文词的方法及装置
CN114175012A (zh) 基于查询令牌密度对电子文档进行排序的***和方法
CN113220565B (zh) 一种众包测试报告的处理方法及装置
CN115438155A (zh) 一种基于相关性和重要性的文献搜索排序方法及电子设备
CN115292167A (zh) 生命周期预测模型构建方法、装置、设备及可读存储介质
CN114691835A (zh) 基于文本挖掘的审计计划数据生成方法、装置和设备
Xu et al. Knowledge graph and CBR-based approach for automated analysis of bridge operational accidents: Case representation and retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination