CN112287682B - 一种主题词提取方法、装置、设备及存储介质 - Google Patents

一种主题词提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112287682B
CN112287682B CN202011573897.9A CN202011573897A CN112287682B CN 112287682 B CN112287682 B CN 112287682B CN 202011573897 A CN202011573897 A CN 202011573897A CN 112287682 B CN112287682 B CN 112287682B
Authority
CN
China
Prior art keywords
idf
subject
scores
idayf
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011573897.9A
Other languages
English (en)
Other versions
CN112287682A (zh
Inventor
赵冲
李青龙
骆飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202011573897.9A priority Critical patent/CN112287682B/zh
Publication of CN112287682A publication Critical patent/CN112287682A/zh
Application granted granted Critical
Publication of CN112287682B publication Critical patent/CN112287682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种主题词提取方法、装置、设备及存储介质,方法包括:使用TF‑IDF模型对提取范围内各文章的词分别计算TF‑IDF分数,将TF‑IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF‑IDF分数相乘,获得TF‑IDF‑IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;将TF‑IDF‑IDAYF分数高于第二设定阈值的作为各文章的最终主题词。本发明基于时间因素的TF‑IDF‑IDAYF的计算模式,可以达到更好的主题词提取效果。

Description

一种主题词提取方法、装置、设备及存储介质
技术领域
本发明涉及信息检索与数据挖掘领域,更详细的说,涉及一种主题词提取方法、装置、设备及存储介质。
背景技术
随着信息检索与数据挖掘行业的发展,文章数据的挖掘在当今发达的互联网环境下显得越来越有价值。通过对文章数据作为分析对象,针对文章特征进行预处理,高效准确提取有价值的信息,成为文章数据挖掘行业研究的焦点。
现有文章数据挖掘领域对文章数据进行研究主要针对中文文章进行特征预处理,对主要特征进行提取,通常用到TF-IDF(term frequency–inverse document frequency)算法。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency),IDF是逆文章频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
在TF-IDF算法中,主题词的计算与词频和逆文章频率有着极其紧密的联系,这对于单一文章的主题词提取有着比较好的效果。但是在针对短期内爆发的舆情事件,TF-IDF算法对时间没有敏感性,不能有效的对连续时间内舆情事件相关的主题词进行提取。
发明内容
本发明在文章信息处理的过程中,对TF-IDF算法进行改进,引入时间关联性,实现一种加入时间衰减和时间加强特性的TF-IDF-IDAYF的计算模式。
本发明的技术方案如下:
一种主题词提取方法,包括:
使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;
将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;
将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。
可选地,计算IDAYF分数的公式如下:
Figure 417721DEST_PATH_IMAGE001
Figure 866020DEST_PATH_IMAGE002
表示第m个第一主题词在历史语料中出现的次数;
t表示设定历史时间所包含的时间段数量;
Figure 176915DEST_PATH_IMAGE003
表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段 均值;
Figure 103283DEST_PATH_IMAGE004
表示第m个第一主题词在当前时间段在提取范围中出现的次数。
可选地,所述时间段是天。
可选地,对于每一篇文章,采用TF-IDF模型提取主题词的步骤包括:
对文章中的词计算TF-IDF分数,并根据分数选择高于第一设定阈值的分词作为第一主题词,计算TF-IDF分数的公式如下:
Figure 183235DEST_PATH_IMAGE005
Figure 536856DEST_PATH_IMAGE006
Figure 600627DEST_PATH_IMAGE007
其中,
Figure 330685DEST_PATH_IMAGE008
代表某词;
Figure 530722DEST_PATH_IMAGE009
代表文章;
Figure 55245DEST_PATH_IMAGE010
表示某词
Figure 75153DEST_PATH_IMAGE008
在文章
Figure 343323DEST_PATH_IMAGE009
中出现的次数;
Figure 397867DEST_PATH_IMAGE011
表示文章
Figure 358870DEST_PATH_IMAGE009
中所有词的出现总次数,k表示第k个词;
Figure 134584DEST_PATH_IMAGE012
表示提取范围内中的文章总数;
Figure 737603DEST_PATH_IMAGE013
表示提取范围内中包含某词
Figure 912233DEST_PATH_IMAGE008
的文章的数目;
Figure 778557DEST_PATH_IMAGE014
表示TF-IDF分数。
可选地,在采用TF-IDF模型提取主题词之前,还包括:
对文章进行分词处理,并去除停用词。
本发明还提供一种主题词提取装置,包括:
TF-IDF分数获取模块,用于使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;
TF-IDF-IDAYF分数获取模块,用于将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;
最终主题词确定模块,用于将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。
本发明还提供一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的主题词提取方法。
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的主题词提取方法。
本发明是基于TF-IDF算法之上的改进方法,引入时间因素可以更好的表示事件主题词在时间维度的影响力,根据事件主题词的时间因素可以更加准确的描述事件的起因、发展和结果。基于时间因素的TF-IDF-IDAYF的计算模式,可以达到更好的主题词提取效果。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的主题词提取方法的流程示意图;
图2为本发明提供的主题词提取装置一实施例的模块示意图;
图3为本发明提供的主题词提取方法的电子设备一实施例的结构示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
本实施例的主题词提取方法是基于TF-IDF-IDAYF计算模式的,是在TF-IDF模型计算词频和逆文档频率的基础上加入IDAYF(逆时间频率)。TF-IDF计算中一个比较突出的问题是,所有词的权重依靠整体的统计出现,没有办法对于近期凸显的主题词进行一个强化计算,但是在互联网环境中,主题词的出现是和时间的属性强相关的,例如近两天“社区卖菜”、“互联网垄断”等词在近期的互联网中会出现上升性的提及频率,应该能优先抽取这些更能反映热点主题的主题词。所以针对词的时间属性,增加了一个维度是IDAYF(逆时间频率)。
该主题词提取方法的步骤如下所示:
步骤S1,使用TF-IDF模型对提取范围内各个文章分别进行主题词提取,其中提取范围是指设定的包含多篇文章的文本集合,例如想要从微博、知乎、头条等各种常用网站的文章中提取主题词,则以这些网站的文章组成的文本集合作为提取范围。
其中,对于每一篇文章,都采用TF-IDF模型提取主题词,可以包括以下步骤:
包括S11,对文章进行分词处理,分词算法是将句子切分为一系列词语组合的算法,例如“我路过清华大学”可以切分为“我/路过/清华大学”。可以使用jieba等分词工具进行分词。
S12,去除停用词,得到候选词,停用词是指一些代表语义的能力不强,对类别的区分能力很差,但频繁出现的词,例如“的”、“我们”、“你”等。依据停用词词表将停用词从各文章中去除,作用是去除一些噪声特征,降低分类的错误率和耗时。
S13,对候选词计算TF-IDF分数,并根据分数选择高于第一设定阈值的候选词作为第一主题词,计算TF-IDF分数的公式如下:
Figure 38637DEST_PATH_IMAGE005
Figure 648610DEST_PATH_IMAGE006
Figure 881009DEST_PATH_IMAGE007
其中,
Figure 183814DEST_PATH_IMAGE008
代表某词;
Figure 665611DEST_PATH_IMAGE009
代表文章;
Figure 876012DEST_PATH_IMAGE010
表示某词
Figure 759655DEST_PATH_IMAGE008
在文章
Figure 909661DEST_PATH_IMAGE009
中出现的次数;
Figure 878754DEST_PATH_IMAGE011
表示文章
Figure 33792DEST_PATH_IMAGE009
中所有词的出现总次数,k表示第k个词;
Figure 37520DEST_PATH_IMAGE012
表示提取范围内中的文章总数;
Figure 682128DEST_PATH_IMAGE013
表示提取范围内中包含某词
Figure 935255DEST_PATH_IMAGE008
的文章的数目;
Figure 690722DEST_PATH_IMAGE014
表示TF-IDF分数。
例如通过计算TF分数,获得一篇文章中"流行感冒"、"疫苗"、"北京"、"医院"、"小学生"、“冬季”、“聚集”出现的频率较高的词,但是哪个词更能凸显这篇文章的主题,还需要结合IDF分数,TF和IDF分数如表1所示,将TF分数与IDF分数相乘,得到TF-IDF分数。可见其中,"流行感冒"、"疫苗"是分数较高的,作为第一主题词。
表1
Figure 17798DEST_PATH_IMAGE016
通过以上步骤对各个文章都采用TF-IDF提取出第一主题词。
步骤S2,将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数。
计算IDAYF分数的公式如下:
Figure 630045DEST_PATH_IMAGE001
Figure 573730DEST_PATH_IMAGE002
表示第m个第一主题词在历史语料中出现的次数,其中,历史语料是指在设定历 史时间内在所述提取范围中出现的各种文章信息;
t表示设定历史时间所包含的时间段数量;
Figure 132887DEST_PATH_IMAGE003
表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段 均值;
Figure 845628DEST_PATH_IMAGE004
表示第m个第一主题词在当前时间段出现的次数。
例如,时间段可以是天,则“流行感冒”在过去3年中出现的次数除以3年所包含的天数,就是“流行感冒”一词在历史语料中的出现日均值。第一主题词在当天出现的次数是指在当天第一主题词在提取范围中出现次数,例如,当天“流行感冒”一词出现了30次。
也不排除时间段可以是按照多天,或者小时来计算的。例如两天,则是“流行感冒”在过去3年中出现的次数除以3年所包含的两天的数量,得到的是在两天时间段内的均值。然后统计当前两天时间内的第一主题词在提取范围中出现次数。可得到当前两天内的第一主题词的IDAYF分数。或者,时间段也可以是几个小时,同样可以采用以上公式计算IDAYF分数,在此不再赘述其计算过程。
将数据代入上式计算出各个第一主题词的IDAYF,也就是获得了各个第一主题词在当天内是不是出现超过均值的趋势,增加到TF-IDF计算中,用来获取当日更能凸显主题的关键词。具体说,是将IDAYF分数与TF-IDF分数相乘。
S3,将TF-IDF-IDAYF分数高于第二设定阈值的作为最终主题词。
从而可以从所述第一主题词中进一步选取出更加符合时间的属性的最终主题词。由此能够从各个文章中获得更加表达其文章含义以及与当前时间段内的舆情信息更符合的主题词,进而使得根据各主题词进行文章合并的准确度提高。
本发明还提供一种主题词提取装置,如图2所示,是本发明主题词提取装置一实施例的功能模块示意图。
本发明的主题词提取装置100可以安装于电子设备中。根据实现的功能,所述主题词提取装置100可以包括TF-IDF分数获取模块101、TF-IDF-IDAYF分数获取模块102、最终主题词确定模块103,本发明所述模块是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块的功能如下:
TF-IDF分数获取模块101,用于使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合。
其中,对于每一篇文章,都采用TF-IDF模型提取主题词,包括以下步骤:
包括S11,对文章进行分词处理,分词算法是将句子切分为一系列词语组合的算法,例如“我路过清华大学”可以切分为“我/路过/清华大学”。可以使用jieba等分词工具进行分词。
S12,去除停用词,停用词是指一些代表语义的能力不强,对类别的区分能力很差,但频繁出现的词,例如“的”、“我们”、“你”等。依据停用词词表将停用词从各文章中去除,作用是去除一些噪声特征,降低分类的错误率和耗时。
S13,对剩余的分词计算TF-IDF分数,并根据分数选择高于第一设定阈值的分词作为第一主题词,计算TF-IDF分数的公式如下:
Figure 566460DEST_PATH_IMAGE005
Figure 997441DEST_PATH_IMAGE006
Figure 97640DEST_PATH_IMAGE007
其中,
Figure 930466DEST_PATH_IMAGE008
代表某词;
Figure 822199DEST_PATH_IMAGE009
代表文章;
Figure 740476DEST_PATH_IMAGE010
表示某词
Figure 641436DEST_PATH_IMAGE008
在文章
Figure 63190DEST_PATH_IMAGE009
中出现的次数;
Figure 594666DEST_PATH_IMAGE011
表示文章
Figure 531398DEST_PATH_IMAGE009
中所有词的出现总次数,k表示第k个词;
Figure 439311DEST_PATH_IMAGE012
表示提取范围内中的文章总数;
Figure 981151DEST_PATH_IMAGE013
表示提取范围内中包含某词
Figure 480265DEST_PATH_IMAGE008
的文章的数目;
Figure 107556DEST_PATH_IMAGE014
表示TF-IDF分数。
例如通过计算TF分数,获得一篇文章中"流行感冒"、"疫苗"、"北京"、"医院"、"小学生"、“冬季”、“聚集”出现的频率较高的词,但是哪个词更能凸显这篇文章的主题,还需要结合IDF分数,TF和IDF分数如表1所示,将TF分数与IDF分数相乘,得到TF-IDF分数。可见其中,"流行感冒"、"疫苗"是分数较高的,作为第一主题词。
通过以上步骤对各个文章都采用TF-IDF提取出第一主题词。
TF-IDF-IDAYF分数获取模块102,用于将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章。
将各文章的所述第一主题词计算分别IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数。
计算IDAYF分数的公式如下:
Figure 350318DEST_PATH_IMAGE001
Figure 746664DEST_PATH_IMAGE002
表示第m个第一主题词在历史语料中出现的次数,其中,历史语料是指在设定历 史时间内在所述提取范围中出现的各种文章信息;
t表示设定历史时间所包含的时间段数量;
Figure 416680DEST_PATH_IMAGE003
表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段 均值;
Figure 796846DEST_PATH_IMAGE004
表示第m个第一主题词在当前时间段出现的次数。
例如,时间段可以是天,则“流行感冒”在过去3年中出现的次数除以3年所包含的天数,就是“流行感冒”一词在历史语料中的出现日均值。第一主题词在当天出现的次数是指在当天第一主题词在提取范围中出现次数,例如,当天“流行感冒”一词出现了30次。
也不排除时间段可以是按照多天,或者小时来计算的。例如两天,则是“流行感冒”在过去3年中出现的次数除以3年所包含的两天的数量,得到的是在两天时间段内的均值。然后统计当前两天时间内的第一主题词在提取范围中出现次数。可得到当前两天内的第一主题词的IDAYF分数。或者,时间段也可以是几个小时,同样可以采用以上公式计算IDAYF分数,在此不再赘述其计算过程。
将数据代入上式计算出各个第一主题词的IDAYF,也就是获得了各个第一主题词在当天内是不是出现超过均值的趋势,增加到TF-IDF计算中,用来获取当日更能凸显主题的关键词。具体说,是将IDAYF分数与TF-IDF分数相乘。
最终主题词确定模块103,用于将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。
如图3所示,是本发明实现主题词提取方法的电子设备一实施例的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如主题词提取程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如主题词提取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如主题词提取程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的主题词提取程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
S1,使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;
S2,将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;
S3,将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。
具体的运行流程如图1所示的主题词提取方法流程,具体可参见图2的主题词提取方法的描述,此处不再赘述。
进一步地,所述电子设备1集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种主题词提取方法,其特征在于,包括:
使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;
将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是利用所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值计算得到的,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章;
将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词,
计算IDAYF分数的公式如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
表示第m个第一主题词在历史语料中出现的次数;
t表示设定历史时间所包含的时间段数量;
Figure DEST_PATH_IMAGE003
表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段均值;
Figure DEST_PATH_IMAGE004
表示第m个第一主题词在当前时间段在提取范围中出现的次数。
2.根据权利要求1所述的主题词提取方法,其特征在于,
所述时间段是天。
3.根据权利要求1所述的主题词提取方法,其特征在于,
对于每一篇文章,采用TF-IDF模型提取主题词的步骤包括:
对文章中的词计算TF-IDF分数,并根据分数选择高于第一设定阈值的分词作为第一主题词,计算TF-IDF分数的公式如下:
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
其中,
Figure DEST_PATH_IMAGE008
代表某词;
Figure DEST_PATH_IMAGE009
代表文章;
Figure DEST_PATH_IMAGE010
表示某词
Figure 110913DEST_PATH_IMAGE008
在文章
Figure 28053DEST_PATH_IMAGE009
中出现的次数;
Figure DEST_PATH_IMAGE011
表示文章
Figure 935354DEST_PATH_IMAGE009
中所有词的出现总次数,k表示第k个词;
Figure DEST_PATH_IMAGE012
表示提取范围内中的文章总数;
Figure DEST_PATH_IMAGE013
表示提取范围内中包含某词
Figure 517514DEST_PATH_IMAGE008
的文章的数目;
Figure DEST_PATH_IMAGE014
表示TF-IDF分数。
4.根据权利要求3所述的主题词提取方法,其特征在于,
在采用TF-IDF模型提取主题词之前,还包括:
对文章进行分词处理,并去除停用词。
5.一种主题词提取装置,其特征在于,包括:
TF-IDF分数获取模块,用于使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数,将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词,其中提取范围是指设定的包含多篇文章的文本集合;
TF-IDF-IDAYF分数获取模块,用于将各文章的所述第一主题词分别计算IDAYF分数,并与所述TF-IDF分数相乘,获得TF-IDF-IDAYF分数,其中所述IDAYF分数是利用所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值计算得到的,所述历史语料是指在设定历史时间内在所述提取范围中出现的文章,
计算IDAYF分数的公式如下:
Figure 66307DEST_PATH_IMAGE001
Figure 278982DEST_PATH_IMAGE002
表示第m个第一主题词在历史语料中出现的次数;
t表示设定历史时间所包含的时间段数量;
Figure 608332DEST_PATH_IMAGE003
表示在设定历史时间内,第m个第一主题词在提取范围中出现次数的时间段均值;
Figure 541653DEST_PATH_IMAGE004
表示第m个第一主题词在当前时间段在提取范围中出现的次数;
最终主题词确定模块,用于将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的主题词提取方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的主题词提取方法。
CN202011573897.9A 2020-12-28 2020-12-28 一种主题词提取方法、装置、设备及存储介质 Active CN112287682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011573897.9A CN112287682B (zh) 2020-12-28 2020-12-28 一种主题词提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011573897.9A CN112287682B (zh) 2020-12-28 2020-12-28 一种主题词提取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112287682A CN112287682A (zh) 2021-01-29
CN112287682B true CN112287682B (zh) 2021-06-08

Family

ID=74426411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011573897.9A Active CN112287682B (zh) 2020-12-28 2020-12-28 一种主题词提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112287682B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051921B (zh) * 2021-03-17 2024-02-20 北京智慧星光信息技术有限公司 互联网文本实体识别方法、***、电子设备及存储介质
CN114281983B (zh) * 2021-04-05 2024-04-12 北京智慧星光信息技术有限公司 分层结构的文本分类方法、***、电子设备和存储介质
CN113537691A (zh) * 2021-05-09 2021-10-22 武汉兴得科技有限公司 一种大数据公共卫生事件应急指挥方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008178037A (ja) * 2007-01-22 2008-07-31 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP6441203B2 (ja) * 2015-11-12 2018-12-19 日本電信電話株式会社 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
CN108446274A (zh) * 2018-03-15 2018-08-24 北京科技大学 一种基于时间敏感tf-idf的关键词提取方法
CN111159557B (zh) * 2019-12-31 2023-07-25 北京奇艺世纪科技有限公司 一种热点信息获取方法、装置、服务器及介质

Also Published As

Publication number Publication date
CN112287682A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112287682B (zh) 一种主题词提取方法、装置、设备及存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
WO2012135319A1 (en) Processing data in a mapreduce framework
CN111930962A (zh) 文献数据价值评估方法、装置、电子设备及存储介质
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
WO2022160454A1 (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN112380859A (zh) 舆情信息的推荐方法、装置、电子设备及计算机存储介质
CN113095076A (zh) 敏感词识别方法、装置、电子设备及存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN106649308B (zh) 一种分词词库更新方法及***
CN105653553B (zh) 词权重生成方法和装置
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN112633988A (zh) 用户产品推荐方法、装置、电子设备及可读存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
Coenen et al. Statistical identification of key phrases for text classification
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN115438048A (zh) 表搜索方法、装置、设备及存储介质
CN110674283A (zh) 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN112100318B (zh) 一种多维度信息合并方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method, device, device and storage medium for extracting subject words

Effective date of registration: 20221031

Granted publication date: 20210608

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: BEIJING SMART STARLIGHT INFORMATION TECHNOLOGY CO.,LTD.

Registration number: Y2022110000282

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20231227

Granted publication date: 20210608

Pledgee: China Co. truction Bank Corp Beijing Zhongguancun branch

Pledgor: BEIJING SMART STARLIGHT INFORMATION TECHNOLOGY CO.,LTD.

Registration number: Y2022110000282