CN108984514A - 词语的获取方法及装置、存储介质、处理器 - Google Patents

词语的获取方法及装置、存储介质、处理器 Download PDF

Info

Publication number
CN108984514A
CN108984514A CN201710414730.XA CN201710414730A CN108984514A CN 108984514 A CN108984514 A CN 108984514A CN 201710414730 A CN201710414730 A CN 201710414730A CN 108984514 A CN108984514 A CN 108984514A
Authority
CN
China
Prior art keywords
word
sequence
terms
words
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710414730.XA
Other languages
English (en)
Inventor
胡晓
谢心哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201710414730.XA priority Critical patent/CN108984514A/zh
Publication of CN108984514A publication Critical patent/CN108984514A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种词语的获取方法及装置、存储介质、处理器。其中,该词语的获取方法包括:提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。通过本发明,解决了相关技术中在发现新词时浪费大量人力物力,同时很大程度上依赖于高完备性词典的问题。

Description

词语的获取方法及装置、存储介质、处理器
技术领域
本发明涉及语言处理领域,具体而言,涉及一种词语的获取方法及装置、存储介质、处理器。
背景技术
随着信息技术的飞速发展,信息媒体已发展成为人们日常生活不可或缺的部分,人们可以在互联网上浏览新闻资讯,如新浪网,腾讯网等,也可以在多媒体社交中发表个人意见,如新浪微博,微信等。同时,人们在线活动所产生的超大规模文本信息促进了自然语言处理技术的飞速发展。舆情分析平台的建设紧密依赖于自然语言处理技术,因此,自然语言处理技术的精确性和及时性变得尤为重要。一方面,自然语言处理,如中文分词,新词发现等技术的精确可以确保信息分析结果的可靠;另一方面,超大规模的文本信息处理的效率可以给信息使用者带来最及时的分析结果,例如,中文新词发现的时效性,对当前信息的舆情监控和后续信息的处理都有促进作用。
目前中文自然语言处理技术正吸引着越来越多的科研学者和工程人员的投入,并随着人工智能技术的跨越式发展,中文自然语言处理已逐步发现成为人工智能的热点问题之一。同时,大规模分布式计算技术的成熟,为自然语言处理技术带来新的突破视角。比如,百度搜索,搜狗输入法等系列产品的推出,
然而,自然语言处理技术仍存在很多难以解决的问题,例如,新词发现。传统意义上,是否为新词汇主要是相对于其出现的时间而定的。对于已经掌握的语料词库,其中的词汇被定义为旧词,即为过去时间出现的词汇。因此,所发现的新词可以抽象为在词库中不存在的词汇。
现有方法主要分为基于统计的中文分词技术和基于机器学习方法的中文分词技术。前者主要根据中文词语的构词法和语料中字词出现的统计规律,但操作过程需要大工作量的人工参与,对数据的具体情况做特殊分析和过滤,耗时太长。后者主要基于词典,结合机器学习算法进行分词,不过分词的效果依赖于词典的完备。在大量词典不完备的情况下,很难得到满意的结果。再者,超大规模,例如TB级,PB级的语料对于算法性能也是一个巨大的挑战。故而,相关技术中的在发现新词时浪费大量人力物力,同时很大程度上依赖于高完备性词典的问题。
发明内容
本发明实施例提供了一种词语的获取方法及装置、存储介质、处理器,以至少解决相关技术中在发现词语时浪费大量人力物力,同时很大程度上依赖于高完备性词典的问题。
根据本发明的一个实施例,提供了一种词语的获取方法,提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,所述词语序列中的通过以下方式确定:对输入的原始语料进行分词处理后,获取分词结果;按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
可选地,提取所述词语序列中的多个所述文本特征,并确定出每个所述文本特征对应的所述指标信息,包括以下至少之一:对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
可选地,所述相邻字符串为所述词语中的左最长子串和右最长子串。
可选地,至少通过以下公式融合所述指标信息得到所述指标阈值a:a=α·a1+β·a2+γ·a3+δ·a4+θ·a5;其中,α,β,γ,δ以及θ为数值不小于0的条件系数,同时α+β+γ+δ+θ=1,a1为所述词语序列的出现频率,a2为所述词语序列的PMI序列,a3为所述词语序列的SCP序列,a4所述词语序列的邻接熵序列,a5为所述词语序列的信息量序列。
可选地,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语,包括以下至少之一:判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
可选地,上述方法应用于apache spark平台。
根据本发明的另一个实施例,提供了一种词语的获取装置,包括:确定模块,用于提取确定的词语序列中的多个文本特征,并确定出每个所述文本特征对应的指标信息;第一过滤模块,用于通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;第二过滤模块,用于融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;筛选模块,用于根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,所述装置还用于,对输入的原始语料进行分词处理后,获取分词结果;以及按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
可选地,所述确定模块,包括:第一确定单元,用于对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;第二确定单元,用于对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;第三确定单元,用于对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;第四确定单元,用于对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;第五确定单元,用于对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
可选地,所述第三处理模块,包括:第一判断单元,用于判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;第二判断单元,用于判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;第三判断单元,用于判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;第四判断单元,用于判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
根据本发明的再一个实施例,提供了一种运行apache spark平台的设备,包括上述的装置。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述任一项所述的方法。
根据本发明的又一个实施例,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任一项所述的方法。
通过本发明,通过对通过输入的语料进行转化后的词语序列,利用从该词语序列中提取计算出的指标信息融合确定的阈值和预设的阈值所确定的候选词语集合。同时针对该候选词语集合使用相应的筛选指标进行筛选以最终确定词语。故而不需要借助太多的人力物力,同时,也不需要对词典的完整性具有较高的要求,因此可以解决相关技术中存在的发现新词时浪费大量人力物力,同时很大程度上依赖于高完备性词典的问题,从而可以达到避免计算复杂从而节省人力物力,同时无需以来词典就能够获取新词的有益效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种词语的获取方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种词语的获取的流程图;
图3是根据本发明实施例的一种应用于网络监督***的词语的获取方法的流程图;
图4是根据本发明实施例的一种基于大规模语料文本分类***的词语的获取方式的流程图;
图5是根据本发明实施例的一种基于个性化推荐词汇的词语的获取方法的流程图;
图6是根据本发明实施例的一种词语的获取装置的结构框图。
图7是根据本发明实施例的一种运行在apache spark平台的设备的结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种词语的获取方法的移动终端的硬件结构框图。如图1所示,终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的词语的获取方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
需要指出的是,本实施例所描述的过程是通过apace spark平台实现的。当然,其他能够进行词语处理的平台***均在本实施例的保护范围之内,在此并不做过多赘述。
需要说明的是,在本实施例中所描述的词语获取的含义为新词的获取在现有词库中不存在的词汇。当然,例如本实施例中的新词,不仅仅能够应用与中文新词的获取,同时其他语言,例如英语,法语,日语等其他国家或者地区的语言在本实施例的保护范围之内。而具体实际操作时,可以根据各个国家或者地区的语言特色进行略微调整。
在本实施例中提供了一种运行于上述终端的词语的获取方法,图2是根据本发明实施例的一种词语的获取的流程图,如图2所示,该流程包括如下步骤:
步骤S202,提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;
可选地,步骤S202中的确定过程可以通过以下其中之一的方式来实现:
(1)对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率。
具体地,如果在词语序列中词语出现的频率越高,那么意味着该词语被使用的次数较多,因此,构成一个新词的可能性很大。
(2)提取所述词语序列中词语的相邻字符串之间的互信息量PMI,并根据所述PMI按照所述词语顺序构成所述词语序列的PMI序列。
具体地,PMI是衡量两个事件相关性的信息度量。对于候选新词而言,构成其的两个最长子串,即左最长子串和右最长子串的互信息量值越大,就说明两者构成一个新词的概率越大。反之,如果互信息量值越小,两者则不太可能构成一个新词。因此,互信息量的大小反映了候选新词中最长子串的共现概率。当该概率越大时,最长子串工程构成新词的可能性越大。
例如:对于候选新词w=c1c2…cn,他的两个最长子串为左最长子串wleft=c1c2…cn-1和右最长子串wright=c2c3…cn,候选新词w的互信息量为
PMI(w)=log(p(w)/p(wleft)p(wright))
(3)提取所述词语序列中每个词语的对称条件概率SCP,根据所述SCP按照所述词语顺序构成所述词语序列的SCP序列。
具体地,SCP是衡量字符串内部各个字符结合的紧密程度的统计量。对于候选词语而言,该词语的概率值越大,则标识组成该词语中的字符串越紧密。因此构成词语的可能性更大,反之,则构成词语的概率越小。
例如:对于候选新词w=c1c2…cn,SCP的计算方法为
(4)提取所述词语序列中每个词语中的邻接熵,根据所述邻接熵按照所述词语顺序构成所述词语序列的邻接熵序列。
具体地,邻接熵(Branch Entropy)是衡量候选词语中的左邻字符和右邻字符的不确定性的统计量。如果候选词语的不确定性越高,就说明候选词语的上下文关系越丰富,因此,构成词语的可能性更大。
例如:
对于候选新词w,字符x和字符y分别表示候选新词的左邻字符和右邻字符,则w的左邻接熵HL(w),右邻接熵HR(w)以及邻接熵BE(w)的计算方法如下:
HL(w)=-∑xp(x|w)logp(x|w)
HR(w)=-∑yp(y|w)logp(y|w)
BE(w)=min(HL(w),HR(w))
(5)提取所述词语序列中每个词语中的定词重叠率以及长度信息增益,根据所述定词重叠率以及所述长度信息增按照所述词语顺序构成所述词语序列的信息量序列。
可选地,在步骤S204之间,所述方法还包括:
对输入的原始语料进行分词处理后,获取分词结果;
按照所述分词结果中词语出现的顺序,将所述分词结果根据spark的输出特性,输出为所述词语序列。
可选地,保留分词后词语的出现顺序的目的在于,为了将输入的语料在现有词库中的分词结果计算处理,而对于那些不在词库中的词语,势必会得到不正确的划分,因此在保留词序的情况下,为后续步骤提供分析输入。
步骤S204,通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
具体地,预设词语长度阈值为遵循一般的语言学规律构成新词的词语长度。在本实施例中,预设长度阈值为5或者6。因此,只要词语长度满足该预设长度阈值5或6,那么就具备构成新词的潜力。
步骤S106,融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合。
可选地,该指标阈值可以通过以下公式标识:
a=α·a1+β·a2+γ·a3+δ·a4+θ·a5;
其中,α,β,γ,δ以及θ为数值不小于0的条件系数,同时α+β+γ+δ+θ=1,a1为所述词语序列的词语频率,a2为所述词语序列的PMI序列,a3为所述词语序列的SCP序列,a4所述词语序列的邻接熵序列,a5为所述词语序列的信息量序列。
需要指出的是,作为一种按照发明人经验确定的取值,α,β,γ,δ以及θ的具体取值分配为:
α=0.35,β=0.14,γ=0.30,δ=0.15,θ=0.06
故而,对于初步满足预设词语长度阈值的词语,在其满足指标阈值a的情况下,才能够称为具有成为新词能力的候选新词。同时为了方便后续的输入,该候选新词同样也需要按照分词后词语的出现顺序进行排序。
需要指出的是,如果由于***问题或者词语序列当中存在乱码或者文档损坏导致部分的指标无法统计时,那么只需要统计出能够计算出来的指标,而其他指标忽略。同时将对应的条件系数设置为0。同时通过比较指标的重要性,重新配置相应的条件系数取值。这样既能够最大程度上保证了新词选取的精确性,同时能够拓宽新词提取时的适用性,具有很强的抗外界因素的能力。
可步骤S108,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,具体筛选指标和筛选方式如下:
(1)判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语。
具体地,对于出现频率较少的候选词语,那么该词语是不能够满足构成新词的条件的。在本实施例中的一种可选方式,预设词语频率阈值设置为3。即,当该候选词语出现的频率小于3的话,那么视该候选词语并不满足作为新词的条件,故而将该候选词语进行过滤。而如果出现的频率大于3的话,那么视该候选词语能够满足新词的条件,故而将该候选词语保留。
(2)判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语。
具体地,停用词表作用在于指示已经停止使用的词语,因此如果该候选新词是属于该停用词表的话,那么该候选信息同样也不满足作为新词的条件,故而将该候选词语进行过滤。而如果不属于该停用词表的话,那么则保留该候选词语。
(3)判断所述候选词语集合中每个字符串中的最长子字符串的出现频数是否等于该最长子字符串的父字符串的出现频数。
具体地,一个N元字符串c1c2…cn,其N-1元最长子串为wleft=c1c2…cn-1和wright=c2c3…cn。如果该最长子字符串的出现频数等于其父字符串的出现频数的话,则说明该最长子字符串在文本中是作为子字符串的一部分出现,而不是通过作为一个词语的形式出现的。故而将该字符串进行过滤,而保留出现频率不相同的最长子字符串。
(4)判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
可选地,通过概率层面,点库层面以及字符串层面综合筛选的方式对候选词语进行层层筛选,最终能够确定满足上述筛选指标的新词或新词集合。
需要指出的是,上述筛选条件只是列举,而非穷举。例如,对于词语的出现位置,词语的词性等其他指标进行筛选也在本实施例的保护范围之内,在此并不做过多赘述。
可选地,聚合apache spark上的分散弹性分布式数据集(Resilient DistributedDataset简称RDD),获取满足筛选指标的新词或者新词集合,
此外,在本实施例中还提供了以下实际应用场景,以便理解本实施例中上述描述的技术方案:
场景1:
在大众日常生活中使用的微博,微信朋友圈和互联网网站当中会产生丰富的互联网资料。为了实现网络上的社会治安监督和社会舆论引导有效执行,实时分析和追踪大众关注点和社会实时舆论动态是非常必要的。图3是根据本发明实施例的一种应用于网络监督***的词语的获取方法的流程图,具体在方法中包括:
S1,抓取微博、微信及其他互联网数据进行序列化存储;
S2,清理数据,去除干扰信息,将数据归整为结构化信息;
S3,使用apache spark加载数据,采用本方法对文本信息进行新词发现;
S4,对所发现的新词进行过滤,输出的新词即可认为是网络舆情的新热点和社会舆论新潮流
S5,对结果进行前端页面展示;
场景2:
在大规模语料文本分类***中,能够对大规模文本语料例如新闻讯息,政务文档等,提供实时分类和查询服务。图4是根据本发明实施例的一种基于大规模语料文本分类***的词语的获取方式的流程图,如图4所示,所述获取方法包括:
S1,读入语料数据,并将其存储为RDD格式。
S2,将RDD转化为具有RDD的排列顺序的数据集Dataset。
S3,将Dataset中的词语转化为具有RDD的排列顺序的数组。
S4,计算每一个数组在文档中的词频。
S5,计算信息检索数据挖掘的常用加权(term frequency-inverse documentfrequency,简称TF-IDF)。
S6,训练贝叶斯模型并以文件形式持久化。
S7,输入需要分析的文本。
S8,调用预先训练好的主题模型,并计算档期文本的主题值,。
S9,根据计算值查询主题字典,输出当前文本的主题。
场景3:
通过本***实时分析和追踪的舆情热点和流行词汇,结合用户的喜好细分和用户画像,可对用户进行个性化推荐,推送符合用户喜好的实时新闻或者其他信息。图5是根据本发明实施例的一种基于个性化推荐词汇的词语的获取方法的流程图。如图5所示,所述获取方法包括:
S1,抓取微博、微信及其他互联网数据进行序列化存储;
S2,清理数据,去除干扰信息,将数据归整为结构化信息;
S3,使用apache spark加载数据,采用本方法对文本信息进行新词发现;
S4,对所发现的新词进行过滤,输出的新词即可认为是网络舆情的新热点和社会舆论新潮流,将这些热点对应到发布用户和地点;
S5,结合新词对应的发布用户,结合其他信息分析用户,对用户进行个性画像
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种词语的获取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的一种词语的获取装置的结构框图,如图6所示,该装置包括:确定模块62,第一过滤模块64,第二过滤模块66以及筛选模块68。
确定模块62,用于提取确定的词语序列中的多个文本特征,并确定出每个所述文本特征对应的指标信息;
第一过滤模块64,用于通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
第二过滤模块66,用于融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
筛选模块68,用于根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,所述装置还用于,对输入的原始语料进行分词处理后,获取分词结果;以及按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
可选地,确定模块62包括:
第一确定单元,用于对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;
第二确定单元,用于对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;
第三确定单元,用于对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;
第四确定单元,用于对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;
第五确定单元,用于对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
可选地,筛选模块68包括:
第一判断单元,用于判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;
第二判断单元,用于判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;
第三判断单元,用于判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;
第四判断单元,用于判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
可选地,本实施例中描述的上述装置可以运行在apache spark平台的设备上。图7是根据本发明实施例的一种运行在apache spark平台的设备的结构图,以来实现上述描述装置的功能。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项所述的方法。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;
S2,通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
S3,融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
S4,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种处理器,该处理器用于运行程序,其中,该程序运行时执行上述任一项方法中的步骤。
可选地,在本实施例中,上述程序用于执行以下步骤:
S1,提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;
S2,通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
S3,融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
S4,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种词语的获取方法,其特征在于,包括:
提取确定的词语序列中的多个文本特征,并确定每个所述文本特征对应的指标信息;
通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
根据预设的筛选指标对所述候选词语集合进行筛选以获取指定词语。
2.根据权利要求1所述的方法,其特征在于,所述词语序列中的通过以下方式确定:
对输入的原始语料进行分词处理后,获取分词结果;
按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
3.根据权利要求2所述的方法,其特征在于,提取所述词语序列中的多个所述文本特征,并确定出每个所述文本特征对应的所述指标信息,包括以下至少之一:
对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;
对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;
对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;
对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;
对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
4.根据权利要求3所述的方法,其特征在于,其中,所述相邻字符串为所述词语中的左最长子串和右最长子串。
5.根据权利要求3所述的方法,其特征在于,至少通过以下公式融合所述指标信息得到所述指标阈值a:
a=α·a1+β·a2+γ·a3+δ·a4+θ·a5;
其中,α,β,γ,δ以及θ为数值不小于0的条件系数,同时α+β+γ+δ+θ=1,a1为所述词语序列的出现频率,a2为所述词语序列的PMI序列,a3为所述词语序列的SCP序列,a4所述词语序列的邻接熵序列,a5为所述词语序列的信息量序列。
6.根据权利要求2所述的方法,其特征在于,根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语,包括以下至少之一:
判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;
判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;
判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;
判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
7.根据权利要求1-6任一项所述的方法,其特征在于,应用于apache spark平台。
8.一种词语的获取装置,其特征在于,包括:
确定模块,用于提取确定的词语序列中的多个文本特征,并确定出每个所述文本特征对应的指标信息;
第一过滤模块,用于通过预设词语长度阈值对所述词语序列中的词语进行过滤,提取出满足所述预设词语长度阈值的词语集合;
第二过滤模块,用于融合多个所述文本特征对应的指标信息得到指标阈值,并通过所述指标阈值对满足所述预设词语长度阈值的词语集合过滤,提取出满足所述指标阈值的候选词语集合;
筛选模块,用于根据预设的筛选指标对所述候选词语集合进行筛选以获取词语指定词语。
9.根据权利要求8所述的装置,其特征在于,所述装置还用于,对输入的原始语料进行分词处理后,获取分词结果;以及按照所述分词结果中词语出现的顺序,将所述分词结果转化为所述词语序列。
10.根据权利要求9所述的装置,其特征在于,所述确定模块,包括:
第一确定单元,用于对所述词语序列中的每个词语进行频率统计,并根据频率统计的结果确定所述词语序列的词语的出现频率;
第二确定单元,用于对所述词语序列中的每个词语的相邻字符串之间的互信息量PMI进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的PMI序列;
第三确定单元,用于对所述词语序列中的每个词语的对称条件概率SCP进行统计,并根据统计的结果按照所述词语出现的顺序构成所述词语序列的SCP序列;
第四确定单元,用于对所述词语序列中的每个词语的邻接熵进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的邻接熵序列;
第五确定单元,用于对所述词语序列中的每个词语的定词重叠率以及长度信息增益进行统计,并根据统计的结果按照所述词语出现的顺序确定所述词语序列的信息量序列。
11.根据权利要求10所述的装置,其特征在于,所述筛选模块,包括:
第一判断单元,用于判断所述候选词语集合中的每个词语出现的频率是否大于预设词语频率阈值,将频率大于预设词语频数阈值所对应的词语判定为所述指定词语;
第二判断单元,用于判断所述候选词语集合中的每个词语是否属于停用词表中的词语,将不属于所述停用词表的词语判定为指定词语;
第三判断单元,用于判断所述候选词语集合中每个字符串中的最长子字符串的出现频率是否等于该最长子字符串的父字符串的出现频率,将出现概率等于所述父字符串的出现频率的所述最长子字符串判定为不是指定词语;
第四判断单元,用于判断所述候选词语集合中的每个词语是否属于用户词典中的词语,将属于所述用户词典的词语判定为不是指定词语。
12.一种运行apache spark平台的设备,其特征在于,包括权利要求8-11任一项所述的装置。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法。
CN201710414730.XA 2017-06-05 2017-06-05 词语的获取方法及装置、存储介质、处理器 Pending CN108984514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710414730.XA CN108984514A (zh) 2017-06-05 2017-06-05 词语的获取方法及装置、存储介质、处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710414730.XA CN108984514A (zh) 2017-06-05 2017-06-05 词语的获取方法及装置、存储介质、处理器

Publications (1)

Publication Number Publication Date
CN108984514A true CN108984514A (zh) 2018-12-11

Family

ID=64501310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710414730.XA Pending CN108984514A (zh) 2017-06-05 2017-06-05 词语的获取方法及装置、存储介质、处理器

Country Status (1)

Country Link
CN (1) CN108984514A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783649A (zh) * 2019-01-02 2019-05-21 腾讯科技(深圳)有限公司 一种领域词典生成方法及装置
CN111488727A (zh) * 2020-03-24 2020-08-04 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质
CN113342936A (zh) * 2021-06-08 2021-09-03 北京明略软件***有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质
CN113779973A (zh) * 2020-06-09 2021-12-10 杭州晨熹多媒体科技有限公司 一种文本数据处理方法及其装置
CN115858771A (zh) * 2022-01-11 2023-03-28 北京中关村科金技术有限公司 词语的查找方法、装置和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323382A (zh) * 2011-07-20 2012-01-18 暨南大学 结构损伤检测的多指标分层与融合可视化方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及***
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和***
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102323382A (zh) * 2011-07-20 2012-01-18 暨南大学 结构损伤检测的多指标分层与融合可视化方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及***
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN106649334A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 关联词语集合的处理方法及装置
CN105786991A (zh) * 2016-02-18 2016-07-20 中国科学院自动化研究所 结合用户情感表达方式的中文情感新词识别方法和***
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梅莉莉: "基于领域特殊性和统计语言知识的新词抽取方法", 知网, pages 2 *
苏其龙: "微博新词发现研究", 知网, pages 2 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783649A (zh) * 2019-01-02 2019-05-21 腾讯科技(深圳)有限公司 一种领域词典生成方法及装置
CN109783649B (zh) * 2019-01-02 2023-01-24 腾讯科技(深圳)有限公司 一种领域词典生成方法及装置
CN111488727A (zh) * 2020-03-24 2020-08-04 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质
CN111488727B (zh) * 2020-03-24 2023-09-19 南阳柯丽尔科技有限公司 词文件解析方法、词文件解析设备和计算机可读存储介质
CN113779973A (zh) * 2020-06-09 2021-12-10 杭州晨熹多媒体科技有限公司 一种文本数据处理方法及其装置
CN113342936A (zh) * 2021-06-08 2021-09-03 北京明略软件***有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质
CN113342936B (zh) * 2021-06-08 2024-03-22 北京明略软件***有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质
CN115858771A (zh) * 2022-01-11 2023-03-28 北京中关村科金技术有限公司 词语的查找方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN108776671A (zh) 一种网络舆情监控***及方法
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN107862022B (zh) 文化资源推荐***
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN103778205A (zh) 一种基于互信息的商品分类方法和***
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN106649334B (zh) 关联词语集合的处理方法及装置
CN106951409A (zh) 一种网络社交媒体观点倾向性分析***及方法
CN110263169A (zh) 一种基于卷积神经网络和关键词聚类的热点事件检测方法
CN110458296B (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN105354327A (zh) 一种基于大数据分析的接口api推荐方法及***
CN105740227A (zh) 一种求解中文分词中新词的遗传模拟退火方法
CN108733791A (zh) 网络事件检测方法
CN109241392A (zh) 目标词的识别方法、装置、***及存储介质
CN104933475A (zh) 网络转发行为预测方法及装置
CN111061837A (zh) 话题识别方法、装置、设备及介质
Kim et al. SMS spam filterinig using keyword frequency ratio
CN111581956A (zh) 基于bert模型和k近邻的敏感信息识别方法及***
CN105512300A (zh) 信息过滤方法及***
CN111324725B (zh) 一种话题获取方法、终端、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination