CN115034211B - 未登录词发现方法、装置、电子设备及存储介质 - Google Patents
未登录词发现方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115034211B CN115034211B CN202210563265.7A CN202210563265A CN115034211B CN 115034211 B CN115034211 B CN 115034211B CN 202210563265 A CN202210563265 A CN 202210563265A CN 115034211 B CN115034211 B CN 115034211B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- candidate
- information entropy
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012937 correction Methods 0.000 claims description 40
- 238000001914 filtration Methods 0.000 claims description 38
- 230000015654 memory Effects 0.000 claims description 33
- 230000002776 aggregation Effects 0.000 claims description 31
- 238000004220 aggregation Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 20
- 238000005065 mining Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 230000002829 reductive effect Effects 0.000 claims description 7
- 230000009193 crawling Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000007499 fusion processing Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000007711 solidification Methods 0.000 description 8
- 230000008023 solidification Effects 0.000 description 8
- 230000005291 magnetic effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 244000144730 Amygdalus persica Species 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 2
- 241000876435 Hucho hucho Species 0.000 description 2
- 235000006040 Prunus persica var persica Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000007596 consolidation process Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种未登录词发现方法、装置、电子设备及存储介质。在本申请实施例中,在未登录词发现过程中,同时考虑词语的内部凝聚度和外部自由度;在考虑词语内部凝聚度时,不仅考虑词语的互信息,同时考虑词语的长度信息的影响,使得未登录词发现不再受词语长短的限制,对长短词都具有较好的发现能力,有效解决现有方案对较短词语发现能力较差的问题,提高未登录词发现的覆盖度;在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种未登录词发现方法、装置、电子设备及存储介质。
背景技术
在游戏领域里,不同游戏都存在大量的专有词汇,比如角色名、战法名、武器名、活动名等。除此之外,游戏玩家也会自主地创造大量的新词汇,比如魏法骑、碰瓷吕等阵容名、角色昵称等。通常会将这类词语称之为未登录词,不仅指随时代发展而新出现或旧词新用的词语,同时也包括特定领域的专有名词。
在游戏领域里,未登录词占比非常大,且包含着游戏领域里比较核心的信息。因此,未登录词发现是自然语言处理(Natural Language Processing,NLP)的基础任务之一,可以用于发现特定场景的实时热点,也可用于构建领域知识图谱,更重要的是,它是后续内容推荐、智能搜索、自动问答、摘要抽取、文本分类等上层任务的基石,因此,未登录词发现具有举足轻重的作用。
目前,未登录词发现的方案,有基于词典的专家领域人工方案,也有基于条件随机场(Conditional Random Field,CRF)或BiLSMT(Bi-directional Long Short-TermMemory)的有监督学习方案,还有基于信息论中信息度量的无监督学习方案。但是,目前这些已有方案的覆盖度和准确率都较低,有待提出新的解决方案,提高未登录词发现的覆盖度和准确率。
发明内容
本申请的多个方面提供一种未登录词发现方法、装置、电子设备及存储介质,用以提高未登录词发现的覆盖度和准确率。
本申请实施例提供一种未登录词发现方法,包括:对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度;针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度;根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
本申请实施例还提供一种未登录词发现装置,包括:候选词识别模块,用于对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;凝聚度处理模块,用于针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度;自由度处理模块,用于针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度;未登录词选择模块,用于根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
本申请实施例还提供一种电子设备,包括:存储器和处理器;存储器包括计算机程序;处理器,与存储器耦合,用于执行计算机程序,以用于实现未登录词发现方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器能够实现未登录词发现方法中的步骤。
在本申请实施例中,在未登录词发现过程中,同时考虑词语的内部凝聚度和外部自由度;在考虑词语内部凝聚度时,不仅考虑词语的互信息,同时考虑词语的长度信息的影响,使得未登录词发现不再受词语长短的限制,对长短词都具有较好的发现能力,有效解决现有方案对较短词语发现能力较差的问题,提高未登录词发现的覆盖度;在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种未登录词发现方法的流程图;
图2为本申请实施例提供的另一种未登录词发现方法的流程图;
图3为本申请实施例提供的一种示例性的应用场景示意图;
图4为本申请实施例提供的一种未登录词发现装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前发现未登录词的各种已有方案的覆盖度和准确率都较低,为此,本申请实施例提供一种未登录词发现方法、装置、电子设备及存储介质,用以提高未登录词发现的覆盖度和准确率。在本申请实施例中,在未登录词发现过程中,同时考虑词语的内部凝聚度和外部自由度;在考虑词语内部凝聚度时,不仅考虑词语的互信息,同时考虑词语的长度信息的影响,使得未登录词发现不再受词语长短的限制,对长短词都具有较好的发现能力,有效解决现有方案对较短词语发现能力较差的问题,提高未登录词发现的覆盖度;在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的一种未登录词发现方法的流程图。参见图1,该方法可以包括以下步骤:
101、对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串。
102、针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度。
103、针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度。
104、根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
在本实施例中,步骤102和103可以顺序执行,也可以并行执行,且顺序执行的先后顺序不做限制。
在本实施例中,目标领域可以是任意的垂直领域,例如包括但不限于:游戏领域、金融领域、医疗领域、教育领域。在特定的目标领域进行文本语料收集,得到专用领域语料库,由于专用语料库中的文本语料包括与目标领域关联性强的词语,从专用语料库中进行未登录词挖掘,能够扩大未登录词挖掘的覆盖度。在本实施例中,未登录词是指目标领域中随时代发展而新出现的词语,或者也可以是旧词新用的词语,同时也包括目标领域中的专有名词,或者用户自创的具有一定的代表性或代表某种趋势的词语等。
实际应用中,目标领域中的文本语料的来源包括但不限于:网页、电子文档以及纸质材料。另外,可以从任何生产目标领域的语料的渠道中收集目标领域中的文本语料。例如,目标领域可以采用媒体发布平台(例如网络媒体新闻网站)进行信息发布、交流或分享,于是,各种网络平台可以作为目标领域的文本语料的收集渠道。又例如,由于目标领域的专用网站提供的信息更为丰富,专用网站可以作为目标领域的文本语料的收集渠道。又例如,由于社交网络平台往往成为目标领域的信息交流平台,社交网络平台可以作为目标领域的文本语料收集渠道。
由于一些舆情网站能够吸引较多的相关人员就目标领域进行信息交流或分享,舆情网站的用户多,提供丰富的舆情数据,从舆情数据中发现目标领域的未登录词的概率较大,于是,进一步可选的,可以利用爬虫工具从目标领域对应的多个舆情网站上,爬取目标领域中的文本语料。其中,爬虫工具能够对网页内容进行抓取和解析,便于用户获取网络资源。
值得注意的是,舆情网站是指能够提供目标领域的舆情数据的网站,各个领域根据实际应用需求指定对应的舆情网站。舆情网站例如包括但不限于:网络媒体新闻网站、专用网站以及社交网络平台等等。
在本实施例中,获取到目标领域中的文本语料之后,对目标领域中的文本语料进行词语识别,得到多个候选词。实际应用中,可以首先对目标领域中的文本语料进行语料清洗,接着对语料清洗后的文本语料进行分词处理,得到文本语料中包含的多个词语,再从多个词语中按需选择有可能成为未登录词的多个候选词。
其中,经过语料清洗,能够保留文本语料中有用的数据,删除噪音数据。在语料清洗过程中,可以将全角字符转换为半角字符、将繁体字转换为简体字、将中文语料中包含的英文大小写统一、去除停用词以及变形词标准化等等。
在本实施例中,可以直接对文本语料进行分词处理,也可以对语料清洗后的文本语料进行分词处理,以实现对文本语料的词语识别,对此不做限制。在分词处理时,可以采用基于字符串匹配的分词方式、基于理解的分词方式、基于统计的分词方式和基于规则的分词方式,对此不做限制。进一步可选的,为了能够提高未登录词挖掘的准确度,可以采用N-gram语言模型对目标领域中的文本语料进行词语识别。其中,N-gram语言模型的原理是假设第m个词的出现只与前面m-1个词相关,与其他词都不相关,整个语句的概率就是各个词出现概率的乘积,m为正整数。基于N-gram语言模型能够提高分词准确度,N的取值不做限定,可以是≥2的任意正整数,例如N可以取2、3、4或5等。
在本实施例中,在对目标领域中的文本语料进行词语识别后,可以直接将识别到的词语作为多个候选词。进一步可选的,为了提高未登录词挖掘的准确度,对识别到的词语进行凝固度过滤,以得到多个候选词。具体地,可以选取某个固定的数值N(N≥2),统计2-grams、3-grams、…、n-grams构成的词语,分别计算各词语的凝固度,只保留高于设定凝固度阈值的词语作为候选词。其中,可以为2-grams、3-grams、…、n-grams设置不同的凝固度阈值,也可以设定相同的凝固度阈值。以文本语料中的某个文本片段为“新客户”为例,并选取N等于3对文本片段进行词语识别,并设定2-grams、3-grams对应的阈值分别为A1和A2,那么需要N=2和N=3构成的词语,并计算2-grams、3-grams构成的各词语的凝固度,保留2-grams构成的词语中凝固度大于A1的词语,保留3-grams构成的词语中凝固度大于A2的词语作为候选词,并形成候选词池。
在本实施例中,每个候选词是具有特定长度的连续字符串。特定长度根据实际需求灵活设置,特定长度例如为1个字符、2个字符、3个字符、4个字符或者5个字符。有的候选词可以是1个字符,有的候选词可以是2个字符,有的候选词可以是3个字符,有的候选词可以是4个字符,有的候选词可以是5个字符,不同候选词的字符数量可以相同,也可以不同,对此不做限制。
在本申请一可选实施例中,词语的凝固度可以反映词语之间的紧密程度,可选的,凝固度可以用词频表征,词频越大表示该词语出现的频次越高,也就表示该词语的凝固度比较高。作为一种示例,统计从文本语料进行词语识别得到的每个词语的出现次数,将每个词语的出现次数与全部词语的出现次数总和的比值作为词频,该词频可以反映对应词语的凝固度。根据指向词频的凝固度对候选词池中的词语进行过滤,例如,将词频小于预设词频的词语过滤,保留词频大于预设词频的词语,所保留的词语作为候选词,并形成候选词池。其中,预设词频根据实际应用需求设置。在本实施例中,除了使用词频之外,也可以使用每个词语的出现次数表征词语的凝固度,词语的出现次数简称为频次,其中,每个词语的频次是指该词语的出现次数。
举例来说,候选词池中有词语A出现5次,词语B出现10次,词语C出现15次。则全部词语的出现次数是30次,词语A的频次是5次,词语A的词频是5/30;词语B的频次是10次,词语B的词频是10/30;词语C的频次是15次,词语C的词频是15/30。频次或词频较小的词语A被过滤掉的概率较大,频次或词频较小的词语B和词语C被过滤掉的概率较小。
在另一可选实施例中,也可以采用下述方式确定词语的凝固度,具体地,可以通过以下公式计算词语的凝固度:其中,a、b、c表示组成词语的最小单元,ab、bc表示N等于2时切分得到的分词,abc表示N等于3时切分得到的分词,P(a)、P(c)、P(ab)、P(bc)、P(abc)分别表示a、c、ab、bc、abc在所识别到的词语中出现的概率。
在本实施例中,在对目标领域中的文本语料确定出多个候选词后,基于候选词的长度信息修正候选词的互信息,得到候选词的内部凝聚度。其中,互信息是一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。因此,互信息能够很好的反映出候选词的内部凝聚度,候选词的互信息越大,其内部凝聚度越高,说明其成为一个未登录词的概率越大。但是,当候选词长度较大时其互信息的值会偏大,反之,候选词长度越短,其互信息的值相对会偏小,因此长度较短的候选词往往会因为互信息值较小而被过滤或者是排序较后,但这些长度较短的候选词也有可能是目标领域中的未登录词。为此,在本实施例中,基于候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度。由于本实施例中候选词的内部凝聚度考虑了词语长度的影响,能够有效解决“较短长度的词语挖掘能力差”的问题,既能够发现长度较长的未登录词,也能够发现长度较短的未登录词,有利于提高未登录词挖掘的覆盖度。
具体而言,针对每个候选词,可以根据候选词的词频和候选词包含的各字符的词频,计算候选词的互信息。值得注意的是,候选词的词频或者字符的词频是以从目标领域的文本语料得到的多个候选词形成的候选词池作为基准统计出来的。候选词的词频可以是指候选词在候选词池中的出现次数,或者,可以是指候选词在候选词池中的出现次数与全部候选词的出现次数总和的比值。同样地,字符的词频可以是指字符在候选词池中的出现次数,或者,可以是指字符在候选词池中的出现次数与全部字符的出现次数总和的比值,对此不做限制。
假设候选词的互信息的记为mi(英文全称mutual information),候选词记为word,候选词的词频记为p(word),候选词的长度(即字符数量)记为len(word),word中的连续len(word)个字符依次记为c1、c2……clen(word),针对连续len(word)个字符中的任一第i个字符,第i个字符ci的词频记为p(ci)。实际应用中,可以采用但不限于以下方式计算候选词的互信息:
方式1:根据候选词的词频p(word)和全部字符的词频之和计算候选词的互信息。示例性的,根据公式(1)或(2)计算候选词的互信息mi。
方式2:根据候选词的词频p(word)和全部字符的词频的乘积计算候选词的互信息。
示例性的,根据公式(3)或(4)计算候选词的互信息mi。
在本实施例中,在得到每个候选词的互信息之后,对根据候选词的长度信息对候选词的互信息进行修正的方式不做限制。例如,在候选词的互信息的基础上加上候选词的长度信息,作为候选词的内部凝聚度。又例如,在候选词的互信息的基础上乘以候选词的长度信息,作为候选词的内部凝聚度。进一步可选的,为了更好地提高未登录词发现的覆盖度,根据候选词的长度信息对候选词的互信息进行加权处理,得到加权互信息(英文全称Weighted mutual information)作为候选词的内部凝聚度,加权互信息会随候选词的长度信息的增大而减小。作为一种示例,在加权处理时,可以根据候选词的长度信息生成权重因子,权重因子随候选词的长度信息的增大而减小;根据权重因子对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度。本实施例对根据候选词的长度信息生成权重因子的方式不做限制。例如,将候选词的长度信息的M次方根的倒数作为权重因子,N是≥1的自然数,但并不以此为限。其中,M=1时,实际上是将候选词的长度信息的倒数作为权重因子。
为了更好地理解,假设加权互信息记为wmi,以M=2为例,并以公式(4)所示的互信息为例,按照公式(5)计算加权互信息wmi:
在本实施例中,除了确定每个候选词的内部凝聚度,还需确定每个候选词的外部自由度。具体而言,针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度。
值得注意的是,信息熵指信息中排除了冗余后的平均信息量,可以理解成某种特定信息的出现概率。一个***越是有序,信息熵就越低;反之,一个***越是混乱,信息熵就越高。因此,候选词左右两侧的信息熵能够很好的反映出候选词的外部自由度,候选词左右两侧相邻的不同词越丰富,左右两侧的信息熵越大,候选词的外部自由度越高,说明其成为一个未登录词的概率越大。
值得注意的是,在本实施例中,在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。
在一可选实现方式中,针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度包括:针对每个候选词,从文本语料中统计候选词对应的左邻接字集合和右邻接字集合;基于左邻接字集合和右邻接字集合,分别生成候选词的左邻接信息熵和右邻接信息熵;根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度。
具体而言,针对任一候选词,在该候选词每一次出现在文本语料中时,将在该候选词左侧的字符作为该候选词的左邻接字,并加入该候选词的左邻接字集合。同样地,在该候选词每一次出现在文本语料中时,将在该候选词右侧的字符作为该候选词的右邻接字,并加入该候选词的右邻接字集合。
假设左邻接信息熵记为entropyleft,右邻接信息熵记为entropyright,左邻接字集合记为cl,右邻接字集合记为cr,针对左邻接字集合或右邻接字集合中的任一字符ci,假设该字符ci在候选词word出现在文本语料的情况下,出现在文本语料中的概率记为p(ci|word)。其中,p(ci|word)的计算方式可以是:将字符ci在文本语料中出现的词频与候选词word在文本语料中出现的词频的比值。
实际应用中,可以采用但不限于以下方式计算候选词的左、右邻接信息熵:
方式1:针对任意侧的邻接信息熵,将左邻接字集合或右邻接字集合中各字符ci对应的概率p(ci|word)进行累加,得到该侧的邻接信息熵。示例性的,根据公式(6)计算左邻接信息熵entropyleft,根据公式(7)计算右邻接信息熵entropyright。
方式2:针对任意侧的邻接信息熵,将左邻接字集合或右邻接字集合中各字符ci对应的概率p(ci|word)的平均值,作为该侧的邻接信息熵。示例性的,根据公式(8)计算左邻接信息熵entropyleft,根据公式(9)计算右邻接信息熵entropyright。
其中,L表示左邻接字集合cl中的字符数量,R表示右邻接字集合记为cr中的字符数量。
方式3:针对任意侧的邻接信息熵,针对左邻接字集合或右邻接字集合中的任一字符ci,首先对该ci的概率p(ci|word)进行对数运算(即取log运算),得到logp(ci|word);接着,将该ci的概率p(ci|word)与其logp(ci|word)进行相乘,得到p(ci|word)logp(ci|word);最后,对全部的字符的p(ci|word)logp(ci|word)进行累加,将累加和的负数作为任意侧的邻接信息熵。示例性的,根据公式(10)计算左邻接信息熵entropyleft,根据公式(11)计算右邻接信息熵entropyright。
在本实施例中,候选词的左右信息熵分别表示该候选词一侧的自由度,如果对左右信息熵进行过滤或者仅根据最小侧信息熵进行过滤,都会使得挖掘出的未登录词出现单侧不完整的情况。为此,在本实施例中,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,平衡左邻接信息熵和右邻接信息熵,具体而言,根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度。综合信息熵考虑了左右邻接信息熵之间的平衡,故可以将综合信息熵称为平衡左右信息熵,简记为blre(英文全称Balance left-right entropy)。实际应用中,可以采用但不限于以下方式生成综合信息熵:
方式1:将左邻接信息熵和右邻接信息熵直接进行相乘,将乘积作为综合信息熵。
方式2:将左邻接信息熵和右邻接信息熵直接进行求和,将求和结果作为综合信息熵。
方式3:以右邻接信息熵作为右影响因子,对左邻接信息熵进行修正,得到第一融合信息熵;以左邻接信息熵作为左影响因子,对右邻接信息熵进行修正,得到第二融合信息熵;根据第一修正信息熵和第二修正信息熵,生成综合信息熵,作为候选词的外部自由度。
在方式3中,在利用右邻接信息修正左邻接信息熵时,可以将右邻接信息与左邻接信息熵与右邻接信息进行相乘,或者将左邻接信息熵除以右邻接信息,或者,将左邻接信息熵与右邻接信息的幂结果进行相乘,对此不再限制。同样的,在利用左邻接信息修正右邻接信息熵时,可以将左邻接信息与右邻接信息熵进行相乘,或者将右邻接信息熵除以左邻接信息,或者,将右邻接信息熵与左邻接信息的幂结果进行相乘,对此不再限制。
在方式3中,对根据第一修正信息熵和第二修正信息熵,生成综合信息熵的方式不做限制。例如,可以直接将第一修正信息熵和第二修正信息熵进行相乘,得到综合信息熵;又例如,直接将第一修正信息熵和第二修正信息熵进行求和,得到综合信息熵。又例如,进一步可选的,为了有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度,还可以根据左邻接信息熵和右邻接信息熵的差值,得到第三融合信息熵;对第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合,得到综合信息熵,作为候选词的外部自由度。
其中,对根据左邻接信息熵和右邻接信息熵的差值,得到第三融合信息熵的方式不做限制。例如,直接将左邻接信息熵和右邻接信息熵的差值作为第三融合信息熵。又例如,将左邻接信息熵和右邻接信息熵的差值的平方或算术平方根作为第三融合信息熵。又例如,将左邻接信息熵和右邻接信息熵的差值进行幂运算,所得幂结果作为第三融合信息熵。
同样地,对第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合,得到综合信息熵的方式不做限制。例如,直接将第一修正信息熵、第二修正信息熵和第三融合信息进行求和,得到综合信息熵。又例如,将第一修正信息熵、第二修正信息进行求和,将求和结果减去第三融合信息熵,得到综合信息熵。又例如,对第一修正信息熵、第二修正信息熵和第三融合信息进行加权求和,得到综合信息熵。
为了更好地理解,按照公式(12)计算综合信息熵或平衡左右信息熵blre:
在本实施例中,在从目标领域的文本语料获得多个候选词后,根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
具体而言,针对每个候选词,根据候选词的内部凝聚度和外部自由度,确定候选词的综合得分;从多个候选词中,选择综合得分最高的多个候选词作为未登录词,如选择topK个候选词作为未登录词,K是≥2的正整数,或者,选择综合得分大于预设的得分阈值的多个候选词作为未登录词,或者,从综合得分大于预设的得分阈值的多个候选词中选择综合得分最高的多个候选词作为未登录词,对此不做限制。
其中,根据候选词的内部凝聚度和外部自由度,确定候选词的综合得分时,可以将候选词的内部凝聚度和外部自由度进行相乘,得到候选词的综合得分。也可以直接将候选词的内部凝聚度和外部自由度进行求和,得到候选词的综合得分。也可以对候选词的内部凝聚度和外部自由度进行加权求和,得到候选词的综合得分,对此不做限制。
本申请实施例提供的技术方案,在未登录词发现过程中,同时考虑词语的内部凝聚度和外部自由度;在考虑词语内部凝聚度时,不仅考虑词语的互信息,同时考虑词语的长度信息的影响,使得未登录词发现不再受词语长短的限制,对长短词都具有较好的发现能力,有效解决现有方案对较短词语发现能力较差的问题,提高未登录词发现的覆盖度;在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。
图2为本申请实施例提供的另一种未登录词发现方法的流程图。参见图2,该方法可以包括以下步骤:
201、对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串。
202、针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度。
203、针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度。
204、根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
205、针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉;和/或利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉。
关于本申请实施例中的步骤201至204可以参见前述实施例中的101至104,在此不再赘述。
实际应用中,选择出的未登录词可能会存在一些特定规律的噪声数据,例如,出现无意义的前后缀,无意义的叠词如“哈哈哈”等。为了进一步提高未登录词的质量,可以有效解决“词语多字”、“无意义叠词”或者不相关噪声数据多的问题,针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉;和/或,利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉。
在本实施例中,针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉的一种可选实现方式是:统计每个未登录词包含的首字和尾字在多个候选词中的出现频率,将首字和尾字中任一者出现频率高于指定频率阈值的未登录词过滤掉。其中,首字出现频率高于指定频率阈值的未登录词,很大概率上属于无意义的前缀词;尾字出现频率高于指定频率阈值的未登录词,很大概率是无意义的后缀词,将首字出现频率高于指定频率阈值或者尾字出现频率高于指定频率阈值的未登录词过滤掉,有利于将未登录词中出现的前后缀词过滤掉,有利于提高未登录词的准确度。
其中,出现频率可以是指在多个候选词形成的候选词池中的出现次数或频次,指定频率阈值根据实际需求灵活设置,例如为10次。
针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉的另一种可选实现方式是:根据每个未登录词包含的字符集合,计算每个未登录词的内部信息熵,将内部信息熵小于指定信息熵阈值的未登录词过滤掉。
具体而言,指定信息熵阈值根据实际需求灵活设置。可以将每个未登录词包含的字符形成字符集合,针对未登录词包含的字符集合中的任一字符ck,假设在未登录词出现在候选词池中的情况下,该字符ck出现在候选词池中的概率记为p(ck|word),之后,可参见前述实施例计算右邻接信息熵entropyright或者左邻接信息熵entropyleft的方式,可以计算每个未登录词的内部信息熵。将内部信息熵小于指定信息熵阈值的未登录词过滤掉,将内部信息熵等于或大于指定信息熵阈值的未登录词保留。其中,内部信息熵小于指定信息熵阈值的未登录词,很大概率上属于无意义的叠词如“哈哈哈”,通过将其过滤可以将未登录词中无意义的叠词过滤掉,提高未登录词的准确度。
在本实施例中,利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉的可选实现方式是:对选择出的未登录词进行语义聚类,得到至少一个语义簇,每个语义簇包括至少一个未登录词;根据目标领域中的已有通用词,对每个语义簇中的未登录词进行过滤,同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。已有通用词是指目标领域中正常形态的词语或比较常规的词语。
具体而言,可以对选择出的未登录词进行分词处理,得到多个分词,利用Word2vec算法对每个分词进行向量化处理,得到对应语义向量,利用诸如k-means或者DBSCAN等聚类算法对所有分词的语义向量进行聚类,从而得到一个或多个语义簇。将语义簇中与已有通用词相同的未登录词过滤掉,这样得到的同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。
值得注意的是,通过对未登录词进行语义聚类,不仅方便对未登录词进行分类过滤,提高过滤效率,与此同时,还可以对未登录词进行分门别类,每个未登录词归属一个语义类别,能够方便人工核实,方便后续使用和操作。
在一可选实施例中,以目标领域是游戏领域为例,在游戏领域中,采用本申请实施例提供的方法可以识别到游戏领域中的未登录词,进一步对识别到的未登录词进行过滤,可以得到如下表1中所示的部分未登录词。进一步,在表1中,还包括采用现有方案得到的游戏领域中的部分未登录词。将现有方案得到的未登录词与本申请方案得到的未登录词进行比较,可以发现,本申请技术方案未包含“欢迎各位”这种通用词,本申请技术方案得到的未登录词具有较高的准确率。
进一步可选地,如表2所示,本申请技术方案通过对未登录词进行聚类,还可以得到战法类和阵容类的未登录词,其中,战法类下的未登录词包括但不限于:鬼谋将威、破阵催坚、暴戾无仁、绝地反击、白马义从、盛气凌敌、惜兵爱民、暂避其锋、当锋摧决以及抚辑军民。在阵容类下的未登录词包括但不限于:奸雄骑、虎臣弓、陆逊吴枪、爆头骑、桃园盾、蜀弓、魏法骑、社稷弓以及麒麟弓。
表1
表2
本申请实施例提供的技术方案,在未登录词发现过程中,同时考虑词语的内部凝聚度和外部自由度;在考虑词语内部凝聚度时,不仅考虑词语的互信息,同时考虑词语的长度信息的影响,使得未登录词发现不再受词语长短的限制,对长短词都具有较好的发现能力,有效解决现有方案对较短词语发现能力较差的问题,提高未登录词发现的覆盖度;在考虑词语外部自由度时,对左右邻接信息熵进行融合,考虑左右自由度之间的平衡性,不再是基于单侧自由度,有利于发现语义更加完整的未登录词,有效解决现有方案存在的词语不完整的问题,提高未登录词的准确度。另外,能够进一步提高未登录词的质量,可以有效解决“词语多字”、“无意义叠词”或者不相关噪声数据多的问题。
为了更好地理解本申请的技术方案,下面介绍几种场景实施例进行说明。
场景一:参见图3中的①,未登录词发现装置可以从垂直网站、网络媒体新闻网站、社交网络平台和专用网站等舆情网站爬取游戏领域的文本语料。参见图3中的②,未登录词发现装置可以不定期或定期地对游戏领域的文本语料进行未登录词挖掘。例如,每日执行未登录词挖掘操作。未登录词发现装置可以对外提供未登录词服务,以提高未登录词的应用范围。游戏领域的战法类下的未登录词包括但不限于:鬼谋将威、破阵催坚、暴戾无仁、绝地反击、白马义从、盛气凌敌、惜兵爱民、暂避其锋、当锋摧决以及抚辑军民。在阵容类下的未登录词包括但不限于:奸雄骑、虎臣弓、陆逊吴枪、爆头骑、桃园盾、蜀弓、魏法骑、社稷弓以及麒麟弓。
场景二:参见图3中③,未登录词发现装置将挖掘出的未登录词提供给舆情分析平台,以供舆情分析平台基于未登录词进行舆情分析。例如,挖掘玩家自创的或者游戏领域中新的舆情热点,例如游戏类讨论的话题。舆情分析平台还可以基于舆情分析结果开展游戏运营和营销,向游戏用户推送游戏营销活动。
场景三:未登录词发现装置将挖掘出的未登录词提供给游戏分发平台。游戏分发平台上提供有多种游戏,根据挖掘出的未登录词对各款游戏的专有词进行挖掘和发现,然后基于专有词挖掘结果进行信息推荐,例如向用户分发游戏或游戏内容等,游戏内容可以是短视频、视频、图像或文本等等。
场景四:未登录词发现装置将挖掘出的未登录词提供给游戏交易平台。游戏交易平台基于挖掘出的未登录词可以更好地评估游戏账号或游戏道具等待交易对象的属性信息以及交易用户的兴趣点,进而根据这些信息对待交易对象的价值估值,提高交易合理性和公平性。例如,用户在游戏交易平台上交易东西的时候会说一段话,例如“迈进卖命”等,这些都属于专有名词或游戏领域中用户自创的词,只有通过未登录词才能发现并识别出其语义信息,便于进行待交易对象的价值评估。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤404的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103和104的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图4为本申请实施例提供的一种未登录词发现装置的结构示意图。如图4所示,该装置可以包括:
候选词识别模块41,用于对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;
凝聚度处理模块42,用于针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度;
自由度处理模块43,用于针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度;
未登录词选择模块44,用于根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
进一步可选的,凝聚度处理模块42针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度时,具体用于:针对每个候选词,根据候选词的词频和候选词包含的各字符的词频,计算候选词的互信息;根据候选词的长度信息对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度,加权互信息随候选词的长度信息的增大而减小。
进一步可选的,凝聚度处理模块42根据候选词的长度信息对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度时,具体用于:根据候选词的长度信息生成权重因子,权重因子随候选词的长度信息的增大而减小;根据权重因子对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度。
进一步可选的,凝聚度处理模块42根据候选词的长度信息生成权重因子时,具体用于:
将候选词的长度信息的M次方根的倒数作为权重因子,M是≥1的自然数。
进一步可选的,凝聚度处理模块42针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度时,具体用于:针对每个候选词,从文本语料中统计候选词对应的左邻接字集合和右邻接字集合;基于左邻接字集合和右邻接字集合,分别生成候选词的左邻接信息熵和右邻接信息熵;根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度。
进一步可选的,自由度处理模块43根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度时,具体用于:以右邻接信息熵作为右影响因子,对左邻接信息熵进行修正,得到第一融合信息熵;以左邻接信息熵作为左影响因子,对右邻接信息熵进行修正,得到第二融合信息熵;根据第一修正信息熵和第二修正信息熵,生成综合信息熵,作为候选词的外部自由度。
进一步可选的,自由度处理模块43根据第一修正信息熵和第二修正信息熵,生成综合信息熵,作为候选词的外部自由度时,具体用于:根据左邻接信息熵和右邻接信息熵的差值,得到第三融合信息熵;对第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合,得到综合信息熵,作为候选词的外部自由度。
进一步可选的,候选词识别模块41对目标领域中的文本语料进行词语识别,得到多个候选词时,具体用于:利用爬虫工具从目标领域对应的多个舆情网站上,爬取目标领域中的文本语料;采用N-gram语言模型对文本语料进行词语识别,并对识别到的词语进行凝固度过滤,以得到多个候选词。
进一步可选的,上述装置还包括:过滤模块,用于针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉;和/或,利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉。
进一步可选的,过滤模块针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉时,具体用于:统计每个未登录词包含的首字和尾字在多个候选词中的出现频率,将首字和尾字中任一者出现频率高于指定频率阈值的未登录词过滤掉;和/或,根据每个未登录词包含的字符集合,计算每个未登录词的内部信息熵,将内部信息熵小于指定信息熵阈值的未登录词过滤掉。
进一步可选的,过滤模块利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉时,具体用于:对选择出的未登录词进行语义聚类,得到至少一个语义簇,每个语义簇包括至少一个未登录词;根据目标领域中的已有通用词,对每个语义簇中的未登录词进行过滤,同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。
图4所示的未登录词发现装置可以执行图1或2所示实施例的未登录词发现方法,其实现原理和技术效果不再赘述。对于上述实施例中的未登录词发现装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,该电子设备包括:存储器51和处理器52;
存储器51,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器51,与存储器52耦合,用于执行存储器51中的计算机程序,以用于:对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度;针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度;根据多个候选词的内部凝聚度和外部自由度,从多个候选词中选择未登录词。
进一步可选的,处理器51针对每个候选词,根据候选词的长度信息对候选词的互信息进行修正,得到候选词的内部凝聚度时,具体用于:针对每个候选词,根据候选词的词频和候选词包含的各字符的词频,计算候选词的互信息;根据候选词的长度信息对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度,加权互信息随候选词的长度信息的增大而减小。
进一步可选的,处理器51根据候选词的长度信息对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度时,具体用于:根据候选词的长度信息生成权重因子,权重因子随候选词的长度信息的增大而减小;根据权重因子对候选词的互信息进行加权处理,得到加权互信息作为候选词的内部凝聚度。
进一步可选的,处理器51根据候选词的长度信息生成权重因子时,具体用于:将候选词的长度信息的M次方根的倒数作为权重因子,M是≥1的自然数。
进一步可选的,处理器51针对每个候选词,对候选词的左邻接信息熵和右邻接信息熵进行融合处理,得到候选词的外部自由度时,具体用于:针对每个候选词,从文本语料中统计候选词对应的左邻接字集合和右邻接字集合;基于左邻接字集合和右邻接字集合,分别生成候选词的左邻接信息熵和右邻接信息熵;根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度。
进一步可选的,处理器51根据候选词的左邻接信息熵和右邻接信息熵,生成候选词的综合信息熵,作为候选词的外部自由度时,具体用于:以右邻接信息熵作为右影响因子,对左邻接信息熵进行修正,得到第一融合信息熵;以左邻接信息熵作为左影响因子,对右邻接信息熵进行修正,得到第二融合信息熵;根据第一修正信息熵和第二修正信息熵,生成综合信息熵,作为候选词的外部自由度。
进一步可选的,处理器51根据第一修正信息熵和第二修正信息熵,生成综合信息熵,作为候选词的外部自由度时,具体用于:根据左邻接信息熵和右邻接信息熵的差值,得到第三融合信息熵;对第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合,得到综合信息熵,作为候选词的外部自由度。
进一步可选的,处理器51对目标领域中的文本语料进行词语识别,得到多个候选词时,具体用于:利用爬虫工具从目标领域对应的多个舆情网站上,爬取目标领域中的文本语料;采用N-gram语言模型对文本语料进行词语识别,并对识别到的词语进行凝固度过滤,以得到多个候选词。
进一步可选的,处理器51在选择出未登录词之后,还用于:针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉;和/或,利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉。
进一步可选的,处理器51针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉时,具体用于:统计每个未登录词包含的首字和尾字在多个候选词中的出现频率,将首字和尾字中任一者出现频率高于指定频率阈值的未登录词过滤掉;和/或,根据每个未登录词包含的字符集合,计算每个未登录词的内部信息熵,将内部信息熵小于指定信息熵阈值的未登录词过滤掉。
进一步可选的,处理器51利用目标领域中的已有通用词,将属于通用词的未登录词过滤掉时,具体用于:对选择出的未登录词进行语义聚类,得到至少一个语义簇,每个语义簇包括至少一个未登录词;根据目标领域中的已有通用词,对每个语义簇中的未登录词进行过滤,同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。
关于处理器执行各动作的详细实施过程可参见前述方法实施例中的相关描述,在此不再赘述。
进一步,如图5所示,该电子设备还包括:通信组件53、显示器54、电源组件55、音频组件56等其它组件。图5中仅示意性给出部分组件,并不意味着电子设备只包括图5所示组件。另外,图5中虚线框内的组件为可选组件,而非必选组件,具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备,也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备,可以包含图5中虚线框内的组件;若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备,则可以不包含图5中虚线框内的组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由电子设备执行的各步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器能够实现上述方法实施例中可由电子设备执行的各步骤。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种未登录词发现方法,其特征在于,包括:
对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;
针对每个候选词,根据所述候选词的长度信息对所述候选词的互信息进行修正,得到所述候选词的内部凝聚度,其中,所述互信息是根据所述候选词的词频和所述候选词包含的各字符的词频得到的;
针对每个候选词,从所述文本语料中统计所述候选词对应的左邻接字集合和右邻接字集合;基于所述左邻接字集合和所述右邻接字集合,分别生成所述候选词的左邻接信息熵和右邻接信息熵;以所述右邻接信息熵作为右影响因子,对所述左邻接信息熵进行修正,得到第一修正信息熵;以所述左邻接信息熵作为左影响因子,对所述右邻接信息熵进行修正,得到第二修正信息熵;根据所述第一修正信息熵和第二修正信息熵,生成综合信息熵,作为所述候选词的外部自由度;
根据所述多个候选词的内部凝聚度和外部自由度,从所述多个候选词中选择未登录词。
2.根据权利要求1所述的方法,其特征在于,针对每个候选词,根据所述候选词的长度信息对所述候选词的互信息进行修正,得到所述候选词的内部凝聚度,包括:
针对每个候选词,根据所述候选词的词频和所述候选词包含的各字符的词频,计算所述候选词的互信息;
根据所述候选词的长度信息对所述候选词的互信息进行加权处理,得到加权互信息作为所述候选词的内部凝聚度,所述加权互信息随所述候选词的长度信息的增大而减小。
3.根据权利要求2所述的方法,其特征在于,根据所述候选词的长度信息对所述候选词的互信息进行加权处理,得到加权互信息作为所述候选词的内部凝聚度,包括:
根据所述候选词的长度信息生成权重因子,所述权重因子随所述候选词的长度信息的增大而减小;
根据所述权重因子对所述候选词的互信息进行加权处理,得到加权互信息作为所述候选词的内部凝聚度。
4.根据权利要求3所述的方法,其特征在于,根据所述候选词的长度信息生成权重因子,包括:
将所述候选词的长度信息的M次方根的倒数作为所述权重因子,M是≥1的自然数。
5.根据权利要求1所述的方法,其特征在于,根据所述第一修正信息熵和第二修正信息熵,生成所述综合信息熵,作为所述候选词的外部自由度,包括:
根据所述左邻接信息熵和所述右邻接信息熵的差值,得到第三融合信息熵;
对所述第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合,得到所述综合信息熵,作为所述候选词的外部自由度。
6.根据权利要求1-4任一项所述的方法,其特征在于,对目标领域中的文本语料进行词语识别,得到多个候选词,包括:
利用爬虫工具从目标领域对应的多个舆情网站上,爬取所述目标领域中的文本语料;
采用N-gram语言模型对所述文本语料进行词语识别,并对识别到的词语进行凝固度过滤,以得到多个候选词。
7.根据权利要求1-4任一项所述的方法,其特征在于,在选择出未登录词之后,还包括:
针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉;
和/或
利用所述目标领域中的已有通用词,将属于通用词的未登录词过滤掉。
8.根据权利要求7所述的方法,其特征在于,针对每个未登录词进行特定噪声挖掘,并将包含特定噪声的未登录词过滤掉,包括:
统计每个未登录词包含的首字和尾字在所述多个候选词中的出现频率,将首字和尾字中任一者出现频率高于指定频率阈值的未登录词过滤掉;
和/或
根据每个未登录词包含的字符集合,计算每个未登录词的内部信息熵,将内部信息熵小于指定信息熵阈值的未登录词过滤掉。
9.根据权利要求7所述的方法,其特征在于,利用所述目标领域中的已有通用词,将属于通用词的未登录词过滤掉,包括:
对选择出的未登录词进行语义聚类,得到至少一个语义簇,每个语义簇包括至少一个未登录词;
根据所述目标领域中的已有通用词,对每个语义簇中的未登录词进行过滤,同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。
10.一种未登录词发现装置,其特征在于,包括:
候选词识别模块,用于对目标领域中的文本语料进行词语识别,得到多个候选词,每个候选词是具有特定长度的连续字符串;
凝聚度处理模块,用于针对每个候选词,根据所述候选词的长度信息对所述候选词的互信息进行修正,得到所述候选词的内部凝聚度,其中,所述互信息是根据所述候选词的词频和所述候选词包含的各字符的词频得到的;
自由度处理模块,用于针对每个候选词,从所述文本语料中统计所述候选词对应的左邻接字集合和右邻接字集合;基于所述左邻接字集合和所述右邻接字集合,分别生成所述候选词的左邻接信息熵和右邻接信息熵;以所述右邻接信息熵作为右影响因子,对所述左邻接信息熵进行修正,得到第一修正信息熵;以所述左邻接信息熵作为左影响因子,对所述右邻接信息熵进行修正,得到第二修正信息熵;根据所述第一修正信息熵和第二修正信息熵,生成综合信息熵,作为所述候选词的外部自由度;
未登录词选择模块,用于根据所述多个候选词的内部凝聚度和外部自由度,从所述多个候选词中选择未登录词。
11.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器包括计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于实现权利要求1-9任一项所述方法中的步骤。
12.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器能够实现权利要求1-9任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563265.7A CN115034211B (zh) | 2022-05-19 | 2022-05-19 | 未登录词发现方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210563265.7A CN115034211B (zh) | 2022-05-19 | 2022-05-19 | 未登录词发现方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034211A CN115034211A (zh) | 2022-09-09 |
CN115034211B true CN115034211B (zh) | 2023-04-18 |
Family
ID=83120395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210563265.7A Active CN115034211B (zh) | 2022-05-19 | 2022-05-19 | 未登录词发现方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034211B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别***及方法 |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN110929009A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件***有限公司 | 一种获取新词语的方法及装置 |
CN112579596A (zh) * | 2020-12-09 | 2021-03-30 | 北京天融信网络安全技术有限公司 | 一种数据回放方法、装置、存储介质和电子设备 |
CN112632969A (zh) * | 2020-12-13 | 2021-04-09 | 复旦大学 | 一种增量式行业词典更新方法和*** |
CN113033183A (zh) * | 2021-03-03 | 2021-06-25 | 西北大学 | 一种基于统计量与相似性的网络新词发现方法及*** |
CN113468879A (zh) * | 2021-07-16 | 2021-10-01 | 上海明略人工智能(集团)有限公司 | 一种未登录词的判断方法、***、电子设备及介质 |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
CN114330296A (zh) * | 2021-10-21 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 新词发现方法、装置、设备以及存储介质 |
CN114462410A (zh) * | 2022-02-11 | 2022-05-10 | 北京小米移动软件有限公司 | 实体识别方法、装置、终端及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260362B (zh) * | 2015-10-30 | 2019-02-12 | 小米科技有限责任公司 | 新词提取方法和装置 |
CN106126495B (zh) * | 2016-06-16 | 2019-03-12 | 北京捷通华声科技股份有限公司 | 一种基于大规模语料提词方法和装置 |
CN108829658B (zh) * | 2018-05-02 | 2022-05-24 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
CN110110322A (zh) * | 2019-03-29 | 2019-08-09 | 泰康保险集团股份有限公司 | 网络新词发现方法、装置、电子设备及存储介质 |
CN114444491A (zh) * | 2020-11-02 | 2022-05-06 | 慧科讯业有限公司 | 新词识别方法和装置 |
CN112395395B (zh) * | 2021-01-19 | 2021-05-28 | 平安国际智慧城市科技股份有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN112966508B (zh) * | 2021-04-05 | 2023-08-25 | 集智学园(北京)科技有限公司 | 一种通用自动术语提取方法 |
CN113449082A (zh) * | 2021-07-16 | 2021-09-28 | 上海明略人工智能(集团)有限公司 | 一种新词发现方法、***、电子设备及介质 |
CN114218938A (zh) * | 2021-12-13 | 2022-03-22 | 北京智齿众服技术咨询有限公司 | 一种分词方法、装置、电子设备和存储介质 |
-
2022
- 2022-05-19 CN CN202210563265.7A patent/CN115034211B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020022A (zh) * | 2012-11-20 | 2013-04-03 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别***及方法 |
CN106021230A (zh) * | 2016-05-19 | 2016-10-12 | 无线生活(杭州)信息科技有限公司 | 一种分词方法及装置 |
CN110929009A (zh) * | 2019-11-25 | 2020-03-27 | 北京明略软件***有限公司 | 一种获取新词语的方法及装置 |
CN112579596A (zh) * | 2020-12-09 | 2021-03-30 | 北京天融信网络安全技术有限公司 | 一种数据回放方法、装置、存储介质和电子设备 |
CN112632969A (zh) * | 2020-12-13 | 2021-04-09 | 复旦大学 | 一种增量式行业词典更新方法和*** |
CN113033183A (zh) * | 2021-03-03 | 2021-06-25 | 西北大学 | 一种基于统计量与相似性的网络新词发现方法及*** |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
CN113468879A (zh) * | 2021-07-16 | 2021-10-01 | 上海明略人工智能(集团)有限公司 | 一种未登录词的判断方法、***、电子设备及介质 |
CN114330296A (zh) * | 2021-10-21 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 新词发现方法、装置、设备以及存储介质 |
CN114462410A (zh) * | 2022-02-11 | 2022-05-10 | 北京小米移动软件有限公司 | 实体识别方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115034211A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10026021B2 (en) | Training image-recognition systems using a joint embedding model on online social networks | |
US10831796B2 (en) | Tone optimization for digital content | |
US9442930B2 (en) | System, method and computer program product for automatic topic identification using a hypertext corpus | |
US11514063B2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
US20170154104A1 (en) | Real-time recommendation of reference documents | |
US20150213042A1 (en) | Search term obtaining method and server, and search term recommendation system | |
US20130246430A1 (en) | System, method and computer program product for automatic topic identification using a hypertext corpus | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
US10482142B2 (en) | Information processing device, information processing method, and program | |
CN106682170B (zh) | 一种应用搜索方法和装置 | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US10073828B2 (en) | Updating language databases using crowd-sourced input | |
US11010687B2 (en) | Detecting abusive language using character N-gram features | |
CN105574030B (zh) | 一种信息搜索方法及装置 | |
CN108345625B (zh) | 一种信息挖掘方法和装置、一种用于信息挖掘的装置 | |
CN109101505A (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
KR101931624B1 (ko) | 패션 분야의 트렌드 분석방법 및 이를 포함하는 저장매체 | |
CN105512300A (zh) | 信息过滤方法及*** | |
CN111538830A (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
CN111222316A (zh) | 文本检测方法、装置及存储介质 | |
CN112527963B (zh) | 基于词典的多标签情感分类方法及装置、设备、存储介质 | |
US10459959B2 (en) | Top-k query processing with conditional skips | |
CN115034211B (zh) | 未登录词发现方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |