CN111814474A - 领域短语挖掘方法及装置 - Google Patents
领域短语挖掘方法及装置 Download PDFInfo
- Publication number
- CN111814474A CN111814474A CN202010957899.1A CN202010957899A CN111814474A CN 111814474 A CN111814474 A CN 111814474A CN 202010957899 A CN202010957899 A CN 202010957899A CN 111814474 A CN111814474 A CN 111814474A
- Authority
- CN
- China
- Prior art keywords
- phrase
- phrases
- domain
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000005065 mining Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 46
- 238000010276 construction Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 240000004282 Grewia occidentalis Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种领域短语挖掘方法及装置,包括:对带有领域标签的样本语句进行N‑gram特征抽取,并选取频数大于预设值的N‑gram特征作为词表;基于词表遍历样本语句,生成词袋特征;将词袋特征和领域标签输入排序模型,排序模型对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;将重要短语通过变音变形进行扩充,生成扩充短语集;使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。本公开提供的领域短语挖掘方法及装置,能够有效解决现有技术中的领域短语挖掘方法存在的挖掘效率低、挖掘数量少且准确率低的问题。
Description
技术领域
本公开涉及计算机互联网技术领域,具体涉及一种领域短语挖掘方法、装置、电子设备及计算机可读介质。
背景技术
自然语言处理业务中,需要对内容进行领域识别并召回某些领域(例如政治领域)的内容,以保证内容的安全性。由于网络语言的多样性,需要挖掘尽可能多又准确的领域短语,应用领域短语来对内容进行领域识别,从而提高召回率。
现有技术中存在的对领域短语进行挖掘的方法,包括无监督挖掘方法和有监督挖掘方法两类,但是,现有的无监督挖掘方法挖掘出的短语不一定是领域短语,还需要进行进一步识别,因此存在挖掘效率低的问题;而现有的有监督挖掘方法存在挖掘出的领域短语数量少以及准确率较低的问题。因此,需要提供一种挖掘效率高、挖掘数量多且准确率高的领域短语挖掘方法。
发明内容
有鉴于此,本公开提供了一种领域短语挖掘方法及装置,能够有效解决现有技术中的领域短语挖掘方法存在的挖掘效率低、挖掘数量少且准确率低的问题。
下文中将给出关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,此概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分,也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本公开的第一方面,提供了一种领域短语挖掘方法,包括:
对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表;
基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征;
将词袋特征和领域标签输入排序模型,该排序模型对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;
将重要短语通过变音变形进行扩充,生成扩充短语集;
使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
在一些实施例中,所述领域短语挖掘方法还包括:
对样本语句进行分词,并基于分词得到新词;
将新词与选取的频数大于预设值的N-gram特征合并,组成词表。
进一步的,基于分词得到新词包括通过无监督方法得到新词。
在一些实施例中,所述N-gram特征的特征长度N为2-4。
在一些实施例中,所述领域短语挖掘方法还包括:
将重要短语与现有的领域短语进行合并得到初始短语集,将初始短语集通过变音变形进行扩充,生成扩充短语集。
在一些实施例中,使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,具体包括:
对样本语句进行分词和分字,并生成对应的词向量和字向量;
将扩充短语集中的短语向量化,得到任一短语对应的向量;
计算任一短语对应的向量与样本语句生成的分词向量的相似度,选取相似度大于预设值的分词作为与该短语邻近的领域短语。
在一些实施例中,所述领域短语挖掘方法还包括:
计算领域短语集中任一短语对在该领域的样本语句中出现的频率,并选取频率超过预设值的短语对,所选取的短语对用于确定新语料是否属于该领域。
根据本公开的第二方面,提供了一种领域短语挖掘装置,包括:
词表构建单元,用于对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表;
词袋特征生成单元,用于基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征;
排序单元,用于接收词袋特征和领域标签,对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;
扩充单元,用于将重要短语通过变音变形进行扩充,生成扩充短语集;
近邻搜索单元,用于使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
根据本公开的第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如本公开第一方面提供的方法。
根据本公开的第四方面,提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如本公开第一方面提供的方法。
本公开利用N-gram特征提取及排序模型进行领域短语挖掘,并在此基础上进行扩充和近邻搜索,有效解决了现有领域短语挖掘存在的挖掘效率低、挖掘数量少且准确率低的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1是根据本公开实施例提供的一种领域短语挖掘方法的流程图。
图2是根据本公开实施例提供的一种领域短语挖掘装置的示意图。
图3是根据本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构,而省略了与本公开关系不大的其他细节。
应理解的是,本公开并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
现有技术中的领域短语挖掘方法主要包括两类,一类是无监督挖掘方法,包括利用互信息、自由度等方法发现新词,以及基于种子关键词,利用聚类、近义词扩充、关键词变形等方法进行扩充从而得到新词,这类方法只是能够找到某一领域中的权重比较高的短语,还需要对通过无监督挖掘方法获取到的短语进行进一步筛选等,从而导致挖掘效率较低;另一类是有监督挖掘方法,包括基于f-ngram-idf、textrank等方法统计短语权重,并选出权重较大的短语作为新发现短语的候选集,以及利用分类或者序列标注模型做新短语发现等方法,这类方法挖掘出的领域短语数量较少且准确率较低。
为了解决上述问题,本公开利用N-gram特征提取及特征重要性排序模型进行领域短语挖掘,并对挖掘出的短语进行扩充和近邻搜索,有效提升了领域短语挖掘的效率,且保证了挖掘出来的短语的数量和准确性。
首先,本公开实施例提供了一种领域短语挖掘方法,下面对本公开实施例提供的一种领域短语挖掘方法进行具体介绍。
图1示出了根据本公开实施例提供的一种领域短语挖掘方法100的流程图。该方法具体包括:
步骤110:对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表。
此处,所述领域标签是指示样本语句是否属于某一领域的标签,例如,本公开实施例中所述领域标签可以是二分类标签,当样本语句属于某一领域时,将其标签设置为“1”,将样本语句不属于某一领域时,将其标签设置为“0”。需要注意的是,二分类标签仅为本公开实施例提供的一种示例,本公开对领域标签的形式不做具体限定。
所述N-gram是一种基于统计语言模型的算法,能够将文本中的内容按照字节进行大小为N的滑动窗口操作,从而形成长度为N的N-gram特征。所述对样本语句进行N-gram特征抽取,即将样本语句输入N-gram模型,并形成长度为N的N-gram特征。例如,对“小明坐公交车去上学”这一语句进行N-gram特征抽取,当N-gram特征长度N取2时,从该语句中抽取出的2-gram特征为{“小明”,“明坐”,“坐公”,“公交”,“交车”,“车去”,“去上”,“上学”}。
本公开实施例中,可以提供带有领域标签的样本语句如表1所示,首先对表1中的样本语句进行N-gram特征抽取,然后再选取频数大于预设值的N-gram特征作为词表。
表1-带有领域标签的样本语句
样本语句 | 领域标签(1代表娱乐、0代表非娱乐) |
中国电视演员 | 1 |
美国演员李小四出席了颁奖典礼 | 1 |
法国演员王小五出席了颁奖典礼,与日本歌手张小六携手 | 1 |
中国体育代表队出席第31届夏季***在里约热内卢开幕式 | 0 |
美国体育代表队出席第31届夏季***在里约热内卢开幕式 | 0 |
德国体育代表队出席第31届夏季***在里约热内卢开幕式 | 0 |
日本体育代表队出席第31届夏季***在里约热内卢开幕式 | 0 |
在一些情况下,所述N-gram特征的特征长度N可以选择2-4。对表1中的所有样本语句进行特征长度为2-4的N-gram特征抽取,汇总抽取出来的所有N-gram特征并统计每一N-gram特征的频数,此处,所述频数即出现频率。选取频数大于预设值的N-gram特征作为词表,本公开实施例中,所述预设值可以是5,进而选取频数大于5的N-gram特征组成的词表为{“体育”,“演员”,“开幕式”,“典礼”,“出席”,“颁奖”,“奖典礼”,“***”,“中国”,“美国”,“德国”}。
需要注意的是,本公开实施例提供的样本语句及领域标签仅为一种示例,本领域技术人员根据需要可以自行选择其他的样本语句及领域标签,本公开对此不做限定。本领域技术人员也可以对样本语句进行其他特征长度的N-gram特征抽取,本公开对N-gram特征的长度不做限定。
在一些情况下,还可以对样本语句进行分词,并基于分词通过无监督方法得到新词,将新词与选取的频数大于预设值的N-gram特征合并,组成词表。本公开实施例中,所述无监督方法可以是互信息计算或聚类等方法,本公开对此不做具体限定。
例如,对样本语句“法国演员王小五出席了颁奖典礼,与日本歌手张小六携手”进行分词,产生的分词中包括“王小”,假设基于该分词通过无监督的方法,可以得到“王小五”和“李小四”两个新词。此时,可以将“王小五”和“李小四”这两个新词与前述选取的频数大于5的N-gram特征合并,形成词表{“体育”,“演员”,“开幕式”,“典礼”,“出席”,“颁奖”,“奖典礼”,“***”,“中国”,“美国”,“德国”,“王小五”,“李小四”}。
需要注意的是,以上仅为示例,本公开实施例中,是对所有样本语句进行分词,将分词结果合并去重后得到一个分词集合,基于分词集合中的每个分词通过无监督方法得到新词,将得到的所有新词与选取的频数大于预设值的N-gram特征合并,组成词表。
本公开实施例中,基于样本语句分词得到的新词可以对N-gram特征形成的词表进行有效补充,避免由于仅选取频数大于预设值的N-gram特征而造成低频数领域特征的遗漏。
步骤120:基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征。
本公开实施例中,所述词袋特征的特征可以是词表中的词。基于词表遍历样本语句,可以是,基于词表依次遍历每一样本语句,如果词表中对应位置的词出现在了该样本中,则进一步统计该词在所有样本中出现的次数,并将该对应位置用该词在所有样本中出现的次数来表示;如果词表中对应位置的词没有出现在该样本中,则将该对应位置用0表示,由此可以生成每一样本语句的词频向量,该向量的维度与词表中词的个数一致。
例如,本公开实施例中,基于词表对表1中的每一样本语句进行遍历,得到的词频向量如表2所示;在本示例中,生成的词袋特征中的特征为词表中的词。
表2-样本语句的词频向量
样本语句 | 词频向量 |
中国电视演员 | [0,0,0,0,0,0,0,0,2,0,0,0,0] |
美国演员李小四出席了颁奖典礼 | [0,2,0,2,6,2,2,0,0,2,0,0,1] |
法国演员王小五出席了颁奖典礼,与日本歌手张小六携手 | [0,2,0,2,6,2,2,0,0,0,0,1,0] |
中国体育代表队出席第31届夏季***在里约热内卢开幕式 | [4,0,4,0,6,0,0,4,2,0,0,0,0] |
美国体育代表队出席第31届夏季***在里约热内卢开幕式 | [4,0,4,0,6,0,0,4,0,2,0,0,0] |
德国体育代表队出席第31届夏季***在里约热内卢开幕式 | [4,0,4,0,6,0,0,4,0,0,1,0,0] |
日本体育代表队出席第31届夏季***在里约热内卢开幕式 | [4,0,4,0,6,0,0,4,0,0,0,0,0] |
在一些情况下,样本语句的词频向量的获取形式,还可以是,基于词表依次遍历每一样本语句,如果词表中对应位置的词出现在了该样本中,则将该对应位置用1表示;如果词表中对应位置的词没有出现在该样本中,则将该对应位置用0表示,由此也可以生成每一样本语句的另一种词频向量,该向量的维度与词表中词的个数一致。
步骤130:将词袋特征和领域标签输入排序模型,该排序模型对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出。
本公开实施例中,所述排序模型可以是GBDT模型,也可以是其他能够对词袋特征中特征的重要性进行排序的模型,本公开对此不做限定。
在排序模型是GBDT模型的情况下,将样本语句的领域标签以及步骤120中获取到的词袋特征输入GBDT模型,GBDT模型可以对词袋特征中特征的重要性进行排序,并选取重要性大于某一阈值的特征作为该领域的重要短语输出。
步骤140:将重要短语通过变音变形进行扩充,生成扩充短语集。
本公开实施例中,将重要短语通过变音进行扩充,可以是通过同音字的替换进行扩充;还可以是通过近似音的替换进行扩充,例如,对较难区分的韵母{(“ing”,“in”),(“eng”,“en”),(“ang”,“an”)} 做替换。
本公开实施例中,将重要短语通过变形进行扩充,可以是通过四角号码表查询,选择与重要短语中的汉字编码相同的汉字作为替换,来进行扩充。例如,假设某一重要短语中包括“峰”字,而“峰”字的四角号码为27754,随机选取与27754这一编码对应的其他汉字,例如“峄”,则可以扩充出“峄会”这一短语。
需要注意的是,以上提供的变音变形方法仅为示例,本领域技术人员可以根据需要选择其他的能够对短语进行扩充的变音变形方法,本公开对此不做限定。
在一些情况下,可能事先已经持有一些现有的领域短语,此时,还可以是先将步骤130中获取到的重要短语与现有的领域短语进行合并得到初始短语集,将初始短语集通过变音变形进行扩充,生成扩充短语集。这样可以充分利用已有的领域短语,对步骤130中获取到的重要短语进行补充,从而有效增加挖掘出的领域短语的数量。
鉴于网络语言的多样性,采用变音变形的方法对重要短语或领域短语进行扩充,可以进一步有效增加挖掘出的领域短语的数量、提升挖掘效率;且由于变音变形词通常具有很高的准确率,因此,该方法扩充出的短语的准确率也较高,应用扩充出的短语对网络上的待识别语句进行识别,可以有效提升本领域相关短语的识别准确率及召回率。
步骤150:使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
本公开实施例中,使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,可以包括,对样本语句进行分词和分字,并生成对应的词向量和字向量;将扩充短语集中的短语向量化,得到任一短语对应的向量;计算任一短语对应的向量与样本语句生成的分词向量的相似度,选取相似度大于预设值的分词作为与该短语邻近的领域短语。
本公开实施例中,在对样本语句进行分词和分字后,可以采用word2vec 方法生成与分词和分字对应的词向量和字向量。
需要注意的是,采用word2vec方法将样本语句的分词和分字向量化,仅为本公开实施例提供的一种示例,本领域技术人员也可以根据需求,选用其他向量化的方法,本公开对此不做限定。
本公开实施例中,将扩充短语集中的短语向量化,得到任一短语对应的向量,可以采用如下的方法:
在某些情况下,若扩充短语集中的某一短语包括在样本语句的分词结果中,则可以直接采用分词向量作为该短语的向量,例如,扩充短语集中的“演员”这一短语包括在样本语句的分词结果中,则可以直接采用“演员”这一分词的分词向量作为扩充短语集中“演员”这一短语的向量。
在某些情况下,若扩充短语集中的某一短语没有包括在样本语句的分词结果中,但该短语为样本语句中分字的组合或者分词与分字的组合,则可以利用对应分词或分字的向量计算该短语的向量,例如,可以将对应的分词或分字的向量在各维度上分别求和后再取均值,从而得到所述短语的向量。
在某些情况下,若扩充短语集中的某一短语没有包括在样本语句的分词结果中,且该短语中的某些字也没有出现在样本语句中,此时,针对这些字采用其他方法对其进行向量表示,例如,将其转换为特殊符号后从内置的向量表中查询到与该特殊符号对应的向量,然后再与短语中其他字对应的向量在各维度上分别求和后取均值,从而得到所述短语的向量。
本公开实施例中,计算任一短语对应的向量与样本语句生成的分词向量的相似度,选取相似度大于预设值的分词作为与该短语邻近的领域短语,可以是,利用余弦距离计算任一短语对应的向量与样本语句生成的分词向量的相似度,然后选取相似度大于一预设值的分词作为与该短语邻近的领域短语。进一步的,可以将获取到的邻近的领域短语加入扩充短语集,从而得到最终挖掘出的领域短语集。
需要注意的是,本公开提供的利用余弦距离计算相似度来搜索邻近的领域短语的方法仅为一种示例,本领域技术人员也可以根据需求,选择其他可以使用扩充短语集中的短语在样本语句中搜索邻近的领域短语的方法,本公开对此不做具体限定。
以上提供了如何基于样本语句挖掘领域短语的方法,在获取到领域短语集的基础上,本公开实施例还进一步提供了应用领域短语集对新的语句进行领域识别的方法,具体包括,计算领域短语集中任一短语对在该领域的样本语句中出现的频率,并选取频率超过预设值的短语对,如果新语句中包括选取出的短语对,则将新语句标记为属于该领域。
例如,假设在得到的娱乐领域短语集为{“演员”,“典礼”,“出席”,“颁奖” }的情况下,{“演员”,“典礼”}是该领域短语集中的一个短语对,该短语对在本公开实施例表1提供的娱乐领域样本语句中出现的次数为2次,而娱乐领域样本数据一共有3条,因此,{“演员”,“典礼”}短语对在娱乐领域的样本语句中出现的频率为0.667。假设将频率的预设值设置为0.6,则可以选取频率超过该预设值的短语对{“演员”,“典礼”}来对新的语句进行领域识别,如果新语句中包括选取出的短语对{“演员”,“典礼”},则将该新语句标记为属于娱乐领域。利用样本语句中的高频领域短语对来对新语句进行领域识别,可以有效提高识别的准确率和效率。
本公开实施例所选取的领域短语集中任一短语对在该领域的样本语句中出现的频率的预设值仅为示例,本领域技术人员根据需要可以选择其他合适的预设值,本公开对此不作限定。
下面对本公开实施例提供的一种领域短语挖掘装置进行说明。图2示出了根据本公开实施例提供的一种领域短语挖掘装置200的示意图。该装置具体包括:
词表构建单元201,用于对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表;
词袋特征生成单元202,用于基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征;
排序单元203,用于接收词袋特征和领域标签,对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;
扩充单元204,用于将重要短语通过变音变形进行扩充,生成扩充短语集;
近邻搜索单元205,用于使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
本公开实施例提供的领域短语的挖掘方法及装置,基于带有领域标签的样本语句,对领域短语进行有效扩充,且挖掘出来的领域短语准确率较高,适用于对复杂多样的网络语言进行领域识别。
图3示出了根据本公开实施例提供的电子设备300的结构示意图。如图3所示,电子设备300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,包括承载指令的在计算机可读介质,在这样的实施例中,该指令可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该指令被中央处理单元(CPU)301执行时,执行本发明中描述的各个方法步骤。
以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并非局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围内。
Claims (10)
1.一种领域短语挖掘方法,包括:
对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表;
基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征;
将词袋特征和领域标签输入排序模型,该排序模型对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;
将重要短语通过变音变形进行扩充,生成扩充短语集;
使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
2.如权利要求1所述的方法,还包括:
对样本语句进行分词,并基于分词得到新词;
将新词与选取的频数大于预设值的N-gram特征合并,组成词表。
3.如权利要求2所述的方法,其中,基于分词得到新词包括通过无监督方法得到新词。
4.如权利要求1-3中任一项所述的方法,所述N-gram特征的特征长度N为2-4。
5.如权利要求1所述的方法,还包括:
将重要短语与现有的领域短语进行合并得到初始短语集,将初始短语集通过变音变形进行扩充,生成扩充短语集。
6.如权利要求1所述的方法,其中,使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,具体包括:
对样本语句进行分词和分字,并生成对应的词向量和字向量;
将扩充短语集中的短语向量化,得到任一短语对应的向量;
计算任一短语对应的向量与样本语句生成的分词向量的相似度,选取相似度大于预设值的分词作为与该短语邻近的领域短语。
7.如权利要求1所述的方法,还包括:
计算领域短语集中任一短语对在该领域的样本语句中出现的频率,并选取频率超过预设值的短语对,所选取的短语对用于确定新语料是否属于该领域。
8.一种领域短语挖掘装置,包括:
词表构建单元,用于对带有领域标签的样本语句进行N-gram特征抽取,并选取频数大于预设值的N-gram特征作为词表;
词袋特征生成单元,用于基于词表遍历样本语句,生成包括特征以及特征的词频向量的词袋特征;
排序单元,用于接收词袋特征和领域标签,对词袋特征中特征的重要性进行排序,并选取重要性大于阈值的特征作为该领域的重要短语输出;
扩充单元,用于将重要短语通过变音变形进行扩充,生成扩充短语集;
近邻搜索单元,用于使用扩充短语集中的任一短语在样本语句中搜索邻近的领域短语,将邻近的领域短语加入扩充短语集,得到领域短语集。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010957899.1A CN111814474B (zh) | 2020-09-14 | 2020-09-14 | 领域短语挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010957899.1A CN111814474B (zh) | 2020-09-14 | 2020-09-14 | 领域短语挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814474A true CN111814474A (zh) | 2020-10-23 |
CN111814474B CN111814474B (zh) | 2021-01-29 |
Family
ID=72860712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010957899.1A Active CN111814474B (zh) | 2020-09-14 | 2020-09-14 | 领域短语挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814474B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818686A (zh) * | 2021-03-23 | 2021-05-18 | 北京百度网讯科技有限公司 | 领域短语挖掘方法、装置和电子设备 |
CN115168895A (zh) * | 2022-07-08 | 2022-10-11 | 哈尔滨汇谷科技有限公司 | 结合人工智能的用户信息威胁分析方法及服务器 |
CN117034917A (zh) * | 2023-10-08 | 2023-11-10 | 中国医学科学院医学信息研究所 | 一种英文文本分词方法、装置和计算机可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN109325015A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 一种领域模型的特征字段的提取方法及装置 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、***及存储介质 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索*** |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104866496B (zh) * | 2014-02-22 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 确定词素重要性分析模型的方法及装置 |
-
2020
- 2020-09-14 CN CN202010957899.1A patent/CN111814474B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN107423398A (zh) * | 2017-07-26 | 2017-12-01 | 腾讯科技(上海)有限公司 | 交互方法、装置、存储介质和计算机设备 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、***及存储介质 |
CN109325015A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 一种领域模型的特征字段的提取方法及装置 |
CN110674252A (zh) * | 2019-08-26 | 2020-01-10 | 银江股份有限公司 | 一种面向司法领域的高精度语义搜索*** |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818686A (zh) * | 2021-03-23 | 2021-05-18 | 北京百度网讯科技有限公司 | 领域短语挖掘方法、装置和电子设备 |
JP2022050622A (ja) * | 2021-03-23 | 2022-03-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 分野フレーズマイニング方法、装置及び電子機器 |
US20220138424A1 (en) * | 2021-03-23 | 2022-05-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Domain-Specific Phrase Mining Method, Apparatus and Electronic Device |
JP7351942B2 (ja) | 2021-03-23 | 2023-09-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 分野フレーズマイニング方法、装置及び電子機器 |
CN112818686B (zh) * | 2021-03-23 | 2023-10-31 | 北京百度网讯科技有限公司 | 领域短语挖掘方法、装置和电子设备 |
CN115168895A (zh) * | 2022-07-08 | 2022-10-11 | 哈尔滨汇谷科技有限公司 | 结合人工智能的用户信息威胁分析方法及服务器 |
CN115168895B (zh) * | 2022-07-08 | 2023-12-12 | 深圳市芒果松科技有限公司 | 结合人工智能的用户信息威胁分析方法及服务器 |
CN117034917A (zh) * | 2023-10-08 | 2023-11-10 | 中国医学科学院医学信息研究所 | 一种英文文本分词方法、装置和计算机可读介质 |
CN117034917B (zh) * | 2023-10-08 | 2023-12-22 | 中国医学科学院医学信息研究所 | 一种英文文本分词方法、装置和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111814474B (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814474B (zh) | 领域短语挖掘方法及装置 | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
US11379668B2 (en) | Topic models with sentiment priors based on distributed representations | |
CN107633007B (zh) | 一种基于层次化ap聚类的商品评论数据标签化***和方法 | |
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
CN113268995A (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
JP2011227688A (ja) | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 | |
CN111859961A (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Lyu et al. | Joint word segmentation, pos-tagging and syntactic chunking | |
Jihan et al. | Multi-domain aspect extraction using support vector machines | |
Sousa et al. | Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings | |
Wang et al. | Interactive Topic Model with Enhanced Interpretability. | |
CN111339457A (zh) | 用于从网页抽取信息的方法和设备及存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Ghosh | Sentiment analysis of IMDb movie reviews: A comparative study on performance of hyperparameter-tuned classification algorithms | |
CN112732863B (zh) | 电子病历标准化切分方法 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Celebi et al. | Segmenting hashtags using automatically created training data | |
CN116933782A (zh) | 一种电商文本关键词提取处理方法及*** | |
Thuy et al. | Leveraging foreign language labeled data for aspect-based opinion mining | |
CN110348497A (zh) | 一种基于WT-GloVe词向量构建的文本表示方法 | |
Gupta et al. | Domain adaptation of information extraction models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |