CN114462401A - 一种针对领域的新词发现方法及计算设备 - Google Patents
一种针对领域的新词发现方法及计算设备 Download PDFInfo
- Publication number
- CN114462401A CN114462401A CN202210033645.XA CN202210033645A CN114462401A CN 114462401 A CN114462401 A CN 114462401A CN 202210033645 A CN202210033645 A CN 202210033645A CN 114462401 A CN114462401 A CN 114462401A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- word
- vector
- probability
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种针对领域的新词发现方法及计算设备。其中,针对领域的新词发现方法包括步骤:基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;基于所统计的词频,来确定词汇在文本中的统计特征;确定词汇的语义向量;将语义向量输入卷积网络,输出预测词汇属于特定领域且是完整词汇的第一概率;以及基于词汇的词频、统计特征和第一概率,确定出词汇为特定领域的新词的第二概率。
Description
技术领域
本公开涉及计算机网络技术领域,尤其涉及新词发现方法。
背景技术
新词发现是自然语言处理中非常重要的一环,通过对大量文本数据的处理,去发现大量未收录或者新出现的词汇。同时,对于特定领域的专有名词的挖掘也属于新词发现的范畴。对于特定领域分词、知识抽取、实体消歧等应用有重要的意义。例如在构建领域知识图谱时,需要整合大量的结构化数据去构建模式层(schema层)和数据层(instance层)。虽然目前各个领域都有大量开源的领域数据,但是也存在领域词汇等专有名词不健全的问题,并且随着时间的积累,会出现越来越多的领域新词汇,所以挖掘领域新词变得尤为重要。
目前,对于新词发现的方法主要存在两种方式。一种是无监督方式:该方法对大量的文本数据进行挖掘,利用点互信息、左右邻近熵、IDF等统计信息基于设定阈值挖掘出所有可能是新词的词汇;或基于特定的规则去发掘新词,例如根据词性规则模板、词汇的前后缀词等。另一种是有监督方式:选取高质量的背景词汇数据,基于机器学习将统计信息或者规则作为特征,对词汇进行分类预测,判断其是领域性新词的可能性。此外,将新词发现设为实体识别过程,将已知词汇进行序列标注训练新词发现的识别模型。
针对无监督方式,常见的方法是利用词频和上下文统计信息,通过设定阈值来筛选新词。这种方法依赖于人为设定的阈值对词汇进行筛选,不利于新词挖掘的自动化和对挖掘结果的有效评估,同时该方式也无法应用于特定领域的新词发掘。针对有监督方式,常见的方法是将词汇的统计信息作为特征,利用机器学习对词汇进行分类,来判定其是否为新词。在过程中,会结合人工来进行一些词汇的干预和选择,同时对新词的挖掘并不能限定新词的领域性。
因此,针对上述问题,需要一种新的新词发现方案。
发明内容
本公开提供了一种针对领域的新词发现方法及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。
根据本公开的一个方面,提供了一种针对领域的新词发现方法,包括步骤:基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;基于所统计的词频,来确定词汇在文本中的统计特征;确定词汇的语义向量;将词汇的语义向量输入卷积网络,输出预测词汇属于特定领域且是完整词汇的第一概率;以及基于词汇的词频、统计特征和第一概率,确定出词汇为特定领域的新词的第二概率。
可选地,根据本公开的方法还包括步骤:解析特定领域的知识图谱中的概念和实体,作为属于特定领域的领域词汇;将领域词汇作为分词依据,对文本进行分词,得到分词结果。
可选地,在根据本公开的方法中,词汇的语义向量包括:表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。确定词汇的语义向量的步骤包括:利用语言表示模型,分别确定出第一向量和第二向量;基于第一向量和第二向量,得到词汇的语义向量。
可选地,根据本公开的方法还包括步骤:基于N-Gram模型,将分词结果划分成长度为N的词汇片段序列;对各词汇片段所指示的词汇进行词频统计。
可选地,根据本公开的方法还包括步骤:基于词汇的词频及词汇片段的总数,确定词汇的点互信息;分别计算词汇的左邻近熵和右邻近熵;取左邻近熵和右邻近熵中的最小值,作为词汇的左右邻近熵。
可选地,在根据本公开的方法中,基于词汇的词频及词汇片段的总数,确定词汇的点互信息的步骤包括:利用词汇的词频及词汇片段的总数,确定词汇的出现概率;利用组成词汇的各词的词频及词汇片段的总数,确定各词的出现概率;基于各词的出现概率和词汇的出现概率,确定词汇的点互信息。
可选地,在根据本公开的方法中,分别计算词汇的左邻近熵和右邻近熵的步骤包括:将与词汇两侧相邻的词,分别作为词汇的左侧前缀词和右侧后缀词;统计词汇在文本中的左侧前缀词及左侧前缀词出现的次数、以及右侧后缀词及右侧后缀词出现的次数;基于所统计的左侧前缀词的次数,分别确定出各左侧前缀词在词汇的所有左侧前缀词中的比例;基于所统计的右侧后缀词的次数,分别确定出各右侧后缀词在词汇的所有右侧后缀词中的比例;基于各左侧前缀词的比例,确定出词汇的左邻近熵;基于各右侧后缀词的比例,确定出词汇的右邻近熵。
根据本公开的再一方面,提供了一种计算设备,包括:一个或多个处理器存储器;一个或多个程序,其中所述一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上任一方法的指令。
根据本公开的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令在被计算设备执行时,使得计算设备执行如上所述的任一方法。
综上所述,根据本公开的方案,首先,引入了领域知识图谱中的高质量领域词汇作为领域词判别基准,节省了人工标注数据的成本,兼顾了词汇的领域适用性和质量,确保了高质量领域新词的发现。其次,利用深度学习模型(如,BERT+CNN)对词汇进行领域性和完整性的预测,充分考虑了词汇本身的语义信息以及其在句子中的语义信息,提高了词汇领域性判断和词汇完整性预测的准确性,保证了新词发现结果的可靠性。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本公开一些实施例的计算设备100的示意图;
图2示出了根据本公开一些实施例的针对领域的新词发现方法200的流程示意图;
图3示出了根据本公开一个实施例的确定第一向量的流程示意图;
图4示出了根据本公开一个实施例的确定第二向量的流程示意图;
图5示出了根据本公开一些实施例的预测第一概率的流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本公开的新词发现方案,针对某个特定领域,引入该领域的知识图谱,以此为分词依据,利用深度学习算法,从文本数据中识别出属于该领域、且能够保证词汇完成性的新词。识别过程充分利用词汇本身和词汇所在上下文的语义信息,相较于通过词向量计算相似度,本方案对领域性的判别更为准确。
本公开实施例的针对领域的新词发现方案,可以在一台或多台计算设备中执行。图1是示例计算设备100的框图。
在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作***上利用程序数据124进行操作。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。计算设备100也可以实现为具有上述配置的服务器。
在根据本公开的实施例中,计算设备100被配置为执行针对领域的新词发现方法,其中,计算设备100的应用122中包含执行根据本公开的针对领域的新词发现方法200的多条程序指令,而程序数据124中还可以存储用于执行该方法200的各深度学习模型的相关数据,包括不限于训练数据、超参数信息等。
图2示出了根据本公开一些实施例的针对领域的新词发现方法200的流程示意图。如图2所示,方法200始于步骤S210。
在步骤S210中,基于特定领域的知识图谱,对文本进行分词处理,得到分词结果。
根据一种实施方式,解析特定领域的知识图谱中的概念和实体,作为行业词汇,即,属于该特定领域的领域词汇。之后,将这些领域词汇作为分词依据,对文本进行分词,得到分词结果。在一种实施例中,连续的数字和英文不进行分割,分词结果使用空格进行间隔。本公开实施例并不限制采取什么方式来进行分词。
为便于说明,以下以特定领域是汽车领域为例,以汽车领域知识图谱中的8000个汽车行业词汇为领域词汇,对一个6G的文本进行处理。根据本公开,待处理的文本可以是多个文本数据的集合。应当了解,本公开并不限制在对汽车领域的新词的发现,对任何特定领域,均可以采用根据本公开的方法200,来识别出属于该领域的新词。
随后,在步骤S220中,对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频。
根据本公开的一种实施例,基于N-Gram模型来进行词频统计。具体地,基于N-Gram模型将分词结果划分成长度为N的词汇片段序列,再对各词汇片段所指示的词汇进行词频统计。
以下以“有了油膜的挡风玻璃,被水淋后,水都是成股滑落的。”这句话的N-Gram生成为例,说明利用N-Gram模型来进行词频统计的过程,其中,N取6。
1-Gram就是每个字符自身的组合(应当了解,在本实施例中,也将单独的字符称之为“词”),结果如集合A所示:
集合A:【'有','了','油','膜','的','挡风玻璃',',','被','水','淋','后','都','是','成','股','滑','落','。'】
2-Gram就是相邻2个字符(词)的组合,结果如集合B所示:
集合B【('有','了'),('了','油'),('油','膜'),('膜','的'),('的','挡风玻璃'),('挡风玻璃',','),(',','被'),('被','水'),('水','淋'),('淋','后'),('后',','),(',','水'),('水','都'),('都','是'),('是','成'),('成','股'),('股','滑'),('滑','落'),('落','的'),('的','。')】
其他N-gram依次类推。就分别得到了长度为1、2、3、4、5、6的词汇片段的集合,将其称之为词汇片段序列。
之后统计其词频。词频即词汇在当前数据集中出现的次数或频率。在一种实施例中,计算这些词汇片段所指示的词汇,在该文本中出现的次数即可,例如:('油','膜')共出现2110次。
随后,在步骤S230中,基于所统计的词频,来确定词汇在文本中的统计特征。
根据本公开的实施方式,统计特征包括词汇的点互信息(凝固度)、左右邻近熵(自由度)。
其中,点互信息(Pointwise Mutual Information,PMI)表示两个词汇之间的相互依赖程度。PMI值越高,表明两个词汇的相关性越高,则两个词汇组成短语的可能性越大;反之,PMI值越低,表明两个词汇的相关性越低,则两个词汇之间存在短语边界的可能性越大。
左右邻近熵也称之为信息熵,表示某词汇与其左右相邻词汇的信息熵。具体地,左右邻近熵又分为左邻近熵和右邻近熵。
根据本公开的实施方式,通过如下方式来计算点互信息和左右邻近熵。
1)点互信息
基于词汇的词频及词汇片段的总数,确定该词汇的点互信息。
在一种实施例中,利用词汇的词频及词汇片段的总数,确定该词汇的出现概率;利用组成该词汇的各词(字符)的词频及词汇片段的总数,确定各词的出现概率;之后,基于组成该词汇的各词的出现概率、和该词汇的出现概率,确定该词汇的点互信息。可选地,点互信息通过如下公式来计算:
式中,P(X,Y)表示当前词汇(X,Y)的出现概率,X和Y是组成词汇(X,Y)的相邻词,P(X)表示词X的出现概率,P(Y)表示词Y的出现概率。
继续以('油','膜')为例,接上文示例,共统计出N-gram词汇总数为1251498153,其中('油','膜')出现2110次,'油'出现505523次,'膜'出现73509次。那么,可以计算出:
P('油','膜')=2110/1251498153,
P('油')=505523/1251498153,
P('膜')=73509/1251498153,
将三个概率值带入上述公式,即可计算出词汇“油膜”的点互信息:
PMI('油','膜')=71.06098676633101。
2)左右邻近熵
分别计算该词汇的左邻近熵和右邻近熵。之后,取左邻近熵和右邻近熵中的最小值,作为该词汇的左右邻近熵。
在一种实施例中,将与某个词汇两侧相邻的词,分别作为该词汇的左侧前缀词和右侧后缀词。以上例中的“有了油膜的挡风玻璃,被水淋后,水都是成股滑落的。”这句话为例,“了”是“油膜”的左侧前缀词,“的”是“油膜”的右侧后缀词。
以下以左侧前缀词为例,说明计算左邻近熵的过程。
首先,基于N-Gram的结果,统计词汇在文本中的所有左侧前缀词及各左侧前缀词出现的次数。
之后,基于所统计的左侧前缀词的次数,分别确定出各左侧前缀词在该词汇的所有左侧前缀词中的比例。
之后,基于各左侧前缀词的比例,确定出该词汇的左邻近熵。
接上例,通过统计可知('油','膜')的左侧共出现了18个不同的字,总共出现次数为1432次。如下表1所示,为便于说明,用i来对这18个左侧前缀词分别编号,aiW代表第i个左侧前缀词,Gram(aiW)为第i个左侧前缀词出现的次数,P(aiW)是第i个左侧前缀词出现的次数占当前词汇('油','膜')所有左侧前缀词出现次数总数中的比例。
表1左侧前缀词示例
在一种实施例中,通过如下公式,即可计算出左邻近熵:
式中,El(W)为词汇w的左邻近熵,aiW表示w词的左侧前缀词,n代表w的左侧前缀词的总数,P(aiW)是第i个左侧前缀词的出现次数对应的比例(即,概率)。
将表1的统计结果代入公式计算可得,('油','膜')的左邻近熵为3.628622131。
基于同样的处理方式,可以计算出右邻近熵。具体地,统计词汇在文本中的所有右侧后缀词及各右侧后缀词出现的次数。基于所统计的右侧后缀词的次数,分别确定出各右侧后缀词在该词汇的所有右侧后缀词中的比例。基于各右侧后缀词的比例,确定出该词汇的右邻近熵。
接上例,通过统计可知('油','膜')的右侧出现了20个不同的字符,总共出现次数为955次,('油','膜')的右邻近熵Er(W)为3.7644476。
所以,对于“油膜”的左右邻近熵,取El(W)和Er(W)中的最小值,即为3.628622131。
随后在步骤S240中,确定词汇的语义向量。
根据本公开的实施方式,词汇的语义向量包括:表示词汇的语义的第一向量和表示词汇在句子中的语义的第二向量。
根据本公开的实施例,利用语言表示模型,来确定词汇的上述语义向量。在一种实施例中,语言表示模型可以是BERT模型,当然不限于此。本公开确定词汇的语义向量,其根本目的是为了获得能够表达该词汇在当前领域数据中的准确语义信息,从而保证新词发现结果的准确率。基于本公开的方案,本领域技术人员可以采用NLP中其它模型(如CNN、长短期记忆模型LSTM等)来进行词表示,以实现本公开的方法200。此处仅以BERT为例,来说明确定语义向量的过程,采用其它语言表示模型来进行向量表示,亦在本公开的保护范围之内。
具体地,利用BERT模型,分别确定出第一向量和第二向量。再基于第一向量和第二向量,拼接得到该词汇的语义向量。
图3和图4分别示出了根据本公开一个实施例的确定第一向量和第二向量的流程示意图。
如图3所示,将该词汇输入第一语言表示模型(即,第一个BERT模型)进行处理,BERT模型的主体结构为多层Transformer结构的堆叠,此处对BERT模型的结构不做展开。经多层Transformer处理后,将其在第一位置的输出向量,作为第一向量。第一位置为CLS位置(如图3中的C),是分类token([CLS])对应最后一个Transformer的输出。
如图4所示,将包含该词汇的句子,输入第二语言表示模型(即,第二个BERT模型)进行处理。同样,经多层Transformer处理后,利用其在第二位置和第三位置的输出向量,生成第二向量。其中,第二位置为该词汇在该句子中的开始位置,第三位置为该词汇在该句子中的结束位置。在一种实施例中,在执行步骤S220时,即可标注出词汇在对应句子中的开始位置和结束位置。如图4,第二位置为T2,第三位置为Tn,将这两个位置的输出向量进行拼接(Concat),得到的新向量,就是第二向量。
需要说明的是,在对词汇进行语义向量表示之前,还需要对BERT模型分别进行训练,以得到训练好的两个BERT模型(即,第一个BERT模型和第二个BERT模型)。之后,利用训练好的B ERT模型,分别对词汇、以及词汇所在的句子,进行语义表示。本公开对BERT模型的具体结构、训练过程及超参数的设置均不作限制。
根据本公开的再一些实施例,基于大量文本数据生成的N-Gram,每个词汇都会出现很多次,换言之,包含该词汇的句子不止一条。因此,针对词汇A,从文本中选取部分包含该词汇的句子,可以是随机选取出n条,例如,n设置为50,当然不限于此。之后,针对所选取的句子中的每个句子,进行如图4所示的处理流程:将这个句子输入第二语言表示模型,确定出在第二位置和第三位置的输出向量;将第二位置的输出向量与第三位置的输出向量拼接,生成表示词汇A在这个句子中语义的第二向量。之后,将每个句子对应的第二向量相加并求取均值,来得到表示词汇A在文本中所有句子中的语义的第二向量。
图5示出了根据本公开一些实施例的预测第一概率的流程示意图。如图5,左侧为,将词汇输入第一语言表示模型,经嵌入(Embedding)后输出第一向量。右侧为,将包含词汇的多个句子,分别输入第二语言表示模型,分别经词嵌入(Word Embedding)后输出多个第二向量,再取其均值,作为第二向量。之后,将第一向量和第二向量拼接(Concat),得到该词汇的语义向量。之后,将该语义向量作为卷积网络的输入,进行词汇领域性(即,是否属于该特定领域)和完整性(即,是否为一个完整的词汇)的预测,获得该词汇的第一概率。
在进行词汇的领域性和完整性的预测时,仅仅根据词汇本身的语义信息,所得到的预测结果容易出现错误。例如对于一些特殊的词汇“姥姥锐”,该词汇如果仅根据词汇本身的语义信息,会被预测成“非汽车领域词汇”。但其实该词是“汽车领域词汇”。因此,基于步骤S240,结合第一向量和第二向量,得到该词汇的语义向量,这样,在后续的预测过程中,会考虑词汇本身的语义信息以及该词汇在句子中的语义信息,从而提高词汇预测领域性的准确性。此外加入词汇在句子中的语义信息,也能够提高词汇的完整性预测结果。
在接下来的步骤S250中,即根据该语义向量,对该词汇的领域性和完整性进行预测。具体地,将该词汇的语义向量输入卷积网络,输出预测该词汇属于该特定领域、且是完整词汇的第一概率。
第一概率越大,表明该词汇属于该特定领域、且是完整词汇的可能性越高。
根据本公开的实施例,可采取任一种CNN模型来对语义向量进行处理,以预测出第一概率值。同样地,在预测第一概率之前,还需要先采集对应领域内的领域词汇,作为训练样本,对CNN模型进行训练,以利用训练好的CNN模型来预测词汇的领域性和完整性。本公开对训练过程亦不做过多限制。
在一种实施例中,使用训练好的CNN模型,对N-Gram词汇片段进行领域性和完整性性预测,获得其第一概率,例如:('水','淋')的第一概率为0.12128568,('气缸','璧')的第一概率为0.99808216。可见,词“气缸壁”属于汽车领域、且是完整词汇(即,可作为领域词汇)的可能性,远高于词“水淋”。
随后在步骤S260中,基于该词汇的词频、统计特征和第一概率,确定出该词汇为该特定领域的新词的第二概率。
根据一种实施例,将词频、点互信息、左右邻近熵和第一概率进行加权平均,得到第二概率。
根据本公开的再一种实施例,考虑到N-Gram词汇片段的上述各统计值,例如词频、点互信息、左右邻近熵,其最大值和最小值之间的差距比较大,因此,先对其进行归一化处理,以使各个统计值更加清晰地反应出其统计分布概率值。
具体地,先对该词汇的词频、点互信息、左右邻近熵和第一概率分别进行归一化处理,对应得到归一化的词频、归一化的点互信息、归一化的左右邻近熵和归一化的第一概率。归一化可采用离差标准化,以将数值映射到0-1之间。具体如下公式所示:
式中,x”是X的归一化值,Min代表X取值中的最小值,Max代表X取值中的最大值。
之后,基于归一化的词频、归一化的点互信息、归一化的左右邻近熵和归一化的第一概率,确定出词汇为该特定领域的新词的第二概率。如下公式所示:
式中,Auto(X)表示词汇X的第二概率,(Gram(X))″为归一化的词频,(E(X))″为归一化的点互信息,(PMI(X))″为归一化的左右邻近熵,(BC(X))″为归一化的第一概率。
根据本实施例,第二概率越大,相应的该词为特定领域新词的可能性就越高。如下表2,示出了本公开的示例,经方法200处理后,确定出的部分词汇属于汽车领域新词的第二概率。
表2部分词汇及其第二概率示例
词汇 | 第二概率 |
玻璃 | 0.804237 |
油耗 | 0.790492 |
轮毂 | 0.774695 |
胎压 | 0.762063 |
宋dm | 0.751092 |
冷却液 | 0.744979 |
昂克赛拉 | 0.741155 |
豪华版 | 0.738212 |
根据本公开的方法200,首先,引入了领域知识图谱中的高质量领域词汇作为领域词判别基准,节省了人工标注数据的成本,兼顾了词汇的领域适用性和质量,确保了高质量领域新词的发现。其次,利用深度学***均的计算,所得到的指示该词汇为领域内词汇的第二概率,兼顾了统计特征和领域特征,保证新词的高质量和领域适配性。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本公开一并公开:
A9、如A4所述的方法,其中,所述语言表示模型为BERT模型。
A10、如A1-9中任一项所述的方法,其中,所述统计特征包括所述词汇的点互信息、左右邻近熵。
A11、如A10所述的方法,其中,所述基于所统计的词频,来确定词汇在文本中的统计特征的步骤包括:基于所述词汇的词频及词汇片段的总数,确定所述词汇的点互信息;分别计算所述词汇的左邻近熵和右邻近熵;取所述左邻近熵和所述右邻近熵中的最小值,作为所述词汇的左右邻近熵。
A12、如A11所述的方法,其中,所述基于词汇的词频及词汇片段的总数,确定所述词汇的点互信息的步骤包括:利用所述词汇的词频及词汇片段的总数,确定所述词汇的出现概率;利用组成所述词汇的各词的词频及词汇片段的总数,确定各词的出现概率;基于各词的出现概率和所述词汇的出现概率,确定所述词汇的点互信息。
A13、如A11或12所述的方法,其中,所述分别计算所述词汇的左邻近熵和右邻近熵的步骤包括:将与所述词汇两侧相邻的词,分别作为所述词汇的左侧前缀词和右侧后缀词;统计所述词汇在所述文本中的左侧前缀词及左侧前缀词出现的次数、以及右侧后缀词及右侧后缀词出现的次数;基于所统计的左侧前缀词的次数,分别确定出各左侧前缀词在所述词汇的所有左侧前缀词中的比例;基于所统计的右侧后缀词的次数,分别确定出各右侧后缀词在所述词汇的所有右侧后缀词中的比例;基于各左侧前缀词的比例,确定出所述词汇的左邻近熵;基于各右侧后缀词的比例,确定出所述词汇的右邻近熵。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该公开的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本公开,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本公开的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本公开的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本公开的范围,对本公开所做的公开是说明性的,而非限制性的,本公开的范围由所附权利要求书限定。
Claims (10)
1.一种针对领域的新词发现方法,包括步骤:
基于特定领域的知识图谱,对文本进行分词处理,得到分词结果;
对所述分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频;
基于所统计的词频,来确定词汇在文本中的统计特征;
确定所述词汇的语义向量;
将所述词汇的语义向量输入卷积网络,输出预测所述词汇属于所述特定领域且是完整词汇的第一概率;以及
基于所述词汇的词频、统计特征和第一概率,确定出所述词汇为所述特定领域的新词的第二概率。
2.如权利要求1所述的方法,其中,基于特定领域的知识图谱,对文本进行分词处理,得到分词结果的步骤包括:
解析所述特定领域的知识图谱中的概念和实体,作为属于所述特定领域的领域词汇;
将所述领域词汇作为分词依据,对文本进行分词,得到分词结果。
3.如权利要求1或2所述的方法,其中,所述词汇的语义向量包括:表示所述词汇的语义的第一向量和表示所述词汇在句子中的语义的第二向量。
4.如权利要求3所述的方法,其中,所述确定词汇的语义向量的步骤包括:
利用语言表示模型,分别确定出第一向量和第二向量;
基于所述第一向量和所述第二向量,得到所述词汇的语义向量。
5.如权利要求4所述的方法,其中,所述利用语言表示模型,分别确定出第一向量和第二向量的步骤包括:
将所述词汇输入第一语言表示模型进行处理,并将其在第一位置的输出向量,作为第一向量;
将包含所述词汇的句子,输入第二语言表示模型进行处理,并利用其在第二位置和第三位置的输出向量,生成所述第二向量;
其中,所述第一位置为CLS位置,第二位置为所述词汇在所述句子中的开始位置,所述第三位置为所述词汇在所述句子中的结束位置。
6.如权利要求5所述的方法,其中,所述将包含所述词汇的句子,输入第二语言表示模型进行处理,并利用其在第二位置和第三位置的输出向量,生成第二向量的步骤包括:
从文本中选取部分包含所述词汇的句子;
针对所选取的句子中的每个句子,
将所述句子输入第二语言表示模型,来确定在第二位置和第三位置的输出向量;
将第二位置的输出向量与第三位置的输出向量拼接,生成表示所述词汇在所述句子中语义的第二向量;
将每个句子对应的第二向量相加并求取均值,来得到表示所述词汇在句子中的语义的第二向量。
7.如权利要求1-5中任一项所述的方法,其中,所述基于词汇的词频、统计特征和第一概率,确定出所述词汇为特定领域的新词的第二概率的步骤包括:
对所述词汇的词频、统计特征和第一概率分别进行归一化处理,得到归一化的词频、归一化的统计特征和归一化的第一概率;
基于所述归一化的词频、所述归一化的统计特征和所述归一化的第一概率,确定出所述词汇为所述特定领域的新词的第二概率。
8.如权利要求1-6中任一项所述的方法,其中,所述对分词结果进行处理,得到多个词汇片段,并分别统计各词汇片段所指示词汇的词频的步骤包括:
基于N-Gram模型,将所述分词结果划分成长度为N的词汇片段序列;
对各词汇片段所指示的词汇进行词频统计。
9.一种计算设备,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1-8中任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令在被计算设备执行时,使得所述计算设备执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033645.XA CN114462401A (zh) | 2022-01-12 | 2022-01-12 | 一种针对领域的新词发现方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210033645.XA CN114462401A (zh) | 2022-01-12 | 2022-01-12 | 一种针对领域的新词发现方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462401A true CN114462401A (zh) | 2022-05-10 |
Family
ID=81410240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210033645.XA Pending CN114462401A (zh) | 2022-01-12 | 2022-01-12 | 一种针对领域的新词发现方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462401A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017335A (zh) * | 2022-06-16 | 2022-09-06 | 特赞(上海)信息科技有限公司 | 知识图谱构建方法和*** |
CN117648062A (zh) * | 2024-01-29 | 2024-03-05 | 珠海芯烨电子科技有限公司 | 一种语音管理方法以及打印机 |
-
2022
- 2022-01-12 CN CN202210033645.XA patent/CN114462401A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017335A (zh) * | 2022-06-16 | 2022-09-06 | 特赞(上海)信息科技有限公司 | 知识图谱构建方法和*** |
CN117648062A (zh) * | 2024-01-29 | 2024-03-05 | 珠海芯烨电子科技有限公司 | 一种语音管理方法以及打印机 |
CN117648062B (zh) * | 2024-01-29 | 2024-05-03 | 珠海芯烨电子科技有限公司 | 一种语音管理方法以及打印机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US20210201143A1 (en) | Computing device and method of classifying category of data | |
CN111930929B (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN112287670A (zh) | 文本纠错方法、***、计算机设备及可读存储介质 | |
CN114462401A (zh) | 一种针对领域的新词发现方法及计算设备 | |
CN110210043B (zh) | 文本翻译方法、装置、电子设备及可读存储介质 | |
US20040243408A1 (en) | Method and apparatus using source-channel models for word segmentation | |
CN107967256B (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN111241267A (zh) | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 | |
CN110377882B (zh) | 用于确定文本的拼音的方法、装置、***和存储介质 | |
CN111651990B (zh) | 一种实体识别方法、计算设备及可读存储介质 | |
CN111241813B (zh) | 语料扩展方法、装置、设备及介质 | |
CN111460115A (zh) | 智能人机对话模型训练方法、模型训练装置及电子设备 | |
CN110866095A (zh) | 一种文本相似度的确定方法及相关设备 | |
CN111444719A (zh) | 一种实体识别方法、装置和计算设备 | |
CN113626713A (zh) | 搜索方法、装置、设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN114067786A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN114330343A (zh) | 词性感知嵌套命名实体识别方法、***、设备和存储介质 | |
CN112417878A (zh) | 实体关系抽取方法、***、电子设备及存储介质 | |
CN113934848B (zh) | 一种数据分类方法、装置和电子设备 | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |