CN110413790A - 一种场景分类方法及装置 - Google Patents
一种场景分类方法及装置 Download PDFInfo
- Publication number
- CN110413790A CN110413790A CN201910713561.9A CN201910713561A CN110413790A CN 110413790 A CN110413790 A CN 110413790A CN 201910713561 A CN201910713561 A CN 201910713561A CN 110413790 A CN110413790 A CN 110413790A
- Authority
- CN
- China
- Prior art keywords
- domain knowledge
- term vector
- scene classification
- word
- vector library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种场景分类方法及装置,包括:结合领域知识图谱构建携带领域知识的词向量库;获取待场景分类的文本信息;对所述文本信息进行分词;根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。本发明提供的场景分类方法,针对携带新词、生僻词或低频度词的语句,可以提升这类语句的场景分类的准确度。
Description
技术领域
本发明涉及语义理解技术领域,尤指一种场景分类方法及装置。
背景技术
随着人工智能时代的来临,语音助手、智能陪护机器人等职能对话***为人们生活带来了方便。对话***主要由语音识别、语义理解、对话管理、答案生成、语音合成几个模块组成。场景分类作为语义理解的一部分,在整个对话过程中起着重要作用。
常见的场景分类方法有贝叶斯网络、逻辑斯蒂回归等传统方法,以及基于卷积神经网络、或循环神经网络等深度学习方法。贝叶斯网络、逻辑斯蒂回归等传统方法需要人为提取特征,成本高并且效率低。贝叶斯算法对数据分布的形状做了一定假设,同时也受到数据稀缺性的限制,其中特征空间中的任何可能值都必须根据概率估计。逻辑斯蒂回归分类器要求每个数据点是独立的,其试图基于一组独立变量来预测结果。深度学习方法也有一定的缺点和局限性,深度模型的主要问题之一就是不可解释性,不具有推理能力,属于数据驱动型。
总之,不管是传统方法还是深度学习方法,都强依赖训练数据,当遇到新词、生僻词或低频度词时,模型不能进行正确的场景归类,即泛化性弱,无法联想与推理。
比如,用户问“哪里有钵钵鸡”,当训练数据里面没有“钵钵鸡”或者“钵钵鸡”出现的次数很少时,机器不理解这是什么意思,也不理解用户问句所属场景为美食。
发明内容
本发明的目的之一是提供一种场景分类方法及装置,针对携带新词、生僻词或低频度词的语句,提升这类语句的场景分类的准确度。
本发明提供的技术方案如下:
一种场景分类方法,包括:结合领域知识图谱构建携带领域知识的词向量库;获取待场景分类的文本信息;对所述文本信息进行分词;根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
进一步优选的,所述结合领域知识图谱构建携带领域知识的词向量库包括:基于领域知识图谱构建节点向量库;基于语料样本构建常用词向量库;将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
进一步优选的,所述所有词语的携带领域知识的词向量构成携带领域知识的词向量库,之前还包括:将仅在所述节点向量库中存在的、或仅在所述常用词向量库中存在的词语对应的向量进行维度适配,得到所述词语的携带领域知识的词向量。
进一步优选的,所述基于领域知识图谱构建节点向量库包括:从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。
进一步优选的,所述的将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型,之前还包括:获取带有场景分类标记的语料样本;用所述语料样本训练基于长短期记忆网络建立的深度学习网络;当所述深度学习网络收敛时,得到场景分类模型。
进一步优选的,所述的用所述语料样本训练基于长短期记忆网络建立的深度学习网络,包括:将所述语料样本的每一句语料的每一个分词分别输入到一个前向LSTM中学习所述分词的前向依赖,以及输入到一个后向LSTM中学习所述分词的后向依赖;通过将学习到的所述分词的前向依赖与后向依赖进行拼接,获得所述分词的双向语义特征向量;根据所述语料的最后一个分词的双向语义特征向量,对所述语料进行场景分类。
本发明还提供一种场景分类装置,包括:词向量库构建模块,用于结合领域知识图谱构建携带领域知识的词向量库;信息获取模块,用于获取待场景分类的文本信息;分词模块,用于对所述文本信息进行分词;词向量生成模块,用于根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;场景分类模块,用于将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
进一步优选的,所述词向量库构建模块包括:节点向量库构建单元,用于基于领域知识图谱构建节点向量库;常用词向量库构建单元,用于基于语料样本构建常用词向量库;所述词向量库构建模块,进一步用于将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
进一步优选的,所述节点向量库构建单元,进一步用于从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。
进一步优选的,还包括:场景分类模型构建模块,用于获取带有场景分类标记的语料样本;用所述语料样本训练基于长短期记忆网络建立的深度学习网络;当所述深度学习网络收敛时,得到场景分类模型。
与现有技术相比,本发明的场景分类方法及装置的有益效果在于,通过将知识图谱数据嵌入到词向量中,使场景分类模型具备先验知识,在理解句子的时候不再只看表面意思,可以依据先验知识进一步推理,从而提升携带新词、生僻词或低频度词的语句的场景分类的准确度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种场景分类方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种场景分类方法的一个实施例的流程图;
图2是本发明的一种场景分类方法的另一个实施例的流程图;
图3是图2实施例中一种构建携带领域知识的词向量库的流程图;
图4是图2实施例中一种构建场景分类模型的流程图;
图5是本发明的一种场景分类装置的一个实施例的结构示意图;
图6是本发明的一种场景分类装置的另一个实施例的结构示意图;
图7是图2、图6实施例中场景分类方法的分层结构示意图。
附图标号说明:
100.信息获取模块,200.分词模块,300.词向量生成模块,400.场景分类模块,510.节点向量库构建单元,520.常用词向量库构建单元,600.场景分类模型构建模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,一种场景分类方法,包括:
步骤S100结合领域知识图谱构建携带领域知识的词向量库。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、或实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点。知识图谱主要包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,反映了两个节点之间存在某种关系或属性。
领域知识图谱是针对某个领域的知识图谱,由于面对的领域更具体,所以针对性更强。比如专业领域知识图谱,但该知识图谱涉及的专业术语会更多。这些专业术语对大众而言,可能是生僻的、低频段词,但若能将领域知识图谱中这些专业术语对应节点的相关常识性知识以及逻辑推理知识融合嵌入到其对应的词向量中,会有助于对这类词语的理解。比如,“钵钵鸡”这个词,不属于常用词范畴,所以机器对这个词偏生疏,语义理解不准确。在美食知识图谱中,该词与“麻婆豆腐”一样属于川菜、一种食物,它的邻近节点有“川菜”、“食物”,而“川菜”、“食物”属于常用词,机器能正确理解这些常用词的语义。如果将“川菜、食物”等常识性知识、“钵钵鸡属于一种川菜/食物”等逻辑推理知识嵌入到“钵钵鸡”的词向量中,会有助于机器对包含这类非常用词的语句理解和场景分类。
所以有必要结合领域知识图谱构建携带领域知识的词向量库,通过把常识性知识以及逻辑推理知识嵌入到词语的词向量中,从而使包含非常用词的语句易理解、场景分类更准确。
根据应用场景选择合适的领域知识图谱。比如,针对医疗咨询的问答***,建议选择医疗知识图谱。
可选的,基于领域知识图谱构建节点向量库。针对领域知识图谱中不存在的词,用随机生成的一个符合高斯分布的向量表示,记为随机向量。随机向量与节点向量具备相同维度,并一起构成携带领域知识的词向量库。
步骤S200获取待场景分类的文本信息。
具体的,待场景分类的文本信息,通俗的说,就是一条语句,待识别该语句所属场景,比如,用户问“哪里有钵钵鸡”,该用户问句属于哪类场景。
可选的,通过采集用户发出的语音信息获取待场景分类的文本信息。比如,在语音助手、智能陪护机器人等智能对话***中,采集用户的语音信息,对所述语音信息进行语音识别,获得对应的文本信息。
可选的,针对配有摄像头的***,还可通过摄像方式获取,比如,在摄像区域内获取图像,识别图像中的文本信息,即得到待场景分类的文本信息。
步骤S300对所述文本信息进行分词。
具体的,对文本信息进行切分,找到与预设词库匹配的所有词语,根据这些词语得到多种切分结果;再计算每种切分结果的发生概率,选取发生概率最大的切分结果(即最优切分)作为该文本信息的分词结果。可以使用开源工具包对文本信息进行分词处理。
进一步,为了准确分词,预设词库需要包含新词、生僻词、低频段词。比如,对语句“哪里有钵钵鸡”进行分词,预设词库中需要包括钵钵鸡这个词语,这样才能得到正确的分词结果:哪里\有\钵钵鸡。
步骤S400根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量。
具体的,对文本信息分词后,得到各个词语。再到携带领域知识的词向量库中去匹配,获取每个词语的词向量。比如,语句“哪里有钵钵鸡”,其中语句中的关键词为“钵钵鸡”,由于“钵钵鸡”的携带领域知识的词向量携带了“钵钵鸡”属于“川菜、食物”等逻辑推理知识,所以表现在词向量空间上,“钵钵鸡”与“川菜”、“食物”等词语的词向量距离较近,表现在语义上,与“川菜”、“食物”语义较近,这将有助于正确识别语句“哪里有钵钵鸡”所属场景。
步骤S500将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
具体的,场景分类模型可以是基于深度学习网络训练出的模型。深度学习网络,比如LSTM(Long Short-Term Memory,长短期记忆网络),适合用于对时序数据的建模,如文本数据,它考虑了词语在句子中的前后顺序,通过训练可以自动提取句子中的特征信息。
首先获取带有场景分类标记的语料样本。可选的,从互联网上采用爬虫技术获取各种语料,从中挑选合适的语料,并人工标注每条语料的场景类型,对每条语料进行分词,将分词后的每个词语到根据语料训练得到的词向量库中去匹配,找到对应的词向量,用所述词向量替代对应的词语,如此得到模型训练用的语料样本。
将上述语料样本输入LSTM网络进行训练,使之学习到每条语料与其人工标注的场景类型之间的映射关系。当该LSTM网络收敛时(比如,收敛准则为:语料样本中每条语料的场景输出与所述语料的场景标注一致;或语料样本中场景输出与标注一致的语料数目达到预设数目),得到训练好的模型,即场景分类模型。
该场景分类模型针对语料样本中出现的常用词能够进行正确的场景分类。比如,语句“哪里有川菜”,识别为美食场景。假设语料样本中没有“钵钵鸡”或出现频度很低,该模型就不能准确识别语句“哪里有钵钵鸡”的所述场景。为了解决这个问题,到携带领域知识的词向量库中去匹配“哪里”、“有”、“钵钵鸡”等词语的词向量,将携带领域知识的词向量输入场景分类模型,使模型具备一定的逻辑推理知识,提升了模型的推理能力,在理解语句时不只看表面意思,从而更加精准地理解语句、对语句进行正确分类。由于“钵钵鸡”的携带领域知识的词向量携带了“钵钵鸡是一种川菜”的知识,所以使场景分类模型能获得与“哪里有川菜”类似的场景分类结果。
本实施例,通过引入领域知识图谱,把一些常识性知识以及逻辑推理知识等先验知识嵌入到词语的词向量中,提升了场景分类模型的推理能力,从而使包含非常用的术语类词语的语句易理解、场景分类更准确。
在本发明的另一个实施例中,如图2、图3、图4所示,一种场景分类方法,包括:
步骤S100结合领域知识图谱构建携带领域知识的词向量库。
如图3所示,所述步骤S100具体包括:
步骤S110基于领域知识图谱构建节点向量库。
具体的,节点向量库的构建步骤包括:从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。
Word2vec是一种词向量生成方法,作用是将自然语言中的字词转为计算机可以理解的低维稠密向量。Word2Vec的基本思想是一个词的语义可以由它的上下文确定。如果两个词的上下文相似,那么这两个词的语义就相似。它采用词袋模型,根据输入文本数据的上下文关系,生成词语的特征向量表示。
为了得到领域知识图谱的每个节点的特征向量表示,采用Word2vec生成节点向量。首先从任意节点开始,采用随机游走的方法生成节点序列。随机游走的做法是,选取一个初始的节点,然后从当前节点的邻接节点中以等概率采样的方式产生下一个节点,如此循环往复,直到节点序列的长度达到先前设置的最大序列长度。所有如此形成的节点序列构成Word2vec模型的输入文本数据,Word2vec模型通过神经网络技术学习输入文本数据中的上下文关系,最终得到输入文本数据中每个词语的特征向量表示,每个词语对应领域知识图谱的一个节点,即得到节点的节点向量。
比如,以美食知识图谱为例,可以得到如下节点序列(假设节点序列由3个节点构成):钵钵鸡/麻辣味/川菜,麻辣味/钵钵鸡/川菜,川菜/钵钵鸡/麻辣味,川菜/麻辣味/钵钵鸡,麻辣味/川菜/钵钵鸡,钵钵鸡/川菜/麻辣味,……。从列出的节点序列可知,钵钵鸡、川菜的上下文类似,所以根据Word2vec模型的基本思想可知,钵钵鸡、川菜的语义相似,所以两者的节点向量反映了该相似特征。
步骤S120基于语料样本构建常用词向量库;
步骤S130将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;
步骤S140将仅在所述节点向量库中存在的、或仅在所述常用词向量库中存在的词语对应的向量进行维度适配,得到所述词语的携带领域知识的词向量;
步骤S150所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
具体的,由于领域知识图谱是针对某一细分领域的,所以所涉及的词语有限,构建的节点向量库也是针对有限词语的词向量库。它的优势在于携带了常识式知识和逻辑推理知识,将难懂的专用术语通俗化。
基于语料样本构建的常用词向量库,能覆盖生活中用到的常用词,它的优势在于包含的词语多,覆盖范围广。可选的,常用词向量库可以选用别人已训练好的,比如基于Wiki(维基)语料库训练得到的词向量库。
常用词向量库、节点向量库是基于不同类型的训练样本得到,获取的是不同的特征。为了提高包含非常用词的语句的理解,需要将上述两种特征进行组合,比如加权组合,得到携带领域知识的词向量。由于加权比例不好设置,所以优选的,将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行拼接,得到所述词语的携带领域知识的词向量。这样可以充分保留不同方式获得的特征。对于仅在某个库中存在的词语,可以进行维度扩展,以得到对应的携带领域知识的词向量。
步骤S600构建场景分类模型。
如图4所示,所述步骤S600具体包括:
步骤S610获取带有场景分类标记的语料样本;
步骤S620用所述语料样本训练基于双向长短期记忆网络建立的深度学习网络;
步骤S630当所述深度学习网络收敛时,得到场景分类模型。
具体的,基于BiLSTM(双向长短期记忆网络)构建场景分类模型。BiLSTM相对LSTM能够多学习到词语的后向依赖,所以场景分类上会更准确。比如,语句“哪里有钵钵鸡”,根据“钵钵鸡”的前向依赖,可以准确识别场景;语句“钵钵鸡哪里有”,结合“钵钵鸡”的后向依赖,可以更准确识别场景。
BiLSTM和LSTM都是一种有监督学习。先获取语料样本,人工标注每一句语料的场景类型,每一句语料的每个分词用词向量替代,如此得到模型训练用的语料样本。
将每一句语料的每一个分词分别输入到一个前向LSTM中学习所述分词的前向依赖,以及输入到一个后向LSTM中学习所述分词的后向依赖;将学习到的所述分词的前向依赖与后向依赖进行拼接,获得所述分词的双向语义特征向量;根据所述语料的最后一个分词的双向语义特征向量,对所述语料进行场景分类。当该BiLSTM网络收敛时,得到训练好的模型,即场景分类模型。
步骤S200获取待场景分类的文本信息。
步骤S300对所述文本信息进行分词。
步骤S400根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量。
步骤S500将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
具体的,如图7所示,所述场景分类方法包括以下层次:
第一层:embedding层(嵌入层),构建携带领域知识的词向量库。对领域知识图谱进行向量化,得到知识图谱中各个节点的特征向量表示(即节点向量)。加载训练好的常用词向量库,将常用词向量库中的词向量与知识图谱中的节点向量拼接,得到携带领域知识的词向量。所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
第二层:look-up layer。用输入语料进行分词,通过look-up从携带领域知识的词向量库中得到每个分词的向量表示。
第三层:forward LSTM层(前向LSTM)。将每个分词输入到一个前向LSTM中学习,学习到词语的前向依赖。
第四层:backward LSTM层(后向LSTM)。将每个分词输入到一个后向LSTM中学习,学习到词语的后向依赖。
第五层:LSTM输出层。通过将前向LSTM与后向LSTM进行合并得到既有前向语义又有后向语义的向量表示。合并可以采用向量拼接方式。
第六层:FC(全连接)层。取最后一个contact作为整个句子的嵌入,并输入到全连接层。
第七层:softmax层。通过利用全连接层的输出,进行句子分类。
本实施例,通过Word2vec模型将知识图谱数据嵌入到词向量(将常识性知识以及逻辑推理知识融合嵌入到低维稠密向量)中,得到节点向量;将常用词向量与节点向量拼接作为BILSTM的输入,通过BILSTM进行更深层次的特征抽取;由于通过知识图谱的加入,场景分类模型具备先验知识,在理解句子的时候不再只看表面意思,可以依据先验知识进行进一步推理,从而更加精准的对句子进行理解从而正确的对句子进行场景分类。
在本发明的一个实施例中,如图5所示,一种场景分类装置,包括:
词向量库构建模块500,用于结合领域知识图谱构建携带领域知识的词向量库。
具体的,知识图谱是以结构化的形式形象地描述客观世界中的概念、或实体间的复杂关系。知识图谱是一张由节点和节点关系构成的网络,客观世界中的概念、实体都可以作为知识图谱中的节点。知识图谱主要包含节点、关系、以及节点和关系构成的三元组,每一个三元组表示一条知识,反映了两个节点之间存在某种关系或属性。
领域知识图谱是针对某个领域的知识图谱,由于面对的领域更具体,所以针对性更强。比如专业领域知识图谱,但该知识图谱涉及的专业术语会更多。这些专业术语对大众而言,可能是生僻的、低频段词,但若能将领域知识图谱中这些专业术语对应节点的相关常识性知识以及逻辑推理知识融合嵌入到其对应的词向量中,会有助于对这类词语的理解。比如,“钵钵鸡”这个词,不属于常用词范畴,所以机器对这个词偏生疏,语义理解不准确。在美食知识图谱中,该词与“麻婆豆腐”一样属于川菜、一种食物,它的邻近节点有“川菜”、“食物”,而“川菜”、“食物”属于常用词,机器能正确理解这些常用词的语义。如果将“川菜、食物”等常识性知识、“钵钵鸡属于一种川菜/食物”等逻辑推理知识嵌入到“钵钵鸡”的词向量中,会有助于机器对包含这类非常用词的语句理解和场景分类。
所以有必要结合领域知识图谱构建携带领域知识的词向量库,通过把常识性知识以及逻辑推理知识嵌入到词语的词向量中,从而使包含非常用词的语句易理解、场景分类更准确。
根据应用场景选择合适的领域知识图谱。比如,针对医疗咨询的问答***,建议选择医疗知识图谱。
可选的,基于领域知识图谱构建节点向量库。针对领域知识图谱中不存在的词,用随机生成的一个符合高斯分布的向量表示,记为随机向量。随机向量与节点向量具备相同维度,并一起构成携带领域知识的词向量库。
信息获取模块100,用于获取待场景分类的文本信息。
具体的,待场景分类的文本信息,通俗的说,就是一条语句,待识别该语句所属场景,比如,用户问“哪里有钵钵鸡”,该用户问句属于哪类场景。
可选的,通过采集用户发出的语音信息获取待场景分类的文本信息。比如,在语音助手、智能陪护机器人等智能对话***中,采集用户的语音信息,对所述语音信息进行语音识别,获得对应的文本信息。
可选的,针对配有摄像头的***,还可通过摄像方式获取,比如,在摄像区域内获取图像,识别图像中的文本信息,即得到待场景分类的文本信息。
分词模块200,用于用于对所述文本信息进行分词。
具体的,对文本信息进行切分,找到与预设词库匹配的所有词语,根据这些词语得到多种切分结果;再计算每种切分结果的发生概率,选取发生概率最大的切分结果(即最优切分)作为该文本信息的分词结果。可以使用开源工具包对文本信息进行分词处理。
进一步,为了准确分词,预设词库需要包含新词、生僻词、低频段词。比如,对语句“哪里有钵钵鸡”进行分词,预设词库中需要包括钵钵鸡这个词语,这样才能得到正确的分词结果:哪里\有\钵钵鸡。
词向量生成模块300,用于根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量。
具体的,对文本信息分词后,得到各个词语。再到携带领域知识的词向量库中去匹配,获取每个词语的词向量。比如,语句“哪里有钵钵鸡”,其中语句中的关键词为“钵钵鸡”,由于“钵钵鸡”的携带领域知识的词向量携带了“钵钵鸡”属于“川菜、食物”等逻辑推理知识,所以表现在词向量空间上,“钵钵鸡”与“川菜”、“食物”等词语的词向量距离较近,表现在语义上,与“川菜”、“食物”语义较近,这将有助于正确识别语句“哪里有钵钵鸡”所属场景。
场景分类模块400,用于将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
具体的,场景分类模型可以是基于深度学习网络训练出的模型。深度学习网络,比如LSTM(Long Short-Term Memory,长短期记忆网络),适合用于对时序数据的建模,如文本数据,它考虑了词语在句子中的前后顺序,通过训练可以自动提取句子中的特征信息。
首先获取带有场景分类标记的语料样本。可选的,从互联网上采用爬虫技术获取各种语料,从中挑选合适的语料,并人工标注每条语料的场景类型,对每条语料进行分词,将分词后的每个词语到根据语料训练得到的词向量库中去匹配,找到对应的词向量,用所述词向量替代对应的词语,如此得到模型训练用的语料样本。
将上述语料样本输入LSTM网络进行训练,使之学习到每条语料与其人工标注的场景类型之间的映射关系。当该LSTM网络收敛时(比如,收敛准则为:语料样本中每条语料的场景输出与所述语料的场景标注一致;或语料样本中场景输出与标注一致的语料数目达到预设数目),得到训练好的模型,即场景分类模型。
该场景分类模型针对语料样本中出现的常用词能够进行正确的场景分类。比如,语句“哪里有川菜”,识别为美食场景。假设语料样本中没有“钵钵鸡”或出现频度很低,该模型就不能准确识别语句“哪里有钵钵鸡”的所述场景。为了解决这个问题,到携带领域知识的词向量库中去匹配“哪里”、“有”、“钵钵鸡”等词语的词向量,将携带领域知识的词向量输入场景分类模型,使模型具备一定的逻辑推理知识,提升了模型的推理能力,在理解语句时不只看表面意思,从而更加精准地理解语句、对语句进行正确分类。由于“钵钵鸡”的携带领域知识的词向量携带了“钵钵鸡是一种川菜”的知识,所以使场景分类模型能获得与“哪里有川菜”类似的场景分类结果。
本实施例,通过引入领域知识图谱,把一些常识性知识以及逻辑推理知识等先验知识嵌入到词语的词向量中,提升了场景分类模型的推理能力,从而使包含非常用的术语类词语的语句易理解、场景分类更准确。
在本发明的另一个实施例中,如图6所示,一种场景分类装置,包括:
词向量库构建模块500,用于结合领域知识图谱构建携带领域知识的词向量库;
所述词向量库构建模块500包括:
节点向量库构建单元510,用于基于领域知识图谱构建节点向量库。
常用词向量库构建单元520,用于基于语料样本构建常用词向量库;
所述词向量库构建模块500,进一步用于将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;将仅在所述节点向量库中存在的、或仅在所述常用词向量库中存在的词语对应的向量进行维度适配,得到所述词语的携带领域知识的词向量;所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
具体的,节点向量库的构建步骤包括:从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。
Word2vec是一种词向量生成方法,作用是将自然语言中的字词转为计算机可以理解的低维稠密向量。Word2Vec的基本思想是一个词的语义可以由它的上下文确定。如果两个词的上下文相似,那么这两个词的语义就相似。它采用词袋模型,根据输入文本数据的上下文关系,生成词语的特征向量表示。
为了得到领域知识图谱的每个节点的特征向量表示,采用Word2vec生成节点向量。首先从任意节点开始,采用随机游走的方法生成节点序列。随机游走的做法是,选取一个初始的节点,然后从当前节点的邻接节点中以等概率采样的方式产生下一个节点,如此循环往复,直到节点序列的长度达到先前设置的最大序列长度。所有如此形成的节点序列构成Word2vec模型的输入文本数据,Word2vec模型通过神经网络技术学习输入文本数据中的上下文关系,最终得到输入文本数据中每个词语的特征向量表示,每个词语对应领域知识图谱的一个节点,即得到节点的节点向量。
比如,以美食知识图谱为例,可以得到如下节点序列(假设节点序列由3个节点构成):钵钵鸡/麻辣味/川菜,麻辣味/钵钵鸡/川菜,川菜/钵钵鸡/麻辣味,川菜/麻辣味/钵钵鸡,麻辣味/川菜/钵钵鸡,钵钵鸡/川菜/麻辣味,……。从列出的节点序列可知,钵钵鸡、川菜的上下文类似,所以根据Word2vec模型的基本思想可知,钵钵鸡、川菜的语义相似,所以两者的节点向量反映了该相似特征。
由于领域知识图谱是针对某一细分领域的,所以所涉及的词语有限,构建的节点向量库也是针对有限词语的词向量库。它的优势在于携带了常识式知识和逻辑推理知识,将难懂的专用术语通俗化。
基于语料样本构建的常用词向量库,能覆盖生活中用到的常用词,它的优势在于包含的词语多,覆盖范围广。可选的,常用词向量库可以选用别人已训练好的,比如基于Wiki(维基)语料库训练得到的词向量库。
常用词向量库、节点向量库是基于不同类型的训练样本得到,获取的是不同的特征。为了提高包含非常用词的语句的理解,需要将上述两种特征进行组合,比如加权组合,得到携带领域知识的词向量。由于加权比例不好设置,所以优选的,将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行拼接,得到所述词语的携带领域知识的词向量。这样可以充分保留不同方式获得的特征。对于仅在某个库中存在的词语,可以进行维度扩展,以得到对应的携带领域知识的词向量。
场景分类模型构建模块600,用于获取带有场景分类标记的语料样本;用所述语料样本训练基于双向长短期记忆网络建立的深度学习网络;当所述深度学习网络收敛时,得到场景分类模型。
具体的,基于BiLSTM(双向长短期记忆网络)构建场景分类模型。BiLSTM相对LSTM能够多学习到词语的后向依赖,所以场景分类上会更准确。比如,语句“哪里有钵钵鸡”,根据“钵钵鸡”的前向依赖,可以准确识别场景;语句“钵钵鸡哪里有”,结合“钵钵鸡”的后向依赖,可以更准确识别场景。
BiLSTM和LSTM都是一种有监督学习。先获取语料样本,人工标注每一句语料的场景类型,每一句语料的每个分词用词向量替代,如此得到模型训练用的语料样本。
将每一句语料的每一个分词分别输入到一个前向LSTM中学习所述分词的前向依赖,以及输入到一个后向LSTM中学习所述分词的后向依赖;将学习到的所述分词的前向依赖与后向依赖进行拼接,获得所述分词的双向语义特征向量;根据所述语料的最后一个分词的双向语义特征向量,对所述语料进行场景分类。当该BiLSTM网络收敛时,得到训练好的模型,即场景分类模型。
信息获取模块100,用于获取待场景分类的文本信息。
分词模块200,用于用于对所述文本信息进行分词。
词向量生成模块300,用于根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量。
场景分类模块400,用于将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
具体的,如图7所示,所述场景分类装置中应用的场景分类方法包括以下层次:
第一层:embedding层(嵌入层),构建携带领域知识的词向量库。对领域知识图谱进行向量化,得到知识图谱中各个节点的特征向量表示(即节点向量)。加载训练好的常用词向量库,将常用词向量库中的词向量与知识图谱中的节点向量拼接,得到携带领域知识的词向量。所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
第二层:look-up layer。用输入语料进行分词,通过look-up从携带领域知识的词向量库中得到每个分词的向量表示。
第三层:forward LSTM层(前向LSTM)。将每个分词输入到一个前向LSTM中学习,学习到词语的前向依赖。
第四层:backward LSTM层(后向LSTM)。将每个分词输入到一个后向LSTM中学习,学习到词语的后向依赖。
第五层:LSTM输出层。通过将前向LSTM与后向LSTM进行合并得到既有前向语义又有后向语义的向量表示。合并可以采用向量拼接方式。
第六层:FC(全连接)层。取最后一个contact作为整个句子的嵌入,并输入到全连接层。
第七层:softmax层。通过利用全连接层的输出,进行句子分类。
本实施例,通过Word2vec模型将知识图谱数据嵌入到词向量(将常识性知识以及逻辑推理知识融合嵌入到低维稠密向量)中,得到节点向量;将常用词向量与节点向量拼接作为BILSTM的输入,通过BILSTM进行更深层次的特征抽取;由于通过知识图谱的加入,场景分类模型具备先验知识,在理解句子的时候不再只看表面意思,可以依据先验知识进行进一步推理,从而更加精准的对句子进行理解从而正确的对句子进行场景分类。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种场景分类方法,其特征在于,包括:
结合领域知识图谱构建携带领域知识的词向量库;
获取待场景分类的文本信息;
对所述文本信息进行分词;
根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;
将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
2.根据权利要求1所述的场景分类方法,其特征在于,所述结合领域知识图谱构建携带领域知识的词向量库包括:
基于领域知识图谱构建节点向量库;
基于语料样本构建常用词向量库;
将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;
所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
3.根据权利要求2所述的场景分类方法,其特征在于,所述的将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,包括:
将所述节点向量库与所述常用词向量库中相同词语分别对应的向量进行拼接。
4.根据权利要求2所述的场景分类方法,其特征在于,所述基于领域知识图谱构建节点向量库包括:
从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;
将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;
所有节点的节点向量构成节点向量库。
5.根据权利要求1所述的场景分类方法,其特征在于,所述的将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型,之前还包括:
获取带有场景分类标记的语料样本;
用所述语料样本训练基于长短期记忆网络建立的深度学习网络;
当所述深度学习网络收敛时,得到场景分类模型。
6.根据权利要求4所述的场景分类方法,其特征在于,所述的用所述语料样本训练基于长短期记忆网络建立的深度学习网络,包括:
将所述语料样本的每一句语料的每一个分词分别输入到一个前向LSTM中学习所述分词的前向依赖,以及输入到一个后向LSTM中学习所述分词的后向依赖;
通过将学习到的所述分词的前向依赖与后向依赖进行拼接,获得所述分词的双向语义特征向量;
根据所述语料的最后一个分词的双向语义特征向量,对所述语料进行场景分类。
7.一种场景分类装置,其特征在于,包括:
词向量库构建模块,用于结合领域知识图谱构建携带领域知识的词向量库;
信息获取模块,用于获取待场景分类的文本信息;
分词模块,用于对所述文本信息进行分词;
词向量生成模块,用于根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;
场景分类模块,用于将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。
8.根据权利要求7所述的场景分类装置,其特征在于,所述词向量库构建模块包括:
节点向量库构建单元,用于基于领域知识图谱构建节点向量库;
常用词向量库构建单元,用于基于语料样本构建常用词向量库;
所述词向量库构建模块,进一步用于将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;所有词语的携带领域知识的词向量构成携带领域知识的词向量库。
9.根据权利要求7所述的场景分类装置,其特征在于:
所述节点向量库构建单元,进一步用于从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。
10.根据权利要求8所述的场景分类装置,其特征在于,还包括:
场景分类模型构建模块,用于获取带有场景分类标记的语料样本;用所述语料样本训练基于长短期记忆网络建立的深度学习网络;当所述深度学习网络收敛时,得到场景分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910713561.9A CN110413790B (zh) | 2019-08-02 | 2019-08-02 | 一种场景分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910713561.9A CN110413790B (zh) | 2019-08-02 | 2019-08-02 | 一种场景分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413790A true CN110413790A (zh) | 2019-11-05 |
CN110413790B CN110413790B (zh) | 2020-04-28 |
Family
ID=68365637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910713561.9A Active CN110413790B (zh) | 2019-08-02 | 2019-08-02 | 一种场景分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413790B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125337A (zh) * | 2019-12-31 | 2020-05-08 | 慧择保险经纪有限公司 | 一种文本类型确定方法及装置 |
CN111857331A (zh) * | 2020-06-16 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种确定用户场景的方法、***、装置及存储介质 |
CN113590903A (zh) * | 2021-09-27 | 2021-11-02 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
CN113707303A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070273696A1 (en) * | 2006-04-19 | 2007-11-29 | Sarnoff Corporation | Automated Video-To-Text System |
CN105824802A (zh) * | 2016-03-31 | 2016-08-03 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107679039A (zh) * | 2017-10-17 | 2018-02-09 | 北京百度网讯科技有限公司 | 用于确定语句意图的方法和装置 |
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109271516A (zh) * | 2018-09-26 | 2019-01-25 | 清华大学 | 一种知识图谱中实体类型分类方法及*** |
-
2019
- 2019-08-02 CN CN201910713561.9A patent/CN110413790B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070273696A1 (en) * | 2006-04-19 | 2007-11-29 | Sarnoff Corporation | Automated Video-To-Text System |
CN105824802A (zh) * | 2016-03-31 | 2016-08-03 | 清华大学 | 一种获取知识图谱向量化表示的方法以及装置 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN107679039A (zh) * | 2017-10-17 | 2018-02-09 | 北京百度网讯科技有限公司 | 用于确定语句意图的方法和装置 |
CN108228758A (zh) * | 2017-12-22 | 2018-06-29 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN109271516A (zh) * | 2018-09-26 | 2019-01-25 | 清华大学 | 一种知识图谱中实体类型分类方法及*** |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125337A (zh) * | 2019-12-31 | 2020-05-08 | 慧择保险经纪有限公司 | 一种文本类型确定方法及装置 |
CN111125337B (zh) * | 2019-12-31 | 2023-10-13 | 慧择保险经纪有限公司 | 一种文本类型确定方法及装置 |
CN111857331A (zh) * | 2020-06-16 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种确定用户场景的方法、***、装置及存储介质 |
CN113707303A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
CN113590903A (zh) * | 2021-09-27 | 2021-11-02 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
CN113590903B (zh) * | 2021-09-27 | 2022-01-25 | 广东电网有限责任公司 | 一种情报数据的管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110413790B (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413790A (zh) | 一种场景分类方法及装置 | |
Wu et al. | Visual question answering: A survey of methods and datasets | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN108415977B (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与*** | |
CN106951825B (zh) | 一种人脸图像质量评估***以及实现方法 | |
CN109543180A (zh) | 一种基于注意力机制的文本情感分析方法 | |
CN110069778B (zh) | 中文融入嵌入词位置感知的商品情感分析方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110033022A (zh) | 文本的处理方法、装置和存储介质 | |
CN112949647B (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及*** | |
TW201626293A (zh) | 由知識圖譜偏置的資料分類 | |
Kumar et al. | Robust object classification in underwater sidescan sonar images by using reliability-aware fusion of shadow features | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
KR20200075071A (ko) | 불확실성 예측을 위한 샘플링 모델 생성 장치 및 방법, 불확실성 예측 장치 | |
CN111340076B (zh) | 一种对新体制雷达目标未知模式的零样本识别方法 | |
CN109597493A (zh) | 一种表情推荐方法及装置 | |
CN109960755B (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
KR20210113336A (ko) | 머신 러닝에 기반한 타깃 객체 속성 예측 방법 및 관련 디바이스 | |
CN114693397A (zh) | 一种基于注意力神经网络的多视角多模态商品推荐方法 | |
CN113139664A (zh) | 一种跨模态的迁移学习方法 | |
CN115168720A (zh) | 内容交互预测方法以及相关设备 | |
CN114511023A (zh) | 分类模型训练方法以及分类方法 | |
CN114942998A (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220905 Address after: 201508 1st floor, No. 1000, Tingwei Road, Jinshan District, Shanghai (Bay area science and Innovation Center) Patentee after: Shanghai Hongxing Cloud Computing Technology Co.,Ltd. Address before: 200120 2, building 979, Yun Han Road, mud town, Pudong New Area, Shanghai Patentee before: SHANGHAI YUNSHEN INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |