CN111177371A - 一种分类方法和相关装置 - Google Patents
一种分类方法和相关装置 Download PDFInfo
- Publication number
- CN111177371A CN111177371A CN201911235058.3A CN201911235058A CN111177371A CN 111177371 A CN111177371 A CN 111177371A CN 201911235058 A CN201911235058 A CN 201911235058A CN 111177371 A CN111177371 A CN 111177371A
- Authority
- CN
- China
- Prior art keywords
- classification
- sequence
- category
- words
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种分类方法,在对待分类语料进行分类之前,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系。这样,根据该类别特征词序列构建的分类特征向量携带了类别特征词之间的分类关联关系信息。分类模型可以直接根据分类特征向量携带的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求和分类模型的训练难度。同时,由于类别特征词序列符合语言表达规律,故可以保证得到的分类关联关系准确。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种分类方法和相关装置。
背景技术
基于文本语料的分类处理是信息处理技术中重要的技术,随着用户需求的不断增加,篇章级或句子级的分类已经难以满足用户的需求,如何针对文本语料中包括的多个对象进行分类已经成为电商平台、新闻推荐、社交平台等领域的情感分析、垃圾短消息分类等各种应用场景的迫切需求。
一些相关技术中,在基于文本语料确定出体现待分类对象的属性词后,将该属性词输入至注意力机制的神经网络模型,从而根据神经网络模型的注意力机制实现针对不同待分类对象进行分类。
然而,在一些情况下,这种方式容易出现分类错误,而为了提高分类准确性,需要提高对神经网络模型的要求,增大了神经网络模型的训练难度。
发明内容
为了解决上述技术问题,本申请提供了一种分类方法,降低了对分类模型的要求,降低了分类模型的训练难度。同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联信息准确,进而准确的进行后续分类。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供一种分类方法,所述方法包括:
根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
第二方面,本申请实施例提供一种分类装置,所述装置包括确定单元、构建单元和分类单元:
所述确定单元,用于根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
所述构建单元,用于根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
所述分类单元,用于根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
第三方面,本申请实施例提供一种用于分类的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
由上述技术方案可以看出,为了能够降低对分类模型的要求,本申请提供的分类方法在对待分类语料进行分类之前,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,可以根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,该分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系,即体现出分类时各个类别特征词分别是与哪个待分类对象有关联关系的,哪些分类特征词是没有关联关系的。这样,根据该类别特征词序列构建的分类特征向量携带了类别特征词之间的分类关联关系信息。由于输入到分类模型中的分类特征向量中携带了类别特征词之间的分类关联关系信息,且分类特征向量可以体现出不同类别的语料特点,即使待分类语料中包括多个待分类对象,分类模型也可以直接根据已有的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求,降低了分类模型的训练难度。同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联关系准确,进而准确的进行后续分类。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的分类方法的应用场景示意图;
图2为本申请实施例提供的一种分类方法的流程图;
图3为本申请实施例提供的根据类序列规则提取类别特征词流程图;
图4为本申请实施例提供的拼接字词向量得到混合编码的过程图;
图5为本申请实施例提供的类别特征词序列中各字词向量拼接结果示例图;
图6为本申请实施例提供的基于上下文特征进行编码构建分类特征向量的示例图;
图7为本申请实施例提供的基于词性序列特征构建分类特征向量的示例图;
图8为本申请实施例提供的一种分类方法的流程图;
图9为本申请实施例提供的一种分类装置的结构图;
图10为本申请实施例提供的一种终端设备的结构图;
图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
一些相关技术中,在针对文本语料中包括多个待分类对象进行分类时,在基于文本语料确定出体现待分类对象的属性词后,将该属性词输入至注意力机制的神经网络模型,从而根据神经网络模型的注意力机制学习属性词与哪些分类特征词具有关联关系,以便可以知晓根据哪些分类特征词对一个待分类对象进行分类。
例如,在电商平台场景中,用户发表了一条评论信息“房间很舒服,服务很好,价格不便宜”,为了更好地衡量用户对产品的喜好情况,可以挖掘用户对产品属性的情感。其中,该评论信息中包括多个产品属性“房间”、“服务”和“价格”,以及多个其他与情感分类相关的类别特征词,例如情感词“舒服”、“好”,程度副词“很”,否定词“不”。然而,为了可以针对每个属性进行准确的情感分类,神经网络模型需要通过不断的学习各个类别特征词之间的关联关系,从而知晓哪些类别特征词是与“房间”的情感分类相关,哪些类别特征词是与“服务”的情感分类相关,哪些类别特征词是与“价格”的情感分类相关。
在这些情况下,这种方式容易出现分类错误,而为了提高分类准确性,需要提高对神经网络模型的要求,增大了神经网络模型的训练难度。
为此,本申请实施例提供一种分类方法,该方法可以应用到数据处理设备,该数据处理设备可以是终端设备,终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑等设备。
该数据处理设备还可以是服务器,该服务器可以为独立服务器,也可以为集群服务器。服务器可以将分类结果发送至终端设备进行展示。
本申请实施例提供的分类方法可以应用于情感分析、垃圾消息识别、划分级别、黑客攻击识别等领域。本申请主要以情感分析为例进行详细介绍,情感分析可以应用到多种场景中,例如应用于电子商务、新闻资讯、微博论坛等领域,适用于舆情分析、推荐、挖掘用户画像等场景。例如在各种电商平台场景中,挖掘用户对产品属性的情感可以更好地衡量用户对产品的喜好情况,从而给商户分析和交叉营销等应用提供关键决策;在自选股、新闻等新闻资讯和微博论坛等社交平台场景中,对某些评价对象或关注对象进行舆情分析,能够挖掘更深层次的信息,如分析个股的涨停原因、了解社会关注热点的态度动向、探索未来改进的方向等,具有非常重要的意义。
为了便于理解本申请的技术方案,下面结合实际应用场景,以服务器为例对本申请实施例提供的分类方法进行介绍。
参见图1,图1为本申请实施例提供的分类方法的应用场景示意图,该应用场景中可以包括终端设备101和服务器102,服务器102可以从终端设备101上获取待分类语料,待分类语料可以是在不同类型的语料,例如可以是评论信息、短信消息、新闻资讯等。针对不同待分类语料可以进行不同的分类,例如,针对评论信息可以进行情感分类,针对短信消息可以进行垃圾短信的分类(例如赌博、色情等垃圾短信的分类)、针对新闻资讯可以进行舆情分析等。
其中,待分类语料中可以包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词。相对于针对整个待分类语料进行分类,本申请实施例在待分类语料包括多个待分类对象的情况下,可以实现针对不同待分类对象分别进行分类。
服务器102在获取到待分类语料后,可以根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系,即体现出分类时各个类别特征词分别是与哪个待分类对象有关联关系的,哪些分类特征词是没有关联关系的。
然后,服务器102根据类别特征词序列构建分类特征向量,故分类特征向量携带了类别特征词之间的分类关联关系信息。当服务器102将该分类特征向量输入到分类模型中进行分类时,由于分类特征向量中携带了类别特征词之间的分类关联关系信息,分类模型也可以直接根据已有的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求,降低了分类模型的训练难度。由于分类特征向量可以体现出不同类别的语料特点,故本申请实施例所使用的分类模型为非深度学习模型,即分类模型无需通过深度学习的方式提取特征。
同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联信息准确,进而准确的进行后续分类。
服务器102完成分类后,还可以将分类结果发送给终端设备101,以便终端设备101根据分类结果进行分析、处理、决策等。
接下来,将以数据处理设备是服务器为例,结合附图对本申请实施例提供的分类方法进行详细介绍。
参见图2,图2示出了一种分类方法的流程图,所述方法包括:
S201、根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列。
每条待分类语料具有对应的词性序列,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,为了知晓第二类别特征词分别与针对哪个第一类别特征词的分类具有关联关系,服务器可以根据待分类语料对应的词性序列确定出体现分类关联关系的类别特征词序列。分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系。
需要说明的是,词性序列的确定方式可以是服务器对待分类语料进行分句,得到多个句子,对每个句子进行分词和标注处理,从而得到词性序列。词性序列可以是由待分类语料中各个分词对应的标注标签构成。分词后的结果作为词序列,词性序列的元素(标注标签)和词序列的元素(分词)按照位置索引保留原有的对应关系。
其中,标注处理可以包括词性标注(名词、形容词、副词等词性标注)和类别特征词标注。在不同的分类场景下,类别特征词所包括的种类有所不同,以情感分类场景为例,类别特征词可以包括属性词、情感词、程度副词和否定词,第一类别特征词包括属性词,第二类别特征词包括情感词、程度副词和否定词中一种或多种的组合。
例如,在情感分类场景中,待分类语料为评论信息“房间很舒服,服务很好,价格不便宜”,首先,将文本进行分句、分词和词性,输出结果为:“房间/n,很/d,舒服/a,|,服务/n,很/d,好/a,|,价格/n,不/d,便宜/a”,其中,“|”标注分句,“/”左边的为分词,右边的为该分词的词性标注标签。接着进行类别特征词标注,“房间、服务、价格”为属性词(即第一类别特征词,表征待分类对象,也就是评论信息中的评价对象),标注标签为“#”;“舒服、好、便宜”为情感词,标注标签为“*”;“很”为程度副词,标注标签为“&”;“不”为否定词,标注标签为“!”。故,最终得到的词性序列为:“#/n,&/d,*/a,|,#/n,&/d,*/a,|,#/n,!/d,*/a”。其中,第一个标注标签“#/n”与分词“房间”对应。
服务器根据该词性序列可以确定出类别特征词序列,该类别特征词序列可以体现出第二类别特征词与第一类别特征词之间的关联关系,例如,根据上述词性序列“#/n,&/d,*/a,|,#/n,&/d,*/a,|,#/n,!/d,*/a”可以确定出类别特征词序列“房间,很,舒服”、“服务,很,好”、“价格,不,便宜”,也就是说,“很”和“舒服”是用来评价“房间”的,即第二类别特征词“很”和“舒服”与第一类特征词“房间”具有分类关联关系;“很”和“好”是用来评价“服务”的,即第二类别特征词“很”和“好”与第一类特征词“服务”具有分类关联关系;“不”和“便宜”是用来评价“价格”的,即第二类别特征词“不”和“便宜”与第一类特征词“价格”具有分类关联关系。那么,在针对“房间”进行情感分类时,考虑的是“很”和“舒服”,而非“不”和“便宜”,以此类推,针对“服务”进行情感分类时,考虑的是“很”和“好”,针对“价格”进行情感分类时,考虑的是“不”和“便宜”。
S202、根据所述类别特征词序列构建分类特征向量。
服务器在获取到类别特征词序列后,可以根据类别特征词序列构建分类特征向量,由于类别特征词序列可以体现分类关联关系,则得到的分类特征向量也携带有分类关联关系信息。
S203、根据所述分类特征向量,通过分类模型对所述待分类语料进行分类。
服务器可以将分类特征向量输入到分类模型,由于分类特征向量中携带了类别特征词之间的分类关联关系信息,且分类特征向量可以体现出不同类别的语料特点,故分类模型可以直接根据已有的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求。
由于输入到分类模型中的分类特征向量中已经携带了类别特征词之间的分类关联关系信息,故本申请实施例所使用的分类模型为非深度学习模型,该分类模型仅需要具有分类功能便可以根据分类特征向量实现分类,无需通过深度学习的方式提取特征(分类特征向量)。因此,在本申请实施例中,分类模型可以是支持向量机(Support VectorMachine,SVM)分类器、softmax层、提升树模型(eXtreme Gradient Boosting,xgboost)、逻辑回归(Logistic Regression,LR)分类器。
例如,在情感分类场景中,若情感通常分别褒义、中性和贬义三类,褒义的情感标签为1、中性的情感标签为0、贬义的情感标签为-1。分类模型根据类别特征词序列“房间很舒服”、“服务很好”、“价格不便宜”,可以知晓“房间”与“很”和“舒服”具有分类关联关系,针对“房间”进行情感分类时,考虑的是“很”和“舒服”,进而确定属性词(第一类别特征词)“房间”的情感为褒义(情感标签为1)。同理,可以确定属性词(第一类别特征词)“服务”的情感为褒义(情感标签为1),属性词(第一类别特征词)“价格”的情感为贬义(情感标签为-1)。
具体的,分类模型可以根据分类特征向量计算不同类别分别对应的概率值,取概率值最大的类别作为第一类别特征词所表征待分类对象对应的类别。
下面以分类模型为SVM分类器,以情感分类场景为例对分类模型根据分类特征向量进行分类的方法进行详细介绍。若情感类别包括褒义、中性和贬义,SVM分类器获取到分类特征向量后,将分类特征向量映射到高维空间中进行分类,输出属性词(第一类特征词)对应的情感词属于各个情感类别的概率值,若概率值依次是0.8(褒义),0.6(中性)和0.1(贬义),可见,属于情感类别“褒义”的概率值最大,则可以确定该属性词对应的情感词所表达的情感为褒义,即将该属性词所表征的待分类对象分类至“褒义”类别。
由上述技术方案可以看出,为了能够降低对分类模型的要求,本申请提供的分类方法在对待分类语料进行分类之前,若待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,可以根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,该分类关联关系用于体现第二类别特征词与第一类别特征词之间的关联关系,即体现出分类时各个类别特征词分别是与哪个待分类对象有关联关系的,哪些分类特征词是没有关联关系的。这样,根据该类别特征词序列构建的分类特征向量携带了类别特征词之间的分类关联关系信息。由于输入到分类模型中的分类特征向量中携带了类别特征词之间的分类关联关系信息,且分类特征向量可以体现出不同类别的语料特点,即使待分类语料中包括多个待分类对象,分类模型也可以直接根据已有的分类关联关系信息确定类别特征词分别与哪个待分类对象相关,从而对待分类对象进行分类,降低了对分类模型的要求,降低了分类模型的训练难度。同时,由于类别特征词序列是有先后顺序的,其先后顺序符合语言表达规律,故可以保证得到的分类关联关系准确,进而准确的进行后续分类。
另外,整个流程可以实现高效率和完全的自动化,对比目前的深度学习模型需要进行较繁琐耗时的训练环节,在工业应用上本申请实施例提供的方法具有较高的实用价值和参考意义。
可以理解的是,由于本申请实施例提供的方法可以针对待分类语料确定出第二类别特征词与第一类别特征词之间的分类关联关系,使得构建得到的分类特征向量可以携带第二类别特征词与第一类别特征词之间的关联关系的信息,因此,服务器通过分类模型可以一次性针对不同待分类对象(例如房间、服务、价格)进行分类。当然,也可以每次针对一个待分类对象进行分类,通过多次实现针对不同待分类对象进行分类,例如,首先根据“很”和“舒服”和“房间”的分类关联关系,对“房间”进行情感分类;接着,“很”和“好”与“服务”的分类关联关系,对“服务”进行情感分类;再根据“不”和“便宜”与“价格”的分类关联关系,对“价格”进行情感分类。
需要说明的是,S201中确定体现分类关联关系的类别特征词序列的方式可以包括多种,由于类序列规则在一定程度上可以标识覆盖该类序列规则的词性序列所对应的第二类别特征词与第一类别特征词之间的分类关联关系,因此,在一些可能的实现方式中,服务器可以根据目标类序列规则,确定类别特征词序列。
其中,目标类序列规则是待分类语料对应的词性序列所符合的类序列规则,类序列规则(Class Sequential Rules,CSR)是由类别标签和序列组成的规则,体现了序列和类别标签的映射关系,表示为X→Y,具体描述该映射关系如下:
X为一个序列,表述为<S1x1S2x2…Sixi>,其中S指的是序列数据库,为一系列元组<sid,s>组成的集合,如图1所示,sid为一个序列的标号,而s指的是序列,xi表示类别信息,表示的是这个序列对应的可能的类别:
表1序列数据库示例
序列的标号 | 序列 |
1 | <abdC1gh> |
2 | <abeghk> |
3 | <C2kea> |
4 | <dC2kb> |
5 | <abC1fgh> |
Y为另一个序列,表述为<S1c1S2c2…Sicr>,,其中(cr∈C,1≤i≤r),S定义同上,cr表示类别信息,为确定的类别标签,而c={c1,c2,…,cr}为类别标签的集合。由此,CSR要求序列必须带有指定的类别信息。
指定类别信息以后,CSR将满足要求的序列挖掘出来作为规则,以表1为例,该序列数据库中含有5条带有类别信息的序列,按照以上定义,针对表1所示的序列数据库,可以挖掘的类序列规则为《ab》x《gh》→《ab》c1《gh》。
需要说明的是,在本申请实施例中,对待分类语料进行分类时所采用的目标类序列规则可以有不同的获取方式,在一些情况下,由于待分类语料可能与历史语料的表达方式比较接近,例如待分类语料与历史语料属于同一领域,例如都是评论信息,这种情况下,根据历史语料挖掘得到的类序列规则同样适用于待分类语料,因此,在这种情况下,对待分类语料进行分类时所采用的目标类序列规则可以是根据历史语料挖掘得到的。这样,在对待分类语料进行分类时,可以直接根据已有的目标类序列规则确定类别特征词序列,避免重新挖掘类序列规则,减少计算量,提高了分类效率。
可以理解的是,依据上述介绍的挖掘类序列规则的定义,根据类序列规则提取类别特征词流程如图3所示,CSR先确定了类别(S301),再根据类别来挖掘规则。在类序列规则中,左侧是序列,右侧是对应的类别标签,通过这种对应的映射关系将序列和类别标签标识的类别信息绑定在一起。CSR挖掘的目标是找到与类别信息具有高度相关性的序列,挖掘序列和类别标签之间对应的规则。由此可见,类序列规则的特点是有监督和事先给定类别信息。
在本申请实施例中,可以根据支持度阈值和置信度阈值挖掘目标类序列规则,具体的,设定支持度阈值(S302),从历史语料对应的多个词性序列中确定满足支持度阈值的频繁序列(S303),若频繁序列的置信度满足置信度阈值(S304),则确定频繁序列符合目标类序列规则(S305)。
以上述表1为例,标号为1和5的序列包含了该类序列规则《ab》x《gh》→《ab》c1《gh》,类别都是c1,而标号为1,2和5的序列都覆盖了该类序列规则,但标号为2的序列没有确定的类别标签。故在这5条序列的数据元组里,该类序列规则的支持度为2/5,置信度为2/3。这两个指标作为挖掘目标类序列规则的衡量标准,将满足最小支持度阈值和置信度阈值的序列提取出来作为该序列数据库的类序列规则。
需要说明的是,用于CSR的挖掘的算法有很多,例如广义序贯模式(GeneralizedSequential Pattern,GSP)算法、Prefixspan算法(是一种序列模式挖掘算法)等。通过基于频繁模式挖掘的prefixspan算法来挖掘满足最小支持度的频繁序列,同时考虑到,在各个序列中序列长度的差别较大,使用单一固定的最小支持度进行类序列规则挖掘并不合适,否则如果要挖掘低频序列,需要将支持度阈值降低,这样会引入大量由高频词产生的规则,引入噪音。为此,本申请实施例使用多最小支持度策略,规则最小支持度的计算方法通过最小支持率a乘以序列长度n,得到最小支持度min_sup,如下述公式所示:
min_sup=a×n
其中,a为最小支持率,是预先设置的,例如可以取0.01到0.1之间的数值,n为序列长度,序列长度为根据历史语料得到的词性序列的数量。支持度阈值越高,挖掘的目标类序列规则的精度越高。
另外,置信度表示的是确定出的类序列规则的可信程度,而类序列规则包括序列和类别标签,因此,类别标签越多,其可信程度越多,因此,在本实施例中,可以将类别标签数量与预设类别标签数量的比值作为置信度,即在确定目标类序列规则时,将频繁序列中具有的类别标签数量与预设类别标签数量的比值作为频繁序列的置信度,从而判断该置信度是否满足置信度阈值。置信度阈值为预先设置的。
假设,历史语料对应的词性序列包括“#/n,&/d,*/a,|,#/n,&/d,*/a,|,#/n,!/d,*/a”,则通过上述方式可以确定出“#/n,&/d,*/a”为目标类序列规则。其中,在情感分类场景下,类别标签“#、&、*”分别代表该位置的分类特征词所属类别分别为“属性词、程度副词、情感词”。
在一些情况下,由于特征词词典中标注可能不够全面,以及为了减少标注的工作量,历史语料中可能存在未标注的类别特征词,这样,在挖掘得到目标类序列规则后,可以将目标类序列规则匹配未标注文本挖掘类别特征词(S306),根据目标类序列规则中的类别标签,确定未标注的类别特征词所属类别,挖掘得到所全部类别特征词。例如类别特征词包括属性词、情感词、程度副词和否定词,将挖掘结果作为新的类别特征词加入到特征词词典中,更新下一轮标注的标签,从而进行多轮迭代挖掘。
每一轮挖掘都可以设置较高的支持度,保证挖掘规则的准确性,再经过多轮标注新的类别标签,迭代挖掘目标类序列规则,根据目标类序列规则挖掘得到所有的类别特征词,该方法保证了CSR的查准率和查全率,同时由于词性序列本身具备通用性,所以该方法泛化性能较高。
举例来说,对于历史语料“这个酒店的位置很近,空气特别好,房间挺舒适”同样进行分词和词性标注处理,同时根据已有的类别标签进行类别特征词标注,假设已有的类别标签为:属性词:房间;程度词:很;情感词:好,得到的词性序列为“/r,/n,/u,/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”,按照前述方法挖掘得到“#/n,&/d,*/a”为目标类序列规则,那么“/n,/d,/a”满足频繁序列,同时假如置信度阈值设置为0.1,以情感分类场景为例共有4种类别标签,即预设类别标签数量为4,只要频繁序列中出现一个或以上的类别标签,其置信度就达到0.25以上,就可以满足挖掘的目标类序列规则要求,那么在该词性序列中“/n,&/d,/a”、“/n,/d,*/a”、“#/n,/d,/a”都符合目标类序列规则“#/n,&/d,*/a”的支持度阈值和置信度阈值要求,可将该位置对应的词提取出来作为新的类别特征词,即新增加的类别标签为:属性词:位置、空气;程度词:特别、挺;情感词:近、舒适。那么得到的所有类别特征词为:属性词:位置、空气、房间;程度词:很、特别、挺;情感词:近、好、舒适。
可以理解的是,在一些情况下,由于待分类语料可能与历史语料的表达方式可能相差较大,例如待分类语料为评论信息,而历史语料为新闻资讯,在这种情况下,根据历史语料挖掘得到的类序列规则可能不适用于待分类语料,此时,若待分类语料包括多个,则可以根据待多个分类语料挖掘目标类序列规则,即目标类序列规则是根据多个所述待分类语料挖掘得到的。另外,即使待分类语料与历史语料的表达方式比较接近,为了提高对待分类语料进行分类所依据的目标类序列规则的准确性,可以重新根据多个待分类语料挖掘目标类序列规则。
挖掘目标类序列规则的方式可以参照上述介绍的挖掘方式,类似的,若词性序列中存在未标注的类别特征词,在挖掘出目标类序列规则后,可以根据类序列规则中的类别标签,确定词性序列中未标注的类别特征词所属类别,挖掘得到词性序列对应的全部类别特征词,进而得到类别特征词序列。
需要说明的是,在本实施例中,分类特征向量可以是类别特征词序列中各个类别特征词的向量,当然,由于类别特征词在类别特征词序列中的相关信息也可能影响分类结果,因此,为了提高分类的准确性,也可以结合类别特征词在类别特征词序列中的相关信息进行处理构建得到分类特征向量,从而进一步提高构建的分类特征向量的精准性,精准的分类特征向量可以提供分类的准确性。
其中,结合类别特征词在类别特征词序列中的相关信息进行处理构建分类特征向量的方式可以包括多种,例如对类别特征词的字词向量进行拼接构建分类特征向量(相关信息为字词向量)、根据类别特征词的字在待分类语料中的位置特征构建分类特征向量(相关信息为位置特征)、根据类别特征词在待分类语料中的上下文特征构建分类特征向量(相关信息为上下文特征)、根据类别特征词在类别特征词序列中的词性序列特征构建分类特征向量(相关信息为词性序列特征)、根据类别特征词在类别特征词序列中的依存句法关系特征构建分类特征向量(相关信息为依存句法关系特征)。下面对上述构建分类特征向量的方法依次进行介绍。
对类别特征词的字词向量进行拼接构建分类特征向量:
在一些情况下,不同的类别特征词所对应的向量不同,但是不同的类别特征词可能由于包括相同或相近的字而具有相近的含义,例如类别特征词“上面”和“上方”,如果仅根据类别特征词所对应的向量本身构建分类特征向量,二者是不同的,但是如果考虑到类别特征词中每个字的向量的影响构建分类特征向量,那么,得到的分类特征向量更能够准确的反映类别特征词的特征。
为此,服务器可以对类别特征词的字词向量进行拼接构建分类特征向量,具体的,分别以字为单位和以词为单位拆分类别特征词,通过产生向量的相关模型例如word2vec模型得到每个词和字的向量,然后进行拼接。为了得到与字向量对齐的词向量,每个词需要重复编码,重复次数为组成词的字的字数,拼接字词向量得到混合编码的过程图参见图4所示。图4以类别特征词序列“位置很近”中的类别特征词“位置”为例,“位置”的词向量分别与“位”和“置”的字向量进行拼接。
依照上述方法可以得到类别特征词序列中其他字词向量拼接结果,参照图5所示,根据“位置”得到“位置”的字词向量拼接结果,根据“很”得到“很”的字词向量拼接结果,根据“近”得到“近”的字词向量拼接结果,按照类序列规则的类别特征词序列“位置,很,近”得到对应的字词向量混合序列。
根据类别特征词在类别特征词序列中的位置特征构建分类特征向量:
由于字在类别特征词序列中位置可能有所不同,字在类别特征词序列中的位置不同,其所表达的含义可能有不同,例如“中国”和“国中”,虽然都包括“中”和“国”字,但是其在类别特征词序列中的位置不同,使得类别特征词含义不同,因此,为了提高分类特征向量的精准性,在构建分类特征向量时服务器可以结合类别特征词的字在类别特征词序列中的位置特征进行构建。
其中,分句后的每个句子以字为单位给定位置的编号,将编号为w的位置映射为一个固定维度的位置向量,如200维,从而计算得到每个字的位置向量(体现位置特征)。向量的第i个元素值为PEi(w)计算公式为:
PE2i(w)=sin(w/100002i/200)
PE2i+1(w)=cos(w/100002i/200)
根据类别特征词在待分类语料中的上下文特征构建分类特征向量:
在一些情况下,待分类语料中的语言表达可能不是很完整,例如“这个酒店的房屋很宽敞,很亮”,其中,“很亮”也是对“房屋”的评价,但是在确定类别特征词序列时,类别特征词序列中的类别特征词是从待分类语料中提取出来的,可能会忽略“很亮”,其对于后续分类有一定的影响。为了避免忽略掉待分类语料中的重要信息,提高构建的分类特征向量的精准性,在本实施例中,服务器可以结合类别特征词的上下文特征构建分类特征向量。
确定类别特征词的上下文特征的方式可以是选取类别特征词前后的n个词作为窗口词进行编码,例如,待分类语料为“这个酒店的房屋很宽敞,很亮”,确定的类别特征词序列是“房屋很宽敞”,选取特征词前后的2个词作为窗口词(即n=2),那么前后的窗口词分别为“酒店的”和“很亮”,从而基于“房屋很宽敞”的上下文特征进行编码构建分类特征向量。其中,编码方式可以是位置向量+字词混合向量。参见图6所示,“酒店”的字词混合向量与“酒店”的位置向量进行拼接,“的”的字词混合向量与“的”的位置向量进行拼接,“很”的字词混合向量与“和”的位置向量进行拼接,“亮”的字词混合向量与“亮”的位置向量进行拼接,从而实现基于上下文特征构建分类特征向量。
除了将字词混合向量与对应的位置向量进行拼接,也可以按照每个维度进行向量相加,都是本实施例可采取的基于上下文特征构建分类特征向量的方式。
根据类别特征词在类别特征词序列中的词性序列特征构建分类特征向量:
类别特征词的词性可以进一步体现类别特征词在分类中的作用,例如在情感分类场景中,若类别特征词的词性为名词n,则该类别特征词一般为待分类对象(属性词),若类别特征词的词性为形容词a,则该类别特征词一般为情感词。因此,为了进一步提高分类特征向量的精准性,服务器可以根据类别特征词在类别特征词序列中的词性序列特征构建所述分类特征向量。词性序列特征的编码可以通过构建词性字典,以字典维度进行编码,采用6位二进制数编码方式,词性编码字典维表可以参见表2所示:
表2词性编码字典维表
对于类别特征词序列“房间很大”,其对应的词性序列是“/n,/d,/a”,根据词性序列的组成元素查表2后进行拼接,拼接结果(得到的词性序列特征)如图7所示,即“n”的词性编码、“d”的词性编码和“a”的词性编码三者进行拼接。
根据类别特征词在类别特征词序列中的依存句法关系特征构建分类特征向量:
类别特征词在类别特征词序列中的依存句法关系同样可以体现类别特征词在分类中的作用,因此,为了进一步提高分类特征向量的精准性,服务器可以根据类别特征词在类别特征词序列中的依存句法关系构建分类特征向量。依存句法关系的编码可以通过构建依存句法关系字典,以字典维度进行编码,采用4位二进制数编码方式对依存句法关系进行编码,依存句法关系字典维表可以参见表3所示:
表3依存句法关系类型字典维表
从而根据类别特征词序列中类别特征词依存句法关系特征构建对应的分类特征向量。
需要说明的是,上述构建的分类特征向量可以独立使用,也可以对其中多种分类特征向量进行特征融合,从而将融合后的分类特征向量输入至分类模型中使用。
在本实施例中,基于类别特征词序列,通过以上一种或多种方式组合构建精准的分类特征向量,提高了分类特征向量表征的精准性,分类特征向量的精准表征能力极大地提高了分类的效果,使得分类过程降低了对分类模型的要求。
接下来,结合实际应用场景对本申请实施例提供的分类方法进行详细介绍。该应用场景为针对评论信息的情感分类场景,在该场景中,待分类语料为“这个酒店的位置很近,空气特别好,房间挺舒适”,已有的目标类序列规则为“#/n,&/d,*/a”,则参见图8,该分类方法包括:
S801、对待分类语料进行预处理(分句、分词)和标注处理。
假设已有的类别标签为:属性词:房间;程度词:很;情感词:好,那么,待分类语料的词性序列为“/r,/n,/u,/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”。
S802、确定词性序列中符合目标类序列规则的序列。
S803、根据目标类序列规则进行类别特征词挖掘,得到类别特征词序列。
词性序列中存在未标注的类别特征词,根据目标类序列规则可以对其对应序列中未标注的类别特征词进行挖掘,得到类别特征词序列。
例如,词性序列中“/n,&/d,/a”、“/n,/d,*/a”、“#/n,/d,/a”都符合目标类序列规则“#/n,&/d,*/a”,可将该位置对应的词提取出来作为新的类别特征词,即新增加的类别标签为:属性词:位置、空气;程度词:特别、挺;情感词:近、舒适。那么得到的所有类别特征词为:属性词:位置、空气、房间;程度词:很、特别、挺;情感词:近、好、舒适。得到的类别特征词序列为“位置很近”、“空气特别好”、“房间挺舒适”。
S804、根据类别特征词序列构建分类特征向量。
S805、将分类特征向量输入到SVM中进行情感分类。
基于前述实施例提供的分类方法,本申请实施例提供一种分类装置,参见图9所示,所述装置包括确定单元901、构建单元902和分类单元903:
所述确定单元901,用于根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
所述构建单元902,用于根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
所述分类单元903,用于根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
在一种实现方式中,所述确定单元901,用于:
根据目标类序列规则,确定所述类别特征词序列;所述目标类序列规则标识所述第二类别特征词与所述第一类别特征词之间的分类关联关系。
在一种实现方式中,所述目标类序列规则是根据历史语料挖掘得到的。
在一种实现方式中,所述目标类序列规则的挖掘方式为:
从所述历史语料对应的多个词性序列中确定满足支持度阈值的频繁序列;
若所述频繁序列的置信度满足置信度阈值,则确定所述频繁序列符合目标类序列规则。
在一种实现方式中,所述频繁序列的置信度为所述频繁序列中具有的类别标签数量与预设类别标签数量的比值。
在一种实现方式中,若所述待分类语料包括多个,所述目标类序列规则是根据多个所述待分类语料挖掘得到的。
在一种实现方式中,若所述词性序列中存在未标注的类别特征词,所述确定单元901,还用于:
根据所述目标类序列规则中的类别标签,确定所述词性序列中未标注的类别特征词所属类别,挖掘得到所述词性序列对应的全部类别特征词。
在一种实现方式中,所述构建单元902,用于:
根据类别特征词在所述类别特征词序列中的相关信息构建所述分类特征向量。
在一种实现方式中,所述构建单元902构建分类特征向量包括以下一种或多种方式的组合:
对类别特征词的字词向量进行拼接构建所述分类特征向量;所述相关信息为所述字词向量;
根据类别特征词的字在所述待分类语料中的位置特征构建所述分类特征向量;所述相关信息为所述位置特征;
根据类别特征词在所述待分类语料中的上下文特征构建所述分类特征向量;所述相关信息为所述上下文特征;
根据类别特征词在所述类别特征词序列中的词性序列特征构建所述分类特征向量;所述相关信息为所述词性序列特征;
根据类别特征词在所述类别特征词序列中的依存句法关系特征构建所述分类特征向量;所述相关信息为所述依存句法关系特征。
在一种实现方式中,所述分类为情感分类,所述第一类别特征词包括属性词,所述第二类别特征词包括情感词、程度副词和否定词中一种或多种的组合。
本申请实施例还提供了一种用于分类的设备,下面结合附图对用于分类的设备进行介绍。请参见图10所示,本申请实施例提供了一种用于分类的设备1000,该设备1000还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,简称RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,简称WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理***与处理器1080逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器1080还具有以下功能:
根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
本申请实施例还提供服务器,请参见图11所示,图11为本申请实施例提供的服务器1100的结构图,服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(Central Processing Units,简称CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作***1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的分类方法。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的分类方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种分类方法,其特征在于,所述方法包括:
根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
2.根据权利要求1所述的方法,其特征在于,所述根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,包括:
根据目标类序列规则,确定所述类别特征词序列;所述目标类序列规则标识所述第二类别特征词与所述第一类别特征词之间的分类关联关系。
3.根据权利要求2所述的方法,其特征在于,所述目标类序列规则是根据历史语料挖掘得到的。
4.根据权利要求3所述的方法,其特征在于,所述目标类序列规则的挖掘方式为:
从所述历史语料对应的多个词性序列中确定满足支持度阈值的频繁序列;
若所述频繁序列的置信度满足置信度阈值,则确定所述频繁序列符合目标类序列规则。
5.根据权利要求4所述的方法,其特征在于,所述频繁序列的置信度为所述频繁序列中具有的类别标签数量与预设类别标签数量的比值。
6.根据权利要求2所述的方法,其特征在于,若所述待分类语料包括多个,所述目标类序列规则是根据多个所述待分类语料挖掘得到的。
7.根据权利要求6所述的方法,其特征在于,若所述词性序列中存在未标注的类别特征词,所述根据目标类序列规则,确定所述类别特征词序列之前,所述方法还包括:
根据所述目标类序列规则中的类别标签,确定所述词性序列中未标注的类别特征词所属类别,挖掘得到所述词性序列对应的全部类别特征词。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据所述类别特征词序列构建分类特征向量,包括:
根据类别特征词在所述类别特征词序列中的相关信息构建所述分类特征向量。
9.根据权利要求8所述的方法,其特征在于,所述根据类别特征词在所述类别特征词序列中的相关信息构建所述分类特征向量,包括以下一种或多种方式的组合:
对类别特征词的字词向量进行拼接构建所述分类特征向量;所述相关信息为所述字词向量;
根据类别特征词的字在所述待分类语料中的位置特征构建所述分类特征向量;所述相关信息为所述位置特征;
根据类别特征词在所述待分类语料中的上下文特征构建所述分类特征向量;所述相关信息为所述上下文特征;
根据类别特征词在所述类别特征词序列中的词性序列特征构建所述分类特征向量;所述相关信息为所述词性序列特征;
根据类别特征词在所述类别特征词序列中的依存句法关系特征构建所述分类特征向量;所述相关信息为所述依存句法关系特征。
10.根据权利要求1-7任一项所述的方法,其特征在于,所述分类为情感分类,所述第一类别特征词包括属性词,所述第二类别特征词包括情感词、程度副词和否定词中一种或多种的组合。
11.一种分类装置,其特征在于,所述装置包括确定单元、构建单元和分类单元:
所述确定单元,用于根据待分类语料对应的词性序列确定体现分类关联关系的类别特征词序列,所述待分类语料中包括多个表征待分类对象的第一类别特征词和与分类需求相关的第二类别特征词,所述分类关联关系用于体现所述第二类别特征词与所述第一类别特征词之间的关联关系;
所述构建单元,用于根据所述类别特征词序列构建分类特征向量,所述分类特征向量体现出不同类别的语料特点;
所述分类单元,用于根据所述分类特征向量,通过分类模型对所述待分类语料进行分类,所述分类模型为非深度学习模型。
12.根据权利要求11所述的装置,其特征在于,所述确定单元,用于:
根据目标类序列规则,确定所述类别特征词序列;所述目标类序列规则标识所述第二类别特征词与所述第一类别特征词之间的分类关联关系。
13.根据权利要求12所述的装置,其特征在于,所述目标类序列规则是根据历史语料挖掘得到的。
14.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-10任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911235058.3A CN111177371B (zh) | 2019-12-05 | 2019-12-05 | 一种分类方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911235058.3A CN111177371B (zh) | 2019-12-05 | 2019-12-05 | 一种分类方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177371A true CN111177371A (zh) | 2020-05-19 |
CN111177371B CN111177371B (zh) | 2023-03-21 |
Family
ID=70653826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911235058.3A Active CN111177371B (zh) | 2019-12-05 | 2019-12-05 | 一种分类方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177371B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111400432A (zh) * | 2020-06-04 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 事件类型信息处理方法、事件类型识别方法及装置 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN112445897A (zh) * | 2021-01-28 | 2021-03-05 | 京华信息科技股份有限公司 | 文本类数据大规模分类标注方法、***、装置及存储介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN115171048A (zh) * | 2022-07-21 | 2022-10-11 | 北京天防安全科技有限公司 | 基于图像识别的资产分类方法、***、终端及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104471568A (zh) * | 2012-07-02 | 2015-03-25 | 微软公司 | 对自然语言问题的基于学习的处理 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及*** |
US20160357851A1 (en) * | 2015-06-05 | 2016-12-08 | Mr. Buzz, Inc. dba WeOtta | Natural Language Search With Semantic Mapping And Classification |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN110019792A (zh) * | 2017-10-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置和分类器模型训练方法 |
-
2019
- 2019-12-05 CN CN201911235058.3A patent/CN111177371B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104471568A (zh) * | 2012-07-02 | 2015-03-25 | 微软公司 | 对自然语言问题的基于学习的处理 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及*** |
US20160357851A1 (en) * | 2015-06-05 | 2016-12-08 | Mr. Buzz, Inc. dba WeOtta | Natural Language Search With Semantic Mapping And Classification |
CN110019792A (zh) * | 2017-10-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 文本分类方法及装置和分类器模型训练方法 |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
Non-Patent Citations (2)
Title |
---|
常曹育: "基于机器学习的中文微博情感分类技术研究" * |
李伟卿;王伟军;: "基于大规模评论数据的产品特征词典构建方法研究" * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353303A (zh) * | 2020-05-25 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111353303B (zh) * | 2020-05-25 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 词向量构建方法、装置、电子设备及存储介质 |
CN111611801A (zh) * | 2020-06-02 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 一种识别文本地域属性的方法、装置、服务器及存储介质 |
CN111400432A (zh) * | 2020-06-04 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 事件类型信息处理方法、事件类型识别方法及装置 |
CN111400432B (zh) * | 2020-06-04 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 事件类型信息处理方法、事件类型识别方法及装置 |
CN111737476A (zh) * | 2020-08-05 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
CN112148841A (zh) * | 2020-09-30 | 2020-12-29 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN112148841B (zh) * | 2020-09-30 | 2024-04-19 | 北京金堤征信服务有限公司 | 一种对象分类以及分类模型构建方法和装置 |
CN112445897A (zh) * | 2021-01-28 | 2021-03-05 | 京华信息科技股份有限公司 | 文本类数据大规模分类标注方法、***、装置及存储介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN113837216B (zh) * | 2021-06-01 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN115171048A (zh) * | 2022-07-21 | 2022-10-11 | 北京天防安全科技有限公司 | 基于图像识别的资产分类方法、***、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111177371B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177371B (zh) | 一种分类方法和相关装置 | |
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN111553162B (zh) | 一种意图识别的方法以及相关装置 | |
CN109033156B (zh) | 一种信息处理方法、装置及终端 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN111125523B (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN108549681B (zh) | 数据处理方法和装置、电子设备、计算机可读存储介质 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN114328906A (zh) | 一种多级类目的确定方法、模型训练的方法以及相关装置 | |
CN113220848A (zh) | 用于人机交互的自动问答方法、装置和智能设备 | |
CN114328908A (zh) | 一种问答语句质检方法、装置及相关产品 | |
CN111611369B (zh) | 基于人工智能的交互方法和相关装置 | |
CN112907255A (zh) | 一种用户分析方法和相关装置 | |
CN112328783A (zh) | 一种摘要确定方法和相关装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN110929882A (zh) | 一种基于人工智能的特征向量计算方法和相关装置 | |
CN110781274A (zh) | 一种问答对生成的方法与装置 | |
CN114398993B (zh) | 基于标签数据的搜索信息召回方法、***、装置和介质 | |
CN112036135B (zh) | 一种文本处理方法和相关装置 | |
CN113821609A (zh) | 一种答案文本的获取方法及装置、计算机设备和存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN110263347A (zh) | 一种同义词的构建方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |