CN108415897A - 基于人工智能的类别判别方法、装置及存储介质 - Google Patents

基于人工智能的类别判别方法、装置及存储介质 Download PDF

Info

Publication number
CN108415897A
CN108415897A CN201810049997.8A CN201810049997A CN108415897A CN 108415897 A CN108415897 A CN 108415897A CN 201810049997 A CN201810049997 A CN 201810049997A CN 108415897 A CN108415897 A CN 108415897A
Authority
CN
China
Prior art keywords
word
result
discrimination model
text
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810049997.8A
Other languages
English (en)
Inventor
汪琦
冯知凡
陆超
朱勇
李莹
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810049997.8A priority Critical patent/CN108415897A/zh
Publication of CN108415897A publication Critical patent/CN108415897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于人工智能的类别判别方法、装置及存储介质,其中方法包括:获取待处理的文本对象;获取由文本对象的切词结果构成的词序列;将词序列输入预先训练得到的判别模型,得到判别模型输出的文本对象分别属于不同的预设类别的概率。应用本发明所述方案,能够提高分类结果的准确性,并丰富了输出内容,从而可满足不同场景的应用需求等。

Description

基于人工智能的类别判别方法、装置及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的类别判别方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
现有技术中,对于给定的一个文本片段,可以通过以下方式来进行类别(type)分类。
1)基于统计的方式:提取文本片段中的关键词,对关键词进行统计加权,进而通过投票的方式进行简单的type分类。
2)基于命名实体识别(NER)的方式:识别文本片段中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,进而根据识别出的实体进行type分类。
但上述两种方式在实际应用中均会存在一定的问题,如:仅根据提取出的关键词或识别出的实体来进行type分类,未能结合上下文语境信息等,从而导致分类结果的准确性较低,而且,只能给出单一的类别判别结果,难以满足复杂场景下的应用需求。
【发明内容】
有鉴于此,本发明提供了基于人工智能的类别判别方法、装置及存储介质。
具体技术方案如下:
一种基于人工智能的类别判别方法,包括:
获取待处理的文本对象;
获取由所述文本对象的切词结果构成的词序列;
将所述词序列输入预先训练得到的判别模型,得到所述判别模型输出的所述文本对象分别属于不同的预设类别的概率。
根据本发明一优选实施例,所述判别模型包括:神经网络模型。
根据本发明一优选实施例,所述判别模型中包括:输入层、隐层以及输出层;
所述输入层分别生成各切词结果对应的特征向量;
所述特征向量通过线性变换映射到所述隐层,得到隐层向量;
所述输出层根据所述隐层向量基于哈夫曼树生成输出结果。
根据本发明一优选实施例,每个切词结果对应的特征向量分别由所述切词结果、所述切词结果的n-gram切分结果以及所述切词结果的子字信息组成。
根据本发明一优选实施例,所述文本对象包括:文本片段或信号词。
根据本发明一优选实施例,训练得到所述判别模型包括:
从预定数据源中抽取关键文本片段以及高频信号词;
根据抽取出的内容构建训练样本,每个训练样本中包括:一个文本片段或信号词,以及所属类别;
利用所述训练样本训练得到所述判别模型。
根据本发明一优选实施例,所述预定数据源包括以下之一或任意组合:知识库、网页库、查询日志querylog。
一种基于人工智能的类别判别装置,包括:文本获取单元、词序列获取单元以及类别判别单元;
所述文本获取单元,用于获取待处理的文本对象;
所述词序列获取单元,用于获取由所述文本对象的切词结果构成的词序列;
所述类别判别单元,用于将所述词序列输入预先训练得到的判别模型,得到所述判别模型输出的所述文本对象分别属于不同的预设类别的概率。
根据本发明一优选实施例,所述判别模型包括:神经网络模型。
根据本发明一优选实施例,所述判别模型中包括:输入层、隐层以及输出层;
所述输入层分别生成各切词结果对应的特征向量;
所述特征向量通过线性变换映射到所述隐层,得到隐层向量;
所述输出层根据所述隐层向量基于哈夫曼树生成输出结果。
根据本发明一优选实施例,每个切词结果对应的特征向量分别由所述切词结果、所述切词结果的n-gram切分结果以及所述切词结果的子字信息组成。
根据本发明一优选实施例,所述文本对象包括:文本片段或信号词。
根据本发明一优选实施例,所述装置中进一步包括:模型训练单元;
所述模型训练单元,用于从预定数据源中抽取关键文本片段以及高频信号词,根据抽取出的内容构建训练样本,每个训练样本中包括:一个文本片段或信号词,以及所属类别,利用所述训练样本训练得到所述判别模型。
根据本发明一优选实施例,所述预定数据源包括以下之一或任意组合:知识库、网页库、查询日志querylog。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,在获取到待处理的文本对象后,可进一步获取由文本对象的切词结果构成的词序列,之后可将获取到的词序列输入预先训练得到的判别模型,从而得到判别模型输出的文本对象分别属于不同的预设类别的概率,相比于现有技术,本发明所述方案中的判别模型的输入对应的是整个文本对象的内容,可结合上下文语境搭配等来进行类别判别,从而提高了分类结果的准确性,而且,判别模型可输出文本对象分别属于不同的预设类别的概率,从而丰富了输出内容,进而可满足不同场景的应用需求。
【附图说明】
图1为本发明所述基于人工智能的类别判别方法实施例的流程图。
图2为本发明所述判别模型的结构示意图。
图3为本发明所述“李娜唱歌”对应的输出结果的示意图。
图4为本发明所述“李娜网球”对应的输出结果的示意图。
图5为本发明所述“刘德华演唱”对应的输出结果的示意图。
图6为本发明所述“打”对应的输出结果的示意图。
图7为本发明所述基于人工智能的类别判别装置实施例的组成结构示意图。
图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种类别判别方式,结合了自然语音处理和机器学习中较为成功的理念,设计了一套模型体系,如可根据上下文语境搭配来进行type分类,同时能够自适应学习实体之间的关系等。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的类别判别方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取待处理的文本对象。
在102中,获取由文本对象的切词结果构成的词序列。
在103中,将获取到的词序列输入预先训练得到的判别模型,得到判别模型输出的文本对象分别属于不同的预设类别的概率。
上述判别模型可为神经网络模型,如浅层学习(shallow learning)网络模型,相比于深度学习网络模型,不需要运用复杂的模型即能得到较好的效果,即能够在保证效果的情况下降低模型训练的复杂度,提高训练效率。
判别模型的输入为词序列,输出为这个词序列分别属于不同的预设类别的概率。预设类别中具体包括哪些类别可根据实际需要而定,并且可根据实际需要灵活调整。
判别模型中共可包括三层,分别为输入层、隐层(中间层)以及输出层。如图2所示,图2为本发明所述判别模型的结构示意图。其中,输入层可分别生成各切词结果对应的特征向量,特征向量可通过线性变换映射到隐层,得到隐层向量,输出层可根据隐层向量基于哈夫曼(Huffman)树生成输出结果。
也就是说,输入层中生成各切词结果对应的特征向量,特征向量通过线性变换映射到隐层,中间层再映射到分类体系(label)。本模型使用了一个分层分类器,不同的类别被整合进树形结构中,为了改善运行时间,还可使用层次Softmax技巧。层次Softmax技巧建立在哈夫曼编码的基础上,通过对label进行编码能够极大地缩小模型预测目标的数量。
判别模型的优化目标可为:
其中,<xn,yn>表示一条训练样本,xn是输入特征,yn是训练目标;矩阵参数A是基于词的查找表(look-up table),即A是词的embedding向量;Axn矩阵运算的数学意义是将词的embedding向量相加或者取平均,得到隐层向量;矩阵参数B是函数f的参数,因函数f是一个多分类问题,所以f(BAxn)是一个多分类的线性函数;整个优化目标是使得这个多分类问题的似然越大越好。
每个切词结果对应的特征向量可分别由该切词结果、该切词结果的n-gram切分结果以及该切词结果的子字(subword)信息组成。
n-gram切分的具体实现为现有技术,可将长词通过n-gram切分为几个短词。如何获取子字信息同样为现有技术。通过使用n-gram切分以及子字信息等,以隐藏表征的方式在类别间共享信息,从而使得模型对于不同的语义表示敏感。
哈夫曼树叶子节点处是每一个类别标签的embedding向量。在训练的过程中,输入层中生成的特征向量通过线性变换映射到隐层,隐层通过求解最大似然函数,并根据每个类别的权重和模型参数构建哈夫曼树,将哈夫曼树作为模型训练输出结果。
为训练得到判别模型,可首先从预定数据源中抽取关键文本片段以及高频信号词等,之后可根据抽取出的内容构建训练样本,每个训练样本中可包括:一个文本片段或信号词,以及所属类别,进而可利用构建出的训练样本训练得到判别模型。
预定数据源可包括以下之一或任意组合:知识库、网页库、查询日志(querylog)等。
较佳地,可从知识库、网页库以及querylog中抽取出一些关键文本片段以及高频信号词,关键文本片段如可以是从百度百科的摘要中抽取出的重要/代表性句子或段落等,高频信号词可以是指使用频率较高的谓词等。
之后,可根据抽取出的文本片段和信号词来构建训练样本,比如,一个训练样本中包括:一个文本片段以及该文本片段所属类别,再比如,另一个训练样本中包括:一个信号词以及该信号词所属类别。
如何获取文本片段及信号词的所属类别可根据实际需要而定,比如,可获取人工标注的所属类别。
对于一个文本片段来说,其可能属于类别a,也可能属于类别b,那么针对该文本片段,可构建出两个训练样本,其中一个训练样本由该文本片段及类别a组成,另外一个训练样本由该文本片段及类别b组成。比如,文本片段为“李娜唱歌”,可能属于“歌手”类别,也可能属于“体育人物”类别。
类似地,对于一个信号词来说,其可能属于类别c,也可能属于类别d,那么针对该信号词,可构建出两个训练样本,其中一个训练样本由该信号词及类别c构成,另外一个训练样本由该信号词及类别d组成。比如,信号词为“打”,可能的组合包括“打篮球”、“打游戏”等,那么相应地,可能属于“体育用品”类别,也可能属于“游戏”类别等。
基于构建出的训练样本,可训练得到上述判别模型。如可分别获取各训练样本中的文本片段或信号词的切词结果,利用切词结果构成词序列,将词序列作为判别模型的输入,结合各训练样本中的所属类别信息训练得到判别模型。对于一个信号词来说,其中可能仅包括一个字,也可能包括多个字,那么对于信号词进行切词处理,切词结果可能等于信号词本身。可采用现有的任意切词方式。
基于训练得到的判别模型,可进行实际的类别判别,即获取待处理的文本对象,并获取由文本对象的切词结果构成的词序列,进而将获取到的词序列输入判别模型,从而得到判别模型输出的文本对象分别属于不同的预设类别的概率。文本对象可为文本片段或信号词。
本发明所述方案的几种典型应用场景可如下所示。
1)通过语义理解,给出type分布
比如,向判别模型输入“李娜唱歌”,输出可为:“歌手:0.603、音乐作品:0.301、设备:0.096”。
图3为本发明所述“李娜唱歌”对应的输出结果的示意图。如图3所示,“李娜唱歌”属于“歌手”类别的概率为0.603,属于“音乐作品”类别的概率为0.301,属于“设备”类别的概率为0.096。
假设预设类别数为20,除上述三种类别外,其它类别的概率均为0,各种类别的概率相加之和为1,以下不再赘述。
再比如,向判别模型输入“李娜网球”,输出可为:“体育人物:0.711、体育用品:0.244、地点:0.045”。
图4为本发明所述“李娜网球”对应的输出结果的示意图。如图4所示,“李娜网球”属于“体育人物”类别的概率为0.711,属于“体育用品”类别的概率为0.244,属于“地点”类别的概率为0.045。
2)通过上下文预测当前实体的类别
比如,一条完整的文本为“刘德华演唱冰雨”,当前实体为“冰雨”,希望通过上下文来预测“冰雨”的类别,那么可向判别模型输入“刘德华演唱”,输出可为:“歌曲:0.891、歌手:0.109”。
图5为本发明所述“刘德华演唱”对应的输出结果的示意图。如图5所示,“刘德华演唱”属于“歌曲”类别的概率为0.891,属于“歌手”类别的概率为0.109。
由于“刘德华演唱”属于“歌曲”类别的概率为0.891,明显高于属于“歌手”类别的概率0.109,因此可预测出“冰雨”的类别为“歌曲”。
3)输入单纯的信号词,给出type分布
比如,向判别模型输入信号词“打”,可能的组合如“打篮球”、“打游戏”、“打人”等,输出可为:“体育用品:0.472、游戏:0.319、人物:0.209”。
图6为本发明所述“打”对应的输出结果的示意图。如图6所示,“打”属于“体育用品”类别的概率为0.472,属于“游戏”类别的概率为0.319,属于“人物”类别的概率为0.209。
总之,采用本发明所述方案,能够对上下文语境进行动态刻画,可以解决概念层次的消歧问题,对上下文语境敏感,能够充分捕捉语义信息,具有较强的自适应性和鲁棒性,并提高了分类结果的准确性。
而且,本发明所述方案中的判别模型可输出文本对象分别属于不同的预设类别的概率,从而丰富了输出内容,进而可满足不同场景的应用需求,并且具有较强的可扩展性。
另外,本发明所述方案适合拥有大量训练样本且要求高效训练速度的任务,使用标准多核中央处理单元(CPU)的情况下,10分钟能够处理超过10亿个词汇,与深度学习网络模型相比,本发明中的判别模型的训练时间可由数天缩短到几分钟。
再有,本发明所述方案支持多语言表达,利用其语言形态结构,能够被设计用来支持包括中文、英语、日语、德语、西班牙语、法语等多种语言,其中还使用了简单高效的纳入子字信息的方式,在用于像捷克语这样的词态丰富的语言时,效果非常好。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图7为本发明所述基于人工智能的类别判别装置实施例的组成结构示意图。如图7所示,包括:文本获取单元701、词序列获取单元702以及类别判别单元703。
文本获取单元701,用于获取待处理的文本对象。
词序列获取单元702,用于获取由文本对象的切词结果构成的词序列。
类别判别单元703,用于将词序列输入预先训练得到的判别模型,得到判别模型输出的文本对象分别属于不同的预设类别的概率。
判别模型可为神经网络模型。
判别模型的输入为词序列,输出为这个词序列分别属于不同的预设类别的概率。预设类别中具体包括哪些类别可根据实际需要而定,并且可根据实际需要灵活调整。
判别模型中共可包括三层,分别为输入层、隐层(中间层)以及输出层。其中,输入层可分别生成各切词结果对应的特征向量,特征向量可通过线性变换映射到隐层,得到隐层向量,输出层可根据隐层向量基于哈夫曼树生成输出结果。
每个切词结果对应的特征向量可分别由切词结果、切词结果的n-gram切分结果以及切词结果的子字信息组成。
如图7所示,所示装置中还可进一步包括:模型训练单元700。
模型训练单元700可首先从预定数据源中抽取关键文本片段以及高频信号词等,之后可根据抽取出的内容构建训练样本,每个训练样本中可包括:一个文本片段或信号词,以及所属类别,进而可利用构建出的训练样本训练得到判别模型。
预定数据源可包括以下之一或任意组合:知识库、网页库、查询日志等。
较佳地,模型训练单元700可从知识库、网页库以及querylog中抽取出一些关键文本片段以及高频信号词,之后,可根据抽取出的文本片段和信号词来构建训练样本,比如,一个训练样本中包括:一个文本片段以及该文本片段所属类别,再比如,另一个训练样本中包括:一个信号词以及该信号词所属类别。基于构建出的训练样本,模型训练单元700可训练得到上述判别模型,如可分别获取各训练样本中的文本片段或信号词的切词结果,利用切词结果构成词序列,将词序列作为判别模型的输入,结合各训练样本中的所属类别信息训练得到判别模型。
基于训练得到的判别模型,可进行实际的类别判别,即文本获取单元701可获取待处理的文本对象,并发送给词序列获取单元702,词序列获取单元702可进一步获取由文本对象的切词结果构成的词序列,发送给类别判别单元703,类别判别单元703可将获取到的词序列输入判别模型,从而得到判别模型输出的文本对象分别属于不同的预设类别的概率。
文本对象可为文本片段或信号词。
图7所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图8显示的计算机***/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同***组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信,和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机***/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种基于人工智能的类别判别方法,其特征在于,包括:
获取待处理的文本对象;
获取由所述文本对象的切词结果构成的词序列;
将所述词序列输入预先训练得到的判别模型,得到所述判别模型输出的所述文本对象分别属于不同的预设类别的概率。
2.根据权利要求1所述的方法,其特征在于,
所述判别模型包括:神经网络模型。
3.根据权利要求1所述的方法,其特征在于,
所述判别模型中包括:输入层、隐层以及输出层;
所述输入层分别生成各切词结果对应的特征向量;
所述特征向量通过线性变换映射到所述隐层,得到隐层向量;
所述输出层根据所述隐层向量基于哈夫曼树生成输出结果。
4.根据权利要求3所述的方法,其特征在于,
每个切词结果对应的特征向量分别由所述切词结果、所述切词结果的n-gram切分结果以及所述切词结果的子字信息组成。
5.根据权利要求1所述的方法,其特征在于,
所述文本对象包括:文本片段或信号词。
6.根据权利要求5所述的方法,其特征在于,
训练得到所述判别模型包括:
从预定数据源中抽取关键文本片段以及高频信号词;
根据抽取出的内容构建训练样本,每个训练样本中包括:一个文本片段或信号词,以及所属类别;
利用所述训练样本训练得到所述判别模型。
7.根据权利要求6所述的方法,其特征在于,
所述预定数据源包括以下之一或任意组合:知识库、网页库、查询日志querylog。
8.一种基于人工智能的类别判别装置,其特征在于,包括:文本获取单元、词序列获取单元以及类别判别单元;
所述文本获取单元,用于获取待处理的文本对象;
所述词序列获取单元,用于获取由所述文本对象的切词结果构成的词序列;
所述类别判别单元,用于将所述词序列输入预先训练得到的判别模型,得到所述判别模型输出的所述文本对象分别属于不同的预设类别的概率。
9.根据权利要求8所述的装置,其特征在于,
所述判别模型包括:神经网络模型。
10.根据权利要求8所述的装置,其特征在于,
所述判别模型中包括:输入层、隐层以及输出层;
所述输入层分别生成各切词结果对应的特征向量;
所述特征向量通过线性变换映射到所述隐层,得到隐层向量;
所述输出层根据所述隐层向量基于哈夫曼树生成输出结果。
11.根据权利要求10所述的装置,其特征在于,
每个切词结果对应的特征向量分别由所述切词结果、所述切词结果的n-gram切分结果以及所述切词结果的子字信息组成。
12.根据权利要求8所述的装置,其特征在于,
所述文本对象包括:文本片段或信号词。
13.根据权利要求12所述的装置,其特征在于,
所述装置中进一步包括:模型训练单元;
所述模型训练单元,用于从预定数据源中抽取关键文本片段以及高频信号词,根据抽取出的内容构建训练样本,每个训练样本中包括:一个文本片段或信号词,以及所属类别,利用所述训练样本训练得到所述判别模型。
14.根据权利要求13所述的装置,其特征在于,
所述预定数据源包括以下之一或任意组合:知识库、网页库、查询日志querylog。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN201810049997.8A 2018-01-18 2018-01-18 基于人工智能的类别判别方法、装置及存储介质 Pending CN108415897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810049997.8A CN108415897A (zh) 2018-01-18 2018-01-18 基于人工智能的类别判别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810049997.8A CN108415897A (zh) 2018-01-18 2018-01-18 基于人工智能的类别判别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN108415897A true CN108415897A (zh) 2018-08-17

Family

ID=63126047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810049997.8A Pending CN108415897A (zh) 2018-01-18 2018-01-18 基于人工智能的类别判别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108415897A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740642A (zh) * 2018-12-19 2019-05-10 北京邮电大学 ***类别识别方法、装置、电子设备及可读存储介质
CN109753556A (zh) * 2018-12-24 2019-05-14 出门问问信息科技有限公司 一种查询类别推测方法、装置、设备及存储介质
CN109800438A (zh) * 2019-02-01 2019-05-24 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109818954A (zh) * 2019-01-22 2019-05-28 深信服科技股份有限公司 Web注入型攻击检测方法、装置、电子设备及存储介质
CN110390107A (zh) * 2019-07-26 2019-10-29 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN110428891A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 一种就诊意图的处理方法、装置及设备
CN110991164A (zh) * 2018-09-28 2020-04-10 北京国双科技有限公司 法律文书处理方法及装置
CN111178531A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质
JP2020091846A (ja) * 2018-10-19 2020-06-11 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 会話に基づくチケットロギングのためのシステム及び方法
CN111274383A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种应用于报价的分类对象方法和装置
CN112395414A (zh) * 2019-08-16 2021-02-23 北京地平线机器人技术研发有限公司 文本分类方法和分类模型的训练方法、装置、介质和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机***有限公司 文本分类方法及终端设备
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类***
WO2017090051A1 (en) * 2015-11-27 2017-06-01 Giridhari Devanathan A method for text classification and feature selection using class vectors and the system thereof
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN106326346A (zh) * 2016-08-06 2017-01-11 上海高欣计算机***有限公司 文本分类方法及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARMAND JOULIN 等: "Bag of Tricks for Efficient Text Classification", 《HTTPS://ARXIV.ORG/ABS/1607.01759》 *
BOJANOWSKI 等: "Enriching Word Vectors with Subword Information", 《HTTPS://ARXIV.ORG/ABS/1607.04606》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991164B (zh) * 2018-09-28 2023-04-07 北京国双科技有限公司 法律文书处理方法及装置
CN110991164A (zh) * 2018-09-28 2020-04-10 北京国双科技有限公司 法律文书处理方法及装置
JP7372812B2 (ja) 2018-10-19 2023-11-01 タタ コンサルタンシー サービシズ リミテッド 会話に基づくチケットロギングのためのシステム及び方法
JP2020091846A (ja) * 2018-10-19 2020-06-11 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited 会話に基づくチケットロギングのためのシステム及び方法
CN111178531B (zh) * 2018-11-09 2023-09-22 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质
CN111178531A (zh) * 2018-11-09 2020-05-19 百度在线网络技术(北京)有限公司 关系推理以及关系推理模型的获取方法、装置及存储介质
CN111274383A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 一种应用于报价的分类对象方法和装置
CN111274383B (zh) * 2018-12-05 2023-11-07 北京京东振世信息技术有限公司 一种应用于报价的分类对象方法和装置
CN109740642A (zh) * 2018-12-19 2019-05-10 北京邮电大学 ***类别识别方法、装置、电子设备及可读存储介质
CN109753556A (zh) * 2018-12-24 2019-05-14 出门问问信息科技有限公司 一种查询类别推测方法、装置、设备及存储介质
CN109818954B (zh) * 2019-01-22 2021-08-13 深信服科技股份有限公司 Web注入型攻击检测方法、装置、电子设备及存储介质
CN109818954A (zh) * 2019-01-22 2019-05-28 深信服科技股份有限公司 Web注入型攻击检测方法、装置、电子设备及存储介质
CN109800438B (zh) * 2019-02-01 2020-03-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN109800438A (zh) * 2019-02-01 2019-05-24 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110390107B (zh) * 2019-07-26 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN110390107A (zh) * 2019-07-26 2019-10-29 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN110428891A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 一种就诊意图的处理方法、装置及设备
CN112395414A (zh) * 2019-08-16 2021-02-23 北京地平线机器人技术研发有限公司 文本分类方法和分类模型的训练方法、装置、介质和设备
CN112395414B (zh) * 2019-08-16 2024-06-04 北京地平线机器人技术研发有限公司 文本分类方法和分类模型的训练方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CN108415897A (zh) 基于人工智能的类别判别方法、装置及存储介质
Zhang et al. Neural latent extractive document summarization
Wang et al. Cat-gen: Improving robustness in nlp models via controlled adversarial text generation
Sanabria et al. How2: a large-scale dataset for multimodal language understanding
Kim et al. DNN-based emotion recognition based on bottleneck acoustic features and lexical features
Chen et al. Video captioning with guidance of multimodal latent topics
Mao et al. Explain images with multimodal recurrent neural networks
Chen et al. A multimodal music emotion classification method based on multifeature combined network classifier
Peng et al. Phonetic-enriched text representation for Chinese sentiment analysis with reinforcement learning
Yang et al. Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis
US20070094004A1 (en) Conversation controller
CN114676234A (zh) 一种模型训练方法及相关设备
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN108920644A (zh) 对话连贯性的判断方法、装置、设备及计算机可读介质
CN109961041A (zh) 一种视频识别方法、装置及存储介质
Jin et al. Combining cnns and pattern matching for question interpretation in a virtual patient dialogue system
CN111931477A (zh) 文本匹配方法、装置、电子设备以及存储介质
Sun et al. Speech emotion recognition based on genetic algorithm–decision tree fusion of deep and acoustic features
US8645141B2 (en) Method and system for text to speech conversion
Yu et al. Learning DALTS for cross‐modal retrieval
CN108304381A (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
Zuin et al. Learning transferable features for open-domain question answering
CN111968646A (zh) 一种语音识别方法及装置
JP2001075964A (ja) 情報処理装置および情報処理方法、並びに記録媒体
CN110516109A (zh) 音乐标签的关联方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination