CN112818119B - 一种信息的处理方法、装置及设备 - Google Patents

一种信息的处理方法、装置及设备 Download PDF

Info

Publication number
CN112818119B
CN112818119B CN202110103515.4A CN202110103515A CN112818119B CN 112818119 B CN112818119 B CN 112818119B CN 202110103515 A CN202110103515 A CN 202110103515A CN 112818119 B CN112818119 B CN 112818119B
Authority
CN
China
Prior art keywords
original text
information
preset
category
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110103515.4A
Other languages
English (en)
Other versions
CN112818119A (zh
Inventor
庞建华
吴倩
张烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110103515.4A priority Critical patent/CN112818119B/zh
Publication of CN112818119A publication Critical patent/CN112818119A/zh
Application granted granted Critical
Publication of CN112818119B publication Critical patent/CN112818119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种信息的处理方法、装置及设备,包括:获取待处理的原始文本信息;对原始文本信息进行特征提取,得到与原始文本信息对应的原始文本特征信息;将原始文本特征信息输入至预先训练的预设网络模型中,得到与原始文本特征信息对应的原始文本向量;判断原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始文本信息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别;若否,则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本向量对应的原始文本信息;其中,原始文本向量与预设类别的文本向量起点相同,预先训练的预设网络模型为基于预设类别的样本数据进行有监督的训练得到的。

Description

一种信息的处理方法、装置及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息的处理方法、装置及设备。
背景技术
目前,对于文本分类的方式,通常采用基于深度学习模型的文本分类器来 实现,基于已知的训练样本数据及上述训练样本数据所对应的标签,以及标签 的种类进行有监督的分类训练。
然而,由于已知训练样本数据所对应的标签的种类是有限的,因此,通过 上述方式生成的文本分类器所能识别的文本数据的种类也是有限的,这样,一 旦出现待识别的文本数据所对应的标签种类不包含在上述文本分类训练器时, 常常会出现文本分类器强行根据相似性给上述文本数据贴上某已知标签的问 题,为此,需要提供一种能够有效提高文本数据分类准确度的技术方案。
发明内容
本说明书实施例的目的是提供一种信息的处理方法、装置及设备,以提供 一种能够有效提高文本数据分类准确度的技术方案。
为了解决上述技术问题,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供了一种信息的处理方法,包括:获取待处 理的原始文本信息。对所述原始文本信息进行特征提取,得到与所述原始文本 信息对应的原始文本特征信息。将所述原始文本特征信息输入至预先训练的预 设网络模型中,得到与所述原始文本特征信息对应的原始文本向量。判断所述 原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所 述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应 的目标类别。若否,则确定所述原始文本信息对应的类别未处于所述预设类别 内,并输出与所述原始文本向量对应的所述原始文本信息。其中,所述原始文 本向量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的 预设网络模型为基于所述预设类别的样本数据进行有监督的训练得到的。
第二方面,本说明书实施例提供了一种信息的处理装置,包括:第一获取 模块,获取待处理的原始文本信息。特征提取模块,对所述原始文本信息进行 特征提取,得到与所述原始文本信息对应的原始文本特征信息。第一输入模块, 将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述原始 文本特征信息对应的原始文本向量。第一处理模块,判断所述原始文本向量是 否处于预设类别所对应的文本向量空间区域,若是,则确定所述原始文本信息 对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别。若否, 则确定所述原始文本信息对应的类别未处于所述预设类别内,并输出与所述原 始文本向量对应的所述原始文本信息。其中,所述原始文本向量的起点与所述 预设类别所对应的文本向量的起点相同,所述预先训练的预设网络模型为基于 所述预设类别的样本数据进行有监督的训练得到的。
第三方面,本说明书实施例提供了一种信息的处理设备,包括:处理器。 以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使 所述处理器:获取待处理的原始文本信息。对所述原始文本信息进行特征提取, 得到与所述原始文本信息对应的原始文本特征信息。将所述原始文本特征信息 输入至预先训练的预设网络模型中,得到与所述原始文本特征信息对应的原始 文本向量。判断所述原始文本向量是否处于预设类别所对应的文本向量空间区 域,若是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本 向量空间区域对应的目标类别。若否,则确定所述原始文本信息对应的类别未 处于所述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息。 其中,所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同, 所述预先训练的预设网络模型为基于所述预设类别的样本数据进行有监督的 训练得到的。
第四方面,本说明书实施例提供了一种存储介质,所述存储介质用于存储 计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待处理的 原始文本信息。对所述原始文本信息进行特征提取,得到与所述原始文本信息 对应的原始文本特征信息。将所述原始文本特征信息输入至预先训练的预设网 络模型中,得到与所述原始文本特征信息对应的原始文本向量。判断所述原始 文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所述原 始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目 标类别。若否,则确定所述原始文本信息对应的类别未处于所述预设类别内, 并输出与所述原始文本向量对应的所述原始文本信息。其中,所述原始文本向 量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的预设 网络模型为基于所述预设类别的样本数据进行有监督的训练得到的。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的信息的处理方法的第一种流程示意图;
图2为本说明书实施例提供的信息的处理方法的第一种场景示意图;
图3为本说明书实施例提供的信息的处理方法的第二种场景示意图;
图4为本说明书实施例提供的信息的处理方法的第三种场景示意图;
图5为本说明书实施例提供的信息的处理装置的模块组成示意图;
图6为本说明书实施例提供的信息的处理设备的结构示意图。
具体实施方式
为了实现本说明书的目的,本说明书实施例提供了一种信息的处理方法、 装置及设备,通过获取待处理的原始文本信息,对原始文本信息进行特征提取, 得到与原始文本信息对应的原始文本特征信息,将原始文本特征信息输入至预 先训练的预设网络模型中,得到与原始文本特征信息对应的原始文本向量,然 后,通过判断原始文本向量是否处于预设类别所对应的文本向量空间区域,若 是,则确定原始文本信息对应的类别为原始文本向量所在文本向量空间区域对 应的目标类别;若否,则确定原始文本信息对应的类别未处于预设类别内,并 输出与原始文本向量对应的原始文本信息,这样,如果判断出上述原始文本向 量未处于预设类别所对应的文本向量空间区域,则确定上述原始文本信息对应 的类别未处于预设类别内,并输出与原始文本向量对应的原始文本信息,从而 避免了强行根据相似性确定上述原始文本数据所属类别为预设类别的问题,进 而有效提高文本数据分类的准确度。
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基 于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本说明书实施例提供了一种信息的处理方法,该方法的执行 主体可以为服务器,其中,该服务器可以是独立的一个服务器,也可以是由多 个服务器组成的服务器集群,而且,该服务器可以用于判断原始文本向量是否 处于预设类别所对应的文本向量空间区域,在确定出上述原始文本向量未处于 上述预设类别所对应的文本向量空间区域的情况下,可以输出与上述原始文本 向量对应的原始文本信息。该方法具体可以包括以下步骤:
在步骤S102中,获取待处理的原始文本信息。
其中,上述原始文本信息可以为微博、商品评论、论坛评论、博客等形式 的文本信息,上述原始文本信息可以是不同语言种类所撰写的原始文本信息, 例如:英文文本信息、中文文本信息、日文文本信息等,或者,也可以是针对 不同评论对象内容的类别所对应的原始文本信息,例如:针对商品质量的评论 的文本信息,针对商品物流的评论的文本信息、针对商品价格的评论的文本信 息等。
在实施中,目前,对于文本分类的方式,通常采用基于深度学习模型的文 本分类器来实现,基于已知的训练样本数据及上述训练样本数据所对应的标签, 以及标签的种类进行有监督的分类训练。然而,由于已知训练样本数据所对应 的标签的种类是有限的,因此,通过上述方式生成的文本分类器所能识别的文 本数据的种类也是有限的,这样,一旦出现待识别的文本数据所对应的标签种 类不包含在上述文本分类训练器时,常常会出现文本分类器强行根据相似性给 上述文本数据贴上某已知标签的问题,例如,已知训练样本数据所对应的标签 的种类为A和B,该文本分类器可以根据待识别的文本数据与标签A和标签B 所对应的训练样本数据的相似度,来对待识别的文本数据贴上标签A或标签B, 此时,若将标签种类为C的待识别的文本数据输入至上述文本分类器中,该文 本分类器会强行根据计算得到的该待识别的文本数据与上述标签A和标签B 所对应的训练样本数据的相似度,强行给上述待识别的文本数据贴上标签A或 标签B,从而导致文本分类准确性低的问题,为此,需要提供一种能够有效提 高文本数据分类准确度的方法,具体可以参见下述内容。
在实施中,当需要对某文本信息进行分类时,可以通过预设网络接口获取 相应的待处理的原始文本信息,其中网络接口可以根据该文本信息的来源确定, 例如微博、商品评论、论坛评论、博客等网络接口。
在步骤S104中,对原始文本信息进行特征提取,得到与原始文本信息对 应的原始文本特征信息。
在实施中,服务器通过上述步骤S102的处理,获取到上述待处理的原始 文本信息之后,可以对上述获取的待处理的原始文本信息进行预处理,具体的, 可以对获取到的待处理的原始文本信息中所包含的特殊字符进行去除,和/或, 可以对原始文本信息中所包含的英文文本信息中大小写字母进行统一等。然后, 将经过上述预处理后的待处理的原始文本信息输入至预设特征提取模型中,通 过上述预设特征提取模型对上述输入的待处理的原始文本信息进行特征提取, 得到与原始文本信息对应的原始文本特征信息,其中,上述预设特征提取模型 可以是BERT网络模型等。
在步骤S106中,将原始文本特征信息输入至预先训练的预设网络模型中, 得到与原始文本特征信息对应的原始文本向量。
其中,上述预先训练的预设网络模型可以为基于预设类别的样本数据进行 有监督的训练得到的,例如,上述预设类别可以为商品质量、商品价格、商品 物流等。
在步骤S108中,判断原始文本向量是否处于预设类别所对应的文本向量 空间区域,若是,则确定原始文本信息对应的类别为原始文本向量所在文本向 量空间区域对应的目标类别;若否,则确定原始文本信息对应的类别未处于预 设类别内,并输出与原始文本向量对应的原始文本信息;其中,原始文本向量 的起点与预设类别所对应的文本向量的起点相同,预先训练的预设网络模型为 基于预设类别的样本数据进行有监督的训练得到的。
其中,上述预设类别所对应的文本向量空间区域可以为预设类别所对应的 文本向量所在的空间区域,以上述预设类别可以为商品质量、商品价格和商品 物流为例,上述商品质量所对应的文本向量可以表示为
Figure BDA0002916486320000051
Figure BDA0002916486320000052
的坐标可以表示 为(0,1),上述商品价格所对应的文本向量可以表示为
Figure BDA0002916486320000053
Figure BDA0002916486320000054
的坐标可以表 示为(1,0),上述商品物流所对应的文本向量可以表示为
Figure BDA0002916486320000055
Figure BDA0002916486320000056
的坐标可以表 示为(-1,0)等。上述原始文本向量的起点与上述预设类别所对应的文本向量 的起点相同。
在实施中,服务器通过上述步骤S106的处理得到与上述原始文本特征信 息对应的原始文本向量之后,可以基于上述原始文本向量与上述预设类别所对 应的文本向量,判断上述原始文本向量是否处于上述预设类别所对应的文本向 量空间区域,具体的,可以通过得到的上述原始文本向量的坐标信息,以及各 预设类别所对应的文本向量的坐标信息,通过计算上述原始文本向量与上述各 预设类别所对应的文本向量之间的余弦距离,或者,通过计算上述原始文本向 量与上述各预设类别所对应的文本向量之间的欧式距离,来判断上述原始文本 向量是否处于预设类别所对应的文本向量空间区域。
若通过上述计算确定出上述原始文本向量与上述预设类别所对应的文本 向量之间的余弦距离或欧式距离处于预设类别所对应的文本向量空间区域,则 可以确定上述原始文本信息对应的类别为上述原始文本向量所在文本向量空 间区域对应的目标类别,可以对上述原始文本向量所对应的原始文本信息及逆 行标记,例如,在上述原始文本向量所对应的原始文本信息上打上目标类别, 并输出经过标记处理后的原始文本信息。
若通过上述计算出的上述原始文本向量与上述预设类别所对应的文本向 量之间的余弦距离或欧式距离,确定出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则可以确定上述原始文本信息对应的类别未处于所述 预设类别内,并将上述原始文本向量所对应的原始文本信息进行输出。或者, 在确定出上述原始文本信息对应的类别未处于预设类别内的情况下,可以在上 述原始文本向量所对应的原始文本信息上打上预设标记,并输出经过标记处理 后的原始文本信息,其中,上述预设标记用于指示上述原始文本信息未处于上 述预设类别所对应的文本空间区域。
具体的,以上述预设类别为商品质量、商品价格和商品物流为例,若通过 上述计算确定出上述原始文本向量与上述商品价格所对应的文本向量之间的 余弦距离或欧式距离处于商品价格所对应的文本向量空间区域,则可以确定上 述原始文本信息对应的类别为商品价格类别,可以在上述原始文本向量所对应 的原始文本信息上打上商品价格类别标签,并输出经过标记处理后的原始文本 信息,其中,该经过标记处理后的原始文本信息中携带有商品价格类别标签。
若通过上述计算出的上述原始文本向量与上述预设类别所对应的文本向 量之间的余弦距离或欧式距离,确定出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则可以确定上述原始文本信息对应的类别未处于预设 类别内,可以将上述原始文本向量所对应的原始文本信息进行输出,或者,还 可以在上述原始文本向量所对应的原始文本信息上打上预设标记,并输出经过 标记处理后的原始文本信息,其中,上述预设标记可以用于指示上述原始文本 信息未处于上述预设类别所对应的文本空间区域。
这样,如果判断出上述原始文本向量未处于预设类别所对应的文本向量空 间区域,则确定上述原始文本信息对应的类别未处于预设类别内,并将原始文 本信息对应输出,或者,对上述原始文本向量所对应的原始文本信息上打上预 设标记,这样,后期可以通过检测上述输出的原始文本信息中是否携带有目标 类别标签,或者,可以通过检测上述输出的原始文本信息中是否携带有预设标 记即可确定出上述原始文本数据所属类别未处于上述预设类别中,从而避免了 强行根据相似性确定上述原始文本数据所属类别为预设类别的问题,进而有效 提高文本数据分类的准确度。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取待 处理的原始文本信息,对原始文本信息进行特征提取,得到与原始文本信息对 应的原始文本特征信息,将原始文本特征信息输入至预先训练的预设网络模型 中,得到与原始文本特征信息对应的原始文本向量,然后,通过判断原始文本 向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始文本信 息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别;若否, 则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本向量对 应的原始文本信息,这样,如果判断出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则确定上述原始文本信息对应的类别未处于预设类别 内,并输出与原始文本向量对应的原始文本信息,从而避免了强行根据相似性 确定上述原始文本数据所属类别为预设类别的问题,进而有效提高文本数据分 类的准确度。
进一步的,上述方法还可以用包括下述处理过程,具体可参见下述步骤 E2至步骤E10的具体处理过程。
在步骤E2中,获取用于训练预设网络模型的样本数据信息和样本数据信 息所对应的类别。
在实施中,服务器可以获取预设数量的用于训练预设网络模型的样本数据 信息以及各样本数据信息所对应的类别,该类别可以包括多个种类,例如,上 述样本数据信息可以是对商品的评论信息,相应的,上述样本数据信息所对应 的类别可以是“商品质量”、“商品价格”、“商品物流”等,具体的,例如,若 样本数据信息中包括“这件衣服的质量很好”、“这件衣服是棉麻材质的”、“这 件衣服的袖子有点短”、“这条裙子太长了”中的一项或多项,则样本数据信息 所对应的类别可以为“商品质量”。若样本数据信息中包括“这件衣服有点贵”、 “这件衣服的价格很亲民”、“这件衣服很便宜”中的一项或多项,则样本数据信息所对应的类别可以为“商品价格”。若样本数据信息中包括“早上下单, 下午就收到了”、“从这件衣服寄到北京需要几天”中的一项或多项,则样本数 据信息所对应的类别可以为“商品物流”。
在步骤E4中,将第一预设数量的样本数据信息和所对应的类别作为训练 样本数据信息输入至预先构建的预设网络模型的初始架构,以对预设网络模型 的初始架构进行训练得到初始架构所对应的初始模型参数信息。
其中,上述初始架构可以包括多个网络层,各网络层可以包括多个原始参 数。上述初始架构可以是基于预设的某种算法构建的,该初始架构的原始参数 可以为基于包含有预设类别所对应的文本向量构建的预设网络模型的参数信 息。
在步骤E6中,采用初始模型参数信息更新预设网络模型的初始架构的参 数信息,得到预设网络模型的第一架构。
其中,上述第一架构可以为采用上述得到的初始模型参数信息对上述初始 架构所对应的原始参数进行更新后得到的,其中,上述第一架构可以为基于预 设类别所对应的文本向量空间区域构建的,以上述预设类别为商品质量和商品 物流为例,上述商品质量所对应的文本向量空间区域可以分布在坐标轴的第一 象限,上述商品物流所对应的文本向量空间区域可以分布在坐标轴的第三象限。 上述第一架构所对应的初始模型参数信息可以为基于包含有预设类别所对应 的文本向量空间区域构建的预设网络模型的参数信息。
具体的,以上述预设类别为商品质量和商品物流为例,上述初始架构可以 为基于预设的某种算法构建的架构,该初始架构的原始参数可以为基于商品质 量和商品物流所对应的文本向量构建的预设网络模型的参数。上述第一架构可 以为在上述初始架构的基础上,将第一预设数量的样本数据信息和所对应的类 别作为训练样本数据信息输入至预先构建的预设网络模型的初始架构,以对初 始架构进行训练而得到初始架构所对应的初始模型参数信息,并基于上述初始 模型参数信息更新上述初始架构的原始参数后得到的。相应的,上述第一架构 所对应的初始模型参数信息可以为基于包含有商品质量和商品物流所对应的 文本向量空间区域构建的预设网络模型的参数信息。
在步骤E8中,将第二预设数量的样本数据信息作为验证样本数据信息输 入至预设网络模型的第一架构,通过预设网络模型的第一架构对样本数据信息 进行提取得到样本数据信息向量。
其中,上述第二预设数量可以与上述第一预设数量相同,或者,上述第二 预设数量也可以少于上述第一预设数量,上述作为验证样本数据信息的样本数 据信息与上述作为训练样本数据信息的样本数据信息可以相同也可以不同。
在步骤E10中,将样本数据信息向量输入至预设损失函数,通过预设损失 函数按照预设类别生成损失值,根据损失值对第一架构的参数信息进行训练调 整,将调整后得到的预设网络模型作为训练后的预设网络模型。
其中,上述预设损失函数可以是欧式空间类损失函数,或者,也可以是角 度空间类损失函数等,上述欧式空间类损失函数可以包括:中心损失函数、对 比损失函数和三元组损失函数等,上述这些欧式空间类损失函数可以通过限制 特征点之间的距离,实现“类内聚合、类间分散”的特征分布,在训练时,可 以产生一种“点对点”的约束力。上述角度空间类损失函数可以包括:ArcFace 损失函数、SphereFace损失函数、CosFace损失函数等,上述角度空间类损失 函数的损失目的在于从角度的方面限制特征点分布,即最小化类内特征点之间 的夹角、最大化类间特征点之间的夹角,在训练时,可以产生的是一种沿圆弧 的切向的约束力。
在实施中,服务器通过上述步骤E8的处理得到样本数据信息向量后,可 以将上述样本数据信息向量输入至预设损失函数中,通过上述预设损失函数按 照预设类别对本次训练迭代计算损失值,根据损失值的大小来判断是否停止训 练,同时,根据上述损失值对上述预设网络模型的第一架构的参数信息进行迭 代训练调整,直到迭代生成的目标损失值小于预设阈值的情况下,将基于目标 损失值对预设网络模型的架构的参数进行调整后的预设网络模型作为训练后 的预设网络模型。
进一步的,上述预设损失函数可以为ArcFace损失函数,上述步骤E10的 具体处理方式可以多种多样,以下再提供一种可选的处理方式,具体可以参见 下述步骤E102至步骤E108的具体处理过程。
在步骤E102中,将样本数据信息向量输入至ArcFace损失函数。
在步骤E104中,通过ArcFace损失函数按照预设类别确定相应的空间距 离。
在步骤E106中,基于空间距离以及预设类别生成损失值。
在步骤E108中,根据损失值对第一架构的参数信息进行训练调整,将调 整后得到的预设网络模型作为训练后的预设网络模型。
进一步的,上述方法还可以包括下述步骤B2至步骤B10的具体处理过程:
在步骤B2中,对样本数据信息向量及预设网络模型的初始架构中全连接 层的权重参数分别进行归一化处理。
在步骤B4中,基于归一化后的样本数据信息向量和经过归一化的权重参 数所对应的文本向量,确定样本数据信息向量与对应的文本向量之间的余弦距 离。
在步骤B6中,基于余弦距离,确定预设类别所对应的文本向量的初始角 度。
在步骤B8中,将预设类别所对应的文本向量的角度增加预设间隔值,得 到预设类别所对应的文本向量的角度。
在步骤B10中,根据预设类别所对应的文本向量的角度生成ArcFace损失 函数。
进一步的,上述预设损失函数可以为ArcFace损失函数,上述步骤S108 的具体实施方式可以多种多样,以下再提供一种可选的处理方法,具体可参见 下述步骤F2的具体处理过程。
在步骤F2中,计算原始文本向量与各预设类别所对应的文本向量之间的 余弦距离,通过判断是否存在至少一个余弦距离大于第一预设距离,以判断原 始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始 文本信息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别; 若否,则确定原始文本信息对应的类别未处于预设类别内,并输出与上述原始 文本向量对应的原始文本信息;其中,原始文本向量的起点与预设类别所对应 的文本向量的起点相同,预先训练的预设网络模型为基于预设类别的样本数据 进行有监督的训练得到的。
在实施中,服务器通过上述步骤S106的处理得到与上述原始文本特征信 息对应的原始文本向量之后,可以计算原始文本向量与各预设类别所对应的文 本向量之间的余弦距离,以上述预设类别的种类包括三类,上述预设类别分别 为商品质量、商品价格、商品物流为例,在服务器获取到与上述原始文本特征 信息对应的原始文本向量之后,可以基于上述原始文本向量的坐标信息以及各 预设类别所对应的文本向量的坐标信息,计算上述原始文本向量分别与上述商 品质量、商品价格、商品物流所对应的文本向量之间的余弦距离,以判断上述 原始文本向量是否处于预设类别所对应的文本向量空间区域,若存在上述原始 文本向量与商品质量所对应的文本向量之间的余弦距离,以及,上述原始文本 向量与商品物流所对应的文本向量之间的余弦距离大于第一预设距离,则可以 判断出上述原始文本向量处于预设类别为商品质量或商品物流所对应的文本 向量空间区域。若否,则确定原始文本信息对应的类别未处于预设类别内,并 将上述原始文本信息对应输出。
进一步的,服务器通过上述处理过程,判断出上述原始文本向量处于预设 类别为商品质量或商品物流所对应的文本向量空间区域之后,可以从计算出的 与各预设类别所对应的文本向量之间的余弦距离中获取数值最大的余弦距离; 获取最大的余弦距离所对应的目标类别,并确定原始文本信息对应的类别为目 标类别。
具体的,以上述步骤F2中的实施例为例,服务器在判断出上述原始文本 向量与商品质量所对应的文本向量之间的余弦距离,以及,上述原始文本向量 与商品物流所对应的文本向量之间的余弦距离大于第一预设距离的情况下,可 以基于上述计算出的原始文本向量与商品质量或商品物流所对应的文本向量 之间的余弦距离,从计算出的与商品质量或商品物流所对应的文本向量之间的 余弦距离中获取数值最大的余弦距离,若确定出与上述商品质量所对应的文本 向量之间的余弦距离为最大的余弦距离,则可以确定上述原始文本信息所对应 的类别为商品质量类别。
这样,由于上述训练后的预设网络模型是通过采用上述ArcFace损失函数 作为预设损失函数来计算损失值,并根据得到的损失值对上述预设网络模型的 架构参数进行迭代训练调整后得到的,使得上述得到的训练后的预设网络模型 基于预设类别并非完整分割全部高纬度球面,由于不同预设类别所对应的文本 向量空间区域存在角度上的空隙间隔(如图2所示,商品物流和商品价格之间 存在角度间隔m),可以将不同预设类别所对应的文本向量空间区域映射到高 纬度球面上的不同区域,同时,不同预设类别所对应的文本向量空间区域之间 存在角度上的间隔。这样,一旦出现待识别的文本数据信息所对应的类别不包 含在上述预设类别中时,可以通过将该文本数据信息所对应的文本向量映射在 上述角度间隔区域,从而有效解决了现有技术中文本分类器强行根据相似性给 不属于上述预设类别的文本数据强行贴上某已知预设类别标签的问题,进而有 效提高文本数据分类的准确度。
例如,如图3所示,以上述预设类别分别为商品质量、商品物流为例,商 品质量和商品物流所对应的文本向量空间分别映射到高纬度球面上的不同区 域,上述商品质量和商品物流所对应的文本向量空间区域之间存在角度上的间 隔,如图3所示,当待识别的文本数据信息所对应的类别不包含在上述预设类 别中时,可以通过将该文本数据信息所对应的文本向量映射在上述空隙间隔, 从而有效解决了现有技术中文本分类器强行根据相似性给不属于上述预设类 别的文本数据强行贴上某已知预设类别标签的问题,进而有效提高文本数据分 类的准确度。
具体的,可以通过计算原始文本向量与各预设类别所对应的文本向量之间 的余弦距离,通过上述计算出的余弦距离值的大小,可以确定出上述原始文本 信息是处于高纬度球面上预设类别所对应的文本向量空间区域,还是处于上述 空隙间隔,若通过计算确定出上述原始文本信息向量处于高纬度球面上某目标 类别所对应的文本向量空间区域,则可以确定上述原始文本信息对应的类别为 该目标类别,若通过计算确定出上述原始文本信息向量处于高纬度球面上空隙 间隔内,则可以确定上述原始文本信息对应的类别未处于上述预设类别内。这 样,如果判断出上述原始文本向量未处于预设类别所对应的文本向量空间区域, 则确定上述原始文本信息对应的类别未处于预设类别内,并输出与上述原始文 本向量对应的原始文本信息,从而避免了强行根据相似性确定上述原始文本数 据所属类别为预设类别的问题,进而有效提高文本数据分类的准确度。
进一步的,上述预设损失函数可以为交叉熵损失函数,上述步骤S108的 具体实施方式可以多种多样,以下再提供一种可选的处理方法,具体可参见下 述步骤F4的具体处理过程。
在步骤F4中,计算原始文本向量与各预设类别所对应的文本向量之间的 欧式距离;通过判断是否存在至少一个欧式距离小于第二预设距离,以判断原 始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始 文本信息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别; 若否,则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本 向量对应的原始文本信息。
在实施中,服务器通过上述步骤S106的处理得到与上述原始文本特征信 息对应的原始文本向量之后,可以计算原始文本向量与各预设类别所对应的文 本向量之间的欧式距离,以上述预设类别的种类包括三类,上述预设类别分别 为商品质量、商品价格、商品物流为例,在服务器获取到与上述原始文本特征 信息对应的原始文本向量之后,可以基于上述原始文本向量的坐标信息以及各 预设类别所对应的文本向量的坐标信息,计算上述原始文本向量分别与上述商 品质量、商品价格、商品物流所对应的文本向量之间的欧式距离,以判断上述 原始文本向量是否处于预设类别所对应的文本向量空间区域,若存在上述原始 文本向量与商品质量所对应的文本向量之间的欧式距离,以及,上述原始文本 向量与商品物流所对应的文本向量之间的欧式距离小于第二预设距离,则可以 判断出上述原始文本向量处于预设类别为商品质量或商品物流所对应的文本 向量空间区域,若否,则确定原始文本信息对应的类别未处于预设类别内,并 输出与上述原始文本信息向量对应的原始文本信息。
进一步的,服务器通过上述处理过程,判断出上述原始文本向量处于预设 类别为商品质量或商品物流所对应的文本向量空间区域之后,可以从计算出的 与各预设类别所对应的文本向量之间的欧式距离中获取数值最小的目标欧式 距离;获取最小的欧式距离所对应的目标类别,并确定原始文本信息对应的类 别为目标类别。
具体的,以上述步骤F4中的实施例为例,服务器在判断出上述原始文本 向量与商品质量所对应的文本向量之间的欧式距离,以及,上述原始文本向量 与商品物流所对应的文本向量之间的欧式距离小于第二预设距离的情况下,可 以基于上述计算出的原始文本向量与商品质量或商品物流所对应的文本向量 之间的欧式距离,从计算出的与商品质量或商品物流所对应的文本向量之间的 欧式距离中获取数值最小的欧式距离,若确定出与上述商品质量所对应的文本 向量之间的欧式距离小于与上述商品物流所对应的文本向量之间的距离,则可 以确定出上述原始文本向量与上述商品质量所对应的文本向量之间的欧式距 离为最小的欧式距离,进而可以确定上述原始文本信息所对应的类别为商品质 量类别。
这样,通过采用上述交叉熵损失函数作为预设损失函数来计算损失值,并 根据得到的损失值对上述预设网络模型的架构参数进行迭代调整直到得到训 练后的预设网络模型的方法,虽然,得到的上述预设网络模型基于预设类别完 整分割了全部高纬度球面,但是由于分布在上述高纬度球面上的训练样本大多 数是集中分布,并非是均匀散落分布,因此,可以通过检测待识别的原始文本 向量是否处于高纬度球面上的训练样本集中分布的区域来判断原始文本向量 是否处于预设类别所对应的文本向量空间区域,若检测出上述待识别的原始文 本向量处于高纬度球面上的训练样本集中分布的区域,则可以则确定上述原始 文本信息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别, 若检测出上述待识别的原始文本向量处于高纬度球面上的训练样本散落分布 的区域,则可以确定上述原始文本信息对应的类别未处于预设类别内,并输出 与原始文本向量对应的原始文本信息,从而有效解决了现有技术中文本分类器 强行根据相似性给不属于上述预设类别的文本数据强行贴上某已知预设类别 标签的问题,进而有效提高文本数据分类的准确度。
例如,如图4所示,以上述预设类别分别为商品质量、商品物流为例,上 述基于交叉熵损失函数得到的上述预设网络模型基于商品质量、商品物流完整 分割了全部的高纬度球面,如左半球对应的是商品价格,右半球对应的是商品 物流,上述高纬度球面上的阴影部分所对应的区域分别为商品价格和商品物流 所对应的训练样本集中分布的区域,上述高纬度球面上的空白部分所对应的区 域分别为商品价格和商品物流所对应的训练样本散落分布的区域,这样,可以 通过检测待识别的原始文本向量是否处于高纬度球面上的训练样本集中分布 的区域来判断原始文本向量是否处于预设类别所对应的文本向量空间区域,若 检测出上述待识别的原始文本向量处于高纬度球面上的训练样本集中分布的 区域,则可以则确定上述原始文本信息对应的类别为原始文本向量所在文本向 量空间区域对应的目标类别,若检测出上述待识别的原始文本向量处于高纬度 球面上的训练样本散落分布的区域,则可以确定上述原始文本信息对应的类别 未处于预设类别内,并输出与原始文本向量对应的原始文本信息,从而有效解 决了现有技术中文本分类器强行根据相似性给不属于上述预设类别的文本数 据强行贴上某已知预设类别标签的问题,进而有效提高文本数据分类的准确度。
具体的,可以通过计算原始文本向量与各预设类别所对应的文本向量之间 的欧式距离,通过上述计算出的欧式距离值的大小,可以确定出上述原始文本 信息是处于高纬度球面上集中分布区域,还是散落分布的区域,若通过计算确 定出上述原始文本信息向量处于高纬度球面上某目标类别集中分布区域,则可 以确定上述原始文本信息对应的类别为该目标类别,若通过计算确定出上述原 始文本信息向量处于高纬度球面上某目标类别散落分布区域,且该原始文本信 息向量距离该目标类别所对应的文本向量之间的距离大于某一预设距离,则可 以确定上述原始文本信息对应的类别未处于上述预设类别内。这样,如果判断 出上述原始文本向量未处于预设类别所对应的文本向量空间区域,则确定上述 原始文本信息对应的类别未处于预设类别内,并输出与上述原始文本向量对应 的原始文本信息,从而避免了强行根据相似性确定上述原始文本数据所属类别 为预设类别的问题,进而有效提高文本数据分类的准确度。
进一步的,上述步骤S104的具体处理过程可以多种多样,以下再提供一 种可选的处理方法,具体可以参见下述步骤K2的具体处理过程。
在步骤K2中,将原始文本信息输入至ALBERT网络模型或神经网络模型 中,通过ALBERT网络模型或神经网络模型对原始文本信息进行特征提取, 得到与原始文本信息对应的原始文本特征信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取待 处理的原始文本信息,对原始文本信息进行特征提取,得到与原始文本信息对 应的原始文本特征信息,将原始文本特征信息输入至预先训练的预设网络模型 中,得到与原始文本特征信息对应的原始文本向量,然后,通过判断原始文本 向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始文本信 息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别;若否, 则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本向量对 应的原始文本信息,这样,如果判断出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则确定上述原始文本信息对应的类别未处于预设类别 内,并输出与原始文本向量对应的原始文本信息,从而避免了强行根据相似性 确定上述原始文本数据所属类别为预设类别的问题,进而有效提高文本数据分 类的准确度。
对应上述实施例提供的信息的处理方法,基于相同的技术构思,本说明书 实施例还提供了一种信息的处理装置,图5为本说明书实施例提供的信息的处 理装置的模块组成示意图,该信息的处理装置用于执行上述图1-图4描述的信 息的处理方法,如图5所示,该装置包括:
第一获取模块501,获取待处理的原始文本信息;
特征提取模块502,对所述原始文本信息进行特征提取,得到与所述原始 文本信息对应的原始文本特征信息;
第一输入模块503,将所述原始文本特征信息输入至预先训练的预设网络 模型中,得到与所述原始文本特征信息对应的原始文本向量;
第一处理模块504,判断所述原始文本向量是否处于预设类别所对应的文 本向量空间区域,若是,则确定所述原始文本信息对应的类别为所述原始文本 向量所在文本向量空间区域对应的目标类别;若否,则确定所述原始文本信息 对应的类别未处于所述预设类别内,并输出与所述原始文本向量对应的所述原 始文本信息;其中,所述原始文本向量的起点与所述预设类别所对应的文本向 量的起点相同,所述预先训练的预设网络模型为基于所述预设类别的样本数据 进行有监督的训练得到的。
可选地,所述装置还包括:
第二获取模块,获取用于训练所述预设网络模型的样本数据信息和所述样 本数据信息所对应的类别;
第二输入模块,将第一预设数量的样本数据信息和所对应的类别作为训练 样本数据信息输入至预先构建的预设网络模型的初始架构,以对所述预设网络 模型的初始架构进行训练得到初始架构所对应的初始模型参数信息;
信息更新模块,采用所述初始模型参数信息更新所述预设网络模型的初始 架构的参数信息,得到预设网络模型的第一架构;
第二处理模块,将第二预设数量的样本数据信息作为验证样本数据信息输 入至所述预设网络模型的第一架构,通过所述预设网络模型的第一架构对所述 样本数据信息进行提取得到样本数据信息向量;
第三处理模块,将所述样本数据信息向量输入至预设损失函数,通过所述 预设损失函数按照预设类别生成损失值,根据所述损失值对所述第一架构的参 数信息进行训练调整,将调整后得到的所述预设网络模型作为训练后的预设网 络模型。
可选地,所述预设损失函数为ArcFace损失函数,所述第三处理模块,包 括:
信息输入单元,将所述样本数据信息向量输入至ArcFace损失函数;
距离确定单元,通过所述ArcFace损失函数按照预设类别确定相应的空间 距离;
生成单元,基于所述空间距离以及所述预设类别生成损失值;
调整单元,根据所述损失值对所述第一架构的参数信息进行训练调整,将 调整后得到的所述预设网络模型作为训练后的预设网络模型。
可选地,所述装置还包括:
第四处理模块,对所述样本数据信息向量及预设网络模型的初始架构中全 连接层的权重参数分别进行归一化处理;
第五处理模块,基于归一化后的所述样本数据信息向量和经过归一化的所 述权重参数所对应的文本向量,确定所述样本数据信息向量与对应的所述文本 向量之间的余弦距离;
角度确定模块,基于所述余弦距离,确定预设类别所对应的文本向量的初 始角度;
角度调整模块,将所述预设类别所对应的文本向量的角度增加预设间隔值, 得到预设类别所对应的文本向量的角度;
损失函数生成模块,根据所述预设类别所对应的文本向量的角度生成 ArcFace损失函数。
可选地,所述第一处理模块,包括:
第一计算单元,计算所述原始文本向量与各所述预设类别所对应的文本向 量之间的余弦距离;
第一判断单元,通过判断是否存在至少一个所述余弦距离大于第一预设距 离,以判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域。
可选地,所述第一处理模块,包括:
第一获取单元,从计算出的与各所述预设类别所对应的文本向量之间的余 弦距离中获取数值最大的余弦距离;
第一处理单元,获取所述最大的余弦距离所对应的目标类别,并确定所述 原始文本信息对应的类别为所述目标类别。
可选地,所述预设损失函数为交叉熵损失函数,所述第一处理模块,包括:
第二计算单元,计算所述原始文本向量与各所述预设类别所对应的文本向 量之间的欧式距离;
第二判断单元,通过判断是否存在至少一个所述欧式距离小于第二预设距 离,以判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域。
可选地,所述第一处理模块,包括:
第二获取单元,从计算出的与各所述预设类别所对应的文本向量之间的欧 式距离中获取数值最小的欧式距离;
第二处理单元,获取所述最小的欧式距离所对应的目标类别,并确定所述 原始文本信息对应的类别为所述目标类别。
可选地,所述特征提取模块,将所述原始文本信息输入至ALBERT网络 模型或神经网络模型中,通过所述ALBERT网络模型或神经网络模型对所述 原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信 息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取待 处理的原始文本信息,对原始文本信息进行特征提取,得到与原始文本信息对 应的原始文本特征信息,将原始文本特征信息输入至预先训练的预设网络模型 中,得到与原始文本特征信息对应的原始文本向量,然后,通过判断原始文本 向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始文本信 息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别;若否, 则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本向量对 应的原始文本信息,这样,如果判断出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则确定上述原始文本信息对应的类别未处于预设类别 内,并输出与原始文本向量对应的原始文本信息,从而避免了强行根据相似性 确定上述原始文本数据所属类别为预设类别的问题,进而有效提高文本数据分 类的准确度。
本说明书实施例提供的信息的处理装置能够实现上述信息的处理方法对 应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本说明书实施例提供的信息的处理装置与本说明书实施例 提供的信息的处理方法基于同一发明构思,因此该实施例的具体实施可以参见 上述信息的处理方法的实施,重复之处不再赘述。
对应上述实施例提供的信息的处理方法,基于相同的技术构思,本说明书 实施例还提供了一种信息的处理设备,如图6所示。图6为本说明书实施例提 供的信息的处理设备的硬件结构示意图,该信息的处理设备用于执行图1-图4 描述的信息的处理方法。
信息的处理设备可因配置或性能不同而产生比较大的差异,可以包括一个 或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个 以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存 储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每 个模块可以包括对任务的分配设备中的一系列计算机可执行指令。更进一步地, 处理器601可以设置为与存储器602通信,在数据访问设备上执行存储器602 中的一系列计算机可执行指令。数据访问设备还可以包括一个或一个以上电源 603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,信息的处理设备包括有存储器,以及一个或一个以上 的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程 序可以包括一个或一个以上模块,且每个模块可以包括对任务的分配设备中的 一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个 或者一个以上程序包含用于进行以下计算机可执行指令:
获取待处理的原始文本信息;
对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始 文本特征信息;
将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述 原始文本特征信息对应的原始文本向量;
判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,若 是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空 间区域对应的目标类别;若否,则确定所述原始文本信息对应的类别未处于所 述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息;其中, 所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同,所述 预先训练的预设网络模型为基于所述预设类别的样本数据进行有监督的训练 得到的。
可选地,所述方法还包括:
获取用于训练所述预设网络模型的样本数据信息和所述样本数据信息所 对应的类别;
将第一预设数量的样本数据信息和所对应的类别作为训练样本数据信息 输入至预先构建的预设网络模型的初始架构,以对所述预设网络模型的初始架 构进行训练得到初始架构所对应的初始模型参数信息;
采用所述初始模型参数信息更新所述预设网络模型的初始架构的参数信 息,得到预设网络模型的第一架构;
将第二预设数量的样本数据信息作为验证样本数据信息输入至所述预设 网络模型的第一架构,通过所述预设网络模型的第一架构对所述样本数据信息 进行提取得到样本数据信息向量;
将所述样本数据信息向量输入至预设损失函数,通过所述预设损失函数按 照预设类别生成损失值,根据所述损失值对所述第一架构的参数信息进行训练 调整,将调整后得到的所述预设网络模型作为训练后的预设网络模型。
可选地,所述预设损失函数为ArcFace损失函数,所述将所述样本数据信 息向量输入至预设损失函数,通过所述预设损失函数按照预设类别生成损失值, 根据所述损失值对所述第一架构的参数信息进行训练调整,将调整后得到的所 述预设网络模型作为训练后的预设网络模型,包括:
将所述样本数据信息向量输入至ArcFace损失函数;
通过所述ArcFace损失函数按照预设类别确定相应的空间距离;
基于所述空间距离以及所述预设类别生成损失值;
根据所述损失值对所述第一架构的参数信息进行训练调整,将调整后得到 的所述预设网络模型作为训练后的预设网络模型。
可选地,所述方法还包括:
对所述样本数据信息向量及预设网络模型的初始架构中全连接层的权重 参数分别进行归一化处理;
基于归一化后的所述样本数据信息向量和经过归一化的所述权重参数所 对应的文本向量,确定所述样本数据信息向量与对应的所述文本向量之间的余 弦距离;
基于所述余弦距离,确定预设类别所对应的文本向量的初始角度;
将所述预设类别所对应的文本向量的角度增加预设间隔值,得到预设类别 所对应的文本向量的角度;
根据所述预设类别所对应的文本向量的角度生成ArcFace损失函数。
可选地,所述判断所述原始文本向量是否处于预设类别所对应的文本向量 空间区域,包括:
计算所述原始文本向量与各所述预设类别所对应的文本向量之间的余弦 距离;
通过判断是否存在至少一个所述余弦距离大于第一预设距离,以判断所述 原始文本向量是否处于预设类别所对应的文本向量空间区域。
可选地,所述确定所述原始文本信息对应的类别为所述原始文本向量所在 文本向量空间区域对应的目标类别,包括:
从计算出的与各所述预设类别所对应的文本向量之间的余弦距离中获取 数值最大的余弦距离;
获取所述最大的余弦距离所对应的目标类别,并确定所述原始文本信息对 应的类别为所述目标类别。
可选地,所述预设损失函数为交叉熵损失函数,所述判断所述原始文本向 量是否处于预设类别所对应的文本向量空间区域,包括:
计算所述原始文本向量与各所述预设类别所对应的文本向量之间的欧式 距离;
通过判断是否存在至少一个所述欧式距离小于第二预设距离,以判断所述 原始文本向量是否处于预设类别所对应的文本向量空间区域。
可选地,所述确定所述原始文本信息对应的类别为所述原始文本向量所在 文本向量空间区域对应的目标类别,包括:
从计算出的与各所述预设类别所对应的文本向量之间的欧式距离中获取 数值最小的欧式距离;
获取所述最小的欧式距离所对应的目标类别,并确定所述原始文本信息对 应的类别为所述目标类别。
可选地,所述对所述原始文本信息进行特征提取,得到与所述原始文本信 息对应的原始文本特征信息,包括:
将所述原始文本信息输入至ALBERT网络模型或神经网络模型中,通过 所述ALBERT网络模型或神经网络模型对所述原始文本信息进行特征提取, 得到与所述原始文本信息对应的原始文本特征信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取待 处理的原始文本信息,对原始文本信息进行特征提取,得到与原始文本信息对 应的原始文本特征信息,将原始文本特征信息输入至预先训练的预设网络模型 中,得到与原始文本特征信息对应的原始文本向量,然后,通过判断原始文本 向量是否处于预设类别所对应的文本向量空间区域,若是,则确定原始文本信 息对应的类别为原始文本向量所在文本向量空间区域对应的目标类别;若否, 则确定原始文本信息对应的类别未处于预设类别内,并输出与原始文本向量对 应的原始文本信息,这样,如果判断出上述原始文本向量未处于预设类别所对 应的文本向量空间区域,则确定上述原始文本信息对应的类别未处于预设类别 内,并输出与原始文本向量对应的原始文本信息,从而避免了强行根据相似性 确定上述原始文本数据所属类别为预设类别的问题,进而有效提高文本数据分 类的准确度。
进一步的,对应上述实施例提供的信息的处理方法,本说明书实施例还提 供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该 计算机程序被处理器601执行时实现如上述信息的处理方法实施例的各步骤, 且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机 可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存 储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,本说明书实施例提供的信息的处理设备和计算机可读存储 介质能够实现上述信息的处理方法实施例中的各个过程,为避免重复,这里不 再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的 范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实 施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过 程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施 方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计 算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本说明书实施例的方法、设备(***)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图 和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌 入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计 算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输 出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任 何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序 的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其 他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读 存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁 盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设 备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
可以理解的是,本说明书实施例描述的这些实施例可以用硬件、软件、固 件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个 或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号 处理器(DigitalSignal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、 可编程逻辑设备(Programmable Logic Device,PLD)、现场可编程门阵列 (Field-Programmable GateArray,FPGA)、通用处理器、控制器、微控制器、微 处理器、用于执行本发明所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本说明书实施例所述功能的模块(例如过程、 函数等)来实现本说明书实施例所述的技术。软件代码可存储在存储器中并通 过处理器执行。存储器可以在处理器中或在处理器外部实现。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者 设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、 商品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方 案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来, 该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包 括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者 网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述 的具体实施方式,上述具体实施方式仅仅是示意性的,而不是限制性的,本领 域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护 的范围情况下,本发明可以有各种更改和变化。凡在本发明的精神和原理之内 所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (12)

1.一种信息的处理方法,所述方法包括:
获取待处理的原始文本信息;
对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息;
将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述原始文本特征信息对应的原始文本向量;
判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别;若否,则确定所述原始文本信息对应的类别未处于所述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息;其中,所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的预设网络模型为基于欧式空间类损失函数或角度空间类损失函数,以及所述预设类别的样本数据进行有监督的训练得到的,所述欧式空间类损失函数通过限制特征点之间的距离,实现类内聚合和类间分散的特征分布,用于产生点对点的约束力,所述角度空间类损失函数用于从角度的方面限制特征点分布,以最小化类内特征点之间的夹角、最大化类间特征点之间的夹角,并用于产生沿圆弧的切向的约束力。
2.根据权利要求1所述的方法,所述方法还包括:
获取用于训练所述预设网络模型的样本数据信息和所述样本数据信息所对应的类别;
将第一预设数量的样本数据信息和所对应的类别作为训练样本数据信息输入至预先构建的预设网络模型的初始架构,以对所述预设网络模型的初始架构进行训练得到初始架构所对应的初始模型参数信息;
采用所述初始模型参数信息更新所述预设网络模型的初始架构的参数信息,得到预设网络模型的第一架构;
将第二预设数量的样本数据信息作为验证样本数据信息输入至所述预设网络模型的第一架构,通过所述预设网络模型的第一架构对所述样本数据信息进行提取得到样本数据信息向量;
将所述样本数据信息向量输入至预设损失函数,通过所述预设损失函数按照预设类别生成损失值,根据所述损失值对所述第一架构的参数信息进行训练调整,将调整后得到的所述预设网络模型作为训练后的预设网络模型。
3.根据权利要求2所述的方法,所述预设损失函数为ArcFace损失函数,所述将所述样本数据信息向量输入至预设损失函数,通过所述预设损失函数按照预设类别生成损失值,根据所述损失值对所述第一架构的参数信息进行训练调整,将调整后得到的所述预设网络模型作为训练后的预设网络模型,包括:
将所述样本数据信息向量输入至ArcFace损失函数;
通过所述ArcFace损失函数按照预设类别确定相应的空间距离;
基于所述空间距离以及所述预设类别生成损失值;
根据所述损失值对所述第一架构的参数信息进行训练调整,将调整后得到的所述预设网络模型作为训练后的预设网络模型。
4.根据权利要求3所述的方法,所述方法还包括:
对所述样本数据信息向量及预设网络模型的初始架构中全连接层的权重参数分别进行归一化处理;
基于归一化后的所述样本数据信息向量和经过归一化的所述权重参数所对应的文本向量,确定所述样本数据信息向量与对应的所述文本向量之间的余弦距离;
基于所述余弦距离,确定预设类别所对应的文本向量的初始角度;
将所述预设类别所对应的文本向量的角度增加预设间隔值,得到预设类别所对应的文本向量的角度;
根据所述预设类别所对应的文本向量的角度生成ArcFace损失函数。
5.根据权利要求4所述的方法,所述判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,包括:
计算所述原始文本向量与各所述预设类别所对应的文本向量之间的余弦距离;
通过判断是否存在至少一个所述余弦距离大于第一预设距离,以判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域。
6.根据权利要求5所述的方法,所述确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别,包括:
从计算出的与各所述预设类别所对应的文本向量之间的余弦距离中获取数值最大的余弦距离;
获取所述最大的余弦距离所对应的目标类别,并确定所述原始文本信息对应的类别为所述目标类别。
7.根据权利要求2所述的方法,所述预设损失函数为交叉熵损失函数,所述判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,包括:
计算所述原始文本向量与各所述预设类别所对应的文本向量之间的欧式距离;
通过判断是否存在至少一个所述欧式距离小于第二预设距离,以判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域。
8.根据权利要求7所述的方法,所述确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别,包括:
从计算出的与各所述预设类别所对应的文本向量之间的欧式距离中获取数值最小的欧式距离;
获取所述最小的欧式距离所对应的目标类别,并确定所述原始文本信息对应的类别为所述目标类别。
9.根据权利要求1所述的方法,所述对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息,包括:
将所述原始文本信息输入至ALBERT网络模型或神经网络模型中,通过所述ALBERT网络模型或神经网络模型对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息。
10.一种信息的处理装置,所述装置包括:
第一获取模块,获取待处理的原始文本信息;
特征提取模块,对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息;
第一输入模块,将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述原始文本特征信息对应的原始文本向量;
第一处理模块,判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别;若否,则确定所述原始文本信息对应的类别未处于所述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息;其中,所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的预设网络模型为基于欧式空间类损失函数或角度空间类损失函数,以及所述预设类别的样本数据进行有监督的训练得到的,所述欧式空间类损失函数通过限制特征点之间的距离,实现类内聚合和类间分散的特征分布,用于产生点对点的约束力,所述角度空间类损失函数用于从角度的方面限制特征点分布,以最小化类内特征点之间的夹角、最大化类间特征点之间的夹角,并用于产生沿圆弧的切向的约束力。
11.一种信息的处理设备,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待处理的原始文本信息;
对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息;
将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述原始文本特征信息对应的原始文本向量;
判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别;若否,则确定所述原始文本信息对应的类别未处于所述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息;其中,所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的预设网络模型为基于欧式空间类损失函数或角度空间类损失函数,以及所述预设类别的样本数据进行有监督的训练得到的,所述欧式空间类损失函数通过限制特征点之间的距离,实现类内聚合和类间分散的特征分布,用于产生点对点的约束力,所述角度空间类损失函数用于从角度的方面限制特征点分布,以最小化类内特征点之间的夹角、最大化类间特征点之间的夹角,并用于产生沿圆弧的切向的约束力。
12.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待处理的原始文本信息;
对所述原始文本信息进行特征提取,得到与所述原始文本信息对应的原始文本特征信息;
将所述原始文本特征信息输入至预先训练的预设网络模型中,得到与所述原始文本特征信息对应的原始文本向量;
判断所述原始文本向量是否处于预设类别所对应的文本向量空间区域,若是,则确定所述原始文本信息对应的类别为所述原始文本向量所在文本向量空间区域对应的目标类别;若否,则确定所述原始文本信息对应的类别未处于所述预设类别内,并输出与所述原始文本向量对应的所述原始文本信息;其中,所述原始文本向量的起点与所述预设类别所对应的文本向量的起点相同,所述预先训练的预设网络模型为基于欧式空间类损失函数或角度空间类损失函数,以及所述预设类别的样本数据进行有监督的训练得到的,所述欧式空间类损失函数通过限制特征点之间的距离,实现类内聚合和类间分散的特征分布,用于产生点对点的约束力,所述角度空间类损失函数用于从角度的方面限制特征点分布,以最小化类内特征点之间的夹角、最大化类间特征点之间的夹角,并用于产生沿圆弧的切向的约束力。
CN202110103515.4A 2021-01-26 2021-01-26 一种信息的处理方法、装置及设备 Active CN112818119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103515.4A CN112818119B (zh) 2021-01-26 2021-01-26 一种信息的处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103515.4A CN112818119B (zh) 2021-01-26 2021-01-26 一种信息的处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112818119A CN112818119A (zh) 2021-05-18
CN112818119B true CN112818119B (zh) 2022-12-02

Family

ID=75859284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103515.4A Active CN112818119B (zh) 2021-01-26 2021-01-26 一种信息的处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112818119B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
EP3454260A1 (en) * 2017-09-11 2019-03-13 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗***有限公司 结构化数据提取装置、方法及存储介质
US20220147717A1 (en) * 2019-02-27 2022-05-12 Sigma Ratings, Inc. Automatic identifying system and method
CN110362677B (zh) * 2019-05-31 2022-12-27 平安科技(深圳)有限公司 文本数据类别的识别方法及装置、存储介质、计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法

Also Published As

Publication number Publication date
CN112818119A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN109117831B (zh) 物体检测网络的训练方法和装置
CN108418825B (zh) 风险模型训练、垃圾账号检测方法、装置以及设备
CN109214421B (zh) 一种模型训练方法、装置、及计算机设备
AU2014350727B2 (en) Face positioning method and device
CN114399629A (zh) 一种目标检测模型的训练方法、目标检测的方法和装置
CN109711508B (zh) 图像处理方法和装置
CN111858843B (zh) 一种文本分类方法及装置
CN113312667A (zh) 一种风险防控方法、装置及设备
CN111428805B (zh) 显著性物体的检测方法、模型、存储介质及电子设备
KR102502985B1 (ko) 대상 추천 방법, 신경망 및 그 훈련 방법, 장치 및 매체
CN109597982B (zh) 摘要文本识别方法及装置
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN113177449A (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN108229564B (zh) 一种数据的处理方法、装置及设备
TWI713019B (zh) 資料標籤產生、模型訓練、事件識別方法和裝置
CN115712866A (zh) 数据处理方法、装置及设备
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN107016028B (zh) 数据处理方法及其设备
CN112818119B (zh) 一种信息的处理方法、装置及设备
CN110852261B (zh) 目标检测方法、装置、电子设备和可读存储介质
CN111160410B (zh) 一种物体检测方法和装置
CN110705633B (zh) 目标物检测、目标物检测模型的建立方法及装置
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN115358777A (zh) 虚拟世界的广告投放处理方法及装置
CN113992429B (zh) 一种事件的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant