CN114925198A - 一种融合字符信息的知识驱动文本分类方法 - Google Patents

一种融合字符信息的知识驱动文本分类方法 Download PDF

Info

Publication number
CN114925198A
CN114925198A CN202210374165.XA CN202210374165A CN114925198A CN 114925198 A CN114925198 A CN 114925198A CN 202210374165 A CN202210374165 A CN 202210374165A CN 114925198 A CN114925198 A CN 114925198A
Authority
CN
China
Prior art keywords
entity
word
knowledge
character
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210374165.XA
Other languages
English (en)
Other versions
CN114925198B (zh
Inventor
金天成
窦亮
周爱民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210374165.XA priority Critical patent/CN114925198B/zh
Publication of CN114925198A publication Critical patent/CN114925198A/zh
Application granted granted Critical
Publication of CN114925198B publication Critical patent/CN114925198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合字符信息的知识驱动文本分类方法,其特点是该方法包括:获取词语序列和字符序列;提取词语所对应的实体,与知识图谱中的实体相关联,获取实体序列;查询知识图谱嵌入模型,获取实体序列的实体嵌入矩阵;搜索实体序列的上下文实体集来计算得到上下文嵌入矩阵;查询词嵌入模型,获取词语序列的词嵌入矩阵;查询字符嵌入模型,获取字符序列的字符嵌入矩阵;将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入CNN得到融合外部知识的表征向量;将字符嵌入矩阵输入另一个CNN获取字符表征向量;使用两个表征向量进行文本分类。本发明与现有技术相比具有更高的文本分类准确率,方法简便,并能够给出更准确的分类结果。

Description

一种融合字符信息的知识驱动文本分类方法
技术领域
本发明涉及文本分类与深度学习技术领域,具体涉及一种融合字符信息的知识驱动文本分类方法。
背景技术
随着互联网的不断发展,媒体通常使用网站和微信公众号等来发布信息,人们也经常通过博客、论坛等来表达自己的观点,互联网文本数据的规模急速增长。文本分类是管理和组织这些网络文本信息的关键技术之一,可以用来过滤垃圾邮件和短信、分析人类的情感,以及学习人们阅读新闻的偏好从而实现新闻推荐等重要任务。
随着机器学习的快速发展,目前已有许多利用机器学习实现文本分类的方法,如使用Word2vec将文本中每个词向量化,输入到卷积神经网络、循环神经网络、支持向量机、随机森林或者K近邻等算法或模型中,从而得到文本分类的结果。然而,这些方法一般仅从文本的词语层面进行表示学习,没有考虑文本隐含的外部知识,未充分挖掘文本在知识层面的联系。典型的例子是在处理新闻分类任务时,新闻语言通常由大量的知识实体组成,比如训练集中有一条标题为“特斯拉在高速公路自动驾驶,司机乘客在车里呼呼大睡”的汽车类新闻,测试集中有一条标题为“福特领界领衔福特家族,成都展览备受瞩目”的新闻,这两句标题分别包含“特斯拉”和“福特”这两个知识实体,都代表了汽车品牌,这两条新闻有一定知识层面的关联。然而仅从文本的词语层面进行表示学习的模型只能根据词语所处的上、下文语境来判断词语的关联性,很难挖掘出像“特斯拉”与“福特”这两个词语在知识层面的关联性,从而可能导致测试集中的有关“福特”的新闻没有被分到“汽车”类新闻中,使得分类不准确。
除了词语和知识信息以外,很多文本分类方法还忽略了字符信息,字符信息对文本分类的结果也有重要影响。例如,测试集中有一句文本为“你很明智”,而“明智”对于知识库和通过训练集预先训练的词向量集合而言是一个新词语。若文本分类方法没有考虑字符信息,则“明智”无法被识别。若文本分类方法考虑了字符信息,虽然训练集的文本中没有“明智”这个词,但却有词语“智慧”,文本分类方法可以通过“智”这个字符在“智慧”与“明智”这两个词的文本之间建立联系,从而改善文本分类效果。
发明内容
本发明的目的是针对现有技术的不足而设计的一种融合字符信息的知识驱动文本分类方法,采用知识图谱作为外部知识的载体,利用外部知识辅助文本分类任务,并考虑文本的字符信息,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,同时使用文本的字符特征捕获更细粒度的语义信息,充分考虑了文本中隐含的外部知识和字符信息,从而使该方法具有更高的文本分类性能,方法简便,可进一步提高了文本分类的准确率。
本发明的目的是这样实现的:一种融合字符信息的知识驱动文本分类方法,其特点是该方法以知识图谱作为外部知识的载体,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,从而使文本分类方法能够更好地理解文本内容,给出更准确的分类结果,具体包括以下步骤:
S1:对文本进行预处理,获取待分类文本的词语序列和字符序列;
S2:提取文本中词语所对应的实体,并与知识图谱中的实体相关联,获取实体序列;
S3:查询通过知识子图预训练的知识图谱嵌入模型,获取实体序列的实体嵌入矩阵,矩阵的每一行为各实体的嵌入向量;
S4:搜索每个实体的上下文实体集来计算实体的上下文向量,得到实体序列的上下文嵌入矩阵;
S5:查询预训练的词嵌入模型,获取词语序列的词嵌入矩阵;
S6:查询预训练的字符嵌入模型,获取字符序列的字符嵌入矩阵;
S7:将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量;
S8:将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量;
S9:使用融合外部知识的表征向量和字符表征向量进行文本分类。
所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得,字符序列由文本中的每个字符所构成。将包含n个词语的待分类文本t的词语序列定义为w1:n=[w1,w2,...,wn],其中wi表示文本中第i个词语。
所述步骤S2具体包括:利用命名实体识别技术识别出待分类文本中词语是否指代实体,并通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体,由这些目标实体构成实体序列。
所述步骤S3具体包括:从知识图谱中获取语料库中的词语所指代的实体的三元组知识,用来构建知识子图。使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型,通过知识图谱嵌入模型映射可获得词语wi对应实体ei的实体向量ei∈Rk×1,其中,k是实体向量的维度。实体嵌入矩阵则由知识图谱嵌入模型映射获得,其中实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。
所述步骤S4具体包括:搜索并使用实体序列中每个实体的上下文实体集(即实体在知识子图中的近邻实体)来计算实体的上下文向量,以得到更多互补和有意义的信息。实体e的上下文实体集由下述(a)式定义:
context(e)={ei|(e,r,ei)∈G or(ei,r,e)∈G}(a);
其中:r代表一个关系;G代表知识子图。
在获得了实体的上下文实体集后,实体的上下文向量可通过下述(b)式进行计算:
Figure BDA0003590120300000031
其中:ei是实体ei的向量。
所述实体序列的上下文嵌入矩阵由实体的上下文向量构成,矩阵的每一行为实体序列中每一个实体对应的上下文向量。
所述步骤S5中词语序列的词嵌入矩阵是通过预训练或随机初始化的词嵌入模型映射获得的,其中词嵌入矩阵的每一行为词语序列中每一个词语对应的词嵌入向量。文本t的词嵌入矩阵由下述(c)式表示为:
w1:n=[w1,w2,...,wn]∈Rd×n (c);
其中:wi∈Rd×1是文本中第i个词语wi的词向量;d是词向量的维度。
所述步骤S6中字符序列的字符嵌入矩阵是通过预训练或随机初始化的字符嵌入模型映射获得的,其中字符嵌入矩阵的每一行为字符序列中每一个字符对应的字符嵌入向量。
所述步骤S7具体包括:通过下述非线性公式(d)~(e)转换词语wi对应实体ei的实体向量ei和实体上下文向量
Figure BDA0003590120300000032
使其维度与词向量一致:
g(ei)=tanh(Mei+b) (d);
Figure BDA0003590120300000033
其中:M∈Rd×k是可训练的转换矩阵;b∈Rd×1是可训练的偏置项。
然后,将词嵌入矩阵、实体嵌入矩阵和上下文嵌入矩阵中每个词语的词向量、实体向量与实体上下文向量分别输入CNN卷积层的三个通道并对齐,其形式如下述(f)式所示:
Figure BDA0003590120300000034
将文本中所有词语按上述形式输入卷积神经网络(Convolutional NeuralNetwork,CNN)中,在经过卷积、池化层后,得到一个融合文本t外部知识的表征向量。
所述步骤S8具体包括:将字符序列的字符嵌入矩阵输入CNN,经过卷积、池化操作后,得到字符表征向量。
所述步骤S9具体包括:将融合外部知识的表征向量和字符表征向量拼接为一个向量V(假设V∈Ry×1),若类别个数为c,则对向量V进行下述(g)式操作:
q=HV+b (g);
其中:H∈Rc×y,为可训练矩阵;b∈Rc×1,为可训练的偏置项参数。
然后,使用softmax函数构建分类器,得到由下述(h)式计算的每个类别的概率分布:
Figure BDA0003590120300000041
其中:scorej表示文本属于第j类的概率。
在得到每个类别的概率分布后,选出概率值最高的类别作为文本分类结果。
本发明与现有技术相比具有更高的文本分类性能,充分考虑文本中隐含的外部知识和字符信息,将文本的词级、知识级表示与字符级表示融合起来形成新的表示,从而使文本分类能够更好地理解文本内容,给出更准确的分类结果,方法简便,可进一步提高文本分类的准确率。
附图说明
图1为本发明的流程图。
图2为实施例的知识子图示例。
具体实施方式
为了使本发明的技术方案被理解透彻,下面结合具体实施例和附图,对本发明作详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公识常识,本发明没有特别限制内容。
参阅图1,本发明所提出的文本分类方法融合了文本的词、知识和字符信息,将文本的词级、知识级表示与字符级表示融合起来形成新的表示,进行文本分类,提高了文本分类的准确性。
下面以体育类新闻“小明和小红是运动会的王炸组合”作为待分类文本为例对本发明作进一步的详细说明。
实施例1
步骤S1:对待分类文本进行分词,得到词语序列为:[“小明”,“和”,“小红”,“是”,“运动会”,“的”,“王炸”,“组合”]。然后,获取文本的字符序列:[“小”,“明”,“和”,“小”,“红”,“是”,“运”,“动”,“会”,“的”,“王”,“炸”,“组”,“合”]。
步骤S2:利用命名实体识别技术从文本中提取出“小明”、“小红”、“运动会”和“王炸”这四个实体指称。通过实体链接技术将这四个实体指称链接到中文知识图谱CN-DBpedia中的目标实体“小明”、“小红”、“2022年某国际运动会”和“王炸(扑克牌型)”(这四个实体皆为虚设实体,仅作为示例用)。由这些目标实体构成实体序列:[“小明”、“<unknown>”、“小红”,“<unknown>”,“2022年某国际运动会”,“<unknown>”,“王炸(扑克牌型)”,“<unknown>”],待分类文本中不指代实体的词语在实体序列中的对应目标实体为“<unknown>”标识符。
步骤S3:从CN-DBpedia中获取语料库中全部文本的词语所指代的实体的三元组知识,用来构建知识子图。
参阅图2,以“小明和小红是运动会的王炸组合”单句话所构建的知识子图,使用知识子图与知识图谱嵌入方法TransE训练知识图谱嵌入模型。通过知识图谱嵌入模型将实体序列中每一个实体映射为一个128维的向量(“<unknown>”实体的向量通过随机初始化获得),实体序列的长度为8,则实体序列被转换为8×128的实体嵌入矩阵。
步骤S4:通过公式1和2搜索并使用实体序列中每个实体的上下文实体集来计算实体的上下文向量。每一个上下文向量的维度为128,实体序列的长度为8,则得到一个8×128的上下文嵌入矩阵。
步骤S5:通过预训练的Word2vec词嵌入模型,将步骤S1中得到的词语序列中的每一个词转换成128维的向量,词语序列包含8个词语,被转换为8×128的词嵌入矩阵。
步骤S6:通过预训练的Word2vec字符嵌入模型,将步骤S1中得到的字符序列中的每一个字符转换为128维的向量,字符序列包含14个字符,则字符序列被转换为14×128的字符嵌入矩阵。
步骤S7:将步骤S3、S4、S5处理后获得的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵分别输入到卷积神经网络的三个不同的通道中,得到一个融合了文本外部知识的表征向量。
步骤S8:将字符序列的字符嵌入矩阵输入卷积神经网络,经过卷积、池化操作后,得到一个字符表征向量。
步骤S9:将在步骤S7中得到的融合外部知识的表征向量和在步骤S8中得到的字符表征向量拼接为一个向量,通过公式(g)~(h)得到每个类别的概率分布后,选出概率值最高的类别作为文本分类结果。
以上实施例只是对本发明做进一步说明,并非用以限制本发明,凡为本发明的等效实施,均应包含于本发明的权利要求范围之内。

Claims (10)

1.一种融合字符信息的知识驱动文本分类方法,其特征在于该方法以知识图谱作为外部知识的载体,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,利用外部知识辅助文本分类任务,具体包括以下步骤:
S1:对文本进行预处理,获取待分类文本的词语序列和字符序列;
S2:提取文本中词语所对应的实体,并与知识图谱中的实体相关联,获取实体序列;
S3:查询通过知识子图预训练的知识图谱嵌入模型,获取实体序列的实体嵌入矩阵;
S4:搜索每个实体的上下文实体集来计算实体的上下文向量,得到实体序列的上下文嵌入矩阵;
S5:查询预训练的词嵌入模型,获取词语序列的词嵌入矩阵;
S6:查询预训练的字符嵌入模型,获取字符序列的字符嵌入矩阵;
S7:将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量;
S8:将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量;
S9:使用融合外部知识的表征向量和字符表征向量进行文本分类。
2.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得,所述字符序列由文本中的每个字符所构成,将包含n个词语的待分类文本t的词语序列定义为w1:n=[w1,w2,...,wn],其中:wi表示文本中第i个词语。
3.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S2具体包括:利用命名实体识别技术识别出待分类文本中词语是否指代实体;通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体,并由这些目标实体构成实体序列。
4.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S3具体包括:
S3-1:从知识图谱中获取语料库中的词语所指代的实体的三元组知识,用来构建知识子图;
S3-2:使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型;
S3-3:通过知识图谱嵌入模型映射可获得词语wi对应实体ei的实体向量ei∈Rk×1,其中:k是实体向量的维度;
S3-4:实体嵌入矩阵则由知识图谱嵌入模型映射获得,实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。
5.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S4具体包括:搜索并使用实体序列中每个实体e的上下文实体集(即实体在知识子图中的近邻实体)来计算实体e的上下文向量
Figure FDA0003590120290000021
得到实体序列的上下文嵌入矩阵,所述实体e的上下文实体集由下述(a)式定义的集合获得:
context(e)={ei|(e,r,ei)∈G or(ei,r,e)∈G} (a);
其中:r代表一个关系,G代表知识子图;
所述实体e的上下文向量
Figure FDA0003590120290000022
由下述(b)式进行计算:
Figure FDA0003590120290000023
其中:ei是实体ei的向量;
所述实体序列的上下文嵌入矩阵由实体的上下文向量
Figure FDA0003590120290000024
构成,矩阵的每一行为实体序列中每一个实体对应的上下文向量。
6.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S5中词语序列的词嵌入矩阵w1:n是通过预训练或随机初始化的词嵌入模型映射获得的,其中词嵌入矩阵的每一行为词语序列中每一个词语对应的词嵌入向量,所述词嵌入矩阵w1:n由下述(c)式定义为:
w1:n=[w1,w2,...,wn]∈Rd×n (c);
其中:wi∈Rd×1是文本t中第i个词语wi的词向量;d是词向量的维度。
7.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S6中字符序列的字符嵌入矩阵是通过预训练或随机初始化的字符嵌入模型映射获得的,其中字符嵌入矩阵的每一行为字符序列中每一个字符对应的字符嵌入向量。
8.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S7具体包括:
S7-1:通过下述非线性公式(d)~(e)转换词语wi对应实体ei的实体向量ei和实体上下文向量
Figure FDA0003590120290000025
使其维度与词向量一致:
g(ei)=tanh(Mei+b) (d);
Figure FDA0003590120290000031
其中:M∈Rd×k是可训练的转换矩阵;b∈Rd×1是可训练的偏置项;
S7-2:将词嵌入矩阵、实体嵌入矩阵和上下文嵌入矩阵中每个词语的词向量、实体向量与实体上下文向量分别输入CNN卷积层的三个通道并对齐,其形式如下述(f)式所示:
Figure FDA0003590120290000032
S7-3:将文本中所有词语按上述形式输入卷积神经网络中,经卷积、池化层后,得到一个融合文本t外部知识的表征向量。
9.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S8具体包括:将字符序列的字符嵌入矩阵输入CNN,经卷积、池化操作后,得到字符表征向量。
10.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S9具体包括:
S9-1:将融合外部知识的表征向量和字符表征向量拼接为一个向量V,并假设V∈Ry×1,若类别个数为c,则对向量V进行下述(g)式操作:
q=HV+b (g);
其中:H∈Rc×y,为可训练矩阵;b∈Rc×1,为可训练的偏置项参数;
S9-2:使用softmax函数构建分类器,得到由下述(h)式计算的每个类别的概率分布:
Figure FDA0003590120290000033
其中:scorej表示文本属于第j类的概率;
S9-3:在得到每个类别的概率分布后选出概率值最高的类别作为文本分类结果。
CN202210374165.XA 2022-04-11 2022-04-11 一种融合字符信息的知识驱动文本分类方法 Active CN114925198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210374165.XA CN114925198B (zh) 2022-04-11 2022-04-11 一种融合字符信息的知识驱动文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210374165.XA CN114925198B (zh) 2022-04-11 2022-04-11 一种融合字符信息的知识驱动文本分类方法

Publications (2)

Publication Number Publication Date
CN114925198A true CN114925198A (zh) 2022-08-19
CN114925198B CN114925198B (zh) 2024-07-12

Family

ID=82804478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210374165.XA Active CN114925198B (zh) 2022-04-11 2022-04-11 一种融合字符信息的知识驱动文本分类方法

Country Status (1)

Country Link
CN (1) CN114925198B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562251A (zh) * 2023-05-19 2023-08-08 中国矿业大学(北京) 一种面向证券信息披露长文档的表格分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
CN109919175A (zh) * 2019-01-16 2019-06-21 浙江大学 一种结合属性信息的实体多分类方法
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法
WO2021178731A1 (en) * 2020-03-04 2021-09-10 Karl Denninghoff Neurological movement detection to rapidly draw user attention to search results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919175A (zh) * 2019-01-16 2019-06-21 浙江大学 一种结合属性信息的实体多分类方法
CN109800437A (zh) * 2019-01-31 2019-05-24 北京工业大学 一种基于特征融合的命名实体识别方法
WO2021178731A1 (en) * 2020-03-04 2021-09-10 Karl Denninghoff Neurological movement detection to rapidly draw user attention to search results
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIHONG ZHENG等: "Named Entity Recognition in Electric Power Metering Domain Based on Attention Mechanism", 《 IEEE ACCESS》, vol. 9, 26 November 2021 (2021-11-26), pages 152564 *
朱广丽等: "基于ELECTRA商品评论文本情感分类", 《安徽理工大学学报(自然科学版)》, vol. 42, no. 1, 15 January 2022 (2022-01-15), pages 77 - 84 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562251A (zh) * 2023-05-19 2023-08-08 中国矿业大学(北京) 一种面向证券信息披露长文档的表格分类方法

Also Published As

Publication number Publication date
CN114925198B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
CN107832663B (zh) 一种基于量子理论的多模态情感分析方法
Xian et al. Latent embeddings for zero-shot classification
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
Zhang et al. Finding celebrities in billions of web images
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN110196893A (zh) 基于文本相似度的非主观题阅卷方法、装置及存储介质
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN108228845B (zh) 一种***分类方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
Niu et al. Knowledge-based topic model for unsupervised object discovery and localization
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐***
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN112434164A (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及***
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN114792246B (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及***
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Trisal et al. K-RCC: A novel approach to reduce the computational complexity of KNN algorithm for detecting human behavior on social networks
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant