CN108255813A - 一种基于词频-逆文档与crf的文本匹配方法 - Google Patents

一种基于词频-逆文档与crf的文本匹配方法 Download PDF

Info

Publication number
CN108255813A
CN108255813A CN201810062016.3A CN201810062016A CN108255813A CN 108255813 A CN108255813 A CN 108255813A CN 201810062016 A CN201810062016 A CN 201810062016A CN 108255813 A CN108255813 A CN 108255813A
Authority
CN
China
Prior art keywords
text
word
crf
idf
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810062016.3A
Other languages
English (en)
Other versions
CN108255813B (zh
Inventor
唐贤伦
李佳歆
万辉
马艺玮
蔡军
黄淼
刘想德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810062016.3A priority Critical patent/CN108255813B/zh
Publication of CN108255813A publication Critical patent/CN108255813A/zh
Application granted granted Critical
Publication of CN108255813B publication Critical patent/CN108255813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于词频‑逆文档(TF‑IDF)与CRF的语义匹配方法,选用CRF挖掘到的属性特征和TF‑IDF的统计特征来表示文本的权重值,并将权重值赋予文本词向量。该方法解决了TF‑IDF和CRF单纯从统计角度以及需求信息上获取权重却没有考虑到词语之间语义的问题,同时也解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。

Description

一种基于词频-逆文档与CRF的文本匹配方法
技术领域
本发明属于文本处理技术领域,尤其涉及一种结合词频-逆文档与CRF的文本语义匹配方法。
背景技术
文本匹配是自然语言处理(NLP)任务之一,常被应用于解决信息检索、社区问答、推荐***等问题。将文字类的非结构化数据转换为结构化数据需要用到文本表示模型,通过文本表示模型对关键词语义的增强可以加深***对文本的理解,向量空间模型(VectorSpace Model,VSM)即是目前最为成熟和应用最为广泛的文本表示模型之一。通过增强文本中的特征项权重可以起到增强语义的作用,特征项的选取正确与否对于能否正确的表达一个文本的主题或特殊含义来说至关重要,而词频-逆文档算法(TF-IDF)是当今信息检索***中最常用的加权策略之一,因此,可以把TF-IDF与词向量模型结合,从而增加了特征对于文本在词与词之间语义上的联系,既适用于文本的全局相关性又适用于某些特定词的局部相关性,使得特征更具泛化能力。
条件随机场(Conditional Random Fields,CRFs)是一种概率图模型,这种模型具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注或偏置等问题;具备考虑上下文标记间的转移概率,所有特征能以序列化形式进行全局参数优化,能够求得全局的最优解,具有很强的推理能力,并且能使用复杂、有重叠性和非独立的特征进行训练和推理。因此,在匹配用户需求文本与商品描述文本任务中,可以将其用于挖掘用户属性,以此获取丰富的信息。
所以,结合TF-IDF以及CRF的特征向量,从计算量上看,基于统计方法的TF-IDF算法较为简单且快捷,而CRF的使用能够根据用户需求进行分析并做出相应的权重增强,因此获取到的语义信息更全面的同时也具有针对性,文本的特征向量表示也更准确,可显著提高文本匹配的正确率。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种特征向量表示更准确,可显著提高文本匹配的正确率的基于词频-逆文档与CRF的文本匹配方法。本发明的技术方案如下:
一种基于词频-逆文档与CRF的文本匹配方法,包括步骤:1:从网上搜集文本匹配语料集,包含产品描述与搜索词的句子对,关联匹配则其标签为1,否则为0,将语料集随机分为训练集语料和测试集语料,步骤2:采用中文分词算法对步骤1中处理好的语料进行分词,收集去停用词表,根据词表去除语料中的停用词;还包括以下步骤:
步骤3:通过条件随机场(CRF)将步骤2中得到的语料中的训练集进行身份词(act)、行为词(ide)及无关词(non)的标记,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型,并获取文本中所有词的属性。依据相关性或相似性匹配对身份词或行为词做该词权重增强;
步骤4:采用词频-逆文档(TF-IDF)对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值作为该词TF-IDF权重;
步骤5:采用Word2vec对步骤2中处理好的的语料进行训练,得到词向量模型;
步骤6:将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量;
步骤7:将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型;
步骤8:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。
进一步的,所述采用基于N-最短路径的中文分词算法对语料进行分词。
进一步的,所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤:首先通过邻接表表示出每个词组之间的耦合关系,然后通过计算词组之间的耦合关系来确定初次的分词路径;最后当所有路径计算完毕后,找到最优的路径作为分词结果。
进一步的,所述步骤3具体为:通过CRF将步骤2中得到的语料中的训练集进行标记,用户行为词、身份词和无意义词分别标注为act、ide、non,以提取用户的偏好信息及需求信息,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,使得特征提取时考虑当前词与其前后各一个词的组合关系,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型。
进一步的,所述采用TF-IDF(词频-逆文档)对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值,TF-IDF算法以词语作为文本的特征项,每个特征项的权重由TF权值和IDF权值两个部分构成,具体包括:
具体计算公式如下:
wji=TFji·IDFi (2)
TFji=fji/T (3)
IDFi=log(N/ni+0.01) (4)
Wj={wj1,wj2,...,wji} (5)
TF,为特征项在文本中出现的频率,表示该词在当前文本中的重要程度,其中,T表示为第j个文本的全部词数,fji为第j个文本中第i个词在该文本中出现的次数,IDF为特征项的逆文档数,通过统观全局判断该词的重要性,其中N表示总共有N个文本,词i在ni个文本中出现,Wj表示第j个文本特征向量的权重集合,wji则为第j个文本中第i个词的权重。
进一步的,所述步骤5采用Word2vec中分层Softmax算法的词袋模型,将步骤2中处理好的的语料输入模型中,获取得每个单词在向量空间上的表示。
进一步的,所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量,具体为:将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘,并根据在步骤3中获取的用户属性词进行按倍数的权重增强,得到语义增强后的特征向量。
进一步的,所述步骤8将得到的测试集语料的文本特征向量输入Softmax,根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率,具体包括:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配,如果实际输出文本的标签等于1,判定该句子对内容是匹配的,如果实际输出文本的标签不等于1即标签等于0,判定该句子对内容是不匹配的,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算句子对匹配的准确率。
进一步的,所述CRF是基于判别式的无向图模型,采用是线性链条件随机场,x=(x1,x2,…xn)代表的标记序列表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRFs模型定义状态序列的联合条件概率为:
其中,tj(yi-1,yi,x,i)是观察序列在i与i-1时刻的转移特征函数,sk(yi,x,i)是观察序列在i时刻的状态特征函数,参数λj和μk可以从训练数据中估计,获得非负值越大则优先选择相应的特征事件;若获得的负值越大,则说明相应的特征事件越不可能发生。
本发明的优点及有益效果如下:
本发明提出一种文本的语义匹配方法,该方法选用TF-IDF和CRF挖掘用户需求信息的特征,并融合Word2vec的深层语义特征共同表示文本的特征。本发明首先采用CRF获取文本中词汇的属性特征以便针对需求做相应匹配,接着通过计算文本TF-IDF值作为浅层语义特征,将两种特征共同作为权重,该方法解决了TF-IDF和CRF单纯从统计角度或需求信息上获取权重却没有考虑到词语之间语义的问题。最后,将TF-IDF及CRF得到的权重与通过Word2vec得到的词向量融合,在获取深层语义特征的同时解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。
附图说明
图1是本发明提供优选实施例基于词频-逆文档与CRF的文本匹配方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明基于TF-IDF与CRF的语义匹配方法的具体步骤是:
步骤1:从网上搜集文本匹配语料集,包含产品描述与搜索词的句子对,关联匹配则其标签为1,否则为0。将语料集分为训练集和测试集,训练集用来训练情感分类的模型,测试集用来测试模型分类的效果。
步骤2:在分词前需要对待分词的匹配文本进行预处理,包括去除字符、标点符号及英文字母等非汉字信息。然后对步骤1中的语料集进行中文分词,本文使用的分词方法是基于N-最短路径的中文分词算法。首先通过邻接表(二叉分词图表)表示出每个词组之间的耦合关系,每一个节点都表示分词图表中的一条边,行值代表边的起点,列值代表边的终点,然后通过计算词组之间的耦合关系来确定初次的分词路径。最后当所有路径计算完毕后,找到最优的路径(即最短路径)作为分词结果。
分词完毕后,每个文本是由以空格隔开的单词组成的文本语料。然后搜集停用词表,人工删除停用词表中对实验有用的词汇,并根据停用词表去除分词后的语料中的停用词。去除停用词是为了节省存储空间和提高效率。
步骤3:使用CRF对文本进行用户需求分析,做用户属性提取。CRF是基于判别式的无向图模型,其中最常用的是线性链条件随机场。x=(x1,x2,…xn)代表的标记序列表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRFs模型定义状态序列的联合条件概率为:
其中,tj(yi-1,yi,x,i)是观察序列在i与i-1时刻的转移特征函数,sk(yi,x,i)是观察序列在i时刻的状态特征函数,参数λj和μk可以从训练数据中估计,获得非负值越大则优先选择相应的特征事件;若获得的负值越大,则说明相应的特征事件越不可能发生。通过CRF将步骤2中得到的语料中的训练集进行标记,用户行为词、身份词和无意义词分别标注为act、ide、non,以提取用户的偏好信息及需求信息。对标记样本尾部加入词性作为外部特征,使得提取的用户属性信息更为准确。制作基于Bigram feature的属性特征模版,使得特征提取时考虑当前词与其前后各一个词的组合关系。采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型。
步骤4:采用TF-IDF获取每个词权重值。TF-IDF算法以词语作为文本的特征项,每个特征项的权重由TF权值和IDF权值两个部分构成。具体计算公式如下:
wji=TFji·IDFi (2)
TFji=fji/T (3)
IDFi=log(N/ni+0.01) (4)
Wj={wj1,wj2,...,wji} (5)
TF(Term Frequency)为特征项在文本中出现的频率,表示该词在当前文本中的重要程度,其中,T表示为第j个文本的全部词数,fji为第j个文本中第i个词在该文本中出现的次数。IDF(Inverse Document Frequency)为特征项的逆文档数,通过统观全局判断该词的重要性,其中N表示总共有N个文本,词i在ni个文本中出现。Wj表示第j个文本特征向量的权重集合,wji则为第j个文本中第i个词的权重。使用TF-IDF计算语料中的每一个词,可以提取文本中高辨识度的词,并给予与其重要性相关的权值。
步骤5:采用word2vec中Hierarchical Softmax算法的DBOW模型,通过对语言模型进行建模,将文本中的每个词作为特征映射成k维实数向量,通过随机梯度下降法来训练这些词向量,在此过程中通过反向传播获得梯度,并计算出梯度误差。然后更新模型的参数,最终获取得每个单词在向量空间上的表示。即公式(6)的原始项目特征向量中Vj表示第j个文本的特征向量集合,vji表示第j个文本的第i个特征向量。
Vj={vj1,vj2,...,vji} (6)
步骤6:最后将步骤4中每个词的特征向量vji对应乘上其权重wji,得到改进后的Vj’如公式(7)所示:
Vj'={wj1·vj1,wj2·vj2,...,wji·vji} (7)
当需要做相似性匹配时,则将步骤3中提取到用户身份词进行权重增强;需要做相关性匹配时,则将步骤3中提取到用户行为词进行权重增强。改进后的特征向量因加入了TF-IDF及CRF获得的权值而对于不同类别的特征更具有针对性,使用词向量模型增加了特征对于文本在词与词之间语义上的联系,既适用于文本的全局相关性又适用于某些特定词的局部相关性,使得特征更具泛化能力。
步骤7:将步骤6中的语料中的训练集的文本语义特征向量输入Softmax训练出文本匹配模型。
步骤8:将步骤6中的语料中的测试集的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配,如果实际输出文本的标签等于1,判定该句子对内容是匹配的,如果实际输出文本的标签不等于1(即标签等于0),判定该句子对内容是不匹配的,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算句子对匹配的准确率。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种基于词频-逆文档与CRF的文本匹配方法,包括步骤:1:从网上搜集文本匹配语料集,包含产品描述与搜索词的句子对,关联匹配则其标签为1,否则为0,将语料集随机分为训练集语料和测试集语料,步骤2:采用中文分词算法对步骤1中处理好的语料进行分词,收集去停用词表,根据词表去除语料中的停用词;其特征在于,还包括以下步骤:
步骤3:通过条件随机场CRF将步骤2中得到的语料中的训练集进行身份词、行为词及无关词的标记,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型,并获取文本中所有词的属性,依据相关性或相似性匹配对身份词或行为词做该词的权重增强;
步骤4:采用词频-逆文档TF-IDF对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值作为该词TF-IDF权重;
步骤5:采用Word2vec对步骤2中处理好的的语料进行训练,得到词向量模型;
步骤6:将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量;
步骤7:将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型;
步骤8:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。
2.根据权利要求1所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,采用基于N-最短路径的中文分词算法对语料进行分词。
3.根据权利要求2所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤:首先通过邻接表表示出每个词组之间的耦合关系,然后通过计算词组之间的耦合关系来确定初次的分词路径;最后当所有路径计算完毕后,找到最优的路径作为分词结果。
4.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤3具体为:通过CRF将步骤2中得到的语料中的训练集进行标记,用户行为词、身份词和无意义词分别标注为act、ide、non,以提取用户的偏好信息及需求信息,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,使得特征提取时考虑当前词与其前后各一个词的组合关系,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型。
5.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述采用TF-IDF对步骤2中得到的语料进行训练,并获取每个词的TF-IDF值,TF-IDF算法以词语作为文本的特征项,每个特征项的权重由TF权值和IDF权值两个部分构成,具体包括:
具体计算公式如下:
wji=TFji·IDFi (2)
TFji=fji/T (3)
IDFi=log(N/ni+0.01) (4)
Wj={wj1,wj2,...,wji} (5)
TF,为特征项在文本中出现的频率,表示该词在当前文本中的重要程度,其中,T表示为第j个文本的全部词数,fji为第j个文本中第i个词在该文本中出现的次数,IDF为特征项的逆文档数,通过统观全局判断该词的重要性,其中N表示总共有N个文本,词i在ni个文本中出现,Wj表示第j个文本特征向量的权重集合,wji则为第j个文本中第i个词的权重。
6.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤5采用Word2vec中分层Softmax算法的词袋模型DBOW,将步骤2中处理好的的语料输入模型中,获取得每个单词在向量空间上的表示。
7.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量,具体为:将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘,并根据在步骤3中获取的用户属性词进行按倍数的权重增强,得到语义增强后的特征向量。
8.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述步骤8将得到的测试集语料的文本特征向量输入Softmax,根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率,具体包括:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配,如果实际输出文本的标签等于1,判定该句子对内容是匹配的,如果实际输出文本的标签不等于1即标签等于0,判定该句子对内容是不匹配的,统计实际输出文本的标签与期望输出文本的标签之间不同的个数,计算句子对匹配的准确率。
9.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法,其特征在于,所述CRF是基于判别式的无向图模型,采用是线性链条件随机场,x=(x1,x2,…xn)代表的标记序列表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRFs模型定义状态序列的联合条件概率为:
其中,tj(yi-1,yi,x,i)是观察序列在i与i-1时刻的转移特征函数,sk(yi,x,i)是观察序列在i时刻的状态特征函数,参数λj和μk可以从训练数据中估计,获得非负值越大则优先选择相应的特征事件;若获得的负值越大,则说明相应的特征事件越不可能发生。
CN201810062016.3A 2018-01-23 2018-01-23 一种基于词频-逆文档与crf的文本匹配方法 Active CN108255813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810062016.3A CN108255813B (zh) 2018-01-23 2018-01-23 一种基于词频-逆文档与crf的文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810062016.3A CN108255813B (zh) 2018-01-23 2018-01-23 一种基于词频-逆文档与crf的文本匹配方法

Publications (2)

Publication Number Publication Date
CN108255813A true CN108255813A (zh) 2018-07-06
CN108255813B CN108255813B (zh) 2021-11-16

Family

ID=62742366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810062016.3A Active CN108255813B (zh) 2018-01-23 2018-01-23 一种基于词频-逆文档与crf的文本匹配方法

Country Status (1)

Country Link
CN (1) CN108255813B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062899A (zh) * 2018-07-31 2018-12-21 中国科学院信息工程研究所 一种基于词性标注的文档相似性度量方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109446321A (zh) * 2018-10-11 2019-03-08 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及计算机可读存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110427627A (zh) * 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN111881668A (zh) * 2020-08-06 2020-11-03 成都信息工程大学 基于卡方统计和tf-crf改进的tf-idf计算模型
CN112580691A (zh) * 2020-11-25 2021-03-30 北京北大千方科技有限公司 一种元数据字段的术语匹配方法、匹配***和存储介质
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN117951256A (zh) * 2024-03-25 2024-04-30 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器***及其工作方法
CN105740236A (zh) * 2016-01-29 2016-07-06 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和***
KR20170000185A (ko) * 2015-06-23 2017-01-02 아시아나아이디티 주식회사 스파스 벡터 공간 문서의 텍스트 분류 시스템, 장치 및 그 동작 방법
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
KR20170000185A (ko) * 2015-06-23 2017-01-02 아시아나아이디티 주식회사 스파스 벡터 공간 문서의 텍스트 분류 시스템, 장치 및 그 동작 방법
CN105677779A (zh) * 2015-12-30 2016-06-15 山东大学 一种基于评分机制的反馈型问题类型分类器***及其工作方法
CN105740236A (zh) * 2016-01-29 2016-07-06 中国科学院自动化研究所 结合写作特征和序列特征的中文情感新词识别方法和***
CN107193959A (zh) * 2017-05-24 2017-09-22 南京大学 一种面向纯文本的企业实体分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHILIN ZHANG AND MEI GU: "《Improved Text Classification to acquire job opportunities for Chinese disabled persons》", 《2010 2ND INTERNATIONAL CONFERENCE ON ADVANCED COMPUTER CONTROL》 *
唐贤伦: "《基于条件随机场和TF_IDF的文本语义匹配及推荐》", 《第28届中国过程控制会议(CPCC 2017)暨纪念中国过程控制会议30周年摘要集》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062899A (zh) * 2018-07-31 2018-12-21 中国科学院信息工程研究所 一种基于词性标注的文档相似性度量方法
CN109062899B (zh) * 2018-07-31 2021-10-15 中国科学院信息工程研究所 一种基于词性标注的文档相似性度量方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109271626B (zh) * 2018-08-31 2023-09-26 北京工业大学 文本语义分析方法
CN109446321A (zh) * 2018-10-11 2019-03-08 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及计算机可读存储介质
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN112784062B (zh) * 2019-03-15 2024-06-04 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN109933670A (zh) * 2019-03-19 2019-06-25 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN109933670B (zh) * 2019-03-19 2021-06-04 中南大学 一种基于组合矩阵计算语义距离的文本分类方法
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110427627B (zh) * 2019-08-02 2023-04-28 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN110427627A (zh) * 2019-08-02 2019-11-08 北京百度网讯科技有限公司 基于语义表示模型的任务处理方法和装置
CN111881668A (zh) * 2020-08-06 2020-11-03 成都信息工程大学 基于卡方统计和tf-crf改进的tf-idf计算模型
CN111881668B (zh) * 2020-08-06 2023-06-30 成都信息工程大学 基于卡方统计和tf-crf改进的tf-idf计算装置
CN112580691A (zh) * 2020-11-25 2021-03-30 北京北大千方科技有限公司 一种元数据字段的术语匹配方法、匹配***和存储介质
CN112580691B (zh) * 2020-11-25 2024-05-14 北京北大千方科技有限公司 一种元数据字段的术语匹配方法、匹配***和存储介质
CN117951256A (zh) * 2024-03-25 2024-04-30 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法
CN117951256B (zh) * 2024-03-25 2024-05-31 北京长河数智科技有限责任公司 一种基于分层特征向量搜索的文档查重方法

Also Published As

Publication number Publication date
CN108255813B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN108255813A (zh) 一种基于词频-逆文档与crf的文本匹配方法
Downey et al. Locating complex named entities in web text.
US9672205B2 (en) Methods and systems related to information extraction
CN107315738B (zh) 一种文本信息的创新度评估方法
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN110110116A (zh) 一种整合深度卷积网络和语义分析的商标图像检索方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
Babhulgaonkar et al. Language identification for multilingual machine translation
Gan et al. Character-level deep conflation for business data analytics
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及***
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
Tual et al. A benchmark of nested named entity recognition approaches in historical structured documents
CN114707615B (zh) 基于历时汉字知识图谱的古文字相似度量化方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN112613318B (zh) 实体名称归一化***及其方法、计算机可读介质
CN114925198A (zh) 一种融合字符信息的知识驱动文本分类方法
Priya et al. Intelligent Aspect based Model for Efficient Sentiment Analysis of User Reviews
Thilagavathi et al. Tamil english language sentiment analysis system
Paul et al. Multi-facet universal schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant