CN103617290A - 中文机器阅读*** - Google Patents

中文机器阅读*** Download PDF

Info

Publication number
CN103617290A
CN103617290A CN201310685182.6A CN201310685182A CN103617290A CN 103617290 A CN103617290 A CN 103617290A CN 201310685182 A CN201310685182 A CN 201310685182A CN 103617290 A CN103617290 A CN 103617290A
Authority
CN
China
Prior art keywords
module
data
relation
entity
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310685182.6A
Other languages
English (en)
Other versions
CN103617290B (zh
Inventor
秦谦
宋阳秋
常凯斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Mingtong Tech Co Ltd
Original Assignee
Jiangsu Mingtong Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Mingtong Tech Co Ltd filed Critical Jiangsu Mingtong Tech Co Ltd
Priority to CN201310685182.6A priority Critical patent/CN103617290B/zh
Publication of CN103617290A publication Critical patent/CN103617290A/zh
Application granted granted Critical
Publication of CN103617290B publication Critical patent/CN103617290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文机器阅读***,包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口;数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。与现有技术相比,本发明使用开放式抽取方法,不限定抽取领域,能够读取互联网上广泛存在的非结构化文本信息,适于推广应用,并能够自适应中文语言的进化。

Description

中文机器阅读***
技术领域
本发明涉及中文阅读技术领域,特别涉及一种中文阅读***。
背景技术
随着大数据时代的到来,越来越多的数据以文本的形式被发布到网上。如何对网络数据进行理解成为了更加紧迫和急需解决的问题。其中一个方式就是把非结构化的文本数据组织成机器能够识别并使用的结构化数据(如词与词之间的关系),为未来进行一系列的推理、识别打下基础。结构化的数据可以用于做语义消歧,根据词之间的关系可以推断词的含义。另外现有技术对文本共现频率的统计,仅限于使用窗口进行滑动,进而统计两个词共同出现的频率;或者使用语言模型统计连续出现的词的频率。而随着计算能力的提高,共现可以进行归类,语言模型也可以不局限于连续出现的词的统计。
在文本处理领域,英文的机器阅读已经得到了相当大的发展。例如Never Ending Language Learning(NELL)***,通过英文文本的概念和实体之间的关系,对互联网数据进行特征提取和学习,从而得到更多的概念和实体。又比如Textrunner(Reverb)***,通过使用一系列正则表达式和简单的机器学习方法,来实现开放式的语言抽取。
目前已有一些中文的知识库(如zhishi.me),通过对中文百科数据进行实体和关系的抽取所构建的,对百科数据的抽取可以通过标题、超链接的文本等信息进行提取,然后通过链接和Infobox中的属性关系来构建关系链接。但是,,语言本身是多样的,关键词并不应局限于实体(如人名、地名等),关系也不应局限在百科中已有的关系(如属性),还应该包含更多种(同一种关系,可以有不同的说法;同一个关系,可以有不同的关系对象)情况。
发明内容
本发明克服了现有技术的不足,提供一种能够在中文文本中进行阅读的中文机器阅读***。
为解决上述技术问题,本发明采用的技术方案为:
中文机器阅读***,包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口,数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,数据整合模块和使用接口与知识库连接。
数据抓取模块用于抓取互联网上文本的非结构化数据。数据抓取模块使用URL种子,通过graph propagation的方式传播抓取网页,对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息,使用Hadoop框架,利用多台数据大量URL数据进行抓取非结构化文本信息,使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
数据处理模块把数据进行标准化处理,具体包括以下步骤:1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;3)标准化处理:特征抽取中文单词,特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
知识库用于存储的知识集群。
使用接口提供调用数据的接口。
数据抽取模块通过机器学习和模块匹配的方法,得到计算机能够处理的知识。数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。数据抽取模块中数据的流向具体包括:数据通过wiki内容抽取模块提取为实体列表和三元组,实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后,在模板抽取模块初始化模板,并通过模板匹配模块匹配模板,经过匹配后的关系,流向关系抽取模块,判断是否被列为知识库中的内容。
wiki内容抽取模块提取wiki的内容进行抽取;先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。
模板抽取模块根据wiki中得到的内容初始化模板,对三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板。
实体抽取模块、关系抽取模块对已有的实体和关系进行学习;首先,使用词典和匹配技术,找到相应的实体和关系,其中关系可以是实体的属性也可以是某种联系;其次,使用序列标签技术,例如,条件随机场CRF、最大熵方法,对已有的实体和关系所在的例句进行训练,标注新的数据。
模板匹配模块根据模板抽取模块获得的模板,使用正则表达式进行匹配,得到备选的新知识,使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法,判断一条知识是否被列为知识库中的内容。
数据整合模块用于修复和改进知识库中的内容,包括数据去重模块和数据消歧模块。
数据去重模块判断数据已有知识库中的知识是否为同一个实体。数据去重模块的去重方法具体步骤包括:第一,对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;第二,对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;第三,对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
数据消歧模块主要通过互斥信息判断消歧。数据消歧模块的消歧方法具体步骤包括:第一,在数据库中,使用关系和实体找到能够产生互斥关系的类别,第二,用互斥的类别对数据进行清洗;第三,人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。 
与现有技术相比,本发明的有益效果有:
首先,本发明技术方案数据抓取模块能够抓取互联网上广泛存在的非结构化文本信息,经过其他模块的分析和整合,识别为机器能够识别的实体和关系,使用了开放式的抽取方法,不限定抽取领域,对全互联网信息进行抽取,使用广泛,实用性强,广度大。
进一步地,数据抽取模块抽取数据的实体和关系,匹配模板后,并判断一条知识是否被列为知识库中的内容,在本发明中文阅读的过程中,知识库也在不断的更新完善,能够依据中文的发展,适应性的对中文进行阅读,满足了语言的进化演变的需求。
进一步地,本发明提供使用接口,为其他应用提供使用基础。
附图说明
图1为本发明的结构示意图。
图2为本发明数据抽取模块中数据的流向示意图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
中文机器阅读***,包括数据抓取模块1、数据处理模块2、数据抽取模块3、知识库4、数据整合模块5和使用接口6,数据抓取模块1、数据处理模2块、数据抽取模块3和知识库4依次连接,数据整合模块5和使用接口6与知识库4连接。
数据抓取模1块用于抓取互联网上文本的非结构化数据。数据抓取模块1使用URL种子,通过graph propagation的方式传播抓取网页,对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息,使用Hadoop框架,利用多台数据大量URL数据进行抓取非结构化文本信息,使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
数据处理模块2把数据进行标准化处理,具体包括以下步骤:1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;3)标准化处理:特征抽取中文单词,特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
知识库4用于存储的知识集群。
使用接口6提供调用数据的接口。
数据抽取模块3通过机器学习和模块匹配的方法,得到计算机能够处理的知识。数据抽取模3块包括wiki内容抽取模块301、模板抽取模块304、实体抽取模块301、关系抽取模块302和模板匹配模块305。数据抽取模块3中数据的流向具体包括:数据通过wiki内容抽取模块301提取为实体列表和三元组,实体列表和三元组通过实体抽取模块302、关系抽取模块303抽取为实体和关系后,在模板抽取模块304初始化模板,并通过模板匹配模块305匹配模板,经过匹配后的关系,流向关系抽取模块303,判断是否被列为知识库4中的内容。
wiki内容抽取模块301提取wiki的内容进行抽取;先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。
模板抽取模块304根据wiki中得到的内容初始化模板,对三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板。
实体抽取模块302、关系抽取模块303对已有的实体和关系进行学习;首先,使用词典和匹配技术,找到相应的实体和关系,其中关系可以是实体的属性也可以是某种联系;其次,使用序列标签技术,例如,条件随机场CRF、最大熵方法,对已有的实体和关系所在的例句进行训练,标注新的数据。
模板匹配模块305根据模板抽取模块获得的模板,使用正则表达式进行匹配,得到备选的新知识,使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法,判断一条知识是否被列为知识库中的内容。
数据整合模块5用于修复和改进知识库中的内容,包括数据去重模块和数据消歧模块。
数据去重模块判断数据已有知识库中的知识是否为同一个实体。数据去重模块的去重方法具体步骤包括:第一,对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;第二,对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;第三,对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
数据消歧模块主要通过互斥信息判断消歧。数据消歧模块的消歧方法具体步骤包括:第一,在数据库中,使用关系和实体找到能够产生互斥关系的类别,第二,用互斥的类别对数据进行清洗;第三,人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.中文机器阅读***,其特征在于:包括
数据抓取模块:抓取互联网上文本的非结构化数据;
数据处理模块:把数据进行标准化处理;
数据抽取模块:通过机器学习和模块匹配的方法,得到计算机能够处理的知识;
知识库:存储的知识集群;
数据整合模块:修复和改进知识库中的内容;
使用接口:提供调用数据的接口;
所述数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,所述数据整合模块和使用接口与所述知识库连接。
2.根据权利要求1所述的中文机器阅读***,其特征在于:所述数据抓取模块的抓取方法包括以下步骤:
1)使用URL种子,通过graph propagation的方式传播抓取网页;
2)对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息;
3)使用Hadoop框架,利用URL数据进行抓取非结构化文本信息;
4)使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。
3.根据权利要求1所述的中文机器阅读***,其特征在于:所述数据处理模块包括以下步骤:
1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;
2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;
3)标准化处理:特征抽取中文单词,所述特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。
4.根据权利要求1所述的中文机器阅读***,其特征在于:所述数据抽取模块包括:
wiki内容抽取模块:提取wiki的内容进行抽取;
模板抽取模块:根据wiki中得到的内容初始化模板;
实体抽取模块、关系抽取模块:对已有的实体和关系进行学习;
模板匹配模块:根据获得的模板,使用正则表达式进行匹配,得到备选的新知识;
所述数据抽取模块中数据的流向具体包括:数据通过wiki内容抽取模块提取为实体列表和三元组,所述实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后,在模板抽取模块初始化模板,并通过模板匹配模块匹配模板,经过匹配后的关系,流向关系抽取模块,判断是否被列为知识库中的内容。
5.根据权利要求4所述的中文机器阅读***,其特征在于:
所述wiki内容抽取模块的wiki抽取方法具体包括:先提取wiki的标题、超链接中的实体,然后对infobox中的属性关系进行提取,得到实体列表和由实体、关系、键值组成的三元组两种形式的知识; 
所述模板提取模块的模板提取方法具体包括:所述三元组信息归纳总结,使用频率最高的限定数量的关系作为初始化模板;
所述实体抽取模块、关系抽取模块抽取实体、关系的方法具体步骤包括:1)使用词典和匹配技术,找到相应的实体和关系;2)使用序列标签技术,对已有的实体和关系所在的例句进行训练,标注新的数据;
所述模板匹配模块的匹配模板的方法具体包括:使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征,对所述特征使用机器学习的方法,判断一条知识是否被列为知识库中的内容。
6.根据权利要求5所述的中文机器阅读***,其特征在于:
所述实体抽取模块、关系抽取模块的序列标签技术包括条件随机场CRF和最大熵方法;
所述模板匹配模块中的机器学习的方法包括支持向量机方法和朴素贝叶斯方法。
7.根据权利要求5所述的中文机器阅读***,其特征在于:所述关系为实体的属性或者实体的相关联系。
8.根据权利要求1所述的中文机器阅读***,其特征在于:所述数据整合模块包括:
数据去重模块:判断所述数据已有知识库中的知识是否为同一个实体;
数据消歧模块:主要通过互斥信息判断消歧。
9.根据权利要求8所述的中文机器阅读***,其特征在于:
所述数据去重模块的去重方法具体步骤包括:1)对已有的知识库,将数据表示成图的结构,把每个实体都表示成图上的一个节点,把每个关系表示成图上的一个边,边上的权重为该关系被识别的次数;2)对图进行聚类,聚类的判别函数是根据节点的相似度来判断的,将权重较小或者噪音边切割掉,形成若干个不相连的子图;3)对子图的节点进行判断,如果对于同一类中的节点,相似度大于某个阈值,则判断为同一个实体。
10.根据权利要求8所述的中文机器阅读***,其特征在于:
所述数据消歧模块的消歧方法具体步骤包括:1)在数据库中,使用关系和实体找到能够产生互斥关系的类别,2)用互斥的类别对数据进行清洗;3)人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。
CN201310685182.6A 2013-12-13 2013-12-13 中文机器阅读*** Active CN103617290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310685182.6A CN103617290B (zh) 2013-12-13 2013-12-13 中文机器阅读***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310685182.6A CN103617290B (zh) 2013-12-13 2013-12-13 中文机器阅读***

Publications (2)

Publication Number Publication Date
CN103617290A true CN103617290A (zh) 2014-03-05
CN103617290B CN103617290B (zh) 2017-02-15

Family

ID=50167993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310685182.6A Active CN103617290B (zh) 2013-12-13 2013-12-13 中文机器阅读***

Country Status (1)

Country Link
CN (1) CN103617290B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978336A (zh) * 2014-04-08 2015-10-14 云南电力试验研究院(集团)有限公司电力研究院 基于Hadoop分布式计算平台的非结构化数据存储***
CN106055618A (zh) * 2016-05-26 2016-10-26 优品财富管理有限公司 一种基于网络爬虫与结构化存储的数据处理方法
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐***
CN106294186A (zh) * 2016-08-30 2017-01-04 深圳市悲画软件自动化技术有限公司 智能软件自动化测试方法
CN106776866A (zh) * 2016-11-29 2017-05-31 首都师范大学 一种对高校网站上的会议稿进行知识抽取的方法
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN109446298A (zh) * 2018-08-22 2019-03-08 优视科技(中国)有限公司 模板匹配方法及装置、计算机设备及可读介质
CN109697225A (zh) * 2017-10-23 2019-04-30 贵州双龙数联科技有限公司 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN113407716A (zh) * 2021-05-14 2021-09-17 桂林电子科技大学 一种基于众包的人类行为文本数据集的构造以及处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建***及方法
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备
CN102622453A (zh) * 2012-04-20 2012-08-01 北京邮电大学 基于本体的食品安全事件语义检索***
CN102662923A (zh) * 2012-04-23 2012-09-12 天津大学 一种基于机器学习的本体实例学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369275A (zh) * 2008-09-10 2009-02-18 浙江大学 一种非结构化文本中的产品属性挖掘方法
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建***及方法
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备
CN102622453A (zh) * 2012-04-20 2012-08-01 北京邮电大学 基于本体的食品安全事件语义检索***
CN102662923A (zh) * 2012-04-23 2012-09-12 天津大学 一种基于机器学习的本体实例学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
曾建道 等: "面向非结构化文本的开放式实体属性抽取", 《江西师范大学学报(自然科学版)》 *
王刚: "自动抽取***文本中的语义关系", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
王曙 等: "面向网页文本的地理要素变化检测", 《地球信息科学学报》 *
赵军 等: "开放式文本信息抽取", 《中文信息学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978336A (zh) * 2014-04-08 2015-10-14 云南电力试验研究院(集团)有限公司电力研究院 基于Hadoop分布式计算平台的非结构化数据存储***
CN106055618A (zh) * 2016-05-26 2016-10-26 优品财富管理有限公司 一种基于网络爬虫与结构化存储的数据处理方法
CN106296312A (zh) * 2016-08-30 2017-01-04 江苏名通信息科技有限公司 基于社交媒体的在线教育资源推荐***
CN106294186A (zh) * 2016-08-30 2017-01-04 深圳市悲画软件自动化技术有限公司 智能软件自动化测试方法
CN106776866A (zh) * 2016-11-29 2017-05-31 首都师范大学 一种对高校网站上的会议稿进行知识抽取的方法
CN110019829A (zh) * 2017-09-19 2019-07-16 小草数语(北京)科技有限公司 数据属性确定方法、装置
CN109697225A (zh) * 2017-10-23 2019-04-30 贵州双龙数联科技有限公司 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎
CN108154198A (zh) * 2018-01-25 2018-06-12 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN108154198B (zh) * 2018-01-25 2021-07-13 北京百度网讯科技有限公司 知识库实体归一方法、***、终端和计算机可读存储介质
CN109446298A (zh) * 2018-08-22 2019-03-08 优视科技(中国)有限公司 模板匹配方法及装置、计算机设备及可读介质
CN110442868A (zh) * 2019-08-01 2019-11-12 第四范式(北京)技术有限公司 文本处理方法、装置及电子设备
CN113407716A (zh) * 2021-05-14 2021-09-17 桂林电子科技大学 一种基于众包的人类行为文本数据集的构造以及处理方法

Also Published As

Publication number Publication date
CN103617290B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103617290A (zh) 中文机器阅读***
CN106156286B (zh) 面向专业文献知识实体的类型抽取***及方法
CN107451126B (zh) 一种近义词筛选方法及***
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
Wen et al. Research on keyword extraction based on word2vec weighted textrank
CN102591988B (zh) 基于语义图的短文本分类方法
CN108090070B (zh) 一种中文实体属性抽取方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
WO2020108430A1 (zh) 一种微博情感分析方法及***
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN108304382B (zh) 基于制造过程文本数据挖掘的质量分析方法与***
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和***
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及***
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN114036907B (zh) 一种基于领域特征的文本数据扩增方法
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置
CN108334573B (zh) 基于聚类信息的高相关微博检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant