CN112632282B - 一种中英文论文数据分类与查询方法 - Google Patents

一种中英文论文数据分类与查询方法 Download PDF

Info

Publication number
CN112632282B
CN112632282B CN202011613854.9A CN202011613854A CN112632282B CN 112632282 B CN112632282 B CN 112632282B CN 202011613854 A CN202011613854 A CN 202011613854A CN 112632282 B CN112632282 B CN 112632282B
Authority
CN
China
Prior art keywords
chinese
english
library
label
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011613854.9A
Other languages
English (en)
Other versions
CN112632282A (zh
Inventor
康锐文
冯凯
王元卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Big Data Research Institute Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202011613854.9A priority Critical patent/CN112632282B/zh
Publication of CN112632282A publication Critical patent/CN112632282A/zh
Application granted granted Critical
Publication of CN112632282B publication Critical patent/CN112632282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明属数据分类技术领域,具体涉及一种中英文论文数据分类与查询方法。该方法通过提取中文论文的中英文关键词,对数据进行处理形成中英文对照库和中文词库,利用模型获取英文标签库,将英文标签库和中英文对照库进行融合形成中英文标签库;同时通过对中文和英文论文的原始数据进行分词处理得到中英文分词列表,通过计算相关度,对论文的领域进行划分,可以有效将中英文论文的研究领域标签进行统一,能够提高检索准确性,准确识别出同一类型的中英文论文,提高跨语言查询的准确性。

Description

一种中英文论文数据分类与查询方法
技术领域
本发明属数据分类技术领域,具体涉及一种中英文论文数据分类与查询方法。
背景技术
知识库是存储、组织和处理知识以及提供知识服务的知识集合,借助知识库能够更好的了解与发现某领域的研究现状与发展趋势,同时,在各行各业中建立知识库也逐渐成为进行知识服务于管理的基础。由于英文作为一种国际通用语言,英文的优秀论文也是数不胜数,所以在构建知识库的时候,将中文与英文论文同时加入就势在必行。
知识库的构建,有两个重要的步骤:一是将论文归类,即论文属于哪个领域,也可以说给论文打标签。另一个是论文的查询,中英文融合的知识库亦是如此。
对论文打标签,即论文属于哪个领域,可以对当前某领域的研究趋势进行分析。在打标签过程中首先需要对论文中的文字进行分词处理,但在对论文进行分词时,传统分词器常常达不到想要的效果,如对“机器学习是一项热门技术”这段话进行分词,我们想要的是“机器学习”,但传统分词器会将“机器学习”分为“机器”与“学习”,这样的分词,并不是我们想要的结果,英文分词也是如此。另外在中英文融合的前提下如何准确的识别出“同一”类型的中英文论文也是论文融合的一个问题。
同时,中英文论文还涉及一个跨语言查询的问题,即查询“机器学习”时,在将包含“机器学习”的文献查询出的同时也需要将包含“Machine Learning”的文章查出。但是在科学技术快速发展的当下,不同学科、不同领域的技术名词也在不断的涌现,这些技术名词常常是这些学科、领域的关键字。对这些关键词进行翻译的时候,由于论文中的关键字一般是对某技术领域的抽象,或者是某技术领域的新兴词汇,机器翻译出的结果常常词不达意,这样导致检索出的结果往往达不到预期。这样就严重的影响的检索的效率。
发明内容
针对目前数据分类存在分词达不到效果、中英文融合难以准确识别、跨语言查询难以达到预期效果的缺陷和问题,本发明提供一种中英文论文数据进行分类与查询的方法。
本发明解决其技术问题所采用的方案是:一种中英文论文数据分类与查询方法,包括以下步骤:
步骤一、根据中文论文发表时自带的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词,对提取的数据进行清洗与过滤处理,排除异常数据后对中文翻译结果进行聚合,将大于阈值agg的翻译列表作为中文对应的中英文对照库,按照中英文对照库抽取中文关键词生成中文词库;
步骤二、通过现有的模型或构建的LDA领域模型获取英文学术领域标签库,所述英文学术领域标签库为二层树形结构,包括大领域标签和小领域标签,所述小领域标签归属于大领域标签;
步骤三、结合英文学术领域标签库和中英文对照库进行关联,若英文标签库中的标签在中英文对照库中可以找到,则将对应中文关联在英文标签库中的英文标签上;若英文标签库中的标签在中英文对照库中无法找到,则通过现有机器翻译进行转换,通过机器翻译模型,将tag_1进行机器翻译;最终将英文标签库生成中英领域标签库并将其与英文标签库对应。
步骤四、将步骤一生成的中文词库结合中文分词器生成带有自定义词库的分词器,分别对中文论文原始数据和英文论文原始数据的关键词、摘要和标题通过分词器进行分词,生成对应的中文分词列表和英文分词列表;
步骤五、使用KNN算法计算论文的领域;
步骤六、结合词库对信息进行查询。
上述的中英文论文数据分类与查询方法,步骤一中对数据处理方法为:首先对中文论文的原始数据进行遍历,抽取中英文关键词,然后排除异常数据,对中文翻译的结果进行聚合处理,然后将大于某一阈值的翻译列表作为中文对应的翻译结果。
上述的中英文论文数据分类与查询方法,步骤一中阈值agg制定策略为:记关键词最多翻译数量为max_trans、最小翻译数量为min_trans,
若max_trans-min_trans<3,阈值取agg=1;若max_trans-min_trans≥3,阈值取max_trans-3。
上述的中英文论文数据进行分类与查询的方法,步骤五包括以下内容:
(1)便利每一篇论文生成的分词列表;
(2)采用K近邻算法计算分词列表的相关度,公式为:
Figure BDA0002875814650000041
Figure BDA0002875814650000042
式中:qx为中英文标签库中的标签,若xj等于中英文标签库中的某一个标签qk,则数值记为1,否则为0;count表示第i篇论文中所有分词对于标签库中标签qk的计算值;
若Count大于设定阈值,则记这篇论文属于这个标签指定的领域;
若count不大于设定阈值,则通过比较英文标签库中所有大领域标签下的小领域标签匹配数量,则记这篇论文属于小领域标签匹配数量多的领域。
本发明的有益效果:本发明通过提取中文论文的中英文关键词,对数据进行处理形成中英文对照库和中文词库,利用模型获取英文标签库,将英文标签库和中英文对照库进行融合形成中英文标签库;同时通过对中文和英文论文的原始数据进行分词处理得到中英文分词列表,通过计算相关度,对论文的领域进行划分,可以有效将中英文论文的研究领域标签进行统一,能够提高检索准确性,准确识别出同一类型的中英文论文,提高跨语言查询的准确性。
附图说明
图1为本发明中文词库与中英文对照库获取流程图。
图2为本发明实现统一标签化的流程图。
图3为查询方式流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例1:针对目前数据分类存在分词达不到效果、中英文融合难以准确识别、跨语言查询难以达到预期效果的缺陷和问题,本发明提供一种基于构建中英文中如何将论文标签统一与提高跨语言查询准确性的中英文论文数据分类与查询方法。该方法包括以下内容。
步骤一、首先,根据中文论文发表时带有的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词。
然后,排除中英文关键词中的异常数据,主要排除缺少中文或者英文的关键词数据,排除异常数据后对中文翻译的结果进行聚合处理,将大于某一阈值agg的翻译列表作为中文对应的翻译结果,例如:针对“聚类***”,不同作者有不同的翻译方式,一些作者翻译为“Clustering coefficient”,另一些作者翻译为“Cluster coefficient”,经过聚合排序发现“Clustering coefficient”的数量与“Cluster coefficient”的数量都大于指定阈值,并且前者数量更多,最终生成如{聚类***,[Clustering coefficient,Clustercoefficient]}的中英文对照库。
记关键词最多翻译数量为max_trans、最小翻译数量为min_trans
若max_trans-min_trans<3,阈值取agg=1;
若max_trans-min_trans≥3,阈值取max_trans-3
最后按照中英文对照库抽取中文关键词生成中文词库。
步骤二、通过现有的模型或构建的LDA领域模型获取英文标签库,所述英文标签库为二层树形结构,统称为大小领域标签,小领域标签归属于大领域标签。
步骤三、将英文学术领域标签库与中英文对照库进行关联,
若英文标签库中的标签在中英文对照库中可以找到,则将对应中文关联在英文标签库中的英文标签上;
若英文标签库中的标签在中英文对照库中无法找到,则通过现有机器翻译进行转换,通过机器翻译模型,将tag_1进行机器翻译;
最终将英文标签库生成中英领域标签库。
步骤四、将步骤一生成的中文词库结合中文分词器生成带有自定义词库的分词器,分别对中文论文原始数据和英文论文原始数据的关键词、摘要和标题通过分词器进行分词,生成对应的中文分词列表和英文分词列表。
步骤五、采用K近邻算法计算分词列表的相关度,方法为:
(1)遍历每一篇论文生成的分词列表;
(2)计算分词列表相关度,公式为:
Figure BDA0002875814650000061
Figure BDA0002875814650000062
式中:qx为中英文标签库中的标签,若xj等于中英文标签库中的某一个标签qk,则数值记为1,否则为0;count表示第i篇论文中所有分词对于标签库中标签qk的计算值。
若Count大于设定阈值,则记这篇论文属于这个标签指定的领域,经验证,阈值设定为3较为合理;
若count不大于设定阈值,则通过比较英文标签库中所有大领域标签下的小领域标签匹配数量。如Computer Science下的Algorithm、Artificial Intelligence与论文中所有分词数量最多,则标明这篇论文属于Computer Science→[Algorithm、ArtificialIntelligence]领域。
从而计算出所有论文的领域,完成对中英文论文的领域归类。
步骤六、结合英文关键词词库对待查询信息进行查询,方法为:
(1)输入待查询信息;
(2)对待查询信息进行分词处理;
(3)使用步骤一生成的中英文对照库作为术语库,将分词结果在术语库中进行查询,如果存在,则从术语库中拉取翻译后的文档进行输出;如果不存在则使用传统翻译机器进行翻译。
以上所述仅为本发明的较佳实施例,并不限制本发明,凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进,均应包含在本发明的保护范围之内。

Claims (4)

1.一种中英文论文数据分类与查询方法,其特征在于:包括以下步骤:
步骤一、根据中文论文发表时自带的中英文关键词,对中文论文的原始数据进行遍历,提取所有中文论文中的中英文关键词,对提取的数据进行清洗与过滤处理,排除异常数据后对中文翻译结果进行聚合,将大于阈值agg的翻译列表作为中文对应的中英文对照库,按照中英文对照库抽取中文关键词生成中文词库;
步骤二、通过现有的模型或构建的LDA领域模型获取英文学术领域标签库,所述英文学术领域标签库为二层树形结构,包括大领域标签和小领域标签,所述小领域标签归属于大领域标签;
步骤三、结合英文学术领域标签库和中英文对照库进行关联,若英文标签库中的标签在中英文对照库中可以找到,则将对应中文关联在英文标签库中的英文标签上;若英文标签库中的标签在中英文对照库中无法找到,则通过现有机器翻译进行转换,通过机器翻译模型,将tag_1进行机器翻译;最终生成中英领域标签库并将其与英文标签库对应;
步骤四、将步骤一生成的中文词库结合中文分词器生成带有自定义词库的分词器,分别对中文论文原始数据和英文论文原始数据的关键词、摘要和标题通过分词器进行分词,生成对应的中文分词列表和英文分词列表;
步骤五、使用KNN算法计算论文的领域;
步骤六、结合词库对信息进行查询。
2.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤一中对数据处理方法为:首先对中文论文的原始数据进行遍历,抽取中英文关键词,然后排除异常数据,对中文翻译的结果进行聚合处理,然后将大于某一阈值的翻译列表作为中文对应的翻译结果。
3.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤一中阈值agg制定策略为:记关键词最多翻译数量为max_trans、最小翻译数量为min_trans,
若max_trans-min_trans<3,阈值取agg=1;若max_trans-min_trans≥3,阈值取max_trans-3。
4.根据权利要求1所述的中英文论文数据分类与查询方法,其特征在于:步骤五包括以下内容:
(1)遍历每一篇论文生成的分词列表;
(2)采用K近邻算法计算分词列表的相关度,公式为:
Figure FDA0003299355690000021
Figure FDA0003299355690000022
式中:qk为中英文标签库中的标签,若xj等于中英文标签库中的某一个标签qk,则数值记为1,否则为0;count表示第i篇论文中所有分词对于标签库中标签qk的计算值;
若Count大于设定阈值,则记这篇论文属于这个标签指定的领域;
若count不大于设定阈值,则通过比较英文标签库中所有大领域标签下的小领域标签匹配数量,记这篇论文属于小领域标签匹配数量多的领域。
CN202011613854.9A 2020-12-30 2020-12-30 一种中英文论文数据分类与查询方法 Active CN112632282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011613854.9A CN112632282B (zh) 2020-12-30 2020-12-30 一种中英文论文数据分类与查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011613854.9A CN112632282B (zh) 2020-12-30 2020-12-30 一种中英文论文数据分类与查询方法

Publications (2)

Publication Number Publication Date
CN112632282A CN112632282A (zh) 2021-04-09
CN112632282B true CN112632282B (zh) 2021-11-19

Family

ID=75286956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011613854.9A Active CN112632282B (zh) 2020-12-30 2020-12-30 一种中英文论文数据分类与查询方法

Country Status (1)

Country Link
CN (1) CN112632282B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177420A (zh) * 2021-04-29 2021-07-27 同方知网(北京)技术有限公司 一种基于学术文献的中英双语词典构建方法
CN114492425B (zh) * 2021-12-30 2023-04-07 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于***的中英文跨语言实体匹配方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819051B2 (en) * 2005-09-29 2014-08-26 Yahoo! Inc. Tagging offline content with context-sensitive search-enabling keywords
JP4428266B2 (ja) * 2005-03-22 2010-03-10 富士ゼロックス株式会社 翻訳装置およびプログラム
CN1804834A (zh) * 2005-12-23 2006-07-19 赵然 一种实现网站级搜索网页级展示的中英文搜索引擎
CN101276328A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据翻译***
CN101425087A (zh) * 2008-09-16 2009-05-06 网易有道信息技术(北京)有限公司 构建词典的方法和***
CN102262621A (zh) * 2010-05-26 2011-11-30 钟长林 译文检查装置及译文检查方法
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助***及其撰写辅助方法
CN108491399B (zh) * 2018-04-02 2021-08-06 上海杓衡信息科技有限公司 基于语境迭代分析的汉译英机器翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于***的中英文跨语言实体匹配方法

Also Published As

Publication number Publication date
CN112632282A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Bisandu et al. Clustering news articles using efficient similarity measure and N-grams
JP2006510114A (ja) 概念モデル空間におけるコンテンツの表現及びこれを検索するための方法及び装置
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN112632282B (zh) 一种中英文论文数据分类与查询方法
CN113672718B (zh) 基于特征匹配和领域自适应的对话意图识别方法及***
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和***
CN111753514B (zh) 一种专利申请文本的自动生成方法和装置
Huang et al. Supervised cross-modal hashing without relaxation
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
Li et al. Self-supervised learning-based weight adaptive hashing for fast cross-modal retrieval
Ayyavaraiah et al. Cross media feature retrieval and optimization: A contemporary review of research scope, challenges and objectives
Li et al. Automatic image annotation based on wordnet and hierarchical ensembles
Wang et al. Collaborative visual modeling for automatic image annotation via sparse model coding
Shrivastava et al. Comparison between K-mean and C-mean clustering for CBIR
Barnard et al. Recognition as translating images into text
TW202004519A (zh) 影像自動分類的方法
Lu et al. Automatic image annotation based-on model space
Chaudhari et al. A survey on automatic annotation and annotation based image retrieval
Abd Manaf et al. Review on statistical approaches for automatic image annotation
Zand et al. Visual and semantic context modeling for scene-centric image annotation
Lau et al. Fusing visual and textual retrieval techniques to effectively search large collections of wikipedia images
Gan et al. Cross-Modal Semantic Alignment Learning for Text-Based Person Search
Chien et al. Large-scale image annotation with image–text hybrid learning models
Gao et al. Detecting data records in semi-structured web sites based on text token clustering
Wiesen et al. Overview of uni-modal and multi-modal representations for classification tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant