CN104699785A - 一种论文相似度检测方法 - Google Patents

一种论文相似度检测方法 Download PDF

Info

Publication number
CN104699785A
CN104699785A CN201510112689.1A CN201510112689A CN104699785A CN 104699785 A CN104699785 A CN 104699785A CN 201510112689 A CN201510112689 A CN 201510112689A CN 104699785 A CN104699785 A CN 104699785A
Authority
CN
China
Prior art keywords
text
paper
sentence
parameter
plagiarism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510112689.1A
Other languages
English (en)
Inventor
庞善臣
查杨
刘婷
梁燕燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201510112689.1A priority Critical patent/CN104699785A/zh
Publication of CN104699785A publication Critical patent/CN104699785A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种论文相似度检测方法,后台实现语言为Java,前台实现语言为JSP,将检测文本调整好之后便可进行相似度检测,***会将检测文本与论文库中的文本进行比对,输出疑似抄袭的段落与论文库中对应的段落,同时***还会对这些疑似抄袭段落进行更精确的匹配,若检测结果为确实抄袭,则会将抄袭部分标红。本发明的论文相似度检测方法可以通过计算机自动比对检测文本与论文库中论文的相似度,克服了主观性因素对判断的影响;通过停用词删除和句子筛选,极大减小了检测工作量,提高了检测效率;对于疑似抄袭段落进行精确匹配,确认是否抄袭,相似度检测精度高。

Description

一种论文相似度检测方法
技术领域
本发明涉及计算机领域,特别涉及一种论文相似度检测方法。
背景技术
我国的科技期刊达五千余种,每年产出数百万篇学术论文,但与国际顶级期刊相比,无论是权威性还是影响力,均相距甚远。国内科技期刊面临的问题之一是缺乏编辑独立性,重形式轻学术,存在大量造假、抄袭问题。
现有的论文审核方式主要还是通过审稿人人工审核,通过审稿人的经验和记忆判别论文的相似度,无论是判别的效率和精确度都有很大的主观因素,造成大量造假和抄袭论文的发表。
因此,如何提供一种快速、智能化的论文相似度检测方法,是目前亟待解决的问题。
发明内容
本发明提出一种论文相似度检测方法,解决了现有技术中人工审核论文相似度效率低、精确度差的问题。
本发明的技术方案是这样实现的:
一种论文相似度检测方法,后台实现语言为Java,前台实现语言为JSP,包括以下步骤:
步骤(a),对检测文本进行中文分词;
步骤(b),对分词后的文本进行停用词处理,若属于停用词则在文本中删除,文本中剩余的词属于关键词;
步骤(c),对句子进行筛选,将关键词数目小于预设值K的句子删除;
步骤(d),对句子筛选后的文本中的每个词通过GB2312编码方式进行编码;
步骤(e),对所述编码通过指纹选择函数删除不必要的编码,得到检测文本的指纹序列;
步骤(f),将所述指纹序列与论文库中的指纹序列进行比对,若有连续重叠,则重叠部分定义为疑似抄袭段落;
步骤(g),将所述疑似抄袭部分定位到论文库中相应文档的相应段落,通过字符串匹配方式进行精确匹配,确认为精确匹配后定义为抄袭段落。
可选地,所述步骤(b)具体为:通过文本处理函数对分词后的文本进行处理,文本处理函数无传入参数,对指定目录下的txt文本进行处理,将txt文本中的内容进行去除停用词处理,处理完成后,以段落为单位放入Arraylist数组中返回。
可选地,所述步骤(c)具体为:通过句子选择函数对句子进行筛选,句子选择函数的传入参数为以段落为单位的Arraylist数组,对Arraylist数组中的每个成员进行句子筛选,去掉关键词数目小于预设值K的句子,然后再将Arraylist数组返回。
可选地,所述步骤(d)具体为:通过文本编码函数对句子筛选后的文本进行编码,传入参数为经过句子筛选后的Arraylist数组,对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值;然后,将所有的编码值以三维数组返回,三维数组的构成为:文本的每一段为一维,每一段的每个句子为一维,每个句子中的每个词为一维。
可选地,所述步骤(e)中,指纹选择函数的传入参数为经过文本编码的三维数组,对传入的三维数组中的元素进行筛选,选择其中的最大值,选出的编码值作为文本的指纹,返回值为经过筛选后的三维数组。
可选地,所述步骤(f)中,通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对,相似度检测函数的传入参数是检测文本的指纹,传出参数是一个整型数组,将待检测文本的指纹与论文库中文本的指纹进行比对,查找重叠度超过阈值的匹配,将位置信息放在所述整型数组中返回。
可选地,所述阈值的初始设定为0.2。
可选地,所述步骤(g)具体包括:相似内容标识函数,传入参数para1为检测文本疑似抄袭段落,传入参数para2为论文库中相对应的段落,传入参数name为论文库中相对应的论文名称,传出参数为一个整型数组,里面记录了重叠的文字在检测文本中的位置;相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配,确认是否抄袭,并将抄袭段落在检测文本中的全局位置返回。
可选地,所述检测文本为pdf文件时,先将pdf文件转换为txt文档。
本发明的有益效果是:
(1)可以通过计算机自动比对检测文本与论文库中论文的相似度,克服了主观性因素对判断的影响;
(2)通过停用词删除和句子筛选,极大减小了检测工作量,提高了检测效率;
(3)对于疑似抄袭段落进行精确匹配,确认是否抄袭,相似度检测精度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种论文相似度检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的论文相似度检测方法将检测文本调整好之后便可进行相似度检测,***会将检测文本与论文库中的文本进行比对,输出疑似抄袭的段落与论文库中对应的段落。同时***还会对这些疑似抄袭段落进行更精确的匹配,若检测结果为确实抄袭,则会将抄袭部分标红。
本发明的论文相似度检测方法,后台实现语言为Java,前台实现语言为JSP。若用户检测文本为pdf文档,则***会先通过外部xpdf软件调用方式将pdf文档转换为普通txt文本,之后对检测文本进行相似度检测。下面结合附图对本发明的方法进行详细说明。
如图1所示,本发明的论文相似度检测方法包括以下步骤:
步骤(a),对检测文本进行中文分词。本发明采用ICTCLAS 2011进行中文分词,ICTCLAS为中国科学院计算技术研究所研制出的汉语词法分析***,主要功能包括中文分词、词性标注、命名实体识别、新词识别、同时支持用户词典,分词速度500KB/s左右,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M。本领域技术人员还可以根据检测需求选用其他的分词***。
步骤(b),对分词后的文本进行停用词处理,若属于停用词则在文本中删除,文本中剩余的词属于关键词。停用词为文章中没有实际意义的词,这些词在相似度检测时会占用***资源,并且影响精确度,所以需要去掉。本发明的停用词表采用四川大学机器智能实验室停用词库,以段落为单位将所有词语在停用词表中遍历,若属于停用词则在文本中删除。处理完成之后,文本中剩下的词都属于关键词。
步骤(c),对句子进行筛选,选择关键词数量多的句子,这种句子具有较强的代表性,含有关键词数量较少的句子也进行检测处理的话,只会增加噪声,降低精度,所以***会将关键词数目小于预设值K(例如K=8)的句子删除,以减少噪声,提高检测精度,同时提高检测效率。
步骤(d),句子筛选完成之后的文本才是将要进行处理的文本,对每个词通过GB2312编码方式进行编码。
步骤(e),对上述编码通过指纹选择函数删除不必要的编码,得到检测文本的指纹序列。
步骤(f),将所述指纹序列与论文库中的指纹序列进行比对,若有连续重叠,则重叠部分定义为疑似抄袭段落。
步骤(g),将上述疑似抄袭部分定位到论文库中相应文档的相应段落,通过字符串匹配方式进行精确匹配,确认为精确匹配后定义为抄袭段落,将抄袭部分标红处理。例如检测粒度为14,连续14个字以上抄袭的部分都会被标红。
本发明的论文相似度检测方法的各个步骤通过相应的函数实现,具体包括:
pdf文档处理函数,对于pdf文件,***将pdf文件存储在特定目录下,当调用此函数时,***会处理该pdf文件,处理完成后在指定的目录输出txt文档,无返回值。
文本读取函数,传入参数为txt文本在当前项目中的相对路径,将文本内容作为字符串返回。
文本写入函数,传入参数有两个,第一个为待写入文本的字符串,第二个为需要写入的路径,函数的功能是将字符串写入指定目录下的txt文件中,无返回值。
文本处理函数,在上述步骤(b)中,通过文本处理函数对分词后的文本进行处理,文本处理函数无传入参数,对指定目录下的txt文本进行处理,将txt文本中的内容进行去除停用词处理,处理完成后,以段落为单位放入Arraylist数组中返回。
句子选择函数,在上述步骤(c)中,通过句子选择函数对句子进行筛选,句子选择函数的传入参数为以段落为单位的Arraylist数组,对Arraylist数组中的每个成员进行句子筛选,去掉关键词数目小于预设值K的句子,然后再将Arraylist数组返回。
文本编码函数,在上述步骤(d)中,通过文本编码函数对句子筛选后的文本进行编码,传入参数为经过句子筛选后的Arraylist数组,对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值;然后,将所有的编码值以三维数组返回,三维数组的构成为:文本的每一段为一维,每一段的每个句子为一维,每个句子中的每个词为一维。
指纹选择函数,在上述步骤(e)中,指纹选择函数的传入参数为经过文本编码的三维数组,对传入的三维数组中的元素进行筛选,使选出的元素能够更好的代表原文本的内容,减少下一步的运算量,本发明的筛选标准是选择其中的最大值,选出的编码值作为文本的指纹,返回值为经过筛选后的三维数组。
相似度检测函数,在上述步骤(f)中,通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对。相似度检测函数的传入参数是检测文本的指纹,传出参数是一个整型数组,里面记录了重叠的文字在文本中的位置,以便后续将该位置的文字标红。相似度检测函数将待检测文本的指纹与论文库中文本的指纹进行比对,查找重叠度超过阈值的匹配,将位置信息放在所述整型数组中返回。优选地,上述阈值的初始设定为0.2。
相似内容标识函数,在上述步骤(g)中,相似内容标识函数的传入参数para1为检测文本疑似抄袭段落,传入参数para2为论文库中相对应的段落,传入参数name为论文库中相对应的论文名称,传出参数为一个整型数组,里面记录了重叠的文字在检测文本中的位置;相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配,确认是否抄袭,并将抄袭段落在检测文本中的全局位置返回。
为了提高显示页面的可视性,本发明还包括内容转换函数,传入参数为文字重叠位置数组和检测文本。内容转换函数将重叠位置的文字加上HTML可以识别的样式后以字符串的形式返回。
本发明的论文相似度检测方法可以通过计算机自动比对检测文本与论文库中论文的相似度,克服了主观性因素对判断的影响;通过停用词删除和句子筛选,极大减小了检测工作量,提高了检测效率;对于疑似抄袭段落进行精确匹配,确认是否抄袭,相似度检测精度高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种论文相似度检测方法,其特征在于,后台实现语言为Java,前台实现语言为JSP,包括以下步骤:
步骤(a),对检测文本进行中文分词;
步骤(b),对分词后的文本进行停用词处理,若属于停用词则在文本中删除,文本中剩余的词属于关键词;
步骤(c),对句子进行筛选,将关键词数目小于预设值K的句子删除;
步骤(d),对句子筛选后的文本中的每个词通过GB2312编码方式进行编码;
步骤(e),对所述编码通过指纹选择函数删除不必要的编码,得到检测文本的指纹序列;
步骤(f),将检测文本的指纹序列与论文库中的指纹序列进行比对,若有连续重叠,则重叠部分定义为疑似抄袭段落;
步骤(g),将所述疑似抄袭部分定位到论文库中相应文档的相应段落,通过字符串匹配方式进行精确匹配,确认为精确匹配后定义为抄袭段落。
2.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(b)具体为:通过文本处理函数对分词后的文本进行处理,文本处理函数无传入参数,对指定目录下的txt文本进行处理,将txt文本中的内容进行去除停用词处理,处理完成后,以段落为单位放入Arraylist数组中返回。
3.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(c)具体为:通过句子选择函数对句子进行筛选,句子选择函数的传入参数为以段落为单位的Arraylist数组,对Arraylist数组中的每个成员进行句子筛选,去掉关键词数目小于预设值K的句子,然后再将Arraylist数组返回。
4.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(d)具体为:通过文本编码函数对句子筛选后的文本进行编码,传入参数为经过句子筛选后的Arraylist数组,对传入的Arraylist数组中每个元素的词通过GB2312编码方式映射出其编码值;然后,将所有的编码值以三维数组返回,三维数组的构成为:文本的每一段为一维,每一段的每个句子为一维,每个句子中的每个词为一维。
5.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(e)中,指纹选择函数的传入参数为经过文本编码的三维数组,对传入的三维数组中的元素进行筛选,选择其中的最大值,选出的编码值作为文本的指纹,返回值为经过筛选后的三维数组。
6.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(f)中,通过相似度检测函数将所述指纹序列与论文库中的指纹序列进行比对,相似度检测函数的传入参数是检测文本的指纹,传出参数是一个整型数组,将待检测文本的指纹与论文库中文本的指纹进行比对,查找重叠度超过阈值的匹配,将位置信息放在所述整型数组中返回。
7.如权利要求6所述的论文相似度检测方法,其特征在于,所述阈值的初始设定为0.2。
8.如权利要求1所述的论文相似度检测方法,其特征在于,所述步骤(g)具体包括:相似内容标识函数,传入参数para1为检测文本疑似抄袭段落,传入参数para2为论文库中相对应的段落,传入参数name为论文库中相对应的论文名称,传出参数为一个整型数组,里面记录了重叠的文字在检测文本中的位置;相似内容标识函数对检测文本的para1段与论文库中的name文本的para2段进行精确匹配,确认是否抄袭,并将抄袭段落在检测文本中的全局位置返回。
9.如权利要求1所述的论文相似度检测方法,其特征在于,所述检测文本为pdf文件时,先将pdf文件转换为txt文档。
CN201510112689.1A 2015-03-10 2015-03-10 一种论文相似度检测方法 Pending CN104699785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510112689.1A CN104699785A (zh) 2015-03-10 2015-03-10 一种论文相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510112689.1A CN104699785A (zh) 2015-03-10 2015-03-10 一种论文相似度检测方法

Publications (1)

Publication Number Publication Date
CN104699785A true CN104699785A (zh) 2015-06-10

Family

ID=53346905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510112689.1A Pending CN104699785A (zh) 2015-03-10 2015-03-10 一种论文相似度检测方法

Country Status (1)

Country Link
CN (1) CN104699785A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843926A (zh) * 2016-03-28 2016-08-10 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索***
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及***
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107784100A (zh) * 2017-10-26 2018-03-09 苏州赛维新机电检测技术服务有限公司 一种论文检索***
CN108734110A (zh) * 2018-04-24 2018-11-02 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及***
CN108829791A (zh) * 2018-06-01 2018-11-16 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN109034717A (zh) * 2018-06-05 2018-12-18 王振 一种识别招标过程中围标串标行为的方法
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111160445A (zh) * 2019-12-25 2020-05-15 中国建设银行股份有限公司 投标文件相似度计算方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178417B1 (en) * 1998-06-29 2001-01-23 Xerox Corporation Method and means of matching documents based on text genre
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6178417B1 (en) * 1998-06-29 2001-01-23 Xerox Corporation Method and means of matching documents based on text genre
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测***及其检测方法
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐川: "论文相似度分析***设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李旭: "基于指纹和语义知识表示的中文文档复制检测方法", 《中国博士学位论文全文数据库 信息科技辑》 *
秦玉平 等: "基于局部词频指纹的论文抄袭检测算法", 《计算机工程》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843926B (zh) * 2016-03-28 2019-03-12 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索***
CN105843926A (zh) * 2016-03-28 2016-08-10 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索***
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及***
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107784100A (zh) * 2017-10-26 2018-03-09 苏州赛维新机电检测技术服务有限公司 一种论文检索***
CN110134923A (zh) * 2018-02-08 2019-08-16 陈虎 一种电子文稿修改痕迹的查找方法
CN108734110A (zh) * 2018-04-24 2018-11-02 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及***
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及***
CN108829791B (zh) * 2018-06-01 2022-04-05 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN108829791A (zh) * 2018-06-01 2018-11-16 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN109034717A (zh) * 2018-06-05 2018-12-18 王振 一种识别招标过程中围标串标行为的方法
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111160445A (zh) * 2019-12-25 2020-05-15 中国建设银行股份有限公司 投标文件相似度计算方法及装置
CN111160445B (zh) * 2019-12-25 2023-06-16 中国建设银行股份有限公司 投标文件相似度计算方法及装置

Similar Documents

Publication Publication Date Title
CN104699785A (zh) 一种论文相似度检测方法
CN106156239B (zh) 一种表格抽取方法和装置
CN114821622A (zh) 文本抽取方法、文本抽取模型训练方法、装置及设备
CN102831121A (zh) 一种网页信息抽取的方法和***
CN111694823A (zh) 机构标准化方法、装置、电子设备及存储介质
CN109508458A (zh) 法律实体的识别方法及装置
CN112395418B (zh) 网页中的目标对象提取方法、装置、电子设备
CN114118053A (zh) 一种合同信息提取方法及装置
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及***
CN106407392A (zh) 一种基于标记语言的节点映射关系抽取方法及***
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN103942211A (zh) 一种正文页的识别方法及装置
CN103294820A (zh) 基于语义扩展的web页面归类方法和***
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN106469188A (zh) 一种实体消歧方法及装置
CN103365879A (zh) 一种用于获取页面相似度的方法与设备
CN105426379A (zh) 基于词语位置的关键字权值计算方法
CN115470307A (zh) 一种地址匹配方法及装置
CN115238081A (zh) 一种文物智能识别方法、***及可读存储介质
CN114444465A (zh) 信息抽取方法、装置、设备及存储介质
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN105138708A (zh) 一种兴趣点名称的识别方法和装置
CN102194000A (zh) 一种信息处理方法、装置及终端
CN104615728B (zh) 一种网页正文提取方法及装置
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150610

RJ01 Rejection of invention patent application after publication