CN112529111B - 一种ppt文档的对比方法 - Google Patents

一种ppt文档的对比方法 Download PDF

Info

Publication number
CN112529111B
CN112529111B CN202011586576.2A CN202011586576A CN112529111B CN 112529111 B CN112529111 B CN 112529111B CN 202011586576 A CN202011586576 A CN 202011586576A CN 112529111 B CN112529111 B CN 112529111B
Authority
CN
China
Prior art keywords
ppt
file
comparing
similarity
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011586576.2A
Other languages
English (en)
Other versions
CN112529111A (zh
Inventor
孙永毫
徐强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guoli Education Technology Co ltd
Original Assignee
Guangdong Guoli Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guoli Education Technology Co ltd filed Critical Guangdong Guoli Education Technology Co ltd
Priority to CN202011586576.2A priority Critical patent/CN112529111B/zh
Publication of CN112529111A publication Critical patent/CN112529111A/zh
Application granted granted Critical
Publication of CN112529111B publication Critical patent/CN112529111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于ppt文档对比技术计算老师备课创新度的方法,包括:S1、获取新旧PPT文件;S2、对所述S1中获取的新旧PPT文件进行对比处理,获取新旧ppt文本文字的相似度,生成对比结果文件;S3、依据所述S2中获取的文本文字的相识度,计算老师备课创新度,采用:
Figure DDA0002866165400000011
其中,C为创新度,n为老师编辑的ppt文档个数,S为文本文字的相似度。能够从备课文档对比的角度,便利的科学的计算出老师备课创新度,通过计算出新旧ppt的文本文字的相似度,并利用公式,计算出老师本科创新度,根据创新度的大小,来评定老师的创新度等级。

Description

一种ppt文档的对比方法
技术领域
本发明涉及教学技术领域,具体涉及一种ppt文档的对比方法。
背景技术
在学校,备课是老师日常工作的重要组成部分,也是绩效考核的一部分。然而,由于一部分教师对备课的重要性、规律性认识不足,因此出现了备课流于形式、应付检查等现象。体现在:现如今网上资源平台众多,像百度文库、学科网等平台,直接提供现成的课程资源,容易复制粘贴。这样就导致,老师的备课创新度很难衡量,这方面的绩效考核也很模糊。
文档对比技术可以解决这个问题。虽然现在文档对比技术很成熟,尤其是应用在高校论文查重方面,但这种技术通常是对单一文档进行查重,如果应用在成百上千个ppt文档同时进行对比,便利性较低。而且,通过简单的文档对比得出的结果,往往并不科学,比如:老师由于拓展课外知识,使用网上图片或音视频不可避免,如果连这也算在查重范围之内的话,未免太不人性化。因此还需要一种更为科学的计算方法来衡量老师的备课创新度。
不难看出,现有技术中还存在诸多问题。
发明内容
为此,为了解决现有技术中的上述问题,本发明提出一种ppt文档的对比方法。
本发明通过以下技术手段解决上述问题:
一种ppt文档的对比方法,包括:
S1、获取新旧PPT文件;
S2、对所述S1中获取的新旧PPT文件进行对比处理,获取新旧ppt文本文字或图片内容的相似度,生成对比结果文件;
S3、依据所述S2中获取的文本文字的相识度,计算老师备课创新度,采用:
Figure GDA0003514127250000021
其中,C为创新度,n为老师编辑的ppt文档个数,S为文本文字或图片内容的相似度。
进一步的,所述S2包括:
文件转换、获取文件的MD5值;获取新旧ppt文件中幻灯片存在差异的页码;比较文字;比较图像;计算文本文字或图片内容的相似度S;形成对比结果文件。
进一步的,所述文件转换具体为:集成libreoffice工具使文件转换成.pptx文件格式。
进一步的,所述获取文件的MD5值具体为:通过‘MD5’算法获取文件的‘MD5’值,通过‘MD5’值是否相等来判断两个文件是否相同。
进一步的,所述获取新旧ppt文件中幻灯片存在差异的页码具体为:
利用POI和java中的AWT软件包,通过创建Bufferedlmage对象,将幻灯片转换成图片,图象的尺寸为原来PPT的每页的尺寸;
通过MD5算法,获取每张图片MD5值,通过MD5值来判断两张图片是否相同;
将图片完全不同的页码记录存储到页码集合当中。
进一步的,所述比较文字具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的Shape方式获取不相同页码的幻灯片下的段落文字,并去除空行;
通过diff_main算法,找到两个文本之间的差异,并将差异值记录存放在集合当中;
在差异页的页码当中创建幻灯片,并添加说明差异的内容。
进一步的,所述比较图像具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的SlidePicture和BufferedImage对象,获取不相同页码中的幻灯片下的图像;
通过均值哈希算法,实现比较图像指纹的方式,对比两张图片是否相同,记录相同图片的数目;
通过数目计算ppt文件图片的引用率,引用率=相同图片的数目/新ppt的图片总数。
进一步的,所述计算文本文字的相似度S具体为:
通过Segment方法,对段落文本进行分词处理,并确定所述待匹配文档的特征词;
文本相似度计算判定,通过余弦相似度计算,即计算两个向量的夹角余弦值来评估他们的相似度,
所述余弦夹角原理:已知向量a=(x1,y1),向量b=(x2,y2)
Figure GDA0003514127250000041
其中a·b=x1x2+y1y2
Figure GDA0003514127250000042
进一步的,所述形成对比结果文件具体为:
在ppt末尾生成一张幻灯片,用于标注***文字总相似度和图像比较的结果;
通过poi方式去除结果文件中产生的水印标记。
本发明的有益效果是:能够从备课文档对比的角度,便利的科学的计算出老师备课创新度,通过计算出新旧ppt的文本文字的相似度,并利用公式,计算出老师本科创新度,根据创新度的大小,来评定老师的创新度等级。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是的本发明所述的一种ppt文档的对比方法的基本流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例子仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,一种ppt文档的对比方法,包括:
S1、获取新旧PPT文件;
S2、对所述S1中获取的新旧PPT文件进行对比处理,获取新旧ppt文本文字或图片内容的相似度,生成对比结果文件;
S3、依据所述S2中获取的文本文字的相识度,计算老师备课创新度,采用:
Figure GDA0003514127250000051
其中,C为创新度,n为老师编辑的ppt文档个数,S为文本文字或图片内容的相似度。
作为优选,所述S2包括:
文件转换、获取文件的MD5值;获取新旧ppt文件中幻灯片存在差异的页码;比较文字;比较图像;计算文本文字或图片内容的相似度S;形成对比结果文件。
需要说明的是,所述S可以是文本文字的相似度,也可以是图片内容的相似度。
作为优选,所述文件转换具体为:集成libreoffice工具使文件转换成.pptx文件格式。
作为优选,所述获取文件的MD5值具体为:通过‘MD5’算法获取文件的‘MD5’值,通过‘MD5’值是否相等来判断两个文件是否相同。
作为优选,所述获取新旧ppt文件中幻灯片存在差异的页码具体为:
利用POI和java中的AWT软件包,通过创建Bufferedlmage对象,将幻灯片转换成图片,图象的尺寸为原来PPT的每页的尺寸;
通过MD5算法,获取每张图片MD5值,通过值来判断两张图片是否相同;
将图片完全不同的页码记录存储到页码集合当中。
作为优选,所述比较文字具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的Shape方式获取不相同页码的幻灯片下的段落文字,并去除空行;
通过diff_main算法,找到两个文本之间的差异,并将差异值记录存放在集合当中;
在差异页的页码当中创建幻灯片,并添加说明差异的内容。
作为优选,所述比较图像具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的SlidePicture和BufferedImage对象,获取不相同页码中的幻灯片下的图像;
通过均值哈希算法,实现比较图像指纹的方式,对比两张图片是否相同,记录相同图片的数目;
通过数目计算ppt文件图片的引用率,引用率=相同图片的数目/新ppt的图片总数。
作为优选,所述计算文本文字的相似度S具体为:
通过Segment方法,对段落文本进行分词处理,并确定所述待匹配文档的特征词;
文本相似度计算判定,通过余弦相似度计算,即计算两个向量的夹角余弦值来评估他们的相似度,所述余弦夹角原理:已知向量a=(x1,y1),向量b=(x2,y2);
Figure GDA0003514127250000071
其中a·b=x1x2+y1y2
Figure GDA0003514127250000072
作为优选,所述形成对比结果文件具体为:
在ppt末尾生成一张幻灯片,用于标注***文字总相似度和图像比较的结果;
通过poi方式去除结果文件中产生的水印标记。
作为优选,根据所述S3中对老师备课创新度的计算,计算出的创新度值,评定老师创新度等级。根据一线教学管理工作者,引入指标等级:创新度高、创新度良好、创新度适中、创新度低、没有创新五部分,得出以下数值:
表1:老师备课创新度值表
Figure GDA0003514127250000073
Figure GDA0003514127250000081
本发明的有益效果是:能够从备课文档对比的角度,便利的科学的计算出老师备课创新度,通过计算出新旧ppt的文本文字的相似度,并利用公式,计算出老师本科创新度,根据创新度的纸,来评定老师的创新度等级。
在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、“优选实施例”等,指的是结合该实例描述的具体特征、结构或者特点包含在本申请概括描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明内。尽管这里参照本发明的多个解释性实例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式降落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对主题结合布局的组成部件和/或布局进行的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显。

Claims (5)

1.一种ppt文档的对比方法,其特征在于,包括:
S1、获取新旧PPT文件;
S2、对所述S1中获取的新旧PPT文件进行对比处理,获取新旧ppt文本文字或图片内容的相似度,生成对比结果文件;所述S2包括:
文件转换、获取文件的MD5值;获取新旧ppt文件中幻灯片存在差异的页码;比较文字;比较图像;计算文本文字的相似度S;形成对比结果文件;
所述比较文字具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的Shape方式获取不相同页码的幻灯片下的段落文字,并去除空行;
通过diff_main算法,找到两个文本之间的差异,并将差异值记录存放在集合当中;
在差异页的页码当中创建幻灯片,并添加说明差异的内容;
所述比较图像具体为:
通过e-iceblue软件工具包,加载ppt文件,同时根据不相同的页码集合获取页码对应的ppt幻灯片;
通过e-iceblue软件包中的SlidePicture和BufferedImage对象,获取不相同页码中的幻灯片下的图像;
通过均值哈希算法,实现比较图像指纹的方式,对比两张图片是否相同,记录相同图片的数目;
通过数目计算ppt文件图片的引用率,引用率=相同图片的数目/新ppt的图片总数;
所述获取新旧ppt文件中幻灯片存在差异的页码具体为:
利用POI和java中的AWT软件包,通过创建BufferedImage对象,将幻灯片转换成图片,图象的尺寸为原来PPT的每页的尺寸;
通过MD5算法,获取每张图片MD5值,通过MD5值来判断两张图片是否相同;
将图片完全不同的页码记录存储到页码集合当中。
2.根据权利要求1所述的ppt文档的对比方法,其特征在于,所述文件转换具体为:集成libreoffice工具使文件转换成.pptx文件格式。
3.根据权利要求2所述的ppt文档的对比方法,其特征在于,所述获取文件的MD5值具体为:通过‘MD5’算法获取文件的‘MD5’值,通过‘MD5’值是否相等来判断两个文件是否相同。
4.根据权利要求1所述的ppt文档的对比方法,其特征在于,所述计算文本文字的相似度S具体为:
通过Segment方法,对段落文本进行分词处理,并确定所述新PPT文件的特征词;
文本相似度计算判定,通过余弦相似度计算,即计算两个向量的夹角余弦值来评估他们的相似度:
已知向量a=(x1,y1),向量b=(x2,y2),
Figure FDA0003514127240000021
其中a·b=x1x2+y1y2
Figure FDA0003514127240000022
5.根据权利要求4所述的ppt文档的对比方法,其特征在于,所述形成对比结果文件具体为:
在ppt末尾生成一张幻灯片,用于标注***文字总相似度和图像比较的结果;
通过poi方式去除结果文件中产生的水印标记。
CN202011586576.2A 2020-12-28 2020-12-28 一种ppt文档的对比方法 Active CN112529111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011586576.2A CN112529111B (zh) 2020-12-28 2020-12-28 一种ppt文档的对比方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011586576.2A CN112529111B (zh) 2020-12-28 2020-12-28 一种ppt文档的对比方法

Publications (2)

Publication Number Publication Date
CN112529111A CN112529111A (zh) 2021-03-19
CN112529111B true CN112529111B (zh) 2022-07-22

Family

ID=74976821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011586576.2A Active CN112529111B (zh) 2020-12-28 2020-12-28 一种ppt文档的对比方法

Country Status (1)

Country Link
CN (1) CN112529111B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246288A (zh) * 2020-01-22 2020-06-05 福建天泉教育科技有限公司 一种视频化演示pptx文档的方法及终端
CN111324750A (zh) * 2020-02-29 2020-06-23 上海爱数信息技术股份有限公司 一种大规模文本相似度计算及文本查重方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914463B (zh) * 2012-12-31 2017-09-26 北京新媒传信科技有限公司 一种图片信息的相似性检索方法和装置
CN104112284B (zh) * 2013-04-22 2017-10-13 阿里巴巴集团控股有限公司 一种图片的相似度检测方法和设备
CN106528743A (zh) * 2016-11-01 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于图片挖掘技术的高效相似图片识别方法
US11113472B2 (en) * 2018-03-14 2021-09-07 At&T Intellectual Property I, L.P. Content curation for course generation
CN109635089B (zh) * 2018-12-14 2023-09-05 李华康 一种基于语义网络的文学作品新颖度评价***和方法
CN110083580B (zh) * 2019-03-29 2022-12-30 中国地质大学(武汉) 一种Word文档向PowerPoint文档转换的方法及***
CN110516212B (zh) * 2019-09-02 2022-10-28 河南理工大学 一种云计算的海量文档相似检测方法
CN110597955A (zh) * 2019-09-09 2019-12-20 北京计算机技术及应用研究所 一种基于tfidf的文档内图片搜索方法
CN112084748A (zh) * 2020-09-19 2020-12-15 神思电子技术股份有限公司 一种文本比对方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246288A (zh) * 2020-01-22 2020-06-05 福建天泉教育科技有限公司 一种视频化演示pptx文档的方法及终端
CN111324750A (zh) * 2020-02-29 2020-06-23 上海爱数信息技术股份有限公司 一种大规模文本相似度计算及文本查重方法

Also Published As

Publication number Publication date
CN112529111A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Falconer et al. Techniques in fractal geometry
JP5974115B2 (ja) 式検出エンジン
Lee A Handbook to the Reception of Thucydides
CN109858036B (zh) 一种文书划分方法及装置
US20020172425A1 (en) Recognizer of text-based work
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US20150228045A1 (en) Methods for embedding and extracting a watermark in a text document and devices thereof
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US8139860B2 (en) Retrieving and sharing electronic documents using paper
WO2008101422A1 (fr) Procédé et système de recherche d'image
US9336207B2 (en) Measuring linguistic markers and linguistic noise of a machine-human translation supply chain
US7602972B1 (en) Method and apparatus for identifying white space tables within a document
US8750571B2 (en) Methods of object search and recognition
CN112529111B (zh) 一种ppt文档的对比方法
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
CN114491034A (zh) 一种文本分类方法及智能设备
CN111460629A (zh) 图形数据校核方法、装置、电子设备和计算机存储介质
US8566366B2 (en) Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion
KR101846342B1 (ko) 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템
CN111798344B (zh) 主体名称确定方法和装置、电子设备和存储介质
US20050060308A1 (en) System, method, and recording medium for coarse-to-fine descriptor propagation, mapping and/or classification
CN108595439B (zh) 一种文字传播路径分析方法及***
JPH10111867A (ja) ワード長分布状態分析によるドキュメントの類別方法及び該方法を記録した記録媒体及び該方法を実行するためのコンピュータシステム
Spitz et al. Text categorization using character shape codes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 519000 room 367, floor 1, Zone C, building 24, Gangwan 1 science and Technology Innovation Park, Jintang Road, Tangjiawan Town, high tech Zone, Zhuhai, Guangdong Province (centralized office area)

Applicant after: GUANGDONG GUOLI EDUCATION TECHNOLOGY Co.,Ltd.

Address before: 519000 room 105-40499, No.6 Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province (centralized office area)

Applicant before: GUANGDONG GUOLI EDUCATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant