CN111681301B - 幻灯片中图片和文本的处理方法、装置、终端和存储介质 - Google Patents
幻灯片中图片和文本的处理方法、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN111681301B CN111681301B CN202010512421.8A CN202010512421A CN111681301B CN 111681301 B CN111681301 B CN 111681301B CN 202010512421 A CN202010512421 A CN 202010512421A CN 111681301 B CN111681301 B CN 111681301B
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- slide
- information
- named
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种幻灯片中图片和文本的处理方法、装置、终端和存储介质,该方法包括:确定幻灯片文件中每页幻灯片的图片信息和文本信息;对所有页幻灯片的文本信息进行自然语言分析处理,得到所有页幻灯片的命名文本语句;根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为每张图片匹配命名文本语句;根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系。本发明的方案,可以解决寻找每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的难度较大的问题,达到减小每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的寻找难度的效果。
Description
技术领域
本发明属于建造工程信息化技术领域,具体涉及一种幻灯片中图片和文本的处理方法、装置、终端和存储介质,尤其涉及一种幻灯片中图文自动匹配与图片命名的方法、装置、终端和存储介质,特别涉及一种对建造工程资料幻灯片中图片和文本进行自动匹配、并对图片自动命名和单独存储的方法、装置、终端和存储介质。
背景技术
工程建造管理过程中,经常会使用大量PPT(Microsoft Office PowerPoint,是指微软公司的演示文稿软件)等格式的幻灯片,用于沟通和交流。这些幻灯片作为高质量的工程资料,是企业的重要资产。幻灯片中有大量宝贵的图片,需要在业务中经常查看,也可以在后续的文档制作过程中重复使用。由于这些图片分散存储在各个幻灯片文件中,在使用过程中很难快速检索到,导致经常需要人工打开各个幻灯片文件进行查找,效率低下。所以需要寻找每一页工程幻灯片中多个图片与多个文本信息之间的对应关系,以更方便地查看和使用这些工程幻灯片的方式。而工程幻灯片具有图片量大、文字信息较多的特点,这就给处理带来了一定难度,所以,选择合适的算法,寻找工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,显得尤为重要。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的目的在于,针对上述缺陷,提供一种幻灯片中图片和文本的处理方法、装置、终端和存储介质,以解决寻找每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的难度较大的问题,达到减小每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的寻找难度的效果。
本发明提供一种幻灯片中图片和文本的处理方法,包括:确定幻灯片文件中每页幻灯片的图片信息和文本信息;对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句;根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句;根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系;其中,幻灯片文件中每页幻灯片的图片信息,包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息;幻灯片文件中每页幻灯片的文本信息,包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
可选地,其中,确定幻灯片文件中每页幻灯片的图片信息和文本信息,包括:针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息;以及,获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息;和/或,对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,包括:基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息;对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合;基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句;和/或,建立幻灯片文件中图片信息与文本信息之间的对应关系,包括:针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储。
可选地,其中,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,包括:将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息;以及,针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息;和/或,对每页语料信息和全文语料信息进行自然语言分析处理,包括:使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果;该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词;使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合;将语料中符合平凡词标准的词语(即不属于主题词集合但频率高于任一主题词的词语),划入该语料的平凡词集合;和/或,确定幻灯片文件中所有文本信息的命名文件语句,包括:根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句;依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句;和/或,为幻灯片文件中每张图片匹配命名文本语句,包括:根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句;若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句;若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果;以及,根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句;和/或,为每张图片构造存储结果,并根据存储结果对每张图片进行存储,包括:针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中;在数据库中为该张图片建立一条存储记录;在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。
可选地,其中,根据该张图片的所有命名文本语句确定权重,包括:根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间的距离、该张图片的每个命名文本语句与该张图片之间的重叠长度,计算权重其中:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度;和/或,根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,包括:将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果;和/或,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,包括:若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段;若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段;使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储;遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。
与上述方法相匹配,本发明另一方面提供一种幻灯片中图片和文本的处理装置,包括:确定单元,用于确定幻灯片文件中每页幻灯片的图片信息和文本信息;处理单元,用于对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句;处理单元,还用于根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句;处理单元,还用于根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系;其中,幻灯片文件中每页幻灯片的图片信息,包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息;幻灯片文件中每页幻灯片的文本信息,包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
可选地,其中,确定单元确定幻灯片文件中每页幻灯片的图片信息和文本信息,包括:针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息;以及,获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息;和/或,处理单元对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,包括:基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息;对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合;基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句;和/或,处理单元建立幻灯片文件中图片信息与文本信息之间的对应关系,包括:针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储。
可选地,其中,处理单元确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,包括:将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息;以及,针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息;和/或,处理单元对每页语料信息和全文语料信息进行自然语言分析处理,包括:使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果;该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词;使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合;将语料中符合平凡词标准的词语(即不属于主题词集合但频率高于任一主题词的词语),划入该语料的平凡词集合;和/或,处理单元确定幻灯片文件中所有文本信息的命名文件语句,包括:根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句;依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句;和/或,处理单元为幻灯片文件中每张图片匹配命名文本语句,包括:根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句;若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句;若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果;以及,根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句;和/或,处理单元为每张图片构造存储结果,并根据存储结果对每张图片进行存储,包括:针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中;在数据库中为该张图片建立一条存储记录;在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。
可选地,其中,处理单元根据该张图片的所有命名文本语句确定权重,包括:根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间的距离、该张图片的每个命名文本语句与该张图片之间的重叠长度,计算权重其中:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度;和/或,处理单元根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,包括:将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果;和/或,处理单元根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,包括:若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段;若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段;使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储;遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。
与上述装置相匹配,本发明再一方面提供一种终端,包括:以上所述的幻灯片中图片和文本的处理装置。
与上述方法相匹配,本发明再一方面提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以上所述的幻灯片中图片和文本的处理方法。
与上述方法相匹配,本发明再一方面提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行以上所述的幻灯片中图片和文本的处理方法。
本发明的方案,通过对建造工程资料幻灯片中图片和文本进行自动匹配,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,并对图片自动命名和单独存储,可快速、自动完成工程资料幻灯片文件中图片的提取、命名和独立存储,能够支持后续根据图片名称快速检索宝贵的工程图片,提升使用便捷性。
进一步,本发明的方案,通过根据针对工程幻灯片文件图片量大、文字信息较多的特点,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,能够支持幻灯片图片的快速检索和重复使用。
进一步,本发明的方案,通过针对每一页幻灯片中图片与文字内容位置关系,比较随机但相关性较强的特性,根据几何位置信息通过智能算法准确地将图片与文本块匹配,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,方便用户检索和使用。
进一步,本发明的方案,通过针对每一页幻灯片中图片与文字内容位置关系,采用基于文本字号包围盒和语义得分的算法,可以在文本块位置多变、多个图片存在的情况下,准确地为每个图片匹配最相关的文本,从而快速地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,方便用户检索和使用。
进一步,本发明的方案,通过针对每一页幻灯片中图片与文字内容位置关系,在确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系的过程中,采用中文分词和TextRank等自然语言分析算法,可以既能提取人名、地名等专有名词,也可提取较长段落的主题词,且能与幻灯片的主题相呼应,适用范围更广。
由此,本发明的方案,通过采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,以实现幻灯片中图片与文本的匹配和自动命名,解决寻找每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的难度较大的问题,达到减小每一页工程幻灯片中多个图片与多个文本信息之间的对应关系的寻找难度的效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的幻灯片中图片和文本的处理方法的一实施例的流程示意图;
图2为本发明的方法中确定幻灯片文件中每页幻灯片的图片信息和文本信息的一实施例的流程示意图;
图3为本发明的方法中对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理的一实施例的流程示意图;
图4为本发明的方法中确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息的一实施例的流程示意图;
图5为本发明的方法中对每页语料信息和全文语料信息进行自然语言分析处理的一实施例的流程示意图;
图6为本发明的方法中为幻灯片文件中每张图片匹配命名文本语句的一实施例的流程示意图;
图7为本发明的方法中为每张图片构造存储结果,并根据存储结果对每张图片进行存储的一实施例的流程示意图;
图8为本发明的方法中根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储的一实施例的流程示意图;
图9为本发明的幻灯片中图片和文本的处理装置的一实施例的结构示意图;
图10为本发明的终端的一实施例的幻灯片中图文自动匹配与图片命名的方法的流程示意图;
图11为本发明的终端的一实施例的幻灯片中图片命名文本语句匹配实例示意图;
图12为本发明的终端的一实施例的图片命名文本语句匹配步骤流程示意图;
图13为本发明的终端的一实施例的幻灯片中图片自动提取和命名结果实例示意图;
图14为本发明的终端的一实施例的结果集在数据库的存储的结构示意图;
图15为本发明的终端的一实施例的幻灯片中图文自动匹配与图片命名的装置的结构示意图。
结合附图,本发明实施例中附图标记如下:
1-幻灯片信息提取模块;2-文本语句预处理模块;3-自然语言分析模块;4-幻灯片名称匹配模块;5-图片名称匹配模块;6-图片存储模块;102-确定单元;104-处理单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种幻灯片中图片和文本的处理方法,如图1所示本发明的方法的一实施例的流程示意图。该幻灯片中图片和文本的处理方法,主要可以应用在工程幻灯片文件(即工程资料中的幻灯片)中图片和文本的处理方面,工程幻灯片文件中图片和文本的处理方法,可以包括步骤S110至步骤S140。
在步骤S110处,确定幻灯片文件中每页幻灯片的图片信息和文本信息。
可选地,步骤S110中确定幻灯片文件中每页幻灯片的图片信息和文本信息的具体过程,可以参见以下示例性说明。
下面结合图2所示本发明的方法中确定幻灯片文件中每页幻灯片的图片信息和文本信息的一实施例流程示意图,进一步说明步骤S110中确定幻灯片文件中每页幻灯片的图片信息和文本信息的具体过程,可以包括:步骤S210和步骤S220。
步骤S210,针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息。也就是说,幻灯片文件中每页幻灯片的图片信息,可以包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息。以及,
步骤S220,获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息。也就是说,幻灯片文件中每页幻灯片的文本信息,可以包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
例如:针对幻灯片文件中读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax};针对每页幻灯片,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,ximin,yimin,ximax,yimax}。如可以针对幻灯片文件中第k页幻灯片hk,获取宽度为hx、高度为hy,读取第k页幻灯片hk中每张图片pi的包围盒信息,记录为Pk={pi},pi={Ximin,Yimin,Ximax,Yimax};读取第k页幻灯片hk中所有文本语句的文本内容、字号和包围盒信息,记录为Tk={ti},ti={ci,si,ximin,yimin,ximax,yimax}。其中,ci为文本内容,si为字号,ximin、yimin、ximax、yimax为包围盒信息即位置信息。
例如:可以针对幻灯片文件中每页幻灯片hk,如图11所示,宽度为hx=210、高度为hy=130。读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax}。针对每页幻灯片h,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,si,ximin,yimin,ximax,yimax}。如图11所示,有四张图片P={p1,p2,p3,p4},p1={5,30,55,90},p2={60,40,105,80};有7个文本语句T={t1,t2,t3,t4,t5,t6,t7},其中t3={“某二甲医院应用”,24,10,102,50,108},t4={“维修人员工作量和水平评价”,14,10,23,50,27},t5={“楼宇薄弱环节评估”,14,107,47,113,77}。
由此,通过首先确定幻灯片文件中每页幻灯片的图片信息和文本信息,以方便基于每页幻灯片的图片信息和文本信息对工程幻灯片文件中的图片和文本进行处理。
在步骤S120处,对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句,从而可以根据幻灯片文件中的文本信息,确定幻灯片文件的命名文本语句。
可选地,步骤S120中对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理的具体过程,可以参见以下示例性说明。
下面结合图3所示本发明的方法中对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理的一实施例流程示意图,进一步说明步骤S120中对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理的具体过程,可以包括:步骤S310至步骤S330。
步骤S310,基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息。
更可选地,步骤S310中基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息的具体过程,可以参见以下示例性说明。
下面结合图4所示本发明的方法中确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息的一实施例流程示意图,进一步说明步骤S310中确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息的具体过程,可以包括:步骤S410和步骤S420。
步骤S410,将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息(如页语料Wk)。以及,
步骤S420,针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息(如全文语料W0)。
例如:将第k页幻灯片的文本按从上到下、从左到右的顺序,组成一段话,形成页语料Wk。然后按幻灯片页的顺序,将所有页语料组成全文语料W0,但是在连接之前,应当对不同幻灯片中在同一位置重复出现的文本语句进行删除,以修正每个幻灯片的文本语句集合Tk。如图11所示,文本t2是幻灯片的标题名称,在所有幻灯片中都重复出现,可剔除。文本t1是章节名称在前后几张幻灯片中同一位置重复出现,可以删除。
由此,通过基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,可以分别针对每页幻灯片和所有幻灯片进行处理,有利于保证对工程幻灯片文件中图片和文本进行处理的全面性和精准性。
步骤S320,采用自然语言分析法,对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合。
更可选地,步骤S320中采用自然语言分析法,对每页语料信息和全文语料信息进行自然语言分析处理,可以包括:分别对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合。例如:分别对页语料(即页语料Wk)和幻灯片文件语料(即全文语料W0)做自然语言分析,得到每页主题词集合Ek={ek,i}、每页平凡词集合Ck={ck,i}、全文主题词集合E0={e0,i}、全文平凡词集合C0={c0,i}。更具体的处理过程可以如下:
对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合;以及,对每页语料信息和全文语料信息进行自然语言分析处理,得到所有页幻灯片的全文主题词集合和全文平凡词集合。其中,对每页语料信息和全文语料信息中任一语料信息进行自然语言分析处理的过程,进一步具体地可以包括以下过程。
下面结合图5所示本发明的方法中对每页语料信息和全文语料信息进行自然语言分析处理的一实施例流程示意图,进一步说明步骤S320中对每页语料信息和全文语料信息进行自然语言分析处理的具体过程,可以包括:步骤S510至步骤S530。
步骤S510,使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果。该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词。
例如:使用N最短路径分词算法,对语料进行中文分词操作,将句子分割为短小的词语、词组和专有名词。例如“维修人员工作量和水平评价”将分割为{维修,人员,工作量,和,水平,评价}。
步骤S520,使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合(如主题词集合E)。
例如:使用TextRank算法,选择得分最高的10个词,作为该则语料的主题词集合E。这些词语的特点是,不仅出现频率较高、且与其他主题词的关联性也较强。譬如,案例PPT的主题词集合E={维修,工单,医院,……}。
步骤S530,将语料中符合平凡词标准的词语(即不属于主题词集合但频率高于任一主题词的词语),划入该语料的平凡词集合(如平凡词集合C)。
例如:将语料中不属于主题词集合,但频率高于任一主题词的词语,划入平凡词集合C。这些平凡词的特点是,在很多不同语料中也经常使用,因此不具有辨识度,不能将其作为某个特定语料的关键词,反而对语义概括有负面作用。譬如,图11页面的平凡词集合E={某,总是,人员,……}。以在后续步骤中,使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”。使用快速分词法,将图片最终名称做搜索引擎分词,所得的词语存入“图片搜索词”。
由此,通过采用中文分词和TextRank等自然语言分析算法,解决了一些标记图片的技术不适用较长文本且限于短小的专有名词的问题。其中,首先对幻灯片每页和全文语料的主题词,然后将每个图片的关联文本直接做自然语言分析,最后结合语义和幻灯片主题,将关联文本精简为短小且有代表性的文件名;可以既能提取人名、地名等专有名词,也可提取较长段落的主题词,且能与幻灯片的主题相呼应。
步骤S330,基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句。
由此,通过在选择合适的算法寻找工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系的基础上,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名,可以在精简语句的同时,又能与幻灯片的主题相呼应,提高了幻灯片文件中图片命名的准确性,也拓宽了这种处理方式的适用范围。
更可选地,步骤S330中基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句,可以包括:根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句。依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句。
例如:根据每个幻灯片中的所有文本语句的字号和包围盒信息,计算幻灯片的命名文本语句ht。优选的计算方法或匹配方法为,选每张图片pi的包围盒信息中Yimin>k*每张图片pi的高度hy的所有文本语句中字号si最大的文本语句ti为幻灯片的命名文本语句ht,k优选为1/3。如图11所示,上部1/3以上文本语句只有文本语句t3和文本语句t6,其中文本语句t3的字号是24,最大。因此本幻灯片的命名文本语句为文本语句t3。
由此,通过基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句,可以针对每页幻灯片和所有幻灯片进行主题词和平凡词的区分处理,有利于保证所得的幻灯片文件中所有文本信息的命名文件语句的精准性。
在步骤S130处,根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句。
可选地,步骤S130中根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,如针对每张图片pi,匹配最合适的命名文本语句ti={ci,si,ximin,yimin,ximax,yimax},存储到每张图片pi的包围盒信息中得到pi={ci,Ximin,Yimin,Ximax,Yimax}。如图12所示,具体可以包括:
下面结合图6所示本发明的方法中为幻灯片文件中每张图片匹配命名文本语句的一实施例流程示意图,进一步说明步骤S130中为幻灯片文件中每张图片匹配命名文本语句的具体过程,可以包括:步骤S610至步骤S640。
步骤S610,根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句。如图12所示,根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax},计算其正上方、正下方、正左方或正右方的文本语句tp={tpj}={(tj,wj)}。如图11所示,对于图片p1={5,30,55,90},其正上方、正下方、正左方或正右方的文本语句可以包括t3,t4,t5,t6,t7。
步骤S620,若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句。
例如:如图12所示,如果根据图片pi的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj为空集,则以该幻灯片的命名文本语句ht作为图片pi的命名文本语句。
步骤S630,若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果。
更进一步可选地,步骤S630中根据该张图片的所有命名文本语句确定权重,可以包括:根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间该张图片的每个命名文本语句与该张图片之间的重叠长度,计算权重其中:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度。
例如:根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj中每个文本语句tj的字号大小,以及与图片pi的中心点距离和重叠层度计算权重wj;优选其中dj是tj中心点和pj中心点之间的距离。lj为图片pj与文本语句tj之间的重叠长度。优选的计算公式如下:
如图11所示,对于图片p1,文本语句t3的权重w3=0.622;文本语句t4的权重w4=1.057;文本语句t5的权重w5=-0.527;文本语句t6的权重w6=-1.02;文本语句t7的权重w7=-0.92;对于图片p2,文本语句t3的权重w3=-0.463;文本语句t4的权重w4=-0.365;文本语句t5的权重w5=1.01;文本语句t6的权重w6=-0.45。文本语句t7的权重w7=-0.63。
由此,通过根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间的距离、该张图片的每个命名文本语句与该张图片之间的重叠长度确定权重,可以保证对每个权重确定的可靠性和精准性。
更进一步可选地,步骤S630中根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,可以包括:将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果。
例如:将文本语句tj中的分词词语依次与本页主题词集合Ek、全文主题词集合E0、本页平凡词集合Ck、全文平凡词集合C0中的词语作匹配,然后根据词语匹配次数,按下表计算文本语句tj的附加得分bj。与主题词的匹配将得分,与平凡词的匹配将扣分,但得分与扣分不应超过限值。优选的,文本语句tj的附加得分bj的取值,可以参考下表。
匹配情形 | 每个匹配的得分 | 本项得分的限值 |
<![CDATA[属于本页主题词集合E<sub>k</sub>]]> | 0.2 | 0.0~1.0 |
<![CDATA[属于全文主题词集合E<sub>0</sub>]]> | 0.1 | 0.0~0.5 |
<![CDATA[属于本页平凡词集合C<sub>k</sub>]]> | -0.2 | -0.6~0.0 |
<![CDATA[属于全文平凡词集合C<sub>0</sub>]]> | -0.1 | -0.3~0.0 |
如图11所示,文本语句t3含有1个全文主题词“医院”,故文本语句t3的附加得分b3=0.1。文本语句t4含有1个本页主题词“维修”和1个全文平凡词“人员”,故文本语句t4的附加得分b4=0.2-0.1=0.1,其余类似。
由此,通过将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,确定该张图片与所有命名文本语句的匹配结果,可以针对每页幻灯片和所有页幻灯片进行处理,保证了匹配结果的全面性和可靠性。
以及,步骤S640,根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句。
例如:如图12所示,将文本语句ti的总权重wj+文本语句tj的附加得分bj最大的文本语句tj,作为图片pi的命名文本语句。如图11所示,图片p1对应的命名文本语句为文本语句t4,图片p2对应的命名文本语句为文本语句t5,图片p3对应的命名文本语句为文本语句t6,图片p4对应的命名文本语句为文本语句t7。
由此,通过计算幻灯片中的图片与该页上的文字在空间位置上的相关性;然后采用关键词和平凡词匹配方法,以得分量化了关键的语义信息,达到了更准确地将图片与幻灯片文本块对应起来、大大增强了图片命名的可读性和可理解性的技术效果。
在步骤S140处,根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系。
其中,幻灯片文件中每页幻灯片的图片信息,可以包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息。幻灯片文件中每页幻灯片的文本信息,可以包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
由此,通过根据工程幻灯片文件特点,比如幻灯片文件比较随机但相关性较强的特性,针对每一页幻灯片中图片与文字内容位置关系,选择合适的算法,根据几何位置信息通过智能算法准确地将图片与文本块匹配,可以用于图片的命名,可增强幻灯片中图片名称的可读性、可理解性和可检索性。其中,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名;采用自然语言分析方法将图片的关联文本精简为短小且有代表性的主题词,便于建立索引和快速检索。
可选地,步骤S140中根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系的具体过程,可以包括:针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储,以建立幻灯片文件中图片信息与文本信息之间的对应关系。也就是说,将幻灯片文件中每张图片存储为单独文件,并根据为每张图片匹配得到的图片命名文本语句,为每张图片的单独文件命名,以建立幻灯片文件中图片信息与文本信息之间的对应关系。
例如:基于图片pi的命名文本语句ci,构造最终的结果,可以包括图片本身、最终名称、图片全名、图片搜索词等。
由此,根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,进行命名和存储,从而可以快速且方便地针对工程幻灯片文件建立幻灯片文件中图片信息与文本信息之间的对应关系,方便用户查看和适应。
更可选地,针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储的具体过程,可以参见以下示例性说明。
下面结合图7所示本发明的方法中为每张图片构造存储结果,并根据存储结果对每张图片进行存储的一实施例流程示意图,进一步说明步骤为每张图片构造存储结果,并根据存储结果对每张图片进行存储的具体过程,可以包括:步骤S710和步骤S720。
步骤S710,针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中。
例如:可以对新建文件夹以幻灯片名称ht命名,将幻灯片中每张图片pi独立存储为文件,并命名为最终名称如ci,放置到该文件夹中。
步骤S720,在数据库中为该张图片建立一条存储记录。在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。
例如:在数据库中为图片pi建立一条记录,图片全名字段直接存储基于图片pi的命名文本语句ci。譬如,p4的全名字段即为“门诊输液室的灯管总是亮了又灭”。
由此,通过针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果并根据存储结果对每张图片进行存储,可以方便基于工程换幻灯片中图片和文本进行对应存储,方便存储,也方便查找。
更进一步可选地,步骤S720中在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储的具体过程,可以参见以下示例性说明。
下面结合图8所示本发明的方法中根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储的一实施例流程示意图,进一步说明步骤S720中根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储的具体过程,可以包括:步骤S810至步骤S840。
步骤S810,若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段。
步骤S820,若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段。
例如:若基于图片pi的命名文本语句ci过长,优选超过10个汉字长度,则使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”,存入数据库。若基于图片pi的命名文本语句ci较短,则图片最终名称与全名相同即可。譬如图片p4的全名有14字,则通过抽取短语“输液室的灯管”、“亮了又灭”,组成其最终名称。
步骤S830,使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储。
例如:使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储。
步骤S840,遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。
例如:进行一项后处理,遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。如图13所示,新建了文件夹“某二甲医院应用”,对图11所示幻灯片提取并命名了4个图片文件。使用快速分词法获得“图片搜索词”。遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。
由此,通过根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,保证了存储的可靠性、且占用空间小,也保证了查找的便捷性。
经大量的试验验证,采用本实施例的技术方案,通过对建造工程资料幻灯片中图片和文本进行自动匹配,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,并对图片自动命名和单独存储,可快速、自动完成工程资料幻灯片文件中图片的提取、命名和独立存储,能够支持后续根据图片名称快速检索宝贵的工程图片,提升使用便捷性。
根据本发明的实施例,还提供了对应于幻灯片中图片和文本的处理方法的一种幻灯片中图片和文本的处理装置。参见图9所示本发明的装置的一实施例的结构示意图。该幻灯片中图片和文本的处理装置,主要可以应用在工程幻灯片文件(即工程资料中的幻灯片)中图片和文本的处理方面,工程幻灯片文件中图片和文本的处理装置,可以包括:确定单元102和处理单元104。
在一个可选例子中,确定单元102,可以用于确定幻灯片文件中每页幻灯片的图片信息和文本信息。该确定单元102的具体功能及处理参见步骤S110。
可选地,确定单元102确定幻灯片文件中每页幻灯片的图片信息和文本信息,可以包括:
确定单元102,具体还可以用于针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息。也就是说,幻灯片文件中每页幻灯片的图片信息,可以包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息。该确定单元102的具体功能及处理还参见步骤S210。以及,
确定单元102,具体还可以用于获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息。也就是说,幻灯片文件中每页幻灯片的文本信息,可以包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。该确定单元102的具体功能及处理还参见步骤S220。
例如:针对幻灯片文件中读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax};针对每页幻灯片,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,ximin,yimin,ximax,yimax}。如可以针对幻灯片文件中第k页幻灯片hk,获取宽度为hx、高度为hy,读取第k页幻灯片hk中每张图片pi的包围盒信息,记录为Pk={pi},pi={Ximin,Yimin,Ximax,Yimax};读取第k页幻灯片hk中所有文本语句的文本内容、字号和包围盒信息,记录为Tk={ti},ti={ci,si,ximin,yimin,ximax,yimax}。其中,ci为文本内容,si为字号,ximin、yimin、ximax、yimax为包围盒信息即位置信息。
例如:可以针对幻灯片文件中每页幻灯片hk,如图11所示,宽度为hx=210、高度为hy=130。读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax}。针对每页幻灯片h,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,si,ximin,yimin,ximax,yimax}。如图11所示,有四张图片P={p1,p2,p3,p4},p1={5,30,55,90},p2={60,40,105,80};有7个文本语句T={t1,t2,t3,t4,t5,t6,t7},其中t3={“某二甲医院应用”,24,10,102,50,108},t4={“维修人员工作量和水平评价”,14,10,23,50,27},t5={“楼宇薄弱环节评估”,14,107,47,113,77}。
由此,通过首先确定幻灯片文件中每页幻灯片的图片信息和文本信息,以方便基于每页幻灯片的图片信息和文本信息对工程幻灯片文件中的图片和文本进行处理。
在一个可选例子中,处理单元104,可以用于对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句,从而可以根据幻灯片文件中的文本信息,确定幻灯片文件的命名文本语句。该处理单元104的具体功能及处理参见步骤S120。
可选地,处理单元104对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,可以包括:
处理单元104,具体还可以用于基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息。该处理单元104的具体功能及处理还参见步骤S310。
更可选地,处理单元104基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,可以包括:
处理单元104,具体还可以用于将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息(如页语料Wk)。该处理单元104的具体功能及处理还参见步骤S410。以及,
处理单元104,具体还可以用于针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息(如全文语料W0)。该处理单元104的具体功能及处理还参见步骤S420。
例如:将第k页幻灯片的文本按从上到下、从左到右的顺序,组成一段话,形成页语料Wk。然后按幻灯片页的顺序,将所有页语料组成全文语料W0,但是在连接之前,应当对不同幻灯片中在同一位置重复出现的文本语句进行删除,以修正每个幻灯片的文本语句集合Tk。如图11所示,文本t2是幻灯片的标题名称,在所有幻灯片中都重复出现,可剔除。文本t1是章节名称在前后几张幻灯片中同一位置重复出现,可以删除。
由此,通过基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,可以分别针对每页幻灯片和所有幻灯片进行处理,有利于保证对工程幻灯片文件中图片和文本进行处理的全面性和精准性。
处理单元104,具体还可以用于采用自然语言分析法,对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合。该处理单元104的具体功能及处理还参见步骤S320。
更可选地,处理单元104采用自然语言分析法,对每页语料信息和全文语料信息进行自然语言分析处理,可以包括:分别对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合。例如:分别对页语料(即页语料Wk)和幻灯片文件语料(即全文语料W0)做自然语言分析,得到每页主题词集合Ek={ek,i}、每页平凡词集合Ck={ck,i}、全文主题词集合E0={e0,i}、全文平凡词集合C0={c0,i}。更具体的处理过程可以如下:
处理单元104,具体还可以用于对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合。以及,对每页语料信息和全文语料信息进行自然语言分析处理,得到所有页幻灯片的全文主题词集合和全文平凡词集合。其中,对每页语料信息和全文语料信息中任一语料信息进行自然语言分析处理的过程,进一步具体地可以包括以下过程:
处理单元104,具体还可以用于使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果。该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词。该处理单元104的具体功能及处理还参见步骤S510。
例如:使用N最短路径分词算法,对语料进行中文分词操作,将句子分割为短小的词语、词组和专有名词。例如“维修人员工作量和水平评价”将分割为{维修,人员,工作量,和,水平,评价}。
处理单元104,具体还可以用于使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合(如主题词集合E)。该处理单元104的具体功能及处理还参见步骤S520。
例如:使用TextRank算法,选择得分最高的10个词,作为该则语料的主题词集合E。这些词语的特点是,不仅出现频率较高、且与其他主题词的关联性也较强。譬如,案例PPT的主题词集合E={维修,工单,医院,……}。
处理单元104,具体还可以用于将语料中符合平凡词标准的词语(即不属于主题词集合但频率高于任一主题词的词语),划入该语料的平凡词集合(如平凡词集合C)。该处理单元104的具体功能及处理还参见步骤S530。
例如:将语料中不属于主题词集合,但频率高于任一主题词的词语,划入平凡词集合C。这些平凡词的特点是,在很多不同语料中也经常使用,因此不具有辨识度,不能将其作为某个特定语料的关键词,反而对语义概括有负面作用。譬如,图11页面的平凡词集合E={某,总是,人员,……}。以在后续步骤中,使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”。使用快速分词法,将图片最终名称做搜索引擎分词,所得的词语存入“图片搜索词”。
由此,通过采用中文分词和TextRank等自然语言分析算法,解决了一些标记图片的技术不适用较长文本且限于短小的专有名词的问题。其中,首先对幻灯片每页和全文语料的主题词,然后将每个图片的关联文本直接做自然语言分析,最后结合语义和幻灯片主题,将关联文本精简为短小且有代表性的文件名;可以既能提取人名、地名等专有名词,也可提取较长段落的主题词,且能与幻灯片的主题相呼应。
处理单元104,具体还可以用于基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句。该处理单元104的具体功能及处理还参见步骤S330。
由此,通过在选择合适的算法寻找工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系的基础上,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名,可以在精简语句的同时,又能与幻灯片的主题相呼应,提高了幻灯片文件中图片命名的准确性,也拓宽了这种处理方式的适用范围。
更可选地,处理单元104基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句,可以包括:处理单元104,具体还可以用于根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句。依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句。
例如:根据每个幻灯片中的所有文本语句的字号和包围盒信息,计算幻灯片的命名文本语句ht。优选的计算装置或匹配装置为,选每张图片pi的包围盒信息中Yimin>k*每张图片pi的高度hy的所有文本语句中字号si最大的文本语句ti为幻灯片的命名文本语句ht,k优选为1/3。如图11所示,上部1/3以上文本语句只有文本语句t3和文本语句t6,其中文本语句t3的字号是24,最大;因此本幻灯片的命名文本语句为文本语句t3。
由此,通过基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句,可以针对每页幻灯片和所有幻灯片进行主题词和平凡词的区分处理,有利于保证所得的幻灯片文件中所有文本信息的命名文件语句的精准性。
在一个可选例子中,处理单元104,还可以用于根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句。该处理单元104的具体功能及处理还参见步骤S130。
可选地,处理单元104根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,如针对每张图片pi,匹配最合适的命名文本语句ti={ci,si,ximin,yimin,ximax,yimax},存储到每张图片pi的包围盒信息中得到pi={ci,Ximin,Yimin,Ximax,Yimax}。如图12所示,具体可以包括:
处理单元104,具体还可以用于根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句。该处理单元104的具体功能及处理还参见步骤S610。如图12所示,根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax},计算其正上方、正下方、正左方或正右方的文本语句tp={tpj}={(tj,wj)}。如图11所示,对于图片p1={5,30,55,90},其正上方、正下方、正左方或正右方的文本语句可以包括t3,t4,t5,t6,t7。
处理单元104,具体还可以用于若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句。该处理单元104的具体功能及处理还参见步骤S620。
例如:如图12所示,如果根据图片pi的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj为空集,则以该幻灯片的命名文本语句ht作为图片pi的命名文本语句。
处理单元104,具体还可以用于若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果。该处理单元104的具体功能及处理还参见步骤S630。
更可选地,处理单元104根据该张图片的所有命名文本语句确定权重,可以包括:处理单元104,具体还可以用于根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间的距离、该张图片的每个命名文本语句与该张图片之间的重叠长度,计算权重其中:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度。
例如:根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj中每个文本语句tj的字号大小,以及与图片pi的中心点距离和重叠层度计算权重wj;优选其中dj是tj中心点和pj中心点之间的距离。lj为图片pj与文本语句tj之间的重叠长度。优选的计算公式如下:
如图11所示,对于图片p1,文本语句t3的权重w3=0.622;文本语句t4的权重w4=1.057;文本语句t5的权重w5=-0.527;文本语句t6的权重w6=-1.02;文本语句t7的权重w7=-0.92;对于图片p2,文本语句t3的权重w3=-0.463;文本语句t4的权重w4=-0.365;文本语句t5的权重w5=1.01;文本语句t6的权重w6=-0.45;文本语句t7的权重w7=-0.63。
由此,通过根据该张图片的所有命名文本语句中每个命名文本语句的字号大小,以及该张图片的每个命名文本语句与该张图片的中心点之间的距离、该张图片的每个命名文本语句与该张图片之间的重叠长度确定权重,可以保证对每个权重确定的可靠性和精准性。
更可选地,处理单元104根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,可以包括:处理单元104,具体还可以用于将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果。
例如:将文本语句tj中的分词词语依次与本页主题词集合Ek、全文主题词集合E0、本页平凡词集合Ck、全文平凡词集合C0中的词语作匹配,然后根据词语匹配次数,按下表计算文本语句tj的附加得分bj。与主题词的匹配将得分,与平凡词的匹配将扣分,但得分与扣分不应超过限值。优选的,文本语句tj的附加得分bj的取值,可以参考下表。
匹配情形 | 每个匹配的得分 | 本项得分的限值 |
<![CDATA[属于本页主题词集合E<sub>k</sub>]]> | 0.2 | 0.0~1.0 |
<![CDATA[属于全文主题词集合E<sub>0</sub>]]> | 0.1 | 0.0~0.5 |
<![CDATA[属于本页平凡词集合C<sub>k</sub>]]> | -0.2 | -0.6~0.0 |
<![CDATA[属于全文平凡词集合C<sub>0</sub>]]> | -0.1 | -0.3~0.0 |
如图11所示,文本语句t3含有1个全文主题词“医院”,故文本语句t3的附加得分b3=0.1。文本语句t4含有1个本页主题词“维修”和1个全文平凡词“人员”,故文本语句t4的附加得分b4=0.2-0.1=0.1,其余类似。
由此,通过将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,确定该张图片与所有命名文本语句的匹配结果,可以针对每页幻灯片和所有页幻灯片进行处理,保证了匹配结果的全面性和可靠性。
以及,处理单元104,具体还可以用于根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句。该处理单元104的具体功能及处理还参见步骤S640。
例如:如图12所示,将文本语句ti的总权重wj+文本语句tj的附加得分bj最大的文本语句tj,作为图片pi的命名文本语句。如图11所示,图片p1对应的命名文本语句为文本语句t4,图片p2对应的命名文本语句为文本语句t5,图片p3对应的命名文本语句为文本语句t6,图片p4对应的命名文本语句为文本语句t7。
由此,通过计算幻灯片中的图片与该页上的文字在空间位置上的相关性;然后采用关键词和平凡词匹配装置,以得分量化了关键的语义信息,达到了更准确地将图片与幻灯片文本块对应起来、大大增强了图片命名的可读性和可理解性的技术效果。
在一个可选例子中,处理单元104,还可以用于根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系。该处理单元104的具体功能及处理还参见步骤S140。
其中,幻灯片文件中每页幻灯片的图片信息,可以包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息。幻灯片文件中每页幻灯片的文本信息,可以包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
由此,通过根据工程幻灯片文件特点,比如幻灯片文件比较随机但相关性较强的特性,针对每一页幻灯片中图片与文字内容位置关系,选择合适的算法,根据几何位置信息通过智能算法准确地将图片与文本块匹配,可以用于图片的命名,可增强幻灯片中图片名称的可读性、可理解性和可检索性。其中,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名;采用自然语言分析装置将图片的关联文本精简为短小且有代表性的主题词,便于建立索引和快速检索。
可选地,处理单元104根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系,可以包括:
处理单元104,具体还可以用于针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储,以建立幻灯片文件中图片信息与文本信息之间的对应关系。也就是说,将幻灯片文件中每张图片存储为单独文件,并根据为每张图片匹配得到的图片命名文本语句,为每张图片的单独文件命名,以建立幻灯片文件中图片信息与文本信息之间的对应关系。
例如:基于图片pi的命名文本语句ci,构造最终的结果,可以包括图片本身、最终名称、图片全名、图片搜索词等。
由此,根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,进行命名和存储,从而可以快速且方便地针对工程幻灯片文件建立幻灯片文件中图片信息与文本信息之间的对应关系,方便用户查看和适应。
可选地,处理单元104针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储,可以包括:
处理单元104,具体还可以用于针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中。该处理单元104的具体功能及处理还参见步骤S710。
例如:可以对新建文件夹以幻灯片名称ht命名,将幻灯片中每张图片pi独立存储为文件,并命名为最终名称如ci,放置到该文件夹中。
处理单元104,具体还可以用于在数据库中为该张图片建立一条存储记录;在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。该处理单元104的具体功能及处理还参见步骤S720。
例如:在数据库中为图片pi建立一条记录,图片全名字段直接存储基于图片pi的命名文本语句ci。譬如,p4的全名字段即为“门诊输液室的灯管总是亮了又灭”。
由此,通过针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果并根据存储结果对每张图片进行存储,可以方便基于工程换幻灯片中图片和文本进行对应存储,方便存储,也方便查找。
更可选地,处理单元104在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,可以包括:
处理单元104,具体还可以用于若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段。该处理单元104的具体功能及处理还参见步骤S810。
处理单元104,具体还可以用于若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段。该处理单元104的具体功能及处理还参见步骤S820。
例如:若基于图片pi的命名文本语句ci过长,优选超过10个汉字长度,则使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”,存入数据库。若基于图片pi的命名文本语句ci较短,则图片最终名称与全名相同即可。譬如图片p4的全名有14字,则通过抽取短语“输液室的灯管”、“亮了又灭”,组成其最终名称。
处理单元104,具体还可以用于使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储。该处理单元104的具体功能及处理还参见步骤S830。
例如:使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储。
处理单元104,具体还可以用于遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。该处理单元104的具体功能及处理还参见步骤S840。
例如:进行一项后处理,遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。如图13所示,新建了文件夹“某二甲医院应用”,对图11所示幻灯片提取并命名了4个图片文件。使用快速分词法获得“图片搜索词”。遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。
由此,通过根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,保证了存储的可靠性、且占用空间小,也保证了查找的便捷性。
由于本实施例的装置所实现的处理及功能基本相应于前述图1至图8所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过根据针对工程幻灯片文件图片量大、文字信息较多的特点,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,能够支持幻灯片图片的快速检索和重复使用。
根据本发明的实施例,还提供了对应于幻灯片中图片和文本的处理装置的一种终端。该终端可以包括:以上所述的幻灯片中图片和文本的处理装置。
考虑到工程幻灯片具有图片量大、文字信息较多的特点,难免给查找和使用工程幻灯片等处理带来了一定难度,所以,选择合适的算法,寻找工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,显得尤为重要。
一些提取幻灯片图片的软件,并没有保留相关的文字内容。工程幻灯片资料一般由工程图片和与图片内容相关的文本语句组成。考虑到幻灯片中的图片与该页上的文字在内容和空间位置上都存在强相关性,如果可以利用这种信息,将大大增强图片命名的可读性、可理解性和可检索性。但是幻灯片中的图片和文本块较多,位置相对随机,文本信息也密集,如何从幻灯片中准确提取各个图片对应的文本语句是个难点问题。
在一些图片与上下文信息匹配方法大多针对结构化程度高,单个图片的上下文本比较明确的半结构化文本,譬如网页格式文本和word格式文本。而对于一张幻灯片中,可能存在多个图片和多个文字随机组合和布置的情况,如何准确地为每个图片匹配最相关的文本是十分困难的,一些技术对幻灯片中图片和文字匹配和图片命名准确度较低。
此外,一些通过文本标记图片的技术都限于人名、地名等短小的专有名词,但幻灯片文件中主要是较长的自然语句,直接作为图片文件名会显得过长;因此,进一步地,在选择合适的算法寻找工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系的基础上,如何在精简语句的同时,又能与幻灯片的主题相呼应,是进一步需要解决的问题。
在一个可选实施方式中,本发明的方案,提出一种幻灯片中图文自动匹配与图片命名的方法,尤其是一种对建造工程资料幻灯片中图片和文本进行自动匹配、并对图片自动命名和单独存储的方法,可快速、自动完成工程资料幻灯片文件中图片的提取、命名和独立存储,支持后续根据图片名称快速检索宝贵的工程图片。
具体地,本发明的方案,可以根据工程幻灯片文件特点,采用自然语言处理,自动分析幻灯片中图片与文本块的位置关系和文本语义关系,实现幻灯片中图片与文本的匹配和自动命名,支持幻灯片图片的快速检索和重复使用。
在一个可选具体实施方式中,本发明的方案中,一种幻灯片中图文自动匹配与图片命名的方法,可以包括以下步骤:
步骤1:针对幻灯片文件中读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax};针对每页幻灯片,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,ximin,yimin,ximax,yimax}。
例如:可以针对幻灯片文件中第k页幻灯片hk,获取宽度为hx、高度为hy,读取第k页幻灯片hk中每张图片pi的包围盒信息,记录为Pk={pi},pi={Ximin,Yimin,Ximax,Yimax};读取第k页幻灯片hk中所有文本语句的文本内容、字号和包围盒信息,记录为Tk={ti},ti={ci,si,ximin,yimin,ximax,yimax}。其中,ci为文本内容,si为字号,ximin、yimin、ximax、yimax为包围盒信息即位置信息。
其中,大写表示包围盒的界限值,如Ximin、Yimin、Ximax、Yimax等;小写是坐标值,如ximin、yimin、ximax、yimax;因为包围盒的上下左右界限并不是一个普通的坐标概念,而是指代平行于坐标轴的直线,如图11里面的四条贯穿的虚线。包围盒,即几何或位置信息,是一种详细的位置信息,不仅标记位置,还能直接导出对象的几何尺寸。
具体地,在步骤1中,可以针对幻灯片文件中每页幻灯片hk,如图11所示,宽度为hx=210、高度为hy=130。读取其中每张图片pi的包围盒信息,记录为P={pi},pi={Ximin,Yimin,Ximax,Yimax}。针对每页幻灯片h,读取其中所有文本语句的文本内容、字号和包围盒信息,记录为T={ti},ti={ci,si,ximin,yimin,ximax,yimax}。
例如:如图11所示,有四张图片P={p1,p2,p3,p4},p1={5,30,55,90},p2={60,40,105,80};有7个文本语句T={t1,t2,t3,t4,t5,t6,t7},其中t3={“某二甲医院应用”,24,10,102,50,108},t4={“维修人员工作量和水平评价”,14,10,23,50,27},t5={“楼宇薄弱环节评估”,14,107,47,113,77}。
与步骤1相对应地,在实际使用的过程中,可以采用幻灯片信息提取模块1执行步骤1。幻灯片信息提取模块1所执行的操作可以参见步骤1的相关说明,在此不再赘述。
步骤2:将第k页幻灯片的文本按从上到下、从左到右的顺序,组成一段话,形成页语料Wk。然后按幻灯片页的顺序,将所有页语料组成全文语料W0,但是在连接之前,应当修正每个幻灯片的文本语句集合Tk,具体做法是,将幻灯片同一位置重复出现的文本语句进行删除。例如:如图11所示,文本t2是幻灯片的标题名称,在所有幻灯片中都重复出现,可剔除;文本t1是章节名称在前后几张幻灯片中同一位置重复出现,可以删除。
与步骤2相对应地,在实际使用的过程中,可以采用文本语句预处理模块2执行步骤2。文本语句预处理模块2所执行的操作可以参见步骤2的相关说明,在此不再赘述。
步骤3:分别对页语料(即页语料Wk)和幻灯片文件语料(即全文语料W0)做自然语言分析,得到每页主题词集合Ek={ek,i}、每页平凡词(即不属于主题词集合但频率高于任一主题词的词语)集合Ck={ck,i}、全文主题词集合E0={e0,i}、全文平凡词集合C0={c0,i}。其中,对页语料和幻灯片文件语料的处理是相似的,都可以包括以下具体步骤。
步骤3.1:使用N最短路径分词算法,对语料进行中文分词操作,将句子分割为短小的词语、词组和专有名词。例如“维修人员工作量和水平评价”将分割为{维修,人员,工作量,和,水平,评价}。
其中,词语可以是1-3个汉字组成的有独立意义的单位。词组,可以是2个或2个以上有关联的词语组成的语句片段。专有名词,可以是特定的或独一无二的人或物(人名、地名等)。
步骤3.2:使用TextRank算法,选择得分最高的10个词,作为该则语料的主题词集合E。这些词语的特点是,不仅出现频率较高、且与其他主题词的关联性也较强。譬如,案例PPT的主题词集合E={维修,工单,医院,……}。
步骤3.3:将语料中符合平凡词标准的词语,划入平凡词集合C。这些平凡词的特点是,在很多不同语料中也经常使用,因此不具有辨识度,不能将其作为某个特定语料的关键词,反而对语义概括有负面作用。譬如,图11页面的平凡词集合E={某,总是,人员,……}。在后续步骤中,使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”。使用快速分词法,将图片最终名称做搜索引擎分词,所得的词语存入“图片搜索词”。
与步骤3相对应地,在实际使用的过程中,可以采用自然语言分析模块3执行步骤3。自然语言分析模块3所执行的操作可以参见步骤3的相关说明,在此不再赘述。
步骤4:根据每个幻灯片中的所有文本语句的字号和包围盒信息,计算幻灯片的命名文本语句ht。优选的计算方法或匹配方法为,选每张图片pi的包围盒信息中Yimin>k*每张图片pi的高度hy的所有文本语句中字号si最大的文本语句ti为幻灯片的命名文本语句ht,k优选为1/3。如图11所示,上部1/3以上文本语句只有文本语句t3和文本语句t6,其中文本语句t3的字号是24,最大;因此本幻灯片的命名文本语句为文本语句t3。
与步骤4相对应地,在实际使用的过程中,可以采用幻灯片名称匹配模块4执行步骤4。幻灯片名称匹配模块4所执行的操作可以参见步骤4的相关说明,在此不再赘述。
步骤5:针对每张图片pi,匹配最合适的命名文本语句ti={ci,si,ximin,yimin,ximax,yimax},存储到每张图片pi的包围盒信息中得到pi={ci,Ximin,Yimin,Ximax,Yimax}。如图12所示,具体可以包括以下步骤:
步骤5.1根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax},计算其正上方、正下方、正左方或正右方的文本语句tp={tpj}={(tj,wj)}。如图11所示,对于图片p1={5,30,55,90},其正上方、正下方、正左方或正右方的文本语句包括t3,t4,t5,t6,t7。
步骤5.2根据图片的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj中每个文本语句tj的字号大小,以及与图片pi的中心点距离和重叠长度计算权重wj;优选其中dj是tj中心点和pj中心点之间的距离。lj为图片pj与文本语句tj之间的重叠长度。优选的计算公式如下:
如图11所示,对于图片p1,文本语句t3的权重w3=0.622;文本语句t4的权重w4=1.057;文本语句t5的权重w5=-0.527;文本语句t6的权重w6=-1.02;文本语句t7的权重w7=-0.92;对于图片p2,文本语句t3的权重w3=-0.463;文本语句t4的权重w4=-0.365;文本语句t5的权重w5=1.01;文本语句t6的权重w6=-0.45;文本语句t7的权重w7=-0.63。
步骤5.3将文本语句tj中的分词词语依次与本页主题词集合Ek、全文主题词集合E0、本页平凡词集合Ck、全文平凡词集合C0中的词语作匹配,然后根据词语匹配次数,按下表计算文本语句tj的附加得分bj。与主题词的匹配将得分,与平凡词的匹配将扣分,但得分与扣分不应超过限值。优选的,文本语句tj的附加得分bj的取值,可以参考下表。
匹配情形 | 每个匹配的得分 | 本项得分的限值 |
<![CDATA[属于本页主题词集合E<sub>k</sub>]]> | 0.2 | 0.0~1.0 |
<![CDATA[属于全文主题词集合E<sub>0</sub>]]> | 0.1 | 0.0~0.5 |
<![CDATA[属于本页平凡词集合C<sub>k</sub>]]> | -0.2 | -0.6~0.0 |
<![CDATA[属于全文平凡词集合C<sub>0</sub>]]> | -0.1 | -0.3~0.0 |
如图11所示,文本语句t3含有1个全文主题词“医院”,故文本语句t3的附加得分b3=0.1。文本语句t4含有1个本页主题词“维修”和1个全文平凡词“人员”,故文本语句t4的附加得分b4=0.2-0.1=0.1,其余类似。
步骤5.4将文本语句ti的总权重wj+文本语句tj的附加得分bj最大的文本语句tj,作为图片pi的命名文本语句。如图11所示,图片p1对应的命名文本语句为文本语句t4,图片p2对应的命名文本语句为文本语句t5,图片p3对应的命名文本语句为文本语句t6,图片p4对应的命名文本语句为文本语句t7。
步骤5.5如果根据图片pi的位置信息pi={Ximin,Yimin,Ximax,Yimax}计算得到的其正上方、正下方、正左方或正右方的文本语句tpj为空集,则以该幻灯片的命名文本语句ht作为图片pi的命名文本语句。
与步骤5相对应地,在实际使用的过程中,可以采用图片名称匹配模块5执行步骤5。图片名称匹配模块5所执行的操作可以参见步骤5的相关说明,在此不再赘述。
步骤6:基于图片pi的命名文本语句ci,构造最终的结果,可以包括图片本身、最终名称、图片全名、图片搜索词等,具体可以包括以下步骤:
步骤6.1可以对新建文件夹以幻灯片名称ht命名,将幻灯片中每张图片pi独立存储为文件,并命名为最终名称如ci,放置到该文件夹中。
步骤6.2在数据库中为图片pi建立一条记录,图片全名字段直接存储基于图片pi的命名文本语句ci。譬如,p4的全名字段即为“门诊输液室的灯管总是亮了又灭”。
步骤6.3若基于图片pi的命名文本语句ci过长,优选超过10个汉字长度,则使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”,存入数据库。若基于图片pi的命名文本语句ci较短,则图片最终名称与全名相同即可。譬如图片p4的全名有14字,则通过抽取短语“输液室的灯管”、“亮了又灭”,组成其最终名称。
步骤6.4使用快速分词法,将图片最终名称做搜索引擎分词,所得的词语存入“图片搜索词”;当后续检索时,只与这些搜索词作匹配,而不是全名,这样可以避免歧义。譬如,图片p4的图片检索词为{输液,输液室,灯,灯管,亮,灭}。然后进行一项后处理,遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。
也就是说,在步骤6.2至步骤6.4中,在数据库中为图片pi建立一条记录,图片全名字段直接存储ci。若ci过长,优选超过10个汉字长度,则使用信息熵算法,抽取文本中的重要短语,作为图片的“最终名称”,存入数据库。使用快速分词法获得“图片搜索词”。遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法。例如:如图13所示,新建了文件夹“某二甲医院应用”,对图11所示幻灯片提取并命名了4个图片文件。使用快速分词法获得“图片搜索词”。遍历所有图片,将拥有相同搜索词的图片两两配对,作为相似图片存入数据库,以支持图片推荐算法,最后的结果可以参见图14所示的例子。
与步骤6相对应地,在实际使用的过程中,可以采用图片存储模块6执行步骤6。图片存储模块6所执行的操作可以参见步骤6的相关说明,在此不再赘述。
可见,本发明的方案中,幻灯片中图文自动匹配与图片命名的方法,可以针对每一页幻灯片中图片与文字内容位置关系,比较随机但相关性较强的特性,根据几何位置信息通过智能算法准确地将图片与文本块匹配,用于图片的命名,可增强幻灯片中图片名称的可读性、可理解性和可检索性。其中,采用自然语言分析方法将图片的关联文本精简为短小且有代表性的主题词,便于建立索引和快速检索。
具体地,本发明的方案,采用了一种基于文本字号包围盒和语义得分的算法,解决了文本块位置多变、多个图片存在的情况下,准确地为每个图片匹配最相关的文本的问题。本发明的方案,首先计算幻灯片中的图片与该页上的文字在空间位置上的相关性;然后采用关键词和平凡词匹配方法,以得分量化了关键的语义信息,达到了更准确地将图片与幻灯片文本块对应起来、大大增强了图片命名的可读性和可理解性的技术效果。
进一步地,本发明的方案,采用了中文分词和TextRank等自然语言分析算法,解决了一些标记图片的技术不适用较长文本且限于短小的专有名词的问题。本发明的方案,首先对幻灯片每页和全文语料的主题词,然后将每个图片的关联文本直接做自然语言分析,最后结合语义和幻灯片主题,将关联文本精简为短小且有代表性的文件名;可以既能提取人名、地名等专有名词,也可提取较长段落的主题词,且能与幻灯片的主题相呼应。
由于本实施例的终端所实现的处理及功能基本相应于前述图9所示的装置的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过针对每一页幻灯片中图片与文字内容位置关系,比较随机但相关性较强的特性,根据几何位置信息通过智能算法准确地将图片与文本块匹配,可以较方便地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,方便用户检索和使用。
根据本发明的实施例,还提供了对应于幻灯片中图片和文本的处理方法的一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行以上所述的幻灯片中图片和文本的处理方法。
由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图8所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过针对每一页幻灯片中图片与文字内容位置关系,采用基于文本字号包围盒和语义得分的算法,可以在文本块位置多变、多个图片存在的情况下,准确地为每个图片匹配最相关的文本,从而快速地确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系,方便用户检索和使用。
根据本发明的实施例,还提供了对应于幻灯片中图片和文本的处理方法的一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行以上所述的幻灯片中图片和文本的处理方法。
由于本实施例的处理器所实现的处理及功能基本相应于前述图1至图8所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过针对每一页幻灯片中图片与文字内容位置关系,在确定工程幻灯片的每一页中多个图片与多个文本信息之间的对应关系的过程中,采用中文分词和TextRank等自然语言分析算法,可以既能提取人名、地名等专有名词,也可提取较长段落的主题词,且能与幻灯片的主题相呼应,适用范围更广。
综上,本领域技术人员容易理解的是,在不冲突的前提下,上述各有利方式可以自由地组合、叠加。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种幻灯片中图片和文本的处理方法,其特征在于,包括:
确定幻灯片文件中每页幻灯片的图片信息和文本信息;
对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句;对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,包括:基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息;对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合;基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句;其中,确定幻灯片文件中所有文本信息的命名文件语句,包括:根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句;依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句;
根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句;其中,为幻灯片文件中每张图片匹配命名文本语句,包括:根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句;若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句;若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果;以及,根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句;
根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系;
其中,幻灯片文件中每页幻灯片的图片信息,包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息;幻灯片文件中每页幻灯片的文本信息,包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
2.根据权利要求1所述的幻灯片中图片和文本的处理方法,其特征在于,其中,
确定幻灯片文件中每页幻灯片的图片信息和文本信息,包括:
针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息;以及,
获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息;
和/或,
建立幻灯片文件中图片信息与文本信息之间的对应关系,包括:
针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储。
3.根据权利要求2所述的幻灯片中图片和文本的处理方法,其特征在于,其中,
确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,包括:
将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息;以及,
针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息;
和/或,
对每页语料信息和全文语料信息进行自然语言分析处理,包括:
使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果;该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词;
使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合;
将语料中符合平凡词标准的词语,划入该语料的平凡词集合;
和/或,
为每张图片构造存储结果,并根据存储结果对每张图片进行存储,包括:
针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中;
在数据库中为该张图片建立一条存储记录;在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。
4.根据权利要求3所述的幻灯片中图片和文本的处理方法,其特征在于,其中,
根据该张图片的所有命名文本语句确定权重,包括:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度;
和/或,
根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,包括:
将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果;
和/或,
根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,包括:
若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段;
若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段;
使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储;
遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。
5.一种幻灯片中图片和文本的处理装置,其特征在于,包括:
确定单元,用于确定幻灯片文件中每页幻灯片的图片信息和文本信息;
处理单元,用于对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,得到幻灯片文件中所有页幻灯片的命名文本语句;处理单元对幻灯片文件中所有页幻灯片的文本信息进行自然语言分析处理,包括:基于幻灯片文件中所有页幻灯片的文本信息,确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息;对每页语料信息和全文语料信息进行自然语言分析处理,得到每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合;基于每页幻灯片的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合,确定幻灯片文件中所有文本信息的命名文件语句;其中,处理单元确定幻灯片文件中所有文本信息的命名文件语句,包括:根据幻灯片文件中每页幻灯片的文本信息中的字号和文本包围盒信息,将每页幻灯片中每张图片的文本包围盒信息中Y向的最小数据大于每张图片的高度的设定系数倍的部分中字号最大的文本内容,确定为该页幻灯片中该张图片的命名文本语句;依次类推,得到幻灯片文件中所有页幻灯片中所有图片的命名文本语句,作为幻灯片文件中所有文本信息的命名文件语句;
处理单元,还用于根据幻灯片文件中的图片信息、以及幻灯片文件的命名文本语句,为幻灯片文件中每张图片匹配命名文本语句,得到每张图片的图片命名文本语句;其中,处理单元为幻灯片文件中每张图片匹配命名文本语句,包括:根据每页幻灯片中每张图片的图片信息中的图片包围盒信息,确定该张图片在设定方向范围内的所有命名文本语句,得到该张图片的所有命名文本语句;若该张图片的所有命名文本语句为空,则将该张图片所在页的幻灯片的命名文本语句,确定为该张图片的图片命名文本语句;若该张图片的所有命名文本语句不为空,则根据该张图片的所有命名文本语句确定权重,并根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果;以及,根据该张图片的权重和该张图片的匹配结果之和中的最大者,将该最大者所对应的命名文本语句,确定为与该张图片匹配的命名文本语句,以将该命名文本语句作为该张图片的图片命名文本语句;
处理单元,还用于根据幻灯片文件中的图片信息、以及为每张图片匹配得到的图片命名文本语句,建立幻灯片文件中图片信息与文本信息之间的对应关系;
其中,幻灯片文件中每页幻灯片的图片信息,包括:每页幻灯片的宽度和高度、以及每页幻灯片中每张图片的图片包围盒信息;幻灯片文件中每页幻灯片的文本信息,包括:每页幻灯片的所有文本语句的文本内容、字号和/或文本包围盒信息。
6.根据权利要求5所述的幻灯片中图片和文本的处理装置,其特征在于,其中,
确定单元确定幻灯片文件中每页幻灯片的图片信息和文本信息,包括:
针对幻灯片文件中的每页幻灯片,获取每页幻灯片的宽度和高度,并获取每页幻灯片中每张图片的图片包围盒信息,作为幻灯片文件中每页幻灯片的图片信息;以及,
获取每页幻灯片中所有文本语句的文本内容、字号和/或文本包围盒信息,作为幻灯片文件中每页幻灯片的文本信息;
和/或,
处理单元建立幻灯片文件中图片信息与文本信息之间的对应关系,包括:
针对幻灯片文件中每页幻灯片中的每张图片的图片命名文本语句,为每张图片构造存储结果,并根据存储结果对每张图片进行存储。
7.根据权利要求6所述的幻灯片中图片和文本的处理装置,其特征在于,其中,
处理单元确定幻灯片文件中每页幻灯片的每页语料信息、以及幻灯片文件中所有页幻灯片的全文语料信息,包括:
将幻灯片文件中每页幻灯片的文本信息按第一设定顺序进行连接,形成每页幻灯片的每页语料信息;以及,
针对幻灯片文件中所有页幻灯片的文本信息,剔除不同页幻灯片中同一位置重复出现的文本信息,得到所有页幻灯片的修正文本信息;并将所有页幻灯片的修正文本信息按第二设定顺序进行连接,形成所有页幻灯片的全文语料信息;
和/或,
处理单元对每页语料信息和全文语料信息进行自然语言分析处理,包括:
使用N最短路径分词算法,对每页语料信息和全文语料信息中每一语料信息进行中文分词处理,得到分词结果;该分词结果中,每一语料信息中的句子被分割为设定规格的词语、词组和设定专有名词,得到分词;
使用TextRank算法,在每一语料的分词结果中按设定得分顺序选择设定数量个词,作为该语料的主题词集合;
将语料中符合平凡词标准的词语,划入该语料的平凡词集合;
和/或,
处理单元为每张图片构造存储结果,并根据存储结果对每张图片进行存储,包括:
针对每页幻灯片,新建文件夹并以该页幻灯片的命名文本语句命名;以及,将每张图片独立存储为单独文件,并以每张图片的图片命名文本语句,对该张图片的单独文件进行命名后,将该单独文件置于该新建文件夹中;
在数据库中为该张图片建立一条存储记录;在该张图片的存储记录中,根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储。
8.根据权利要求7所述的幻灯片中图片和文本的处理装置,其特征在于,其中,
处理单元根据该张图片的所有命名文本语句确定权重,包括:
dj是该张图片的每个命名文本语句与该张图片的中心点之间的距离,lj为该张图片的每个命名文本语句与该张图片之间的重叠长度;
和/或,
处理单元根据该张图片的所有命名文本语句确定该张图片与所有命名文本语句的匹配结果,包括:
将该张图片的每个命名文本语句中的分词词语,依次与该张图片所在页的每页主题词集合和每页平凡词集合、以及所有页幻灯片的全文主题词集合和全文平凡词集合进行匹配,得到匹配结果;
和/或,
处理单元根据该张图片的图片命名文本语句确定该张图片的图片全名字段并进行存储,包括:
若该张图片的图片命名文本语句中的汉字长度小于或等于预设值,则直接将该张图片的图片命名文本语句存储为该张图片的图片全名字段;
若该张图片的图片命名文本语句中的汉字长度大于预设值,则使用信息熵算法,抽取该张图片的图片命名文本语句中的设定短语,将该设定短语作为该张图片的新的图片命名文本语句;并将该张图片的新的图片命名文本语句存储为该张图片的图片全名字段;
使用快速分词法,将该张图片的图片全名字段确定为该张图片的搜索引擎分词,将该搜索引擎分词作为该张图片的图片搜索词进行存储;
遍历幻灯片文件中所有图片,将具有相同的图片搜索词的几张图片进行配对,作为相似图片存入数据库中。
9.一种终端,其特征在于,包括:如权利要求5至8中任一项所述的幻灯片中图片和文本的处理装置;
或者,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1至4中任一项所述的幻灯片中图片和文本的处理方法。
10.一种存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1至4中任一项所述的幻灯片中图片和文本的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512421.8A CN111681301B (zh) | 2020-06-08 | 2020-06-08 | 幻灯片中图片和文本的处理方法、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512421.8A CN111681301B (zh) | 2020-06-08 | 2020-06-08 | 幻灯片中图片和文本的处理方法、装置、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111681301A CN111681301A (zh) | 2020-09-18 |
CN111681301B true CN111681301B (zh) | 2023-05-09 |
Family
ID=72435511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010512421.8A Active CN111681301B (zh) | 2020-06-08 | 2020-06-08 | 幻灯片中图片和文本的处理方法、装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111681301B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
WO2017197593A1 (en) * | 2016-05-18 | 2017-11-23 | Nokia Technologies Oy | Apparatus, method and computer program product for recovering editable slide |
-
2020
- 2020-06-08 CN CN202010512421.8A patent/CN111681301B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
WO2017197593A1 (en) * | 2016-05-18 | 2017-11-23 | Nokia Technologies Oy | Apparatus, method and computer program product for recovering editable slide |
Non-Patent Citations (1)
Title |
---|
基于Word VBA的幻灯片打印模板制作;亢娟娜;;中国包装工业(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111681301A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436864B (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
JP4778474B2 (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
CN105677795B (zh) | 抽象语义的推荐方法、推荐装置及推荐*** | |
CN110750995B (zh) | 一种基于自定义图谱的文件管理方法 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
CN110826312B (zh) | 一种软件需求规格说明书的评价方法 | |
CN116383366B (zh) | 一种应答信息确定方法、电子设备及存储介质 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN114547274A (zh) | 多轮问答的方法、装置及设备 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
EP2544100A2 (en) | Method and system for making document modules | |
WO2008038416A1 (fr) | Dispositif de recherche de document et procédé de recherche de document | |
Li | Text recognition and classification of english teaching content based on SVM | |
CN116662583B (zh) | 一种文本生成方法、地点检索方法及相关装置 | |
CN111681301B (zh) | 幻灯片中图片和文本的处理方法、装置、终端和存储介质 | |
CN110941638B (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
CN113553410B (zh) | 长文档处理方法、处理装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |