CN112232075A - 基于时间格式和网页元素特征的文章发布时间识别方法 - Google Patents
基于时间格式和网页元素特征的文章发布时间识别方法 Download PDFInfo
- Publication number
- CN112232075A CN112232075A CN202011461251.1A CN202011461251A CN112232075A CN 112232075 A CN112232075 A CN 112232075A CN 202011461251 A CN202011461251 A CN 202011461251A CN 112232075 A CN112232075 A CN 112232075A
- Authority
- CN
- China
- Prior art keywords
- time
- article
- date
- text
- source code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于时间格式和网页元素特征的文章发布时间识别方法,该方法包括:去除文本内容长度大于第一预设长度的标签,得到去除标签后源码,第一预设长度是根据时间格式和临近元素特征确定的;判断源码中是否包含时间标志关键词,时间标志关键词是根据网页元素特征得到的,若包含则由时间标志关键词得到文章发布时间,若不包含则判断是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;若包含则根据时间辅助关键词得到文章发布时间;若不包含则判断是否包含时间要素;若包含时间要素则遍历全文时间要素,根据文章头部元素特征和时间元素关系得到文章发布时间,实现了文章发布时间的自动识别与提取。
Description
技术领域
本发明涉及网页特征渲染领域,具体涉及一种基于时间格式和网页元素特征的文章发布时间识别方法、***、电子设备及存储介质。
背景技术
在现实应用中,对于网络文章尤其是新闻媒体的发布时间进行准确的提取,在传播分析、舆情监测与预警等领域都有着极为重要的意义。而随着当前互联网的不断发展,新出现的网站数以亿计,而且网页形式也日益多样,这种情况下,依靠传统手工配置路径等来提取大量网站的时间已经愈发不现实。
发明内容
有鉴于此,本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法、***、电子设备及存储介质,以实现文章发布时间的自动识别与提取。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法,包括:获取待识别文章的源码;去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;若源码中包含时间要素,则根据时间要素得到文章发布时间。
可选地,若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间的步骤中,包括:若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素;提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本;判断日期文本的长度是否大于第二预设长度;若日期文本的长度大于第二预设长度,则去除所述日期文本;若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合;若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
可选地,若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间的步骤中,包括:若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果;若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间;若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
可选地,若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间的步骤中,包括:若源码中包含时间辅助关键词,则获取时间辅助关键词的位置;根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合;提取时间元素集合中的所有日期文本,得到第二日期文本集合;若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度;去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合;将第三文本集合中的第一个日期文本作为文章发布时间。
可选地,若源码中包含时间要素,则根据时间要素得到文章发布时间的步骤中,包括:提取时间要素对应的所有日期文本,得到第四日期文本集合;对第四日期文本集合中的每一个日期文本分别去除非文本内容,得到第五日期文本集合;在第五日期文本集合中去除文本长度小于第四预设长度的日期文本,得到第六日期文本集合;对第六日期文本集合中的每一个日期文本分别查找小于第二预设索引距离的元素,得到第六日期文本集合中每一个日期文本对应的第二预设索引距离元素集合;根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值;所述文章头部信息是根据网页元素特征得到;将最大权重值所对应的日期文本作为文章发布时间。
可选地,根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值的步骤中,包括:获取文章头部信息,文章头部信息中包含若干文章头部单词;根据文章头部信息中每一个文章头部单词确定文章头部单词所对应的权重值;将第二预设索引距离元素集合中的每一个第二预设索引距离元素与文章头部单词分别进行匹配,得到匹配结果;若匹配结果为未匹配成功,则将第二预设索引距离元素所对应的权重值设置为0;若匹配结果为匹配成功,则将文章头部单词所对应的权重值作为第二预设索引距离元素所对应的权重值;将第二预设索引距离元素集合中的每一个第二预设索引距离元素所对应的权重值进行累加,得到每一个日期文本对应的权重值。
可选地,去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码的步骤之前,还包括:对所述源码进行清洗,去除非页面内容显示标签和disable属性的标签,得到清洗后的源码。
根据第二方面,本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别***,包括:获取模块,用于获取待识别文章的源码;第一处理模块,用于去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;第一判断模块,用于判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;第二处理模块,用于若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;第二判断模块,用于若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;第三处理模块,用于若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;第三判断模块,用于若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;第四处理模块,用于若源码中包含时间要素,则根据时间要素得到文章发布时间。
可选地,所述第二处理模块包括:第一处理单元,用于若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素;第二处理单元,用于提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本;第一判断单元,用于判断日期文本的长度是否大于第二预设长度;第三处理单元,用于若日期文本的长度大于第二预设长度,则去除所述日期文本;第四处理单元,用于若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合;第五处理单元,用于若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;第六处理单元,用于若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
可选地,所述第六处理单元包括:第一处理子单元,用于若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果;第二处理子单元,用于若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间;第三处理子单元,用于若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
可选地,所述第三处理模块包括:获取单元,用于若源码中包含时间辅助关键词,则获取时间辅助关键词的位置;第七处理单元,用于根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合;第八处理单元,用于提取时间元素集合中的所有日期文本,得到第二日期文本集合;第九处理单元,用于若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;第十处理单元,用于若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度;第十一处理单元,用于去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合;第十二处理单元,用于将第三文本集合中的第一个日期文本作为文章发布时间。
可选地,所述第四处理模块包括:第十三处理单元,用于提取时间要素对应的所有日期文本,得到第四日期文本集合;第十四处理单元,用于对第四日期文本集合中的每一个日期文本分别去除非文本内容,得到第五日期文本集合;第十五处理单元,用于在第五日期文本集合中去除文本长度小于第四预设长度的日期文本,得到第六日期文本集合;第十六处理单元,用于对第六日期文本集合中的每一个日期文本分别查找小于第二预设索引距离的元素,得到第六日期文本集合中每一个日期文本对应的第二预设索引距离元素集合;第十七处理单元,用于根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值;所述文章头部信息是根据网页元素特征得到;第十八处理单元,用于将最大权重值所对应的日期文本作为文章发布时间。
可选地,所述第十七处理单元包括:获取子单元,用于获取文章头部信息,文章头部信息中包含若干文章头部单词;第四处理子单元,用于根据文章头部信息中每一个文章头部单词确定文章头部单词所对应的权重值;第五处理子单元,用于将第二预设索引距离元素集合中的每一个第二预设索引距离元素与文章头部单词分别进行匹配,得到匹配结果;第六处理子单元,用于若匹配结果为未匹配成功,则将第二预设索引距离元素所对应的权重值设置为0;第七处理子单元,用于若匹配结果为匹配成功,则将文章头部单词所对应的权重值作为第二预设索引距离元素所对应的权重值;第八处理子单元,用于将第二预设索引距离元素集合中的每一个第二预设索引距离元素所对应的权重值进行累加,得到每一个日期文本对应的权重值。
可选地,还包括:第五处理模块,用于对所述源码进行清洗,去除非页面内容显示标签和disable属性的标签,得到清洗后的源码。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的基于时间格式和网页元素特征的文章发布时间识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的基于时间格式和网页元素特征的文章发布时间识别方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法、***、电子设备及存储介质,其中,该方法包括:获取待识别文章的源码;去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;若源码中包含时间要素,则根据时间要素得到文章发布时间。该方法先根据时间格式确定第一预设长度,筛选出标签文本内容长度不大于第一预设长度的标签文本内容;然后,基于网页元素特征确定时间标志关键词和时间辅助关键词,根据时间标志关键词、时间辅助关键词和时间要素进行判断,得到文章发布时间,实现了文章发布时间的自动识别与提取。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的一个具体示例的流程图;
图2为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图3为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图4为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图5为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图6为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图7为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别方法的另一个具体示例的流程图;
图8为本发明实施例的基于时间格式和网页元素特征的文章发布时间识别***的一个具体示例的框图;
图9为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于时间格式和网页元素特征的文章发布时间识别方法,如图1所示,该方法可以包括步骤S1-S8。
步骤S1:获取待识别文章的源码。
作为示例性的实施例,对待识别文章进行源码下载请求,服务器接收并处理上述请求后,便可成功下载得到待识别文章的网页源码。当然,在其它实施例中,还可以通过其它方式得到待识别文章的源码,例如通过浏览器等获取网页相关源码。
步骤S2:去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的。
作为示例性的实施例,源码中包含多个html标签,通过源码便可得到每一个标签的标签文本内容,通过对国内外大量新闻网页的统计分析,新闻网页中文章发布时间的时间格式和临近元素特征(上下文特征)是类似的,例如,徐州都市晨报中文章发布时间的时间格式是年月日加时分(如2020-11-03 08:52),光明网中文章的发布时间的时间格式是月日加时分(如11-03 15:25),并且在发布时间一般位于网页上半部上下会涉及标题、作者、来源等相关元素,这些相关元素即为临近元素特征。经过对大量文章发布时间的时间格式和上下文特征的分析,确定包含文章发布时间的标签的标签长度通常不会超过200个字符长度,故将根据时间格式和临近元素特征确定的第一预设长度设置为200个字符长度。当然,在其它实施例中,第一预设长度还可以设置为其它数值,根据实际需要合理设置即可。
具体地,判断源码中的标签文本内容的长度是否大于第一预设长度,第一预设长度是根据时间格式和临近元素特征确定的。若源码中的标签文本内容的长度大于第一预设长度,说明该标签文本内容中不包含文章发布时间或者包含的时间不是文章发布时间,则将标签文本内容所对应的标签去除,保留标签文本内容的长度小于或者等于第一预设长度的标签。
步骤S3:判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的。若源码中包含时间标志关键词,则执行步骤S4;若源码中不包含时间标志关键词,则执行步骤S5。
作为示例性的实施例,标签文本内容的长度小于或者等于第一预设长度,则进一步判断源码中是否包含时间标志关键词。时间标志关键词是表征文章发布时间的标志性关键词,通过对大量网页的网页元素特征统计和分析,得到与文章发布时间相邻的较明显的标志性词语,将这些较明显的标志性词语构成时间标志关键词。具体地,时间标志关键词可以是发布时间、发表于、发布于等,本实施例中对此仅作示意性说明,不以此为限。
步骤S4:若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间。
作为示例性的实施例,源码中包含时间标志关键词,在源码中查找时间标志关键词的位置,根据时间标志关键词的位置便可以很容易地识别到文章发布时间,通过时间标志关键词对文章发布时间进行快速定位,无需遍历整个源码。
步骤S5:若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的。若源码中包含时间辅助关键词,则执行步骤S6;若源码中不包含时间辅助关键词,则执行步骤S7。
作为示例性的实施例,时间辅助关键词也是根据网页元素特征得到的,时间辅助关键词是与文章发布时间所在位置索引距离较近的标签相关的词语,具体地,时间辅助关键词可以是来源、作者等,本实施例中对此仅作示意性说明,不以此为限。源码中包含时间标志关键词时,优先通过时间标志关键词进行文章发布时间的定位,在源码中不包含时间标志关键词的情况下,无法直接通过时间标志关键词得到文章发布时间,此时,可通过时间辅助关键词查找文章发布时间。
步骤S6:若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间。
作为示例性的实施例,源码中包含时间辅助关键词,根据时间辅助关键词在源码中定位到时间辅助关键词的位置,在时间辅助关键词所在位置附近进行查找,便可以很容易地识别到文章发布时间,通过时间辅助关键词对文章发布时间进行快速定位,无需遍历整个源码。
步骤S7:若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素。若源码中不包含时间要素,则无法得到文章发布时间;若源码中包含时间要素,则执行步骤S8。
作为示例性的实施例,时间要素是文章中所有的日期时间。
例如,某文章中包含三个时间,具体为11-24 11:16、11月24日和2020年12月1日。则上述文章中的时间要素包括三个,分别为“11-24 11:16”、“11月24日”和“2020年12月1日”。
步骤S8:若源码中包含时间要素,则根据时间要素得到文章发布时间。
作为示例性的实施例,源码中包含时间要素,通过日期正则得到文章中的所有日期文本,对所有日期文本进行筛选去除得到文章发布时间。
通过上述步骤,先根据时间格式和临近元素特征确定第一预设长度,筛选出标签文本内容长度不大于第一预设长度的标签文本内容;然后,基于网页元素特征确定时间标志关键词和时间辅助关键词,根据时间标志关键词、时间辅助关键词和时间要素进行判断,得到文章发布时间,实现了文章发布时间的自动识别与提取。
作为示例性的实施例,步骤S4若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间的步骤中,如图2所示,包括步骤S41-S47。
步骤S41:若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素。
作为示例性的实施例,源码中包含时间标志关键词,在源码中定位时间标志关键词,定位后便可得到其所对应的父元素以及父元素所包含的所有子元素,查找时间标志关键词的父元素和父元素的所有子元素的作用是防止部分时间元素被拆分存放(以完整获取),以及所在元素为内容或其他过长的元素(方便排除)。
步骤S42:提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本。
作为示例性的实施例,通过日期正则定位日期相关元素。
步骤S43:判断日期文本的长度是否大于第二预设长度。若日期文本的长度大于第二预设长度,则执行步骤S44;若日期文本的长度小于或者等于第二预设长度,则执行步骤S45。
作为示例性的实施例,第二预设长度是根据文章发布时间的字符长度确定的,通过对大量文章发布时间字符长度的分析,确定第二预设长度为20个字符长度。本实施例中对此仅作示意性描述,不以此为限,在其它实施例中,可根据需要合理设置。
步骤S44:若日期文本的长度大于第二预设长度,则去除日期文本。
作为示例性的实施例,日期文本的长度大于第二预设长度,该日期文本是文章发布时间的可能性较小,故将该日期文本去除,以减少可选元素。
步骤S45:若日期文本的长度小于或者等于第二预设长度,则保留日期文本,得到第一日期文本集合。
作为示例性的实施例,若日期文本的长度小于或者等于第二预设长度,则保留该日期文本,将符合上述文本长度条件的所有日期文本组成第一日期文本集合。
步骤S46:若第一日期文本集合中的日期文本的个数等于一个,则日期文本为文章发布时间。
作为示例性的实施例,第一日期文本集合中的日期文本的个数等于一个,符合本文长度条件的日期文本只有一个,这个日期文本则是文章发布时间。
步骤S47:若第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
作为示例性的实施例,第一日期文本集合中的日期文本的个数大于一个,表明符合本文长度条件的日期文本有多个,则需要进一步判断哪一个文本是文章发布时间所对应的日期文本。通过对网页文章中发布时间所在位置的分析,文章发布时间的位置通常与文章来源的位置和文章标题的位置距离较近,故可根据文章来源的位置和文章标题的位置作进一步的判断,得到文章发布时间。
上述步骤,先根据时间标志关键词直接获取到发布时间相关元素,通过日期正则定位日期相关元素,得到所有日期元素对应的日期文本;之后,通过第二预设长度减少可选元素,得到第一日期文本集合;然后,根据第一日期文本集合中日期文本的个数进行判断,若第一日期文本集合中的日期文本的个数等于一个,则直接得到文章发布时间;若第一日期文本集合中的日期文本的个数包含多个,则根据文章来源的位置和文章标题的位置与文章发布时间的位置关系得到文章发布时间。
作为示例性的实施例,步骤S47若第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间的步骤中,如图3所示,包括步骤S471-S473。
步骤S471:若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果。
作为示例性的实施例,第一日期文本集合中的日期文本的个数大于一个,则无法确定哪一个日期文本是文章发布时间,需要根据文章来源和文章标题进一步判断,以得到文章发布时间所对应的日期文本。通过大量网页文章的统计,网页文章来源所在位置与文章发布时间所在位置的索引距离较短,故优先在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果。具体地,可将第一日期文本集合中的每一个日期文本所在位置和文章来源所在位置进行逐一比较,得到每一个日期文本所在位置和文章来源所在位置的索引距离,在上述索引距离中查找索引距离最小值,将索引距离最小值所对应的日期文本作为与文章来源所在位置索引距离最近的日期文本。
步骤S472:若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间。
作为示例性的实施例,查找结果为查找到,也就是在第一日期文本集合中能够查找到与文章来源所在位置索引距离最近的日期文本,则将上述文本作为文章发布时间。
步骤S473:若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
作为示例性的实施例,查找结果为未查找到,说明网页文章中不存在文章来源,无法通过文章来源作出判断,则需要根据文章标题作进一步判断。网页文章中必然是存在文章标题的,故根据文章标题便可得到文章发布时间。具体地,将第一日期文本集合中的每一个日期文本所在位置和文章标题所在位置进行逐一比较,得到每一个日期文本所在位置和文章标题所在位置的索引距离,在上述索引距离中查找索引距离最小值,将索引距离最小值所对应的日期文本作为与文章标题所在位置距离最近的日期文本。
上述步骤,优先通过文章来源进行文章发布时间的定位,在文章来源不存在的情况下,再通过文章标题进行文章发布时间的定位,自动实现文章发布时间的识别,无需人工参与。
作为示例性的实施例,步骤S6若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间的步骤中,如图4所示,包括步骤S61-S67。
步骤S61:若源码中包含时间辅助关键词,则获取时间辅助关键词的位置。
作为示例性的实施例,源码中包含时间辅助关键词时,在网页源码中找到时间辅助关键词的位置。
步骤S62:根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合。
作为示例性的实施例,得到时间辅助关键词的位置后,文章发布时间极有可能在时间辅助关键词所在位置的附近,在时间辅助关键词所在位置的附近进行查找,找到距离小于第一预设索引距离的时间元素(时间元素是包含时间正则特征相关文本的元素),这些时间元素与时间辅助关键词的位置较接近,将上述这些时间元素构成时间元素集合。本实施例中,第一预设索引距离设置为10,当然,在其它实施例中,第一预设索引距离还可以设置为其它数值,根据需要合理设置即可。
步骤S63:提取时间元素集合中的所有日期文本,得到第二日期文本集合。
作为示例性的实施例,通过正则表达式对时间元素集合中的每一个时间元素进行时间提取,得到时间元素对应的日期文本,将上述日期文本组成第二日期文本集合。
步骤S64:若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间。
作为示例性的实施例,第二日期文本集合中的日期文本为一个,则该日期文本是文章发布时间。
步骤S65:若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度。
作为示例性的实施例,第二日期文本集合中的日期文本的个数大于一个,将日期文本中的非文本内容进行去除,仅保留日期文本中的文本内容。非文本内容包括空格、横杠等用于表示间隔的特殊字符,以便得到文本长度,通常文章发布时间的文本长度不会太短,根据文本长度排除文本长度过短的日期文本。
步骤S66:去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合。
作为示例性的实施例,将每一个日期文本的文本长度分别与第三预设长度进行长度比较,去除小于第三预设长度的日期文本,将文本长度大于或者等于第三预设长度的日期文本构成第三文本集合。本实施例中,第三预设长度设置为25个字符长度,当然,在其它实施例中,第三预设长度还可以设置为其它数值,本实施例对此仅作示意性描述。
步骤S67:将第三文本集合中的第一个日期文本作为文章发布时间。
作为示例性的实施例,去除文本长度小于第三预设长度的日期文本后,第三文本集合中剩余的日期文本是文章发布时间的可能性极高,故将第一个日期文本作为文章发布时间。
作为示例性的实施例,步骤S8若源码中包含时间要素,则根据时间要素得到文章发布时间的步骤中,如图5所示,包括步骤S81-S86。
步骤S81:提取时间要素对应的所有日期文本,得到第四日期文本集合。
作为示例性的实施例,通过正则定位提取时间要素对应的所有日期文本,得到第四日期文本集合。
步骤S82:对第四日期文本集合中的每一个日期文本分别去除非文本内容,得到第五日期文本集合。
作为示例性的实施例,对第四日期文本集合中的每一个日期文本分别去除非文本内容,去除日期文本中的非文本内容,仅保留日期文本中的文本内容。非文本内容包括空格、横杠等用于表示间隔的特殊字符,以便得到文本长度,通常文章发布时间的文本长度不会太短,根据文本长度排除文本长度过短的日期文本。
步骤S83:在第五日期文本集合中去除文本长度小于第四预设长度的日期文本,得到第六日期文本集合。
作为示例性的实施例,将第五日期文本集合中每一个日期文本的文本长度分别与第四预设长度进行长度比较,去除小于第四预设长度的日期文本,将文本长度大于或者等于第四预设长度的日期文本构成第六文本集合。本实施例中,第四预设长度设置为12个字符长度,当然,在其它实施例中,第四预设长度还可以设置为其它数值,本实施例对此仅作示意性描述。
步骤S84:对第六日期文本集合中的每一个日期文本分别查找小于第二预设索引距离的元素,得到第六日期文本集合中每一个日期文本对应的第二预设索引距离元素集合。
作为示例性的实施例,第二预设索引距离设置为4,当然,在其它实施例中,第二预设索引距离还可以设置为其它数值,根据需要合理设置即可。
步骤S85:根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值;文章头部信息是根据网页元素特征得到的。
作为示例性的实施例,文章头部信息包括多个文章头部单词,每一个文章头部单词均对应一个权重值,将第二预设索引距离元素与多个文章头部单词进行比较,查找到该元素中包含的文章头部单词,从而得到权重值。具体地,对过滤之后的字符串,判断在前后4个元素内是否存在作者等头部信息等,进行权重判断,得到每一个元素的权重,再将所有元素的权重相加便可得到日期文本对应的权重值。
步骤S86:将最大权重值所对应的日期文本作为文章发布时间。
作为示例性的实施例,在日期文本所对应的权重值中查找权重值的最大值,将权重最高的日期文本作为文章发布时间。
作为示例性的实施例,步骤S85根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值的步骤中,如图6所示,包括步骤S851-S856。
步骤S851:获取文章头部信息。
作为示例性的实施例,文章头部信息是根据网页元素特征得到的,具体是通过对大量网页文章的内容进行归纳整理,得到文章头部信息。文章头部信息中包含若干个文章头部单词,这些文章头部单词位于文章的开始位置。
步骤S852:根据文章头部信息中每一个文章头部单词确定文章头部单词所对应的权重值。
作为示例性的实施例,预先设置好每一个文章头部单词所对应的权重值,也就是每一个文章头部单词对应一个权重值,权重值的范围为0~1之间的任意数值,权重占比越大,则根据该文章头部单词找到文章发布时间的可能性越高,具体可根据经验进行合理设置。
步骤S853:将第二预设索引距离元素集合中的每一个第二预设索引距离元素与文章头部单词分别进行匹配,得到匹配结果。
作为示例性的实施例,将第二预设索引距离元素集合中的每一个第二预设索引距离元素分别与文章头部单词进行匹配,也就是查看第二预设索引距离元素中具体包含哪个文章头部元素。
步骤S854:若匹配结果为未匹配成功,则将第二预设索引距离元素所对应的权重值设置为0。
作为示例性的实施例,匹配结果为匹配不成功,说明第二预设索引距离元素中不包含文章头部单词,则将其所对应的权重设置为0。
步骤S855:若匹配结果为匹配成功,则将文章头部单词所对应的权重值作为第二预设索引距离元素所对应的权重值。
作为示例性的实施例,匹配结果为匹配成功,说明第二预设索引距离元素中包含文章头部单词,得到文章头部单词所对应的权重,从而得到第二预设索引距离元素所对应的权重值。
步骤S856:将第二预设索引距离元素集合中的每一个第二预设索引距离元素所对应的权重值进行累加,得到每一个日期文本对应的权重值。
作为示例性的实施例,将每一个第二预设索引距离元素所对应的权重值进行累加,得到权重值的累加和,该权重值累加之和即为每一个日期文本对应的权重值。
通过上述步骤,对过滤之后字符串,判断在前后4个元素内是否存在作者等头部信息等,进行权重判断,将权重最高的作为最后结果。
作为示例性的实施例,步骤S2去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码的步骤之前,如图7所示,还包括步骤S9。
步骤S9:对源码进行清洗,去除非页面内容显示标签和disable属性的标签,得到清洗后的源码。
作为示例性的实施例,下载的源码中包含各种标签,其中一些标签与网页文章的显示内容不相关,如用于元素渲染功能等的非页面内容显示的标签和无法识别出标签属性的disable属性标签,将这些多余标签进行去除处理,减少干扰,之后根据清洗后的源码进行识别,使得文章发布时间的识别更加准确。
上述步骤清洗掉非页面内容显示标签和disable属性的标签,减少干扰,提高识别的准确性。
本实施例中的基于时间格式和网页元素特征的文章发布时间识别方法可以使用户对于获取到的大量网上信息进行批量化的提取,并保证较高的准确率。在百度新闻随机搜索关键词,获取500篇文章进行提取,准确率在80%以上。
在本实施例中还提供了一种基于时间格式和网页元素特征的文章发布时间识别***,该***用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种基于时间格式和网页元素特征的文章发布时间识别***,如图8所示,包括:获取模块1、第一处理模块2、第一判断模块3、第二处理模块4、第二判断模块5、第三处理模块6、第三判断模块7和第四处理模块8。
获取模块1,用于获取模块,用于获取待识别文章的源码;详细内容参考步骤S1所述。
第一处理模块2,用于去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;详细内容参考步骤S2所述。
第一判断模块3,用于判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;详细内容参考步骤S3所述。
第二处理模块4,用于若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;详细内容参考步骤S4所述。
第二判断模块5,用于若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;详细内容参考步骤S5所述。
第三处理模块6,用于若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;详细内容参考步骤S6所述。
第三判断模块7,用于若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;详细内容参考步骤S7所述。
第四处理模块8,用于若源码中包含时间要素,则根据时间要素得到文章发布时间;详细内容参考步骤S8所述。
作为示例性的实施例,所述第二处理模块包括:第一处理单元,用于若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素,详细内容参考步骤S41所述;第二处理单元,用于提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本,详细内容参考步骤S42所述;第一判断单元,用于判断日期文本的长度是否大于第二预设长度,详细内容参考步骤S43所述;第三处理单元,用于若日期文本的长度大于第二预设长度,则去除所述日期文本,详细内容参考步骤S44所述;第四处理单元,用于若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合,详细内容参考步骤S45所述;第五处理单元,用于若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间,详细内容参考步骤S46所述;第六处理单元,用于若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间,详细内容参考步骤S47所述。
作为示例性的实施例,所述第六处理单元包括:第一处理子单元,用于若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果,详细内容参考步骤S471所述;第二处理子单元,用于若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间,详细内容参考步骤S472所述;第三处理子单元,用于若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间,详细内容参考步骤S473所述。
作为示例性的实施例,所述第三处理模块包括:获取单元,用于若源码中包含时间辅助关键词,则获取时间辅助关键词的位置,详细内容参考步骤S61所述;第七处理单元,用于根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合,详细内容参考步骤S62所述;第八处理单元,用于提取时间元素集合中的所有日期文本,得到第二日期文本集合,详细内容参考步骤S63所述;第九处理单元,用于若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间,详细内容参考步骤S64所述;第十处理单元,用于若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度,详细内容参考步骤S65所述;第十一处理单元,用于去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合,详细内容参考步骤S66所述;第十二处理单元,用于将第三文本集合中的第一个日期文本作为文章发布时间,详细内容参考步骤S67所述。
作为示例性的实施例,所述第四处理模块包括:第十三处理单元,用于提取时间要素对应的所有日期文本,得到第四日期文本集合,详细内容参考步骤S81所述;第十四处理单元,用于对第四日期文本集合中的每一个日期文本分别去除非文本内容,得到第五日期文本集合,详细内容参考步骤S82所述;第十五处理单元,用于在第五日期文本集合中去除文本长度小于第四预设长度的日期文本,得到第六日期文本集合,详细内容参考步骤S83所述;第十六处理单元,用于对第六日期文本集合中的每一个日期文本分别查找小于第二预设索引距离的元素,得到第六日期文本集合中每一个日期文本对应的第二预设索引距离元素集合,详细内容参考步骤S84所述;第十七处理单元,用于根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值,所述文章头部信息是根据网页元素特征得到,详细内容参考步骤S85所述;第十八处理单元,用于将最大权重值所对应的日期文本作为文章发布时间,详细内容参考步骤S86所述。
作为示例性的实施例,所述第十七处理单元包括:获取子单元,用于获取文章头部信息,文章头部信息中包含若干文章头部单词,详细内容参考步骤S851所述;第四处理子单元,用于根据文章头部信息中每一个文章头部单词确定文章头部单词所对应的权重值,详细内容参考步骤S852所述;第五处理子单元,用于将第二预设索引距离元素集合中的每一个第二预设索引距离元素与文章头部单词分别进行匹配,得到匹配结果,详细内容参考步骤S853所述;第六处理子单元,用于若匹配结果为未匹配成功,则将第二预设索引距离元素所对应的权重值设置为0,详细内容参考步骤S854所述;第七处理子单元,用于若匹配结果为匹配成功,则将文章头部单词所对应的权重值作为第二预设索引距离元素所对应的权重值,详细内容参考步骤S855所述;第八处理子单元,用于将第二预设索引距离元素集合中的每一个第二预设索引距离元素所对应的权重值进行累加,得到每一个日期文本对应的权重值,详细内容参考步骤S856所述。
作为示例性的实施例,还包括:第五处理模块,用于对所述源码进行清洗,去除非页面内容显示标签和disable属性的标签,得到清洗后的源码,详细内容参考步骤S9所述。
本实施例中的基于时间格式和网页元素特征的文章发布时间识别***是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图9所示,该电子设备包括一个或多个处理器91以及存储器92,图9中以一个处理器91为例。
该控制器还可以包括:输入装置93和输出装置94。
处理器91、存储器92、输入装置93和输出装置94可以通过总线或者其他方式连接,图9中以通过总线连接为例。
处理器91可以为中央处理器(Central Processing Unit,CPU)。处理器91还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器92作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的基于时间格式和网页元素特征的文章发布时间识别方法对应的程序指令/模块。处理器91通过运行存储在存储器92中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于时间格式和网页元素特征的文章发布时间识别方法。
存储器92可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器92可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器92可选包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置93可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置94可包括显示屏等显示设备。
一个或者多个模块存储在存储器92中,当被一个或者多个处理器91执行时,执行如图1-7所示的基于时间格式和网页元素特征的文章发布时间识别方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述基于时间格式和网页元素特征的文章发布时间识别方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,包括:
获取待识别文章的源码;
去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;
判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;
若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;
若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;
若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;
若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;
若源码中包含时间要素,则根据时间要素得到文章发布时间。
2.如权利要求1所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间的步骤中,包括:
若源码中包含时间标志关键词,则根据时间标志关键词得到时间标志关键词对应的父元素以及父元素的所有子元素;
提取时间标志关键词对应的父元素和父元素的所有子元素中的所有日期元素对应的日期文本;
判断日期文本的长度是否大于第二预设长度;
若日期文本的长度大于第二预设长度,则去除所述日期文本;
若日期文本的长度小于或者等于第二预设长度,则保留所述日期文本,得到第一日期文本集合;
若所述第一日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;
若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间。
3.如权利要求2所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若所述第一日期文本集合中的日期文本的个数大于一个,则根据文章来源的位置和文章标题的位置得到文章发布时间的步骤中,包括:
若第一日期文本集合中的日期文本的个数大于一个,则在第一日期文本集合中查找与文章来源所在位置索引距离最近的日期文本,得到查找结果;
若查找结果为查找到,则将查找到的与文章来源所在位置索引距离最近的日期文本作为文章发布时间;
若查找结果为未查找到,则将第一日期文本集合中与文章标题所在位置索引距离最近的日期文本作为文章发布时间。
4.如权利要求1所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间的步骤中,包括:
若源码中包含时间辅助关键词,则获取时间辅助关键词的位置;
根据时间辅助关键词的位置,查找距离时间辅助关键词小于第一预设索引距离的时间元素,得到时间元素集合;
提取时间元素集合中的所有日期文本,得到第二日期文本集合;
若第二日期文本集合中的日期文本的个数等于一个,则所述日期文本为文章发布时间;
若第二日期文本集合中的日期文本的个数大于一个,则将第二日期文本集合中的每一个日期文本分别去除非文本内容,得到每一个日期文本的文本长度;
去除元素文本长度小于第三预设长度的日期文本,得到第三文本集合;
将第三文本集合中的第一个日期文本作为文章发布时间。
5.如权利要求1所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,若源码中包含时间要素,则根据时间要素得到文章发布时间的步骤中,包括:
提取时间要素对应的所有日期文本,得到第四日期文本集合;
对第四日期文本集合中的每一个日期文本分别去除非文本内容,得到第五日期文本集合;
在第五日期文本集合中去除文本长度小于第四预设长度的日期文本,得到第六日期文本集合;
对第六日期文本集合中的每一个日期文本分别查找小于第二预设索引距离的元素,得到第六日期文本集合中每一个日期文本对应的第二预设索引距离元素集合;
根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值;所述文章头部信息是根据网页元素特征得到;
将最大权重值所对应的日期文本作为文章发布时间。
6.如权利要求5所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,根据文章头部信息分别对第二预设索引距离元素集合中的每一个第二预设索引距离元素进行权重判断,得到每一个日期文本对应的权重值的步骤中,包括:
获取文章头部信息,文章头部信息中包含若干文章头部单词;
根据文章头部信息中每一个文章头部单词确定文章头部单词所对应的权重值;
将第二预设索引距离元素集合中的每一个第二预设索引距离元素与文章头部单词分别进行匹配,得到匹配结果;
若匹配结果为未匹配成功,则将第二预设索引距离元素所对应的权重值设置为0;
若匹配结果为匹配成功,则将文章头部单词所对应的权重值作为第二预设索引距离元素所对应的权重值;
将第二预设索引距离元素集合中的每一个第二预设索引距离元素所对应的权重值进行累加,得到每一个日期文本对应的权重值。
7.如权利要求1-6中任一所述的基于时间格式和网页元素特征的文章发布时间识别方法,其特征在于,去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码的步骤之前,还包括:
对所述源码进行清洗,去除非页面内容显示标签和disable属性的标签,得到清洗后的源码。
8.一种基于时间格式和网页元素特征的文章发布时间识别***,其特征在于,包括:
获取模块,用于获取待识别文章的源码;
第一处理模块,用于去除源码中标签文本内容的长度大于第一预设长度的标签,得到去除标签后源码,所述第一预设长度是根据时间格式和临近元素特征确定的;
第一判断模块,用于判断去除标签后源码中是否包含时间标志关键词,所述时间标志关键词是根据网页元素特征得到的;
第二处理模块,用于若源码中包含时间标志关键词,则根据时间标志关键词得到文章发布时间;
第二判断模块,用于若源码中不包含时间标志关键词,则判断源码中是否包含时间辅助关键词,时间辅助关键词是根据网页元素特征得到的;
第三处理模块,用于若源码中包含时间辅助关键词,则根据时间辅助关键词得到文章发布时间;
第三判断模块,用于若源码中不包含时间辅助关键词,则判断源码中是否包含时间要素;
第四处理模块,用于若源码中包含时间要素,则根据时间要素得到文章发布时间。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的基于时间格式和网页元素特征的文章发布时间识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于时间格式和网页元素特征的文章发布时间识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461251.1A CN112232075A (zh) | 2020-12-14 | 2020-12-14 | 基于时间格式和网页元素特征的文章发布时间识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011461251.1A CN112232075A (zh) | 2020-12-14 | 2020-12-14 | 基于时间格式和网页元素特征的文章发布时间识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232075A true CN112232075A (zh) | 2021-01-15 |
Family
ID=74124627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011461251.1A Pending CN112232075A (zh) | 2020-12-14 | 2020-12-14 | 基于时间格式和网页元素特征的文章发布时间识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232075A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221010A (zh) * | 2021-05-26 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 事件传播状态的显示方法、装置和电子设备 |
CN114547497A (zh) * | 2022-02-24 | 2022-05-27 | 马上消费金融股份有限公司 | 网页发布时间的确定方法、装置、电子设备及存储介质 |
CN116484831A (zh) * | 2023-02-22 | 2023-07-25 | 北京麦克斯泰科技有限公司 | 一种基于多维度的发布时间识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593360A (zh) * | 2012-08-16 | 2014-02-19 | 江苏金鸽网络科技有限公司 | 基于页面分析的互联网信息发表时间提取方法 |
CN106021392A (zh) * | 2016-05-12 | 2016-10-12 | 中国互联网络信息中心 | 一种新闻关键信息的提取方法及*** |
CN107766384A (zh) * | 2016-08-22 | 2018-03-06 | 北京国双科技有限公司 | 一种确定页面发布时间的方法和装置 |
US20190253755A1 (en) * | 2013-08-07 | 2019-08-15 | Enswers Co., Ltd. | System and Method for Detecting and Classifying Direct Response Advertisements Using Fingerprints |
CN111241284A (zh) * | 2020-01-15 | 2020-06-05 | 北京松果电子有限公司 | 文章内容识别方法、装置及计算机存储介质 |
-
2020
- 2020-12-14 CN CN202011461251.1A patent/CN112232075A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593360A (zh) * | 2012-08-16 | 2014-02-19 | 江苏金鸽网络科技有限公司 | 基于页面分析的互联网信息发表时间提取方法 |
US20190253755A1 (en) * | 2013-08-07 | 2019-08-15 | Enswers Co., Ltd. | System and Method for Detecting and Classifying Direct Response Advertisements Using Fingerprints |
CN106021392A (zh) * | 2016-05-12 | 2016-10-12 | 中国互联网络信息中心 | 一种新闻关键信息的提取方法及*** |
CN107766384A (zh) * | 2016-08-22 | 2018-03-06 | 北京国双科技有限公司 | 一种确定页面发布时间的方法和装置 |
CN111241284A (zh) * | 2020-01-15 | 2020-06-05 | 北京松果电子有限公司 | 文章内容识别方法、装置及计算机存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221010A (zh) * | 2021-05-26 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 事件传播状态的显示方法、装置和电子设备 |
CN114547497A (zh) * | 2022-02-24 | 2022-05-27 | 马上消费金融股份有限公司 | 网页发布时间的确定方法、装置、电子设备及存储介质 |
CN116484831A (zh) * | 2023-02-22 | 2023-07-25 | 北京麦克斯泰科技有限公司 | 一种基于多维度的发布时间识别方法及装置 |
CN116484831B (zh) * | 2023-02-22 | 2024-03-12 | 北京麦克斯泰科技有限公司 | 一种基于多维度的发布时间识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN108304410B (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
CN110390038B (zh) | 基于dom树的页面分块方法、装置、设备及存储介质 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN104239298A (zh) | 文本信息推荐方法、服务器、浏览器及*** | |
CN105550359B (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
CN106547749B (zh) | 网页数据采集的方法和装置 | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN110717801A (zh) | 一种商品信息推送方法及装置 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及*** | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
CN112612990A (zh) | 网页解析方法、***及计算机可读存储介质 | |
CN110390037B (zh) | 基于dom树的信息分类方法、装置、设备及存储介质 | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及*** | |
US11074306B2 (en) | Web content extraction method, device, storage medium | |
CN105550279A (zh) | 基于视觉的列表页识别方法 | |
CN112230989B (zh) | 网页频道导航栏提取方法、***、电子设备及存储介质 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 | |
CN111382332B (zh) | 一种地震灾情信息处理方法及*** | |
CN108153817B (zh) | 一种智能网页数据采集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210115 |