CN111259218B - 一种原创新闻信息识别方法 - Google Patents
一种原创新闻信息识别方法 Download PDFInfo
- Publication number
- CN111259218B CN111259218B CN202010022507.2A CN202010022507A CN111259218B CN 111259218 B CN111259218 B CN 111259218B CN 202010022507 A CN202010022507 A CN 202010022507A CN 111259218 B CN111259218 B CN 111259218B
- Authority
- CN
- China
- Prior art keywords
- news
- target
- webpage
- target news
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种原创新闻信息识别方法,包括如下步骤,S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;S3、计算每个目标新闻网页的SimHash;S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。优点是:对新闻页面进行准确的分类和抽取,增加了文本的价值性;通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,提高了识别的效率,减少了干扰项。
Description
技术领域
本发明涉及新闻信息识别领域,尤其涉及一种原创新闻信息识别方法。
背景技术
近年来,网络新闻快速发展,网络新闻也日渐成为人们获取新闻资讯的一种最普遍方式。相比于传统媒体新闻,网络新闻具有快速、灵活、便捷等优点。正是这些优点,让网络原创新闻如何在假新闻、机器自动生成新闻以及转载新闻中得到保护显得尤为迫切和重要。利用一定的提取识别技术自动地对大量新闻进行爬取,在保证新闻覆盖面的同时,如何有效快速的进行原创新闻的筛选,准确的保护原创新闻的版权,从而保护创新的积极性是当前研究的主要困难。原创新闻识别涉及页面核心内容准确提取、相似新闻聚合、高质量新闻鉴别等多个技术方面的方法,在保护原创新闻、优化信息检索等领域有着广泛的需求和应用前景。
现有网络新闻领域,对假新闻的识别算法比较丰富和完善,对原创新闻的识别还比较落后。无论是从页面提取不够精细,还是原创新闻潜在数据源获取以及打分鉴别等方面,都不够细致和全面,最终都会干扰到原创新闻的识别质量,影响原创的积极性。
发明内容
本发明的目的在于提供一种原创新闻信息识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种原创新闻信息识别方法,所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;
S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。
优选的,步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
优选的,步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;
S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
优选的,所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash 相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
优选的,步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间;时间权值依据发布时间由早到晚递减。
优选的,步骤S44中,各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。
优选的,步骤S44中,根据各目标新闻网页的转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值;若站点提供评论功能,则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值。
优选的,步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值;所述视频音频权值依据有效图片和视频的数量由多到少递减。
本发明的有益效果是:1、对新闻页面进行准确的分类和抽取,大大增加了文本的价值性。2、通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,大大提高了识别的效率,并减少了干扰项。3、通过完善的原创新闻识别算法,基于准确的信息提取,包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判,极大的减少了原创新闻误判的情况出现,增加准确性。
附图说明
图1是本发明实施例中所述方法的流程示意图;
图2是本发明实施例中目标新闻网页的SimHash计算流程示意图;
图3是本发明实施例中原创新闻判定流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例中提供了一种原创新闻信息识别方法,所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的SimHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;
S5、分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻。
本实施例中,步骤S1中需要对爬虫抓取的新闻库中的新闻网页进行网页类型识别,如果页面类型不是内容页,或者文本长度较短,没有实质内容等,予以丢弃不再进行下一步计算;若符合要求,则进行步骤S2。步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S12;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S13;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
本实施例中,对筛选出的符合要求的新闻内容页进行内容解析,抽取出标题、正文、来源、作者、发布时间、评论、转发、点赞等信息;为后续的处理做准备。
本实施例中,计算每个符合要求的新闻网页的SimHash。步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;其中,分词结果集表示为T={t1,t2,…,tn};ti为分词结果集中的第i个分词结果;i=1,2,…,n,n为分词结果集中的分析结果个数。
S32、计算分词结果集中各个分词结果ti的64位的hash值,并将64位的hash 值对应为64维数组;该64维数组表示为hi=[bi,0,bi,1,…,bi,63],其中bi,j为0或1, i=1,2,…,n,j=0,1,…,63,n为分词结果集中的分析结果个数;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;也就是说,目标新闻网页的SimHash的第j位为
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
本实施例中,对所有内容页计算完成SimHash后,对于所有具有某一相同 SimHash的目标新闻网页集S={s1,s2,…,sk}(k为集合中的文章数);开始分析,以下的计算流程涉及各种权重,本实施例中,设置来源权值ω,发布时间权值η,权威度权值λ,传播力权值ξ,图片视频权值υ。所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash 相同的目标新闻网页集合在一起,以获取多个具有不同SimHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
本实施例中,对目标新闻网页来源分析,如果目标新闻网页有来源,且超过半数的来源指向同一处,且源url在集合S中,则该目标新闻网页被判定为原创新闻,结束;如果不满足上述条件,则对每个目标新闻网页的来源在集合S中的进行加权。
本实施例中,步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
本实施例中,步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间。按照发布时间先后排序,时间权值η依据发布时间由早到晚递减。
本实施例中,步骤S44中,各目标新闻网页的站点权威度权值λ由历史原创新闻站点打分积累所得。
本实施例中,步骤S44中,根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值ξ。如果站点提供评论功能,则将评论也纳入传播力权值的计算范围。
本实施例中,步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值υ;基于以下假设,原创新闻正文中的图片数量或视频数量不会少于转载后文章,因此,所述视频音频权值依据有效图片和视频的数量由多到少递减。
本实施例中,所述方法对通过对非新闻报道属性的网页进行初步过滤,对通过初步过滤的新闻网页计算SimHash;对拥有相同SimHash的新闻网页通过分析来源关系、判定站点权威性、传播力检测以及图片视频检测找出原创新闻,或者给出未找到原创新闻的结果。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明提供了一种原创新闻信息识别方法,本方法对新闻页面进行准确的分类和抽取,大大增加了文本的价值性;通过SimHash算法,对分词后的新闻页面进行计算和聚合,对相似新闻进行原创新闻算法的比较和识别,大大提高了识别的效率,并减少了干扰项。本方法通过完善的原创新闻识别算法,基于准确的信息提取,包括但不限于发布时间、页面标题、正文、作者、来源等制定多维度的打分评判,极大的减少了原创新闻误判的情况出现,增加准确性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (8)
1.一种原创新闻信息识别方法,其特征在于:所述方法包括如下步骤,
S1、从爬虫爬取的新闻网页中筛选出所有符合要求的目标新闻网页;
S2、对所有的目标新闻网页进行内容解析,抽取目标网页的标题、正文、来源、作者、发布时间、评论、转发和点赞信息;
S3、计算每个目标新闻网页的S imHash;
S4、将具有相同SimHash的新闻网页组成目标新闻网页集,以获取多个具有不同SimHash的目标新闻网页集;分析每个目标新闻网页集中的目标新闻网页,最终获取每个目标新闻网页集中的原创新闻;
所述步骤S4具体包括如下内容,
S41、从所有目标新闻网页中选取SimHash相同的目标新闻网页,并将SimHash相同的目标新闻网页集合在一起,以获取多个具有不同S imHash的目标新闻网页集;
S42、判断其中一个目标新闻网页集中的目标新闻网页个数是否小于设定阈值,若是,则判定目标新闻网页集中的目标新闻网页为原创新闻;若否,则执行步骤S43;
S43、判断目标新闻网页集中各个目标新闻网页的来源,若超过半数的目标新闻网页的来源指向同一处,且该来源处于所述目标新闻网页集中,则目标新闻网页集中的目标新闻网页为原创新闻;否则,执行步骤S44;
S44、对目标新闻网页集中的各目标新闻网页的来源、发布时间、站点权威度、传播力以及图片视频分别进行加权,以获取加权得分最高的目标新闻网页,该目标新闻网页即为原创新闻;
S45、重复步骤S42至S44,遍历所有具有不同SimHash的目标新闻网页集,以获取所有为原创新闻的,目标新闻网页。
2.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S1具体包括如下内容,
S11、利用爬虫爬取新闻网页,并将所有新闻网页集合起来组成新闻库;
S12、判断新闻库中的一个新闻网页的网页类型是否是内容页,若是,则执行步骤S13;若否,则将该新闻网页直接丢弃;
S13、判断该新闻网页的文本长度是否小于设定文本长度,若是,则将该新闻网页丢弃;若否,则执行步骤S14;
S14、判断该新闻网页是否具有实质性内容,若是,则判定该新闻网页为目标新闻网页;若否,则丢弃该新闻网页;
S15、重复步骤S12至S14,以遍历所述新闻库中所有的新闻网页,获取所有目标新闻网页。
3.根据权利要求2所述的原创新闻信息识别方法,其特征在于:步骤S3具体包括如下内容,
S31、对其中一个目标新闻网页的标题和正文进行分词,获取该目标新闻网页的分词结果集,所述分词结果集包括多个分词结果;
S32、计算分词结果集中各个分词结果的64位的hash值,并将64位的hash值对应为64维数组;
S33、根据64维数组以及由各分词结果的逆文本频率组成的逆文本频率集,获取待判定数组;
S34、依次判断所述待判定数组中的每个维度是否大于0,若是,则记为1;若否,则记为0;以获取64维的结果数组,所述64维的结果数组为该目标新闻网页的SimHash;
S34、重复步骤S31至S33,以遍历所有目标新闻网页,获取所有目标新闻网页的SimHash。
4.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S44中,对目标新闻网页集中的每个目标新闻网页的来源分别进行加权,以获取各目标新闻网页的来源权值。
5.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S44中,对目标新闻网页集中的每个目标新闻网页的发布时间进行加权,以获取各目标新闻网页的时间权值;若目标新闻网页没有发布时间,则使用其抓取时间;时间权值依据发布时间由早到晚递减。
6.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S44中,各目标新闻网页的站点权威度权值由历史原创新闻站点打分积累所得。
7.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S44中,根据各目标新闻网页的转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值;若站点提供评论功能,则可根据各目标新闻网页的评论、转发、喜欢和点赞的数量,获取各目标新闻网页的传播力权值。
8.根据权利要求1所述的原创新闻信息识别方法,其特征在于:步骤S44中,根据各目标新闻网页中的有效图片和视频的数量,获取各目标新闻网页的视频音频权值;所述视频音频权值依据有效图片和视频的数量由多到少递减。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010022507.2A CN111259218B (zh) | 2020-01-09 | 2020-01-09 | 一种原创新闻信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010022507.2A CN111259218B (zh) | 2020-01-09 | 2020-01-09 | 一种原创新闻信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259218A CN111259218A (zh) | 2020-06-09 |
CN111259218B true CN111259218B (zh) | 2020-10-27 |
Family
ID=70946814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010022507.2A Active CN111259218B (zh) | 2020-01-09 | 2020-01-09 | 一种原创新闻信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259218B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094382B (zh) * | 2021-04-02 | 2022-12-06 | 南开大学 | 一种面向多来源数据管理的半自动化数据采集更新方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110020A (zh) * | 2006-07-21 | 2008-01-23 | 国际商业机器公司 | 维护关于可编辑对象中的元素的与原创性有关的信息的方法和*** |
CN104572787A (zh) * | 2013-10-29 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 伪原创网站的识别方法及装置 |
CN108009599A (zh) * | 2017-12-27 | 2018-05-08 | 福建中金在线信息科技有限公司 | 一种原创文档判断方法、装置、电子设备及存储介质 |
CN108959515A (zh) * | 2018-06-28 | 2018-12-07 | 网易传媒科技(北京)有限公司 | 原创数据保护方法、介质、装置和计算设备 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及*** |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11507601B2 (en) * | 2016-08-18 | 2022-11-22 | International Business Machines Corporation | Matching a first collection of strings with a second collection of strings |
EP3564846A1 (en) * | 2018-04-30 | 2019-11-06 | Merck Patent GmbH | Methods and systems for automatic object recognition and authentication |
-
2020
- 2020-01-09 CN CN202010022507.2A patent/CN111259218B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110020A (zh) * | 2006-07-21 | 2008-01-23 | 国际商业机器公司 | 维护关于可编辑对象中的元素的与原创性有关的信息的方法和*** |
CN104572787A (zh) * | 2013-10-29 | 2015-04-29 | 腾讯科技(深圳)有限公司 | 伪原创网站的识别方法及装置 |
CN108009599A (zh) * | 2017-12-27 | 2018-05-08 | 福建中金在线信息科技有限公司 | 一种原创文档判断方法、装置、电子设备及存储介质 |
CN108959515A (zh) * | 2018-06-28 | 2018-12-07 | 网易传媒科技(北京)有限公司 | 原创数据保护方法、介质、装置和计算设备 |
CN110321466A (zh) * | 2019-06-14 | 2019-10-11 | 广发证券股份有限公司 | 一种基于语义分析的证券资讯查重方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111259218A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10922350B2 (en) | Associating still images and videos | |
Chakrabarti et al. | Page-level template detection via isotonic smoothing | |
Wang et al. | Mining correlated bursty topic patterns from coordinated text streams | |
CN106649490B (zh) | 一种基于深度特征的图像检索方法及装置 | |
CN101655868B (zh) | 网络数据挖掘方法、网络数据推送方法及设备 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
US20080275901A1 (en) | System and method for detecting a web page | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
Tong et al. | CNN-based shot boundary detection and video annotation | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
JP6280323B2 (ja) | キャプチャしたイメージを用いた動画分析装置、方法およびコンピュータ読み取り可能な記録媒体 | |
CN105808722B (zh) | 一种信息判别方法和*** | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN101944111B (zh) | 新闻视频的搜索方法和装置 | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
CN103914538B (zh) | 基于锚文本上下文和链接分析的主题抓取方法 | |
Tan et al. | Efficient mining of multiple partial near-duplicate alignments by temporal network | |
Roopalakshmi et al. | A novel spatio-temporal registration framework for video copy localization based on multimodal features | |
CN111259218B (zh) | 一种原创新闻信息识别方法 | |
KR100896336B1 (ko) | 영상 정보 기반의 동영상 연관 검색 시스템 및 방법 | |
CN107451120B (zh) | 一种公开文本情报的内容冲突检测方法及*** | |
CN114048389B (zh) | 一种面向工程机械行业的内容推荐方法及*** | |
CN108694325B (zh) | 指定类型网站的辨别方法和指定类型网站的辨别装置 | |
JP2008310626A (ja) | 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |