CN112000929A - 一种跨平台数据分析方法、***、设备及可读存储介质 - Google Patents
一种跨平台数据分析方法、***、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112000929A CN112000929A CN202010746899.7A CN202010746899A CN112000929A CN 112000929 A CN112000929 A CN 112000929A CN 202010746899 A CN202010746899 A CN 202010746899A CN 112000929 A CN112000929 A CN 112000929A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- cross
- module
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000007405 data analysis Methods 0.000 title claims abstract description 61
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 111
- 238000005516 engineering process Methods 0.000 claims abstract description 29
- 238000003058 natural language processing Methods 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000005065 mining Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000005406 washing Methods 0.000 claims description 17
- 239000000463 material Substances 0.000 claims description 10
- 230000001364 causal effect Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004904 shortening Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013480 data collection Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 239000010979 ruby Substances 0.000 description 2
- 229910001750 ruby Inorganic materials 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003197 gene knockdown Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000001483 mobilizing effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种跨平台数据分析方法、***、设备及可读存储介质,所述方法包括:跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;根据用户需求对关键词进行检索,提取检索数据;对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。通过大数据采集和分析,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体涉及一种跨平台数据分析方法、***、设备及可读存储介质。
背景技术
现有版权保护方法为人工检索、维权外包、平台自测三种类型。
传统的“人工检索”方法适用于个人媒体或小团队,在搜索引擎或公众号平台输入内容标题或关键字,来检索相似内容,人工判断抄袭。缺点很明显,第一是效率低下,极大地依赖人工,不适合产量高、人员少、资本弱的团队;第二是存在大量漏网之鱼,这是由于搜索引擎的规则设定,导致相当一部分内容无法被及时收录,从而无法直接通过搜索引擎检索到;第三是缺乏证据,明显的复制抄袭可一眼判定,但经过重新组织、去重处理的内容来源往往模棱两可,缺少经验的团队很难把握。
“维权外包”是近几年新兴的线上版权保护产品,典型代表是维权骑士。最早利用的是微信平台的投诉即下架机制来敲打抄袭的公众号,随后发展为全网监控的版权保护平台。但是这类维权的技术问题在于,只能检测大段抄袭和复制,而无法判断洗稿内容,从而无法有效实现原创内容的版权保护。
“平台自测”是微信公众号、知乎等社交媒体平台推出的方法。它们通过内容发布前的检测来过滤抄袭内容,优点是从源头掐灭不规范转载和抄袭的风气,保证整个平台文章的质量,缺点在于无法识别洗稿文章、以及局限于平台本身。此外,“读者投诉”也是平台自测的一种方式,优点在于节省人力、充分调动了读者群的积极性。缺点在于投诉处理结果受读者的主观性的影响较大,如何设定对读者和作者双方均公平的评价指标,是平台面临的难题。
发明内容
为此,本申请实施例提供一种跨平台数据分析方法、***、设备及可读存储介质,通过大数据采集和分析,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种跨平台数据分析方法,所述方法包括:
跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;
根据用户需求对关键词进行检索,提取检索数据;
对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;
根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
可选地,所述根据用户需求对关键词进行检索,提取检索数据,包括:
在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;
获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;
根据用户需求对关键词进行检索,提取检索数据。
可选地,所述对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果,包括:
将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
可选地,所述根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,包括:
对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
根据本申请实施例的第二方面,提供了一种跨平台数据分析***,所述***包括:
信息接收模块,用于接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;
检索模块,用于根据用户需求对关键词进行检索,提取检索数据;
分析模块,用于对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;
结果判断模块,用于根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
可选地,所述检索模块,具体用于:
在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;
获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;
根据用户需求对关键词进行检索,提取检索数据。
可选地,所述分析模块,具体用于:
将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
可选地,所述结果判断模块,具体用于:
对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
根据本申请实施例的第三方面,提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行第一方面任一项所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如第一方面任一项所述的方法。
综上所述,本申请实施例提供了一种跨平台数据分析方法、***、设备及可读存储介质,通过跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;根据用户需求对关键词进行检索,提取检索数据;对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。通过大数据采集和分析,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种跨平台数据分析方法流程示意图;
图2为本申请实施例提供的跨平台数据分析方法实施例示意图;
图3为本申请实施例提供的一种跨平台数据分析***框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术中面临的问题,本申请实施例提供一种跨平台数据分析方法,首先,通过全网数据采集和分析,保证涉及内容的覆盖面,以及跨平台的内容追踪;其次,在关键词提取、因果推理、摘要抽取等自然语言处理技术基础上,将原始的文本匹配改进为更智能的段落匹配甚至文章匹配,从而可以发现抄袭和洗稿痕迹,并通过匹配结果给出抄袭程度和影响范围的评分,实现自动化、智能化的版权保护;此外,还能够通过自动诉讼文书生成和发送机制,解决中小团队面临的维权难问题,以及降低大型企业团队的人力负担。
如图1所示,所述方法包括如下步骤:
步骤101:跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块。
步骤102:根据用户需求对关键词进行检索,提取检索数据。
步骤103:对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果。
步骤104:根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
在一种可能的实施方式中,在步骤102中,所述根据用户需求对关键词进行检索,提取检索数据,包括:
在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;
根据用户需求对关键词进行检索,提取检索数据。
在一种可能的实施方式中,在步骤103中,所述对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果,包括:
将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
在一种可能的实施方式中,在步骤104中,所述根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,包括:
对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
本申请实施例基于跨平台数据采集方案与文本匹配技术,可用于著作权保护。首先,搭建一个跨平台的网络数据采集***,能够实现对互联网公开内容数据的抓取。采集***嵌入文本检索、文本分析模块,能够根据用户需求以关键词检索的方式提取相关数据。同时,针对性地改进现有的文本内容匹配方法,使之适合新媒体环境下相似稿件的识别,能够发现涉嫌洗稿的文章,并提供对应线索和证据。接着,当用户发起会话信息,向服务器发起请求后,***开展信息采集和分析,为用户返回疑似侵权内容列表及内容样本。最后,借助模块化的法律文书模板,为用户提供著作权诉讼材料样本服务。通过大数据采集和分析***,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
为了使得本申请实施例提供的跨平台数据分析方法更加清晰明了,现在结合图2提供的本申请实施例提供的跨平台数据分析***实施例示意图进行进一步说明。
将用户原创内容输入前端交互层,前端交互层将处理后的原创数据输入数据采集层,数据采集层将采集到的数据发送至数据分析层,数据分析层将分析后的结果发送至数据存储层进行存储。所述前端交互层包括终端适配模块、用户交互模块和可视化模块,所述数据采集层包括数据源解析模块、爬虫中间件、下载中间件和报警模块,所述数据分析层包括文本匹配模块、内容解析模块、主题分析模块和证据生成模块,所述数据存储层包括redis模块、hbase模块和mysql模块。
跨平台数据采集模块:能够实现网络公开内容的收集,重点关注新媒体和独立创作者发布或转载的文章。数据将存储于云端服务器,等待与客户端建立连接。所述跨平台数据采集模块,其特点在于实时、高并发、高鲁棒性。该模块采用分布式爬虫和分级存储架构来提高并发量和响应速度,借助中间件技术提高***拓展性和健壮性,通过报警模块实时处理***故障,保证***的高效正常运作。
用户交互模块:用户登录***后,输入关键词、歧义词和排除词,并设定所需采集内容的时间范围,向服务器发起侵权内容的查询请求;***根据用户发起的执行请求,基于建立的大数据采集平台自动收集相似关键词和主题的内容。所述用户与***的交互模块设计,其特点在于合理性和易用性。该模块具体功能为:在***中设置会话框,用户可以根据需求输入所需检索的内容关键词,并排除冗余信息,获取特定时段内互联网平台上的相关内容,这些内容将在数据库***中归属于该用户账户。所有数据能够被下载或用于二次检索。当用户需要处理多个相关内容时,可设置独立方案实施上述步骤。
数据分析模块:该模块基于现有统计学习方法、自然语言处理技术、机器学习方法、深度学习方法等进行数据的特征挖掘和智能化分析。所述数据分析模块,其特征在于科学性和智能性。该模块具体为:用户可输入自己或他人的作品标题和内容,在所采集到的数据样本中检索最接近的内容,***将根据所设置的相似度百分比,为用户提供相似文本聊表,并定制筛选Top10/20相似度最高的内容,作为疑似侵权内容的参考,生成相似内容列表与匹配结果报告可供下载。
洗稿文章识别模块:针对新媒体环境中存在的抄袭现象,以及“关键词不完全匹配”、“上下文句子顺序调整”、“内容重新复述”等洗稿现象,通过改进的文本匹配方法,实现抄袭和侵权程度的判定。所述洗稿文章的发现和识别模块,在借助因果推理、关键词匹配、概要提取等现有技术基础上,针对洗稿文章的常见手法进行针对性的痕迹检测和文本匹配,通过量化评估的方法给出影响力较大的疑似洗稿文章。
自动侵权处理模块:对比涉嫌洗稿和抄袭的文章与用户原创文章,给出对比分析结果,自动生成侵权诉讼材料样本,供需求方下载。***同时提供数据分析报告和诉讼文书的批量下载。所述自动化侵权处理模块,主要用于提供可供用户选择的著作权诉讼材料文本样本,可根据用户需求批量下载,这一功能主要用于解决被大量抄袭的内容创作机构和个人在诉讼选择和文本拟定上所需投入大量时间和精力的问题。
现在对本申请实施例涉及的现有文本匹配技术进行介绍:
文本匹配是自然语言处理(NLP)中的一个核心应用,信息检索、问答***、机器翻译等领域中的很多任务都可以抽象为文本匹配问题。传统的文本匹配技术包括VSM、TF-IDF、Jaccord、BoW、SIMHash、BM25等,大多数技术都是用来解决词汇层面的相似度问题,比如BM25算法通过对查询字段的覆盖程度,来计算文本匹配值。其局限性主要在于基于字面词汇的匹配存在语义表示的计算问题,难以解决歧义词和知识局限等问题。
基于主题模型的语义分析技术,将语句映射到等长的低维连续空间,在隐藏的潜在语义空间中进行相似度计算,这一思路的典型算法包括PLSA、LDA等主题词概率模型。尽管在计算效率上弥补了传统文本匹配方法的一些不足,但实际应用中还只是作为字面匹配的有效补充。
随着神经网络在NLP领域的应用,基于神经网络训练出来的Word Embedding的文本匹配方法让词汇向量表示的语义可计算性进一步加强,使用无标注数据训练得到的匹配度计算与主题模型较为相似,本质上都是基于共现信息的计算。然而这种方法也并未解决匹配的非对称问题。深度匹配模型在匹配层进行交互计算,采用点积、余弦、高斯分布、MLP、相似度矩阵等方法,经典的模型如DSSM、CDSSM、MV-LSTM、ARC-I、CNTN、MultiGranCNN等。
此外,基于语义焦点和上下文重要性建模的交互类模型,将词汇之间的匹配信号作为灰度图,再进行后续的抽象建模,交互层可由文本词汇构成交互矩阵,交互运算类似于attention,表征层则负责对交互矩阵进行抽象表征,经典的模型如DRMM、DeepRank、IR-Transformer、ESIM、ABCNN等。该方法解决了局部信息的问题,但无法由局部匹配信息刻画全局匹配信息。现有的文本匹配技术主要应用于广告页面相似度的用户查询、篇章关键词的抽取和主题聚类、新闻个性化推荐、垂直类新闻CTR预估等。与上述方法所采用的语义匹配所不同的是,本申请实施例提出的方法将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法设计,借助因果推理、关键词抽取、概要抽取等方法,实现难度更高的“洗稿检测”。
随着人们对互联网海量信息获取和分类需求的增加,用更专业的方式最大化数据的价值和效益为数据市场提供了增量空间。目前有不少企业从事“海量数据收集”,其中大部分通过垂直搜索引擎技术实现,也有一些实现了各种技术的综合应用。
一般来说互联网数据采集技术主要通过网络爬虫、分词***、任务索引***等垂直搜索引擎技术的综合应用完成,基本路径如下:关键词输入——URL拼接——URL提取——模拟请求——页面爬取判断——页面解析——存储数据——数据库。
数据采集***搭建中所需要解决的主要问题包括:数据源多样、数据量大、数据更新快、重复数据、数据质量等,需要***拥有可靠性和稳定性。目前流行的数据收集平台,大多抽象出了输入,输出和中间的缓冲的架构,利用分布式的网络连接,为用户提供了可扩展的数据采集功能。
可参考的数据采集***包括但不限于以下几种:
(1)Apache Flume。Flume是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集***。Flume使用JRuby来构建,所以依赖Java运行环境。Flume最初是由Cloudera的工程师设计用于合并日志数据的***,后来逐渐发展用于处理流数据事件。Flume设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent的网络,支持数据路由。每一个agent都由Source,Channel和Sink组成。
(2)Fluentd开源框架。该框架使用C/Ruby开发,使用JSON文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。Fluentd的部署和Flume非常相似,其Input/Buffer/Output非常类似于Flume的Source/Channel/Sink。尽管Fluentd从各方面看都很像Flume,主要的区别在于使用Ruby开发,Footprint会小一些,但是也带来了跨平台的问题,并不能支持Windows平台。
(3)Logstash是著名的开源数据栈ELK(ElasticSearch,Logstash,Kibana)中的L。Logstash用JRuby开发,所有运行时依赖JVM。典型的Logstash的配置包括Input,filter的Output的设置。几乎在大部分的情况下ELK作为一个栈是被同时使用的。在数据***使用ElasticSearch的情况下,logstash是首选。
(4)Splunk Forwarder。在商业化的大数据平台产品中,Splunk能够提供完整的数据采集、存储、分析和呈现***。它是一个分布式数据平台,主要包括:Search Head负责数据的搜索和处理,提供搜索时的信息抽取;Indexer负责数据的存储和索引;Forwarder,负责数据的收集,清洗,变形,并发送给Indexer。该***内置了对Syslog、TCP/UDP和Spooling的支持,用户可以通过开发Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。其缺陷在于,如果有一台Farwarder的机器出了故障,数据收集也会随之中断,并不能把正在运行的数据采集任务Failover到其它的Farwarder上。
本申请实施例基于跨平台数据采集方案与文本匹配技术,可用于著作权保护。首先,搭建一个跨平台的网络数据采集***,能够实现对互联网公开内容数据的抓取。采集***嵌入文本检索、文本分析模块,能够根据用户需求以关键词检索的方式提取相关数据。同时针对性地改进现有的文本内容匹配方法,使之适合新媒体环境下相似稿件的识别,能够发现涉嫌洗稿的文章,并提供对应线索和证据。接着,当用户发起会话信息,向服务器发起请求后,***开展信息采集和分析,为用户返回疑似侵权内容列表及内容样本。最后,借助模块化的法律文书模板,为用户提供著作权诉讼材料样本服务。本发明通过大数据采集和分析***,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
可以看出,本申请实施例服务于新媒体领域的著作权保护。基于跨平台数据采集平台实现的著作权保护***,有利于克服著作权保护中存在的平台障碍、量大难追踪等问题,极大降低了媒体生产方和独立内容创作者的维权成本。具有高并发、低延迟、操作简单灵活的特点。针对跨平台的互联网内容采集拓展,架构包含数据采集与分析***和内容匹配方案两个主体部分,打通网络内容采集***与著作权甄别与保护***之间的壁垒。在内容匹配技术层面,采用独立开发的文本匹配算法和重复指标设计,该算法不同于一般性的字面匹配规则、以词汇占比匹配为核心的算法规则,有利于发现“洗稿”与“改编”的文本内容。
综上所述,本申请实施例提供了一种跨平台数据分析方法,通过跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;根据用户需求对关键词进行检索,提取检索数据;对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。通过大数据采集和分析,借助改进的文本匹配技术,能够完成新媒体时代的侵权内容的检索与获取,为网络内容著作权保护难题提供有效的解决方案。
基于相同的技术构思,本申请实施例还提供一种跨平台数据分析***,如图3所示,所述***包括:
信息接收模块301,用于接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块。
检索模块302,用于根据用户需求对关键词进行检索,提取检索数据。
分析模块303,用于对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果。
结果判断模块304,用于根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
可选地,所述检索模块302,具体用于:在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;根据用户需求对关键词进行检索,提取检索数据。
可选地,所述分析模块303,具体用于:将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
可选地,所述结果判断模块304,具体用于:对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
基于相同的技术构思,本申请实施例还提供一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行任一项所述的方法。
基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行任一项所述的方法。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种跨平台数据分析方法,其特征在于,所述方法包括:
跨平台数据分析***接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;
根据用户需求对关键词进行检索,提取检索数据;
对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;
根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
2.如权利要求1所述的方法,其特征在于,所述根据用户需求对关键词进行检索,提取检索数据,包括:
在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;
获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;
根据用户需求对关键词进行检索,提取检索数据。
3.如权利要求1所述的方法,其特征在于,所述对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果,包括:
将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
4.如权利要求1所述的方法,其特征在于,所述根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,包括:
对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
5.一种跨平台数据分析***,其特征在于,所述***包括:
信息接收模块,用于接收用户设备发送的目标分析内容,所述跨平台数据分析***嵌入文本检索模块和文本分析模块;
检索模块,用于根据用户需求对关键词进行检索,提取检索数据;
分析模块,用于对所述检索数据基于统计学习方法、自然语言处理技术、机器学习方法、深度学习方法进行特征挖掘和智能化分析,得到分析结果;
结果判断模块,用于根据分析结果判断是否符合侵权条件,若符合,生成侵权报告和对比分析结果,以供用户设备下载。
6.如权利要求5所述的***,其特征在于,所述检索模块,具体用于:
在所述跨平台数据分析***中设置会话框,使得用户根据需求输入所需检索的内容关键词,并排除冗余信息;
获取特定时段内互联网平台上的相关内容,所述相关内容在所述跨平台数据分析***的数据库中归属于所述用户账户;
根据用户需求对关键词进行检索,提取检索数据。
7.如权利要求5所述的***,其特征在于,所述分析模块,具体用于:
将映射缩短为段落,在词汇字面匹配的基础上加上语义分布匹配的算法,结合因果推理、关键词抽取、概要抽取的算法,对所述检索数据进行相似性分析,得到分析结果。
8.如权利要求5所述的***,其特征在于,所述结果判断模块,具体用于:
对比检索出的涉嫌洗稿和抄袭的文章与所述目标分析内容,在达到侵权条件时,生成侵权诉讼材料样本和数据分析报告。
9.一种设备,其特征在于,所述设备包括:数据采集装置、处理器和存储器;
所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746899.7A CN112000929A (zh) | 2020-07-29 | 2020-07-29 | 一种跨平台数据分析方法、***、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010746899.7A CN112000929A (zh) | 2020-07-29 | 2020-07-29 | 一种跨平台数据分析方法、***、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112000929A true CN112000929A (zh) | 2020-11-27 |
Family
ID=73462497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010746899.7A Pending CN112000929A (zh) | 2020-07-29 | 2020-07-29 | 一种跨平台数据分析方法、***、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000929A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112950326A (zh) * | 2021-03-17 | 2021-06-11 | 南通大学 | 一种支持深度学习工作原理的人工智能数据分析*** |
CN113190657A (zh) * | 2021-05-18 | 2021-07-30 | 中国银行股份有限公司 | NLP数据预处理方法、jvm及spark端服务器 |
CN113343149A (zh) * | 2021-06-22 | 2021-09-03 | 深圳市网联安瑞网络科技有限公司 | 基于Agent的移动端社交媒体传播效果评估方法、***、应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180091546A1 (en) * | 2016-09-29 | 2018-03-29 | Camelot Uk Bidco Limited | Browser Extension for Contemporaneous in-Browser Tagging and Harvesting of Internet Content |
CN109635090A (zh) * | 2018-12-14 | 2019-04-16 | 安徽中船璞华科技有限公司 | 一种基于机器学习的版权追踪方法 |
CN110851761A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 基于区块链的侵权检测方法、装置、设备及存储介质 |
CN111159389A (zh) * | 2019-12-31 | 2020-05-15 | 重庆邮电大学 | 基于专利要素的关键词提取方法、终端、可读存储介质 |
-
2020
- 2020-07-29 CN CN202010746899.7A patent/CN112000929A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180091546A1 (en) * | 2016-09-29 | 2018-03-29 | Camelot Uk Bidco Limited | Browser Extension for Contemporaneous in-Browser Tagging and Harvesting of Internet Content |
CN109635090A (zh) * | 2018-12-14 | 2019-04-16 | 安徽中船璞华科技有限公司 | 一种基于机器学习的版权追踪方法 |
CN111159389A (zh) * | 2019-12-31 | 2020-05-15 | 重庆邮电大学 | 基于专利要素的关键词提取方法、终端、可读存储介质 |
CN110851761A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 基于区块链的侵权检测方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112950326A (zh) * | 2021-03-17 | 2021-06-11 | 南通大学 | 一种支持深度学习工作原理的人工智能数据分析*** |
CN113190657A (zh) * | 2021-05-18 | 2021-07-30 | 中国银行股份有限公司 | NLP数据预处理方法、jvm及spark端服务器 |
CN113190657B (zh) * | 2021-05-18 | 2024-02-27 | 中国银行股份有限公司 | NLP数据预处理方法、jvm及spark端服务器 |
CN113343149A (zh) * | 2021-06-22 | 2021-09-03 | 深圳市网联安瑞网络科技有限公司 | 基于Agent的移动端社交媒体传播效果评估方法、***、应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
US9798818B2 (en) | Analyzing concepts over time | |
Qin et al. | DuerQuiz: A personalized question recommender system for intelligent job interview | |
US11521603B2 (en) | Automatically generating conference minutes | |
CN112131449B (zh) | 一种基于ElasticSearch的文化资源级联查询接口的实现方法 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
US20150324350A1 (en) | Identifying Content Relationship for Content Copied by a Content Identification Mechanism | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN112000929A (zh) | 一种跨平台数据分析方法、***、设备及可读存储介质 | |
US10083031B2 (en) | Cognitive feature analytics | |
Sarne et al. | Unsupervised topic extraction from privacy policies | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
US20120317125A1 (en) | Method and apparatus for identifier retrieval | |
Chawla et al. | Automatic bug labeling using semantic information from LSI | |
Shekhawat | Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach | |
Baquero et al. | Predicting the programming language: Extracting knowledge from stack overflow posts | |
Al-Msie'deen et al. | Automatic documentation of [mined] feature implementations from source code elements and use-case diagrams with the REVPLINE approach | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
Huang et al. | Query expansion based on statistical learning from code changes | |
CN113742496B (zh) | 一种基于异构资源融合的电力知识学习***及方法 | |
Maynard et al. | Change management for metadata evolution | |
Pu et al. | A vision-based approach for deep web form extraction | |
Zhang et al. | An improved ontology-based web information extraction | |
KR102625347B1 (ko) | 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템 | |
Ho et al. | Data warehouse designing for Vietnamese textual document-based plagiarism detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |