CN111914201A - 网络页面的处理方法及装置 - Google Patents
网络页面的处理方法及装置 Download PDFInfo
- Publication number
- CN111914201A CN111914201A CN202010789735.2A CN202010789735A CN111914201A CN 111914201 A CN111914201 A CN 111914201A CN 202010789735 A CN202010789735 A CN 202010789735A CN 111914201 A CN111914201 A CN 111914201A
- Authority
- CN
- China
- Prior art keywords
- page
- pages
- target
- medical
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000000875 corresponding effect Effects 0.000 claims description 68
- 238000013145 classification model Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 23
- 238000004590 computer program Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 208000037157 Azotemia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000000913 Kidney Calculi Diseases 0.000 description 1
- 206010029148 Nephrolithiasis Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000957 no side effect Toxicity 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 208000009852 uremia Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了一种网络页面的处理方法及装置。该网络页面的处理方法包括:基于待处理页面中的内容对待处理页面进行领域分类,得到至少一个领域;基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值;基于各个页面对应的权威度值,在网页中呈现目标领域中的页面的信息。通过针对一个领域中的页面进行权威度值的计算,以实现在该领域中具有关联关系的页面的显示,进而提高了网络页面推送的逻辑性和层次性,提高对用户端的内容推送效果。
Description
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种网络页面的处理方法及装置。
背景技术
在很多网站中通过在一个页面中推荐与其相关的一些网页的信息来实现内容的推送,达到信息推广的目的。在很多网站的站内网页推送过程中,一般都是通过站内搜索引擎进行索引来直接推送,以将一些相关内容展现在用户终端。但是,由于推送内容的来源、类型等多种多样,这种推送方式推送的内容往往比较杂乱、没有逻辑且层次不一,导致对用户终端的内容推送效果不佳。
发明内容
本申请的实施例提供了一种网络页面的处理方法及装置,进而至少在一定程度上可以提高网络页面推送的逻辑性和层次性,提高对用户端的内容推送效果。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种网络页面的处理方法,包括:基于待处理页面中的内容对所述待处理页面进行领域分类,得到至少一个领域;基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值;基于所述各个页面对应的所述权威度值,在网页中呈现所述目标领域中的页面的信息。
根据本申请实施例的一个方面,提供了一种网络页面的处理装置,包括:分类单元,用于基于待处理页面中的内容对所述待处理页面进行领域分类,得到至少一个领域;定值单元,用于基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值;呈现单元,用于基于所述各个页面对应的所述权威度值,在网页中呈现所述目标领域中的页面的信息。
在本申请的一些实施例中,基于前述方案,所述网络页面的处理装置还包括:第一获取单元,用于获取网站导航信息;第二获取单元,用于基于所述网站导航信息中的网站结构和种子页面,获取所述网站中的页面;关系确定单元,用于基于所述页面之间的链接关系,确定所述各页面之间的关联关系。
在本申请的一些实施例中,基于前述方案,所述第二获取单元用于:基于所述网站导航信息中的网站结构和所述种子页面,对所述网站中的信息进行爬取,以获取到所述网站中的页面。
在本申请的一些实施例中,基于前述方案,所述分类单元包括:提取单元,用于提取所述待处理页面中的文本内容;输入单元,用于将所述文本内容输入训练得到的页面分类模型中,得到所述页面分类模型输出的所述待处理页面对应的领域。
在本申请的一些实施例中,基于前述方案所述页面分类模型的训练方法包括:获取页面样本的文本内容及其对应的领域标签;从所述文本内容中提取词汇样本;将所述词汇样本输入页面分类网络中,得到所述页面分类网络输出的分类结果;基于所述分类结果和所述领域标签得到的损失函数,对所述页面分类网络中的参数进行调整,得到所述页面分类模型。
在本申请的一些实施例中,基于前述方案,所述定值单元包括:关联页面确定单元,用于基于选定的目标领域中的页面之间的关联关系,确定所述目标领域中的关联页面;权威度值确定单元,用于基于所述关联页面之间的调用关系,确定所述目标领域中的关联页面相对于所述目标领域中其它页面的权威度值,其中,所述调用关系和所述权威度值正相关。
在本申请的一些实施例中,基于前述方案,所述权威度值确定单元用于:基于所述关联页面之间的调用关系,确定关联矩阵;基于所述目标领域、以及所述目标领域中除所述页面之外的其它页面,确定表示所述关联页面与所述其它页面之间关系的权威参数;基于所述关联矩阵、所述权威参数以及阻尼系数,确定所述目标领域中的关联页面相对于所述目标领域中其它页面的权威度值。
在本申请的一些实施例中,基于前述方案,所述呈现单元包括:第三获取单元,用于获取针对所述目标领域的搜索词条;目标页面确定单元,用于从所述目标领域对应的页面中,查找所述搜索词条对应的目标页面;页面呈现单元,用于基于所述目标页面对应的权威度值确定所述目标页面的显示顺序,并基于所述显示顺序在网页中呈现所述目标页面的信息。
在本申请的一些实施例中,基于前述方案,所述网络页面的处理装置还包括:医疗分类单元,用于基于待处理的医疗页面中的文章,对所述医疗页面进行分类,得到所述医疗页面对应的医疗领域;医疗定值单元,用于基于选定的目标医疗领域中各医疗页面之间的关联关系,确定所述目标医疗领域中的各个医疗页面相对于所述目标医疗领域中其它医疗页面的权威度值;医疗呈现单元,用于基于所述各个页面对应的所述权威度值,在医疗网页中呈现所述医疗领域中的所述医疗页面的信息。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的网络页面的处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的网络页面的处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的网络页面的处理方法。
在本申请的一些实施例所提供的技术方案中,对网站内的各个待处理页面进行分类,得到各个领域对应的页面,以针对各个领域的页面进行针对性的处理。根据一个目标领域中的页面之间的关联关系,确定这个领域中各页面相对于其他页面的权威度值,最后基于各个页面对应的权威度值的大小,在网页中呈现目标领域中具有关联关系的页面的信息,通过针对一个领域中的页面进行权威度值的计算,以实现在该领域中具有关联关系的页面的显示,进而提高了网络页面推送的逻辑性和层次性,提高对用户端的内容推送效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图;
图2示意性示出了根据本申请的一个实施例的网络页面的处理方法的流程图;
图3示意性示出了根据本申请的一个实施例的语义漂移的示意图;
图4示意性示出了根据本申请的一个实施例的训练页面分类模型的示意图;
图5示意性示出了根据本申请的一个实施例的在网页中呈现所述目标领域中的页面的信息的流程图;
图6示意性示出了根据本申请的一个实施例的医疗网络页面的处理方法的流程图;
图7示意性示出了根据本申请的一个实施例的医疗领域分类的示意图;
图8示意性示出了根据本申请的一个实施例的呈现医疗页面的信息的示意图;
图9示意性示出了根据本申请的一个实施例的网络页面的处理装置的框图;
图10示意性示出了根据本申请的一个实施例的医疗网络页面的处理装置的框图;
图11示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的虚拟助理、智能音箱、智能营销、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明:图1示出了可以应用本申请实施例的技术方案的示例性***架构的示意图。
如图1所示,***架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如服务器105基于待处理页面中的内容对待处理页面进行领域分类,得到至少一个领域,之后基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值,最后基于各个页面对应的权威度值,在网页中呈现所述目标领域中的页面的信息。
本实施例中的方案,对网站内的各个待处理页面进行分类,得到各个领域对应的页面,以针对各个领域的页面进行针对性的处理。根据一个目标领域中的页面之间的关联关系,确定这个领域中各页面相对于其他页面的权威度值,最后基于各个页面对应的权威度值的大小,在网页中呈现目标领域中具有关联关系的页面的信息,通过针对一个领域中的页面进行权威度值的计算,以实现在该领域中具有关联关系的页面的显示,进而提高了网络页面推送的逻辑性和层次性,提高对用户端的内容推送效果。
需要说明的是,本申请实施例所提供的网络页面的处理方法一般由服务器105执行,相应地,网络页面的处理装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的网络页面的处理方法。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的网络页面的处理方法的流程图,该网络页面的处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图2所示,该网络页面的处理方法至少包括步骤S210至步骤S230,详细介绍如下:
在步骤S210中,基于待处理页面中的内容对待处理页面进行领域分类,得到至少一个领域。
图3为本申请实施例提供的一种语义漂移的示意图。
如图3所示,在本申请的一个实施例中,由于不同网站在相关推荐策略上存在不同的定义,依然可能存在***给出的相关推荐链接和原网页有一定的语义漂移。例如,图3中的网页正文区域310为“嘴巴经常长泡的原因”及其对应的正文部分,其页面中推荐区域320的相关问题包括了“去做脸部整形会不会出现副作用”等问题。而这两者之间没有任何管理,这种情况严重导致了内容推荐发生了漂移和偏差。为了避免这种情况,本实施例中基于待处理页面中的内容对待处理页面进行领域分类,得到各领域中包含的页面。
在本申请的一个实施例中,对待处理页面进行领域分类的过程中,可以是基于待处理页面中的文本内容和图像进行分类。例如,识别各待处理页面中图像之间的相似度,基于相似度确定属于同一领域的待处理页面,并基于图像内容或文本内容来确定该领域对应的名称。
在本申请的一个实施例中,待处理页面可以包括一个网站中的各种页面,这些页面中的内容可以是关联的,也可以是不关联的。同时,这些页面也可以包括一个页面下的下一级页面等等。
在本申请的一个实施例中,领域可以用于表示不同的页面类型、页面所属的范围等等。本实施例中的领域可以多次的分类,得到一个目录下对应的不同等级的领域,一级领域、二级领域等等。
在本申请的一个实施例中,步骤S210中基于待处理页面中的内容对待处理页面进行领域分类,得到至少一个领域的过程,包括如下步骤:提取待处理页面中的文本内容;将文本内容输入训练得到的页面分类模型中,得到页面分类模型输出的待处理页面对应的领域。
在本申请的一个实施例中,在基于待处理页面中的内容对待处理页面进行领域分类时,可以使基于待处理页面中的文本内容进行。通过识别待处理页面中的文本内容之间的相似情况或者关联情况,得到各待处理页面对应的领域。除此之外,还可以将待处理页面的文本内容输入训练得到的页面分类模型中,得到页面分类模型输出的待处理页面对应的领域。
具体的,在本申请的一个实施例中,页面分类模型的训练方法包括:获取页面样本的文本内容及其对应的领域标签;从文本内容中提取词汇样本;将词汇样本输入页面分类网络中,得到页面分类网络输出的分类结果;基于分类结果和领域标签得到的损失函数,对页面分类网络中的参数进行调整,得到页面分类模型。
图4为本申请实施例提供的一种训练页面分类模型的示意图。
如图4所示,在本申请的一个实施例中,页面分类网络可以是基于文本卷积神经网络(Text Convolutional Neural Networks,TextCNN)构建得到。先对页面样本的文本内容进行样本标注,确定其对应的领域标签;再输入长度为n的序列,从序列中提取词汇0~n-1;在输入层410中将各词汇输入至页面分类网络中,得到维度为K的词向量;将词向量维度K输入卷积层420进行卷积,其具体的卷积方式可以为1024层的2×1维、3×1维以及4×1维;在池化层430中,将卷积层420输出的数据进行池化得到1024层的池化数据;之后,在全连接层将池化数据进行连接,得到该页面样本对应的分类体系,最后基于该分类体系得到对应的分类标签。
进一步的,再得到页面样本对应的分类标签之后,基于分类标签和设定的领域标签进行对比,根据其对比结果确定对应的损失函数,以调整页面分类网络中的参数,得到页面分类模型。
示例性的,如图4所示,在医疗网站的应用场景中,通过获取医疗网站的医疗科普文章来做自动样本标注,训练相应基于TextCNN的分类模型。首先基于事先收集的千万级医疗资讯文章训练医疗领域的词向量模型,进而后续训练和预测阶段的资讯标题做向量表示。其中,图4最左边数据序列的词0~词n-1即位医疗资讯标题中每一个切分好的词所对应的K维词向量。而最右边所要分类的分类体系即为医疗网站中的疾病分类。
在本申请的一个实施例中,步骤S220中基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值的过程之前,包括如下步骤:获取网站导航信息;基于网站导航信息中的网站结构和种子页面,获取网站中的页面;基于页面之间的链接关系,确定各页面之间的关联关系。
需要说明的是,该部分方案可以在步骤S220之前执行,也可以在步骤S210之前执行。
在本申请的一个实施例中,获取网站导航信息,以基于网站导航信息中的网站结构和种子页面,对网站中的信息进行爬取,以获取到网站中的页面。并基于各个页面之间的连接关系,确定页面之间的关联关系。
具体的,本实施例中的网站导航信息可以包括网站结构、作为根页面或者主页的种子页面等等。
在步骤S220中,基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值。
在本申请的一个实施例中,基于指定的目标领域,本实施例中根据目标领域中的页面之间的关联关系,更重要的页面往往更多地被其他页面引用,或称其他页面中会更多地加入通向该页面的超链接。示例性的,将从A页面到B页面的链接解释为A页面给B页面投票,并根据投票来源、来源的来源,即链接到A页面的页面和投票对象的等级来决定被投票页面的等级,及权威度值。
在本申请的一个实施例中,步骤S220中基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值的过程,包括如下步骤S2201~S2202:
在步骤S2201中,基于选定的目标领域中的页面之间的关联关系,确定目标领域中的关联页面。
在本申请的一个实施例中,网站中的各个页面之间存在关联关系,并且,在目标领域的范围中,一些网站之间存在关联关系,也可能有一些网页之间不存在关联关系。本实施例中通过基于目标领域中的页面之间的关联关系,将具有关联关系的页面作为目标领域中的关联页面。
在步骤S2202中,基于关联页面之间的调用关系,确定目标领域中的关联页面相对于目标领域中其它页面的权威度值,其中,调用关系和权威度值正相关。
在本申请的一个实施例中,由于调用关系和权威度值之间存在正相关的关系,本实施例中根据关联页面之间的调用关系,确定目标领域中的关联页面相对于其他页面的权威度值。
在本申请的一个实施例中,步骤S2202中基于关联页面之间的调用关系,确定目标领域中的关联页面相对于目标领域中其它页面的权威度值,其中,调用关系和权威度值正相关的过程,包括如下步骤:
基于关联页面之间的调用关系,确定关联矩阵为:
其中,p1~pN表示页面标识,N为大于2的自然数,ι(pi,pj)用于表示页面pi对页面pj的引用参数,i和j为小于N的自然数。
基于目标领域、以及目标领域中除页面之外的其它页面,确定表示关联页面与其它页面之间关系的权威参数为s。其中,s表示一个向量,即相同领域中的内链矩阵。具体的,对于一个领域,若页面k属于该领域,则s中第k各元素为1,否则为0。由于各个页面所归属的领域不同,因此,对于每一个领域都有其对应的s,并且|s|表示s中1的数量,数量越多,表示该领域具有越多的页面。
基于关联矩阵、权威参数以及阻尼系数q,通过迭代的方式,确定目标领域中的关联页面相对于目标领域中其它页面的权威度值为:
具体表示为:
在本申请的一个实施例中,通过基于一个领域中包含的各个页面,确定权威参数,以基于权威参数确定该领域中页面对应的权威度值,提高了页面权威度计算全面性和精确性。
在步骤S230中,基于各个页面对应的权威度值,在网页中呈现所述目标领域中的页面的信息。
在本申请的一个实施例中,在计算得到页面对应的权威度值之后,基于各个页面的权威度值的大小,在网页中呈现目标领域中具有关联关系的页面的信息。
在本申请的一个实施例中,如图5所示,步骤S230中基于各个页面对应的权威度值,在网页中呈现所述目标领域中的页面的信息的过程,包括步骤S2301~S2303:
在步骤S2301中,获取针对所述目标领域的搜索词条。
在本申请的一个实施例中,在计算得到权威度值之后,获取用户输入的针对目标领域的搜索词条。本实施例中的搜索提条可以为目标领域对应的搜索的关键词等等,除此之外,还可以是图像、截图等等。
具体的,本实施例中在获取到用户输入的搜索词条之后,在网站中基于搜索词条确定该搜索词条对应的目标领域。也可以直接提示用户在目标领域对应的环境下,输入针对目标领域的搜索词条。
在步骤S2302中,从所述目标领域对应的页面中,查找所述搜索词条对应的目标页面。
在本申请的一个实施例中,基于目标领域对应的页面,从其中确定出搜索词条对应的目标页面。其中,具体的目标页面查找方法可以是基于搜索词条,查找目标领域对应的页面中文字内容是否包含搜索词条及其相似的词条,若是,则确定该页面为目标页面。
在步骤S2303中,基于目标页面对应的权威度值确定目标页面的显示顺序,并基于显示顺序在网页中呈现目标页面的信息。
在本申请的一个实施例中,在确定了搜索词条对应的目标页面、以及目标页面在本领域对应的权威度值之后,基于目标页面的权威度值确定目标页面的显示顺序,以基于显示顺序在网页中呈现目标页面的信息。具体的,可以将权威度值最高的目标页面作为主页面,并基于权威度值的大小,在主页面之下的推荐部分呈现其它目标页面的信息。
在本申请的一个实施例中,所呈现的目标页面的信息可是包括目标页面的插图、目标页面的摘要、目标页面的生成日期等等。
图6示出了本申请在医疗领域中的一个实施例的医疗网络页面的处理方法的流程图,该医疗网络页面的处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图6所示,该医疗网络页面的处理方法至少包括步骤S610至步骤S630,详细介绍如下:
在步骤S610中,基于待处理的医疗页面中的文章,对医疗页面进行分类,得到医疗页面对应的医疗领域。
在本申请的一个实施例中,通过基于医疗网站中的待处理的医疗页面中的文章,对医疗页面的领域进行分类,得到医疗页面对应的医疗领域。
图7为本申请实施例提供的一种医疗领域分类的示意图。
如图7所示,本实施例中医疗领域可以包含一级领域、二级领域等等。其中,一级领域可以为科室分类710,其中可以包括的医疗领域有:内科、外科、肿瘤科、神经科、传染科、五官科、儿科等等。二级领域710可以为一级领域之下的领域,例如,内科之下的肾内科、消化内科、内分泌科等等。三级领域可以为二级领域之下的领域,例如,肾内科之下的肾结石、肾虚、***等等。
本实施例中通过基于对不同的医疗领域分成不同的等级,可以使得医疗领域的划分更加明确,以得到更加明晰页面推荐。
示例性的,本实施例中可以针对不同的项目等级,为网站的中的页面划分不同的领域等级,进而基于不同的领域等级中的目标领域,推荐对应范围内的页面,通过这种方式,可以扩大内容的推广范围,提高网站数据呈现的灵活性。
在步骤S620中,基于选定的目标医疗领域中各医疗页面之间的关联关系,确定目标医疗领域中的各个医疗页面相对于目标医疗领域中其它医疗页面的权威度值。
在本申请的一个实施例中基于选定的目标医疗领域中各医疗页面之间的关联关系,确定目标医疗领域中的各个医疗页面相对于目标医疗领域中其它医疗页面的权威度值。其权威度值的确定方式可以参考图2对应的步骤S220中的说明,此处不做赘述。
在步骤S630中,基于各个页面对应的权威度值,在医疗网页中呈现医疗领域中的医疗页面的信息。
图8为本申请实施例提供的一种呈现医疗页面的信息的示意图。
如图8所示,对于当前医疗网站中的主页面810,在其显示过程中,在页面的底部会出现相关推荐,其中包括了与主页面在同一领域的、且与主页面关联的关联页面。每个关联页面具有不同的权威度值,本实施例中可以基于权威度值由高到低的顺序,将关联页面的摘要信息显示出来,如图8中的820、830以及840。
本实施例中通过在同一医疗领域中确定各个关联页面的权威度值,使得在显示一个主页面的内容时,可以基于该主页面的内容,确定其对应的关联页面,并能基于各个关联页面的权威度值,确定关联页面的信息的显示方式,以此来提高页面推送的效率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的网络页面的处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的网络页面的处理方法的实施例。
图9示出了根据本申请的一个实施例的网络页面的处理装置的框图。
参照图9所示,根据本申请的一个实施例的网络页面的处理装置900,包括:分类单元910,用于基于待处理页面中的内容对待处理页面进行领域分类,得到至少一个领域;定值单元920,用于基于目标领域中的页面之间的关联关系,确定目标领域中的各个页面相对于目标领域中其它页面的权威度值;呈现单元930,用于基于各个页面对应的权威度值,在网页中呈现所述目标领域中的页面的信息。
在本申请的一些实施例中,基于前述方案,网络页面的处理装置900还包括:第一获取单元,用于获取网站导航信息;第二获取单元,用于基于网站导航信息中的网站结构和种子页面,获取网站中的页面;关系确定单元,用于基于页面之间的链接关系,确定各页面之间的关联关系。
在本申请的一些实施例中,基于前述方案,第二获取单元用于:基于网站导航信息中的网站结构和种子页面,对网站中的信息进行爬取,以获取到网站中的页面。
在本申请的一些实施例中,基于前述方案,分类单元910包括:提取单元,用于提取待处理页面中的文本内容;输入单元,用于将文本内容输入训练得到的页面分类模型中,得到页面分类模型输出的待处理页面对应的领域。
在本申请的一些实施例中,基于前述方案页面分类模型的训练方法包括:获取页面样本的文本内容及其对应的领域标签;从文本内容中提取词汇样本;将词汇样本输入页面分类网络中,得到页面分类网络输出的分类结果;基于分类结果和领域标签得到的损失函数,对页面分类网络中的参数进行调整,得到页面分类模型。
在本申请的一些实施例中,基于前述方案,定值单元920包括:关联页面确定单元,用于基于选定的目标领域中的页面之间的关联关系,确定目标领域中的关联页面;权威度值确定单元,用于基于关联页面之间的调用关系,确定目标领域中的关联页面相对于目标领域中其它页面的权威度值,其中,调用关系和权威度值正相关。
在本申请的一些实施例中,基于前述方案,权威度值确定单元用于:基于关联页面之间的调用关系,确定关联矩阵;基于目标领域、以及目标领域中除页面之外的其它页面,确定表示关联页面与其它页面之间关系的权威参数;基于关联矩阵、权威参数以及阻尼系数,确定目标领域中的关联页面相对于目标领域中其它页面的权威度值。
在本申请的一些实施例中,基于前述方案,呈现单元930包括:第三获取单元,用于获取针对所述目标领域的搜索词条;目标页面确定单元,用于从所述目标领域对应的页面中,查找所述搜索词条对应的目标页面;页面呈现单元,用于基于目标页面对应的权威度值确定目标页面的显示顺序,并基于显示顺序在网页中呈现目标页面的信息。
图10示出了根据本申请的一个实施例的医疗网络页面的处理装置的框图,应用与医疗领域中,其执行的方法为图6对应的实施例,此处不做赘述。
参照图10所示,根据本申请的一个实施例的医疗网络页面的处理装置1000,包括:医疗分类单元1010,用于基于待处理的医疗页面中的文章,对医疗页面进行分类,得到医疗页面对应的医疗领域;医疗定值单元1020,用于基于选定的目标医疗领域中各医疗页面之间的关联关系,确定目标医疗领域中的各个医疗页面相对于目标医疗领域中其它医疗页面的权威度值;医疗呈现单元1030,用于基于各个页面对应的权威度值,在医疗网页中呈现医疗领域中的医疗页面的信息。
图11示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。
需要说明的是,图11示出的电子设备的计算机***1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机***1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(RandomAccess Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1103中,还存储有***操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的储存部分1108;以及包括诸如LAN(LocalAreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入储存部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的***中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种网络页面的处理方法,其特征在于,包括:
基于待处理页面中的内容对所述待处理页面进行领域分类,得到至少一个领域;
基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值;
基于所述各个页面对应的所述权威度值,在网页中呈现所述目标领域中的页面的信息。
2.根据权利要求1所述的方法,其特征在于,基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值之前,所述方法还包括:
获取网站导航信息;
基于所述网站导航信息中的网站结构和种子页面,获取所述网站中的页面;
基于所述页面之间的链接关系,确定所述各页面之间的关联关系。
3.根据权利要求2所述的方法,其特征在于,基于所述网站导航信息中的网站结构和种子页面,获取所述网站中的页面,包括:
基于所述网站导航信息中的网站结构和所述种子页面,对所述网站中的信息进行爬取,以获取到所述网站中的页面。
4.根据权利要求1所述的方法,其特征在于,基于待处理页面中的内容对所述待处理页面进行领域分类,得到至少一个领域,包括:
提取所述待处理页面中的文本内容;
将所述文本内容输入训练得到的页面分类模型中,得到所述页面分类模型输出的所述待处理页面对应的领域。
5.根据权利要求4所述的方法,其特征在于,所述页面分类模型的训练方法包括:
获取页面样本的文本内容及其对应的领域标签;
从所述文本内容中提取词汇样本;
将所述词汇样本输入页面分类网络中,得到所述页面分类网络输出的分类结果;
基于所述分类结果和所述领域标签得到的损失函数,对所述页面分类网络中的参数进行调整,得到所述页面分类模型。
6.根据权利要求1所述的方法,其特征在于,基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值,包括:
基于选定的目标领域中的页面之间的关联关系,确定所述目标领域中的关联页面;
基于所述关联页面之间的调用关系,确定所述目标领域中的关联页面相对于所述目标领域中其它页面的权威度值,其中,所述调用关系和所述权威度值正相关。
7.根据权利要求6所述的方法,其特征在于,基于所述关联页面之间的调用关系,确定所述目标领域中的关联页面相对于所述目标领域中其它页面的权威度值,包括:
基于所述关联页面之间的调用关系,确定关联矩阵;
基于所述目标领域、以及所述目标领域中除所述页面之外的其它页面,确定表示所述关联页面与所述其它页面之间关系的权威参数;
基于所述关联矩阵、所述权威参数以及阻尼系数,确定所述目标领域中的关联页面相对于所述目标领域中其它页面的权威度值。
8.根据权利要求1所述的方法,其特征在于,基于所述各个页面对应的所述权威度值,在网页中呈现所述目标领域中的页面的信息,包括:
获取针对所述目标领域的搜索词条;
从所述目标领域对应的页面中,查找所述搜索词条对应的目标页面;
基于所述目标页面对应的权威度值确定所述目标页面的显示顺序,并基于所述显示顺序在网页中呈现所述目标页面的信息。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于待处理的医疗页面中的文章,对所述医疗页面进行分类,得到所述医疗页面对应的医疗领域;
基于选定的目标医疗领域中各医疗页面之间的关联关系,确定所述目标医疗领域中的各个医疗页面相对于所述目标医疗领域中其它医疗页面的权威度值;
基于所述各个页面对应的所述权威度值,在医疗网页中呈现所述医疗领域中的所述医疗页面的信息。
10.一种网络页面的处理装置,其特征在于,包括:
分类单元,用于基于待处理页面中的内容对所述待处理页面进行领域分类,得到至少一个领域;
定值单元,用于基于目标领域中的页面之间的关联关系,确定所述目标领域中的各个页面相对于所述目标领域中其它页面的权威度值;
呈现单元,用于基于所述各个页面对应的所述权威度值,在网页中呈现所述目标领域中的页面的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010789735.2A CN111914201B (zh) | 2020-08-07 | 2020-08-07 | 网络页面的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010789735.2A CN111914201B (zh) | 2020-08-07 | 2020-08-07 | 网络页面的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914201A true CN111914201A (zh) | 2020-11-10 |
CN111914201B CN111914201B (zh) | 2023-11-07 |
Family
ID=73283233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010789735.2A Active CN111914201B (zh) | 2020-08-07 | 2020-08-07 | 网络页面的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914201B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112416212A (zh) * | 2020-11-25 | 2021-02-26 | 维沃移动通信有限公司 | 程序访问方法、装置、电子设备和可读存储介质 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101132446A (zh) * | 2006-08-23 | 2008-02-27 | 上海万纬信息技术有限公司 | 网页智能快照***及其方法 |
US20080275833A1 (en) * | 2007-05-04 | 2008-11-06 | Microsoft Corporation | Link spam detection using smooth classification function |
CN101751438A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 自适应语义驱动的主题网页过滤*** |
CN101903878A (zh) * | 2007-10-11 | 2010-12-01 | 谷歌公司 | 用于分类搜索结果以确定页面元素的方法和*** |
CN102567409A (zh) * | 2010-12-31 | 2012-07-11 | 珠海博睿科技有限公司 | 一种提供检索关联词的方法及装置 |
CN102859516A (zh) * | 2009-04-08 | 2013-01-02 | 谷歌公司 | 使用历史搜索结果生成改进的文档分类数据 |
CN102890717A (zh) * | 2012-09-29 | 2013-01-23 | 北京奇虎科技有限公司 | 网页类别知识库的建立***及方法 |
CN102902793A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页类别知识库的建立***及方法 |
CN102902790A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类***及方法 |
CN102959545A (zh) * | 2010-06-29 | 2013-03-06 | 微软公司 | 导航到流行的搜索结果 |
US20150095300A1 (en) * | 2010-06-20 | 2015-04-02 | Remeztech Ltd. | System and method for mark-up language document rank analysis |
CN104504070A (zh) * | 2014-12-22 | 2015-04-08 | 北京奇虎科技有限公司 | 一种搜索的方法和装置 |
US20150302076A1 (en) * | 2014-04-17 | 2015-10-22 | Samsung Electronics Co., Ltd. | Method of storing and expressing web page in an electronic device |
CN106649823A (zh) * | 2016-12-29 | 2017-05-10 | 淮海工学院 | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 |
CN106776710A (zh) * | 2016-11-18 | 2017-05-31 | 广东技术师范学院 | 一种基于垂直搜索引擎的图文知识库构建方法 |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN107153498A (zh) * | 2016-03-30 | 2017-09-12 | 阿里巴巴集团控股有限公司 | 一种页面处理方法、装置和智能终端 |
CN108694197A (zh) * | 2017-04-10 | 2018-10-23 | 富士通株式会社 | 超文本抓取方法和装置 |
CN110209906A (zh) * | 2018-02-07 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 用于提取网页信息的方法和装置 |
US20210377628A1 (en) * | 2018-08-31 | 2021-12-02 | Beijing Bytedance Network Technology Co., Ltd. | Method and apparatus for outputting information |
-
2020
- 2020-08-07 CN CN202010789735.2A patent/CN111914201B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101132446A (zh) * | 2006-08-23 | 2008-02-27 | 上海万纬信息技术有限公司 | 网页智能快照***及其方法 |
US20080275833A1 (en) * | 2007-05-04 | 2008-11-06 | Microsoft Corporation | Link spam detection using smooth classification function |
CN101903878A (zh) * | 2007-10-11 | 2010-12-01 | 谷歌公司 | 用于分类搜索结果以确定页面元素的方法和*** |
CN101751438A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 自适应语义驱动的主题网页过滤*** |
CN102859516A (zh) * | 2009-04-08 | 2013-01-02 | 谷歌公司 | 使用历史搜索结果生成改进的文档分类数据 |
US20150095300A1 (en) * | 2010-06-20 | 2015-04-02 | Remeztech Ltd. | System and method for mark-up language document rank analysis |
CN102959545A (zh) * | 2010-06-29 | 2013-03-06 | 微软公司 | 导航到流行的搜索结果 |
CN102567409A (zh) * | 2010-12-31 | 2012-07-11 | 珠海博睿科技有限公司 | 一种提供检索关联词的方法及装置 |
CN102890717A (zh) * | 2012-09-29 | 2013-01-23 | 北京奇虎科技有限公司 | 网页类别知识库的建立***及方法 |
CN102902793A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页类别知识库的建立***及方法 |
CN102902790A (zh) * | 2012-09-29 | 2013-01-30 | 北京奇虎科技有限公司 | 网页分类***及方法 |
US20150302076A1 (en) * | 2014-04-17 | 2015-10-22 | Samsung Electronics Co., Ltd. | Method of storing and expressing web page in an electronic device |
CN104504070A (zh) * | 2014-12-22 | 2015-04-08 | 北京奇虎科技有限公司 | 一种搜索的方法和装置 |
CN107153498A (zh) * | 2016-03-30 | 2017-09-12 | 阿里巴巴集团控股有限公司 | 一种页面处理方法、装置和智能终端 |
CN106776710A (zh) * | 2016-11-18 | 2017-05-31 | 广东技术师范学院 | 一种基于垂直搜索引擎的图文知识库构建方法 |
CN106874340A (zh) * | 2016-12-22 | 2017-06-20 | 新华三技术有限公司 | 一种网页地址分类方法及装置 |
CN106649823A (zh) * | 2016-12-29 | 2017-05-10 | 淮海工学院 | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 |
CN108694197A (zh) * | 2017-04-10 | 2018-10-23 | 富士通株式会社 | 超文本抓取方法和装置 |
CN110209906A (zh) * | 2018-02-07 | 2019-09-06 | 北京京东尚科信息技术有限公司 | 用于提取网页信息的方法和装置 |
US20210377628A1 (en) * | 2018-08-31 | 2021-12-02 | Beijing Bytedance Network Technology Co., Ltd. | Method and apparatus for outputting information |
Non-Patent Citations (2)
Title |
---|
SHINE N. DAS 等: ""An Efficient Approach for Finding Near Duplicate Web pages using Minimum Weight Overlapping Method"", 《INTERNATIONAL JOURNAL OF ELECTRICAL AND COMPUTER ENGINEERING (IJECE)》, pages 187 - 194 * |
何力 等: ""基于无标记Web数据的层次式文本分类"", 《智能***学报》, pages 330 - 335 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112416212A (zh) * | 2020-11-25 | 2021-02-26 | 维沃移动通信有限公司 | 程序访问方法、装置、电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111914201B (zh) | 2023-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
US11151177B2 (en) | Search method and apparatus based on artificial intelligence | |
US11232140B2 (en) | Method and apparatus for processing information | |
CN111737476B (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN110851713B (zh) | 信息处理方法、推荐方法及相关设备 | |
CN107463704B (zh) | 基于人工智能的搜索方法和装置 | |
CN113535984B (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
US9535980B2 (en) | NLP duration and duration range comparison methodology using similarity weighting | |
CN106776503A (zh) | 文本语义相似度的确定方法及装置 | |
CN111813905B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113887941B (zh) | 业务流程生成方法、装置、电子设备及介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112464042B (zh) | 根据关系图卷积网络的任务标签生成方法及相关装置 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering | |
CN111914201B (zh) | 网络页面的处理方法及装置 | |
CN116628162A (zh) | 语义问答方法、装置、设备及存储介质 | |
CN116521892A (zh) | 知识图谱的应用方法、装置、电子设备、介质和程序产品 | |
CN113656586B (zh) | 情感分类方法、装置、电子设备及可读存储介质 | |
CN112446738A (zh) | 广告数据处理方法、装置、介质以及电子设备 | |
CN111274818A (zh) | 词向量的生成方法、装置 | |
CN114357163A (zh) | 文本类型识别方法、装置、计算机可读介质及电子设备 | |
CN112528183B (zh) | 基于大数据的网页组件布局方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |