CN110895556B - 文本检索方法和装置、存储介质及电子装置 - Google Patents

文本检索方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110895556B
CN110895556B CN201811069929.4A CN201811069929A CN110895556B CN 110895556 B CN110895556 B CN 110895556B CN 201811069929 A CN201811069929 A CN 201811069929A CN 110895556 B CN110895556 B CN 110895556B
Authority
CN
China
Prior art keywords
text
classification number
key
abstract
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811069929.4A
Other languages
English (en)
Other versions
CN110895556A (zh
Inventor
詹焯扬
张晓泉
程昊
蔡健
袁子斌
李文文
邬龙
江涛
乔宝琛
杨妤卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Blue Lantern Fish Intelligent Technology Co ltd
Original Assignee
Beijing Blue Lantern Fish Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Blue Lantern Fish Intelligent Technology Co ltd filed Critical Beijing Blue Lantern Fish Intelligent Technology Co ltd
Priority to CN201811069929.4A priority Critical patent/CN110895556B/zh
Publication of CN110895556A publication Critical patent/CN110895556A/zh
Application granted granted Critical
Publication of CN110895556B publication Critical patent/CN110895556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本检索方法和装置、存储介质及电子装置。其中,该方法包括:获取通过客户端所上传的第一专利文本;获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号;向服务器发送利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;获取服务器所返回的与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。本发明解决了相关技术中检索效率较低的技术问题。

Description

文本检索方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本检索方法和装置、存储介质及电子装置。
背景技术
为了对将要申请的专利文本的授权前景进行预估,很多申请人往往会利用已公开的专利申请文件,对专利文本进行查新检索。
然而,目前在利用专利文本检索平台进行上述检索的过程中,往往需要用户对待检索的专利文本进行预处理,如预先手动提取专利文本中的关键词、预先编写与专利文本相对应的布尔检索式等等,再利用处理后的内容实现检索。也就是说,针对专利文本的检索,相关技术所提供的方法的操作复杂度较高,从而导致检索效率较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本检索方法和装置、存储介质及电子装置,以至少解决相关技术中检索效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本检索方法,包括:获取通过客户端所上传的第一专利文本;获取从上述第一专利文本中提取出的关键文本,及与上述第一专利文本相匹配的专利分类号,其中,上述关键文本为通过文本提取模型从上述第一专利文本中提取出的文本,上述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;上述专利分类号通过文本分类模型识别得到,上述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;向服务器发送利用上述关键文本及上述专利分类号所生成的第一检索请求,其中,上述第一检索请求用于请求对上述第一专利文本进行检索;获取上述服务器所返回的与上述第一专利文本相匹配的第一专利文本列表,其中,上述第一专利文本列表中所包含的对象专利文本与上述第一专利文本的文本相似度大于第一阈值。
根据本发明实施例的另一方面,还提供了一种文本检索方法,包括:接收客户端发送的第一专利文本;获取从上述第一专利文本中提取出的关键文本,及与上述第一专利文本相匹配的专利分类号,其中,上述关键文本为通过文本提取模型从上述第一专利文本中提取出的文本,上述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;上述专利分类号通过文本分类模型识别得到,上述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;将上述关键文本及上述专利分类号发送上述客户端;接收上述客户端利用上述关键文本及上述专利分类号所生成的第一检索请求,其中,上述第一检索请求用于请求对上述第一专利文本进行检索;向上述客户端返回与上述第一专利文本相匹配的第一专利文本列表,其中,上述第一专利文本列表中所包含的对象专利文本与上述第一专利文本的文本相似度大于第一阈值。
根据本发明实施例的又一方面,还提供了一种文本检索装置,包括:第一获取单元,用于获取通过客户端所上传的第一专利文本;第二获取单元,用于获取从上述第一专利文本中提取出的关键文本,及与上述第一专利文本相匹配的专利分类号,其中,上述关键文本为通过文本提取模型从上述第一专利文本中提取出的文本,上述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;上述专利分类号通过文本分类模型识别得到,上述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;第一发送单元,用于向服务器发送利用上述关键文本及上述专利分类号所生成的第一检索请求,其中,上述第一检索请求用于请求对上述第一专利文本进行检索;第三获取单元,用于获取上述服务器所返回的与上述第一专利文本相匹配的第一专利文本列表,其中,上述第一专利文本列表中所包含的对象专利文本与上述第一专利文本的文本相似度大于第一阈值。
根据本发明实施例的又一方面,还提供了一种文本检索装置,包括:第一接收单元,用于接收客户端发送的第一专利文本;获取单元,用于获取从上述第一专利文本中提取出的关键文本,及与上述第一专利文本相匹配的专利分类号,其中,上述关键文本为通过文本提取模型从上述第一专利文本中提取出的文本,上述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;上述专利分类号通过文本分类模型识别得到,上述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;发送单元,用于将上述关键文本及上述专利分类号发送上述客户端;第二接收单元,用于接收上述客户端利用上述关键文本及上述专利分类号所生成的第一检索请求,其中,上述第一检索请求用于请求对上述第一专利文本进行检索;返回单元,用于向上述客户端返回与上述第一专利文本相匹配的第一专利文本列表,其中,上述第一专利文本列表中所包含的对象专利文本与上述第一专利文本的文本相似度大于第一阈值。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本检索方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本检索方法。
在本发明实施例中,在获取到客户端上传的第一专利文本之后,使用文本提取模型从第一专利文本中提取出关键文本,并使用文本分类模型识别出第一专利文本中的专利分类号。根据上述关键文本与专利分类号生成第一检索请求并将第一检索请求发送给服务器,以使服务器根据专利检索请求检索第一专利文本列表,得到检索结果。在上述过程中,由于通过模型准确获取到关键文本与专利分类号,从而可以对第一专利文本进行准确高效的检索,进而解决了相关技术中检索效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本检索方法的流程示意图;
图2是根据本发明实施例的一种可选的文本检索方法的示意图;
图3是根据本发明实施例的另一种可选的文本检索方法的示意图;
图4是根据本发明实施例的又一种可选的文本检索方法的示意图;
图5是根据本发明实施例的又一种可选的文本检索方法的示意图;
图6是根据本发明实施例的又一种可选的文本检索方法的示意图;
图7是根据本发明实施例的又一种可选的文本检索方法的示意图;
图8是根据本发明实施例的又一种可选的文本检索方法的示意图;
图9是根据本发明实施例的另一种可选的文本检索方法的流程示意图;
图10是根据本发明实施例的一种可选的文本检索装置的结构示意图;
图11是根据本发明实施例的另一种可选的文本检索装置的结构示意图;
图12是根据本发明实施例的一种可选的电子装置的结构示意图。
图13是根据本发明实施例的另一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本检索方法,可选地,作为一种可选的实施方式,如图1所示,上述文本检索方法包括:
S102,获取通过客户端所上传的第一专利文本;
S104,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号;
S106,向服务器发送利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S108,获取服务器所返回的与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,上述文本检索方法可以但不限于应用于检索相似专利文本的过程中。由于在相关技术中,在检索相似专利文本的过程中,通常需要手动的将关键文本提取出来,并手动编写专利文本对应的检索式,因此对专利的检索效率低。而本方案中,通过在获取到第一专利文本之后,使用经过机器训练的文本提取模型提取第一专利文本中的关键文本,并使用经过机器训练的文本分类模型识别出第一专利文本的专利分类号,从而可以根据关键文本与专利分类号生成第一检索请求,并对第一专利文本进行检索,从而简化了对第一专利文本进行检索的检索步骤,提高了对第一专利文本进行检索的效率。
可选地,上述第一专利文本的文件格式可以为.txt或者.doc或者.docx或者.wps等。
可选地,作为一种可选的示例,上述获取通过客户端所上传的第一专利文本包括以下至少之一:
(1)获取选择指令,其中,选择指令用于指示选择存储在目标路径下的第一专利文本;响应选择指令,上传第一专利文本;
可选地,上述选择指令可以但不限于为单击指令或者长按指令。例如,以上述选择指令为单击指令为例,如图2所示。在登录账号之后,客户端的显示界面上显示有添加第一专利文本的提示,当按钮被按下后,显示多个专利文本,分别为文本W-1、文本W-2、文本W-3、文本W-4。此时,通过单击指令选择其中的文本W-1,则将上述文本W-1作为第一专利文本。
(2)获取拖动指令,其中,拖动指令用于指示将第一专利文本拖动至客户端所显示界面的目标区域中;响应拖动指令,上传第一专利文本。
可选地,作为一种可选的方式,如图3所示,客户端的显示界面上提示有添加第一专利文本的提示,并显示有目标区域,目标区域以阴影表示。同时,目标区域外存在文本W-1、文本W-2、文本W-3、文本W-4。若想将文本W-1作为第一专利文本,则将文本W-1拖拽到目标区域中,则客户端即可获取到上传的第一专利文本。
需要说明的是,作为一种可选的方式,在根据拖动指令拖动文本W1的过程中,当将W-1拖拽到目标区域之后,可以但不限于使文本W-1的外观发生变化或者发出提示音,以提示用户在用户终止拖动指令后,当前的文本W-1会作为第一专利文本上传到客户端中。
通过上述方法,通过获取选择指令或者获取拖动指令从而可以灵活地选择第一专利文本,提高了获取第一专利文本的灵活性。进一步提高了对第一专利文本进行检索的效率。
可选地,作为一种可选的实施方式,在向服务器发送利用关键文本及专利分类号所生成的第一检索请求之前,还包括:
S1,在客户端中显示获取到的关键文本及专利分类号,其中,关键文本中包括第一摘要文本及第一关键词集,其中,第一摘要文本用于表示第一专利文本,第一关键词集中所包含的对象关键词为从第一摘要文本中提取到的关键词;
S2,利用关键文本及专利分类号生成第一检索请求。
可选地,在获取到第一专利文本之后,使用文本提取模型提取关键文本之前,可以但不限于通过已公开的专利文本对文本提取模型与文本分类模型进行训练。例如,获取已公开专利文本的文本后,标注已公开专利文本中的关键文本与专利分类号。将上述已经公开的专利文本输入到文本提取模型中,由文本提取模型对上述专利文本中的字、词、句、段进行提取,生成关键文本,并将上述公开的专利文本输入到文本分类模型中,由文本分类模型生成专利分类号。根据生成的关键文本与标注的关键文本的匹配度对文本提取模型的参数进行调整,根据生成的专利分类号与标注的专利分类号的匹配度对文本分类模型进行调整,直到文本提取模型生成的关键文本与标注的关键文本的匹配度大于一个预设的阈值,文本分类模型生成的专利分类号的准确率大于另一个预设的阈值,则表示文本提取模型与文本分类模型已经训练成熟。
可选地,在通过文本分类模型获取到关键文本与文本分类模型获取到专利分类号之后,可以但不限于显示上述关键文本与专利分类号。
以获取到的第一专利文本为W-1、文本W-2、文本W-3、文本W-4为例,在获取到上述第一专利文本后,将上述W-1、文本W-2、文本W-3、文本W-4输入到文本提取模型与文本分类模型中。获取到上述两个模型输出的关键文本与专利分类号。例如,如图4所示,在获取到W-1、文本W-2、文本W-3、文本W-4的关键文本与专利分类号之后,显示上述关键文本与专利分类号。图4中“机械”、“计算机”等为第一关键词集,“一种……”等为第一摘要文本。
需要说明的是,图4中的专利分类号与关键文本仅仅为了解释显示过程,其文字的具体含义并不构成对本申请的限定。
可选地,在显示上述关键文本与专利分类号之后,在利用关键文本及专利分类号生成第一检索请求之前,还包括:
S1,获取在客户端中执行的编辑操作所生成的第一调整指令;
S2,根据第一调整指令执行以下至少一种调整操作:将第一摘要文本调整为第二摘要文本,将第一关键词集调整为第二关键词集,将专利分类号调整为调整后的专利分类号。
可选地,上述第一调整操作可以但不限于为对关键文本和/或专利分类号进行增或删或改等操作。
例如,以获取到关键文本与专利分类号之后,对关键文本与专利分类号执行修改操作为例。结合图5、6进行说明。如图5所示,在图5中显示有文本W-1的第一关键词集,专利分类号与第一摘要文本。对第一摘要文本的内容与专利分类号的内容进行改变,改变为图6虚线框包围的内容。并根据改变后的关键文本与专利分类号生成第一剑所请求,以使服务器根据第一检索请求返回第一专利文本列表。
通过上述方法,通过对关键文本与专利分类号进行调整,从而提高了对专利进行检索的检索准确度,进一步提高了检索效率。
可选地,在获取服务器所返回的与第一专利文本相匹配的第一专利文本列表之后,还包括:
S1,获取在客户端中执行的编辑操作所生成的第二调整指令;
S2,根据第二调整指令执行以下至少一种调整操作:将第一摘要文本调整为第三摘要文本,将第一关键词集调整为第三关键词集,将专利分类号调整为调整后的专利分类号;
S3,获取根据第二调整指令得到的调整结果;
S4,向服务器发送利用调整结果所生成的第二检索请求,其中,第二检索请求用于请求对第一专利文本进行检索;
S5,获取服务器所返回的与第一专利文本相匹配的第二专利文本列表,其中,第二专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第二阈值,第二阈值大于第一阈值。
可选地,上述第二调整指令可以但不限于为对关键文本和/或专利分类号进行增或删或改操作。
例如,以获取到服务器返回的第一专利文本列表之后,对关键文本进行增操作为例,结合图7、8进行说明。如图7所示,在对文本W-1进行检索之后,得到第一专利文本列表,第一专利文本列表中显示有专利-1、专利-2。如图8所示,在对关键文本与专利分类号进行增操作后,得到第二专利文本列表,第二专利文本列表中包含专利3与专利4。从而提高了对专利进行检索的准确度,进一步提高了专利检索的效率。
可选地,上述获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号包括:
S1,将第一专利文本发送至服务器,以对第一专利文本进行文本预处理;
S2,获取服务器所返回的关键文本及专利分类号。
可选地,上述获取服务器所返回的关键文本及专利分类号包括:
S1,服务器对第一专利文本进行分段处理,得到与第一专利文本对应的文本段集;
S2,服务器通过文本提取模型提取文本段集的第一文本特征,并根据第一文本特征对第一专利文本进行词义分析和文本重组,以得到第一摘要文本;
S3,服务器从第一摘要文本中提取出第一关键词集;
S4,服务器通过文本分类模型提取文本段集的第二文本特征,并根据第二文本特征识别第一专利文本的专利分类号。
可选地,上述对第一专利文本进行分段处理可以但不限于根据换行符将第一专利文本分成不同的段落,或者按照字数将第一专利文本分成字数相同的多个段落。
可选地,文本提取模型与文本分类模型可以但不限于应用在服务器中。
以根据换行符对第一专利文本进行分段以及根据词的出现频率获取到第一摘要文本为例。在客户端获取到第一专利文本后,将第一专利文本发送给服务器,由服务器中的文本提取模型根据换行符对第一专利文本进行分段,获取每一段中的文本的第一文本特征,根据第一文本特征在第一专利文本中提取出第一摘要文本。在提取出第一摘要文本后,根据第一摘要文本中的词的出现频率与出现位置,确定出第一关键词集。同时,服务器还使用文本分类模型提取出文本段集的第二文本特征,并根据第二文本特征输出专利分类号。在获取到上述第一摘要文本与第一关键词集以及专利分类号后,将上述第一摘要文本与第一关键词集以及专利分类号发送给客户端,在接收到客户端发送的第一检索指令后,服务器根据第一检索指令对上述第一摘要文本与第一关键词集以及专利分类号进行检索,得到第一专利文本列表。并将第一专利文本列表返回给客户端。通过上述方法,通过在获取到客户端的检索指令后,根据关键文本与专利分类号进行检索,得到第一专利文本列表,从而提高了对专利文本进行检索的检索效率。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一方面,还提供了一种文本检索方法。可选地,如图9所示,上述文本检索方法包括:
S902,接收客户端发送的第一专利文本;
S904,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号;
S906,将关键文本及专利分类号发送客户端;
S908,接收客户端利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S910,向客户端返回与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,上述文本检索方法可以但不限于应用于检索相似专利文本的过程中。由于在相关技术中,在检索相似专利文本的过程中,通常需要手动的将关键文本提取出来,并手动编写专利文本对应的检索式,因此对专利的检索效率低。而本方案中,通过在获取到第一专利文本之后,使用经过机器训练的文本提取模型提取第一专利文本中的关键文本,并使用经过机器训练的文本分类模型识别出第一专利文本的专利分类号,从而可以根据关键文本与专利分类号生成第一检索请求,并对第一专利文本进行检索,从而简化了对第一专利文本进行检索的检索步骤,提高了对第一专利文本进行检索的效率。
可选地,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号包括:
S1,对第一专利文本进行分段处理,得到与第一专利文本对应的文本段集;
S2,通过文本提取模型提取文本段集的第一文本特征,并根据第一文本特征对第一专利文本进行词义分析和文本重组,以得到第一摘要文本;
S3,从第一摘要文本中提取出第一关键词集;
S4,通过文本分类模型提取文本段集的第二文本特征,并根据第二文本特征识别第一专利文本的专利分类号。
可选地,上述对第一专利文本进行分段处理可以但不限于根据换行符将第一专利文本分成不同的段落,或者按照字数将第一专利文本分成字数相同的多个段落。
以根据换行符对第一专利文本进行分段以及根据词的出现频率获取到第一摘要文本为例。在客户端获取到第一专利文本后,将第一专利文本发送给服务器,由服务器中的文本提取模型根据换行符对第一专利文本进行分段,获取每一段中的文本的第一文本特征,根据第一文本特征在第一专利文本中提取出第一摘要文本。在提取出第一摘要文本后,根据第一摘要文本中的词的出现频率与出现位置,确定出第一关键词集。同时,服务器还使用文本分类模型提取出文本段集的第二文本特征,并根据第二文本特征输出专利分类号。在获取到上述第一摘要文本与第一关键词集以及专利分类号后,将上述第一摘要文本与第一关键词集以及专利分类号发送给客户端,在接收到客户端发送的第一检索指令后,服务器根据第一检索指令对上述第一摘要文本与第一关键词集以及专利分类号进行检索,得到第一专利文本列表。并将第一专利文本列表返回给客户端。通过上述方法,通过在获取到客户端的检索指令后,根据关键文本与专利分类号进行检索,得到第一专利文本列表,从而提高了对专利文本进行检索的检索效率。
可选地,在向客户端返回与第一专利文本相匹配的第一专利文本列表之前,还包括:
S1,响应第一检索请求,通过文本检索模型从数据库中检索出与第一专利文本相匹配的第一专利文本列表,其中,文本检索模型为使用已公开的专利文本进行机器训练后所得到的用于根据文本相似度进行文本检索的模型。
可选地,上述文本检索模型可以但不限于通过训练得到。获取专利样本,专利样本中包括待检索专利与目标专利。将专利样本输入到文本检索模型中进行训练,并调整文本检索模型的参数,最终得到成熟的文本检索模型。使用成熟的文本检索模型对第一专利文本进行检索,得到的第一专利文本列表中的专利与第一专利文本的相似度大于一个预定阈值。
根据本发明实施例的又一方面,还提供了一种文本检索装置。可选地,如图10所示,上述文本检索装置包括:
(1)第一获取单元1002,用于获取通过客户端所上传的第一专利文本;
(2)第二获取单元1004,用于获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
(3)第一发送单元1006,用于向服务器发送利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
(4)第三获取单元1008,用于获取服务器所返回的与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,上述文本检索装置可以但不限于应用于检索相似专利文本的过程中。由于在相关技术中,在检索相似专利文本的过程中,通常需要手动的将关键文本提取出来,并手动编写专利文本对应的检索式,因此对专利的检索效率低。而本方案中,通过在获取到第一专利文本之后,使用经过机器训练的文本提取模型提取第一专利文本中的关键文本,并使用经过机器训练的文本分类模型识别出第一专利文本的专利分类号,从而可以根据关键文本与专利分类号生成第一检索请求,并对第一专利文本进行检索,从而简化了对第一专利文本进行检索的检索步骤,提高了对第一专利文本进行检索的效率。
可选地,上述第一专利文本的文件格式可以为.txt或者.doc或者.docx或者.wps等。
可选地,上述第一获取单元包括以下至少之一:
(1)第二获取模块,用于获取选择指令,其中,选择指令用于指示选择存储在目标路径下的第一专利文本;响应选择指令,上传第一专利文本;
(2)第三获取模块,用于获取拖动指令,其中,拖动指令用于指示将第一专利文本拖动至客户端所显示界面的目标区域中;响应拖动指令,上传第一专利文本。
可选地,上述装置还包括:
(1)显示单元,用于在向服务器发送利用关键文本及专利分类号所生成的第一检索请求之前,在客户端中显示获取到的关键文本及专利分类号,其中,关键文本中包括第一摘要文本及第一关键词集,其中,第一摘要文本用于表示第一专利文本,第一关键词集中所包含的对象关键词为从第一摘要文本中提取到的关键词;
(2)生成单元,用于利用关键文本及专利分类号生成第一检索请求。
可选地,在获取到第一专利文本之后,使用文本提取模型提取关键文本之前,可以但不限于通过已公开的专利文本对文本提取模型与文本分类模型进行训练。例如,获取已公开专利文本的文本后,标注已公开专利文本中的关键文本与专利分类号。将上述已经公开的专利文本输入到文本提取模型中,由文本提取模型对上述专利文本中的字、词、句、段进行提取,生成关键文本,并将上述公开的专利文本输入到文本分类模型中,由文本分类模型生成专利分类号。根据生成的关键文本与标注的关键文本的匹配度对文本提取模型的参数进行调整,根据生成的专利分类号与标注的专利分类号的匹配度对文本分类模型进行调整,直到文本提取模型生成的关键文本与标注的关键文本的匹配度大于一个预设的阈值,文本分类模型生成的专利分类号的准确率大于另一个预设的阈值,则表示文本提取模型与文本分类模型已经训练成熟。
可选地,在通过文本分类模型获取到关键文本与文本分类模型获取到专利分类号之后,可以但不限于显示上述关键文本与专利分类号。
以获取到的第一专利文本为W-1、文本W-2、文本W-3、文本W-4为例,在获取到上述第一专利文本后,将上述W-1、文本W-2、文本W-3、文本W-4输入到文本提取模型与文本分类模型中。获取到上述两个模型输出的关键文本与专利分类号。例如,如图4所示,在获取到W-1、文本W-2、文本W-3、文本W-4的关键文本与专利分类号之后,显示上述关键文本与专利分类号。图4中“机械”、“计算机”等为第一关键词集,“一种……”等为第一摘要文本。
需要说明的是,图4中的专利分类号与关键文本仅仅为了解释显示过程,其文字的具体含义并不构成对本申请的限定。
可选地,上述装置还包括:
(1)第四获取单元,用于在利用关键文本及专利分类号生成第一检索请求之前,获取在客户端中执行的编辑操作所生成的第一调整指令;
(2)第一调整单元,用于根据第一调整指令执行以下至少一种调整操作:将第一摘要文本调整为第二摘要文本,将第一关键词集调整为第二关键词集,将专利分类号调整为调整后的专利分类号。
可选地,上述第一调整操作可以但不限于为对关键文本和/或专利分类号进行增或删或改等操作。
例如,以获取到关键文本与专利分类号之后,对关键文本与专利分类号执行修改操作为例。结合图5、6进行说明。如图5所示,在图5中显示有文本W-1的第一关键词集,专利分类号与第一摘要文本。对第一摘要文本的内容与专利分类号的内容进行改变,改变为图6虚线框包围的内容。并根据改变后的关键文本与专利分类号生成第一剑所请求,以使服务器根据第一检索请求返回第一专利文本列表。
通过上述方法,通过对关键文本与专利分类号进行调整,从而提高了对专利进行检索的检索准确度,进一步提高了检索效率。
可选地,上述装置还包括:
(1)第五获取单元,用于在获取服务器所返回的与第一专利文本相匹配的第一专利文本列表之后,获取在客户端中执行的编辑操作所生成的第二调整指令;
(2)第二调整单元,用于根据第二调整指令执行以下至少一种调整操作:将第一摘要文本调整为第三摘要文本,将第一关键词集调整为第三关键词集,将专利分类号调整为调整后的专利分类号;
(3)第六获取单元,用于获取根据第二调整指令得到的调整结果;
(4)第二发送单元,用于向服务器发送利用调整结果所生成的第二检索请求,其中,第二检索请求用于请求对第一专利文本进行检索;
(5)第七获取单元,用于获取服务器所返回的与第一专利文本相匹配的第二专利文本列表,其中,第二专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第二阈值,第二阈值大于第一阈值。
可选地,上述第二调整指令可以但不限于为对关键文本和/或专利分类号进行增或删或改操作。
例如,以获取到服务器返回的第一专利文本列表之后,对关键文本进行增操作为例,结合图7、8进行说明。如图7所示,在对文本W-1进行检索之后,得到第一专利文本列表,第一专利文本列表中显示有专利-1、专利-2。如图8所示,在对关键文本与专利分类号进行增操作后,得到第二专利文本列表,第二专利文本列表中包含专利3与专利4。从而提高了对专利进行检索的准确度,进一步提高了专利检索的效率。
可选地,上述第二获取单元包括:
(1)发送模块,用于将第一专利文本发送至服务器,以对第一专利文本进行文本预处理;
(2)第一获取模块,用于获取服务器所返回的关键文本及专利分类号。
可选地,上述获取服务器所返回的关键文本及专利分类号包括:服务器对第一专利文本进行分段处理,得到与第一专利文本对应的文本段集;服务器通过文本提取模型提取文本段集的第一文本特征,并根据第一文本特征对第一专利文本进行词义分析和文本重组,以得到第一摘要文本;服务器从第一摘要文本中提取出第一关键词集;服务器通过文本分类模型提取文本段集的第二文本特征,并根据第二文本特征识别第一专利文本的专利分类号。
可选地,上述对第一专利文本进行分段处理可以但不限于根据换行符将第一专利文本分成不同的段落,或者按照字数将第一专利文本分成字数相同的多个段落。
可选地,文本提取模型与文本分类模型可以但不限于应用在服务器中。
以根据换行符对第一专利文本进行分段以及根据词的出现频率获取到第一摘要文本为例。在客户端获取到第一专利文本后,将第一专利文本发送给服务器,由服务器中的文本提取模型根据换行符对第一专利文本进行分段,获取每一段中的文本的第一文本特征,根据第一文本特征在第一专利文本中提取出第一摘要文本。在提取出第一摘要文本后,根据第一摘要文本中的词的出现频率与出现位置,确定出第一关键词集。同时,服务器还使用文本分类模型提取出文本段集的第二文本特征,并根据第二文本特征输出专利分类号。在获取到上述第一摘要文本与第一关键词集以及专利分类号后,将上述第一摘要文本与第一关键词集以及专利分类号发送给客户端,在接收到客户端发送的第一检索指令后,服务器根据第一检索指令对上述第一摘要文本与第一关键词集以及专利分类号进行检索,得到第一专利文本列表。并将第一专利文本列表返回给客户端。通过上述方法,通过在获取到客户端的检索指令后,根据关键文本与专利分类号进行检索,得到第一专利文本列表,从而提高了对专利文本进行检索的检索效率。
根据本发明实施例的又一方面,还提供了一种文本检索装置,可选地,如图11所示,上述文本检索装置包括:
(1)第一接收单元1102,用于接收客户端发送的第一专利文本;
(2)获取单元1104,用于获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
(3)发送单元1106,用于将关键文本及专利分类号发送客户端;
(4)第二接收单元1108,用于接收客户端利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
(5)返回单元1110,用于向客户端返回与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,上述文本检索方法可以但不限于应用于检索相似专利文本的过程中。由于在相关技术中,在检索相似专利文本的过程中,通常需要手动的将关键文本提取出来,并手动编写专利文本对应的检索式,因此对专利的检索效率低。而本方案中,通过在获取到第一专利文本之后,使用经过机器训练的文本提取模型提取第一专利文本中的关键文本,并使用经过机器训练的文本分类模型识别出第一专利文本的专利分类号,从而可以根据关键文本与专利分类号生成第一检索请求,并对第一专利文本进行检索,从而简化了对第一专利文本进行检索的检索步骤,提高了对第一专利文本进行检索的效率。
可选地,上述获取单元包括:
(1)处理模块,用于对第一专利文本进行分段处理,得到与第一专利文本对应的文本段集;
(2)第一提取模块,用于通过文本提取模型提取文本段集的第一文本特征,并根据第一文本特征对第一专利文本进行词义分析和文本重组,以得到第一摘要文本;
(3)第二提取模块,用于从第一摘要文本中提取出第一关键词集;
(4)第三提取模块,用于通过文本分类模型提取文本段集的第二文本特征,并根据第二文本特征识别第一专利文本的专利分类号。
可选地,上述对第一专利文本进行分段处理可以但不限于根据换行符将第一专利文本分成不同的段落,或者按照字数将第一专利文本分成字数相同的多个段落。
以根据换行符对第一专利文本进行分段以及根据词的出现频率获取到第一摘要文本为例。在客户端获取到第一专利文本后,将第一专利文本发送给服务器,由服务器中的文本提取模型根据换行符对第一专利文本进行分段,获取每一段中的文本的第一文本特征,根据第一文本特征在第一专利文本中提取出第一摘要文本。在提取出第一摘要文本后,根据第一摘要文本中的词的出现频率与出现位置,确定出第一关键词集。同时,服务器还使用文本分类模型提取出文本段集的第二文本特征,并根据第二文本特征输出专利分类号。在获取到上述第一摘要文本与第一关键词集以及专利分类号后,将上述第一摘要文本与第一关键词集以及专利分类号发送给客户端,在接收到客户端发送的第一检索指令后,服务器根据第一检索指令对上述第一摘要文本与第一关键词集以及专利分类号进行检索,得到第一专利文本列表。并将第一专利文本列表返回给客户端。通过上述方法,通过在获取到客户端的检索指令后,根据关键文本与专利分类号进行检索,得到第一专利文本列表,从而提高了对专利文本进行检索的检索效率。
可选地,上述装置还包括:
(1)检索单元,用于在向客户端返回与第一专利文本相匹配的第一专利文本列表之前,响应第一检索请求,通过文本检索模型从数据库中检索出与第一专利文本相匹配的第一专利文本列表,其中,文本检索模型为使用已公开的专利文本进行机器训练后所得到的用于根据文本相似度进行文本检索的模型。
可选地,上述文本检索模型可以但不限于通过训练得到。获取专利样本,专利样本中包括待检索专利与目标专利。将专利样本输入到文本检索模型中进行训练,并调整文本检索模型的参数,最终得到成熟的文本检索模型。使用成熟的文本检索模型对第一专利文本进行检索,得到的第一专利文本列表中的专利与第一专利文本的相似度大于一个预定阈值。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本检索方法的电子装置,如图12所示,该电子装置包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取通过客户端所上传的第一专利文本;
S2,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
S3,向服务器发送利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S4,获取服务器所返回的与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,本领域普通技术人员可以理解,图12所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图12所示不同的配置。
其中,存储器1202可用于存储软件程序以及模块,如本发明实施例中的文本检索方法和装置对应的程序指令/模块,处理器1204通过运行存储在存储器1202内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本检索方法。存储器1202可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1202可进一步包括相对于处理器1204远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1202具体可以但不限于用于存储第一专利文本、关键文本、专利分类号等信息。作为一种示例,如图12所示,上述存储器1202中可以但不限于包括上述文本检索装置中的第一获取单元1002、第二获取单元1004、第一发送单元1006及第三获取单元1008。此外,还可以包括但不限于上述文本检索装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1206包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1206为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:连接总线1208,用于连接上述电子装置中的各个模块部件。
根据本发明实施例的又一方面,还提供了一种电子装置,如图13所示,该电子装置包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,接收客户端发送的第一专利文本;
S2,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
S3,将关键文本及专利分类号发送客户端;
S4,接收客户端利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S5,向客户端返回与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,本领域普通技术人员可以理解,图13所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图13所示不同的配置。
其中,存储器1302可用于存储软件程序以及模块,如本发明实施例中的文本检索方法和装置对应的程序指令/模块,处理器1304通过运行存储在存储器1302内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本检索方法。存储器1302可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1302可进一步包括相对于处理器1304远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1302具体可以但不限于用于存储第一专利文本、关键文本、专利分类号等信息。作为一种示例,如图13所示,上述存储器1302中可以但不限于包括上述文本检索装置中的第一接收单元1102、获取单元1104、发送单元1106、第二接收单元1108及返回单元1110。此外,还可以包括但不限于上述文本检索装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1306包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1306为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:连接总线1308,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取通过客户端所上传的第一专利文本;
S2,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
S3,向服务器发送利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S4,获取服务器所返回的与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,接收客户端发送的第一专利文本;
S2,获取从第一专利文本中提取出的关键文本,及与第一专利文本相匹配的专利分类号,其中,关键文本为通过文本提取模型从第一专利文本中提取出的文本,文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;专利分类号通过文本分类模型识别得到,文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
S3,将关键文本及专利分类号发送客户端;
S4,接收客户端利用关键文本及专利分类号所生成的第一检索请求,其中,第一检索请求用于请求对第一专利文本进行检索;
S5,向客户端返回与第一专利文本相匹配的第一专利文本列表,其中,第一专利文本列表中所包含的对象专利文本与第一专利文本的文本相似度大于第一阈值。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种文本检索方法,其特征在于,包括:
获取通过客户端所上传的第一专利文本;
获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号,其中,所述关键文本为通过文本提取模型从所述第一专利文本中提取出的文本,所述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;所述专利分类号通过文本分类模型识别得到,所述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
向服务器发送利用所述关键文本及所述专利分类号所生成的第一检索请求,其中,所述第一检索请求用于请求对所述第一专利文本进行检索;
获取所述服务器所返回的与所述第一专利文本相匹配的第一专利文本列表,其中,所述第一专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第一阈值;
在所述向服务器发送利用所述关键文本及所述专利分类号所生成的第一检索请求之前,还包括:在所述客户端中显示获取到的所述关键文本及所述专利分类号,其中,所述关键文本中包括第一摘要文本及第一关键词集,其中,所述第一摘要文本用于表示所述第一专利文本,所述第一关键词集中所包含的对象关键词为从所述第一摘要文本中提取到的关键词;利用所述关键文本及所述专利分类号生成所述第一检索请求;
在所述利用所述关键文本及所述专利分类号生成所述第一检索请求之前,还包括:获取在所述客户端中执行的编辑操作所生成的第一调整指令;根据所述第一调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第二摘要文本,将所述第一关键词集调整为第二关键词集,将所述专利分类号调整为调整后的所述专利分类号;
所述获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号包括:将所述第一专利文本发送至所述服务器,以对所述第一专利文本进行文本预处理;获取所述服务器所返回的所述关键文本及所述专利分类号;
所述获取所述服务器所返回的所述关键文本及所述专利分类号包括:所述服务器根据换行符或者按照字数对所述第一专利文本进行分段处理,得到与所述第一专利文本对应的文本段集;所述服务器通过所述文本提取模型提取所述文本段集的第一文本特征,并根据所述第一文本特征对所述第一专利文本进行词义分析和文本重组,以得到所述第一摘要文本;所述服务器从所述第一摘要文本中提取出所述第一关键词集;所述服务器通过所述文本分类模型提取所述文本段集的第二文本特征,并根据所述第二文本特征识别所述第一专利文本的所述专利分类号;
所述服务器从所述第一摘要文本中提取出所述第一关键词集包括:基于所述第一摘要文本中的词的出现频率以及出现位置确定所述第一关键词集。
2.根据权利要求1所述的方法,其特征在于,在所述获取所述服务器所返回的与所述第一专利文本相匹配的第一专利文本列表之后,还包括:
获取在所述客户端中执行的编辑操作所生成的第二调整指令;
根据所述第二调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第三摘要文本,将所述第一关键词集调整为第三关键词集,将所述专利分类号调整为调整后的所述专利分类号;
获取根据所述第二调整指令得到的调整结果;
向所述服务器发送利用所述调整结果所生成的第二检索请求,其中,所述第二检索请求用于请求对所述第一专利文本进行检索;
获取所述服务器所返回的与所述第一专利文本相匹配的第二专利文本列表,其中,所述第二专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第二阈值,所述第二阈值大于所述第一阈值。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述获取通过客户端所上传的第一专利文本包括以下至少之一:
获取选择指令,其中,所述选择指令用于指示选择存储在目标路径下的所述第一专利文本;响应所述选择指令,上传所述第一专利文本;
获取拖动指令,其中,所述拖动指令用于指示将所述第一专利文本拖动至所述客户端所显示界面的目标区域中;响应所述拖动指令,上传所述第一专利文本。
4.一种文本检索方法,其特征在于,包括:
接收客户端发送的第一专利文本;
获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号,其中,所述关键文本为通过文本提取模型从所述第一专利文本中提取出的文本,所述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;所述专利分类号通过文本分类模型识别得到,所述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
将所述关键文本及所述专利分类号发送所述客户端;
接收所述客户端利用所述关键文本及所述专利分类号所生成的第一检索请求,其中,所述第一检索请求用于请求对所述第一专利文本进行检索;
向所述客户端返回与所述第一专利文本相匹配的第一专利文本列表,其中,所述第一专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第一阈值;
其中,第一检索请求是通过如下方式生成的:在所述客户端中显示获取到的所述关键文本及所述专利分类号,其中,所述关键文本中包括第一摘要文本及第一关键词集,其中,所述第一摘要文本用于表示所述第一专利文本,所述第一关键词集中所包含的对象关键词为从所述第一摘要文本中提取到的关键词;利用所述关键文本及所述专利分类号生成所述第一检索请求;
所述专利分类号是通过如下方式确定的:获取在所述客户端中执行的编辑操作所生成的第一调整指令;根据所述第一调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第二摘要文本,将所述第一关键词集调整为第二关键词集,将所述专利分类号调整为调整后的所述专利分类号;
所述获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号包括:对所述第一专利文本进行分段处理,得到与所述第一专利文本对应的文本段集;根据换行符或者按照字数通过所述文本提取模型提取所述文本段集的第一文本特征,并根据所述第一文本特征对所述第一专利文本进行词义分析和文本重组,以得到第一摘要文本;从所述第一摘要文本中提取出第一关键词集;通过所述文本分类模型提取所述文本段集的第二文本特征,并根据所述第二文本特征识别所述第一专利文本的所述专利分类号;
从所述第一摘要文本中提取出所述第一关键词集包括:基于所述第一摘要文本中的词的出现频率以及出现位置确定所述第一关键词集。
5.根据权利要求4所述的方法,其特征在于,在所述向所述客户端返回与所述第一专利文本相匹配的第一专利文本列表之前,还包括:
响应所述第一检索请求,通过文本检索模型从数据库中检索出与所述第一专利文本相匹配的所述第一专利文本列表,其中,所述文本检索模型为使用已公开的专利文本进行机器训练后所得到的用于根据文本相似度进行文本检索的模型。
6.一种文本检索装置,其特征在于,包括:
第一获取单元,用于获取通过客户端所上传的第一专利文本;
第二获取单元,用于获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号,其中,所述关键文本为通过文本提取模型从所述第一专利文本中提取出的文本,所述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;所述专利分类号通过文本分类模型识别得到,所述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
第一发送单元,用于向服务器发送利用所述关键文本及所述专利分类号所生成的第一检索请求,其中,所述第一检索请求用于请求对所述第一专利文本进行检索;
第三获取单元,用于获取所述服务器所返回的与所述第一专利文本相匹配的第一专利文本列表,其中,所述第一专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第一阈值;
所述装置还包括:
显示单元,用于在所述向服务器发送利用所述关键文本及所述专利分类号所生成的第一检索请求之前,在所述客户端中显示获取到的所述关键文本及所述专利分类号,其中,所述关键文本中包括第一摘要文本及第一关键词集,其中,所述第一摘要文本用于表示所述第一专利文本,所述第一关键词集中所包含的对象关键词为从所述第一摘要文本中提取到的关键词;生成单元,用于利用所述关键文本及所述专利分类号生成所述第一检索请求;
所述装置还包括:第四获取单元,用于在所述利用所述关键文本及所述专利分类号生成所述第一检索请求之前,获取在所述客户端中执行的编辑操作所生成的第一调整指令;第一调整单元,用于根据所述第一调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第二摘要文本,将所述第一关键词集调整为第二关键词集,将所述专利分类号调整为调整后的所述专利分类号;
所述第二获取单元包括:发送模块,用于将所述第一专利文本发送至所述服务器,以对所述第一专利文本进行文本预处理;第一获取模块,用于获取所述服务器所返回的所述关键文本及所述专利分类号;所述获取所述服务器所返回的所述关键文本及所述专利分类号包括:所述服务器根据换行符或者按照字数对所述第一专利文本进行分段处理,得到与所述第一专利文本对应的文本段集;所述服务器通过所述文本提取模型提取所述文本段集的第一文本特征,并根据所述第一文本特征对所述第一专利文本进行词义分析和文本重组,以得到所述第一摘要文本;所述服务器从所述第一摘要文本中提取出所述第一关键词集;所述服务器通过所述文本分类模型提取所述文本段集的第二文本特征,并根据所述第二文本特征识别所述第一专利文本的所述专利分类号;
所述服务器通过如下方式实现从所述第一摘要文本中提取出所述第一关键词集:基于所述第一摘要文本中的词的出现频率以及出现位置确定所述第一关键词集。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第五获取单元,用于在所述获取所述服务器所返回的与所述第一专利文本相匹配的第一专利文本列表之后,获取在所述客户端中执行的编辑操作所生成的第二调整指令;
第二调整单元,用于根据所述第二调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第三摘要文本,将所述第一关键词集调整为第三关键词集,将所述专利分类号调整为调整后的所述专利分类号;
第六获取单元,用于获取根据所述第二调整指令得到的调整结果;
第二发送单元,用于向所述服务器发送利用所述调整结果所生成的第二检索请求,其中,所述第二检索请求用于请求对所述第一专利文本进行检索;
第七获取单元,用于获取所述服务器所返回的与所述第一专利文本相匹配的第二专利文本列表,其中,所述第二专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第二阈值,所述第二阈值大于所述第一阈值。
8.根据权利要求6至7中任一项所述的装置,其特征在于,所述第一获取单元包括以下至少之一:
第二获取模块,用于获取选择指令,其中,所述选择指令用于指示选择存储在目标路径下的所述第一专利文本;响应所述选择指令,上传所述第一专利文本;
第三获取模块,用于获取拖动指令,其中,所述拖动指令用于指示将所述第一专利文本拖动至所述客户端所显示界面的目标区域中;响应所述拖动指令,上传所述第一专利文本。
9.一种文本检索装置,其特征在于,包括:
第一接收单元,用于接收客户端发送的第一专利文本;
获取单元,用于获取从所述第一专利文本中提取出的关键文本,及与所述第一专利文本相匹配的专利分类号,其中,所述关键文本为通过文本提取模型从所述第一专利文本中提取出的文本,所述文本提取模型为使用已公开的专利文本进行机器训练后所得到的用于提取专利文本中的关键文本的模型;所述专利分类号通过文本分类模型识别得到,所述文本分类模型为使用已公开的专利文本进行机器训练后所得到的用于识别专利文本的所属分类的模型;
发送单元,用于将所述关键文本及所述专利分类号发送所述客户端;
第二接收单元,用于接收所述客户端利用所述关键文本及所述专利分类号所生成的第一检索请求,其中,所述第一检索请求用于请求对所述第一专利文本进行检索;
返回单元,用于向所述客户端返回与所述第一专利文本相匹配的第一专利文本列表,其中,所述第一专利文本列表中所包含的对象专利文本与所述第一专利文本的文本相似度大于第一阈值;
其中,第一检索请求是通过如下方式生成的:在所述客户端中显示获取到的所述关键文本及所述专利分类号,其中,所述关键文本中包括第一摘要文本及第一关键词集,其中,所述第一摘要文本用于表示所述第一专利文本,所述第一关键词集中所包含的对象关键词为从所述第一摘要文本中提取到的关键词;利用所述关键文本及所述专利分类号生成所述第一检索请求;
所述专利分类号是通过如下方式确定的:获取在所述客户端中执行的编辑操作所生成的第一调整指令;根据所述第一调整指令执行以下至少一种调整操作:将所述第一摘要文本调整为第二摘要文本,将所述第一关键词集调整为第二关键词集,将所述专利分类号调整为调整后的所述专利分类号;
所述获取单元包括:处理模块,用于根据换行符或者按照字数对所述第一专利文本进行分段处理,得到与所述第一专利文本对应的文本段集;第一提取模块,用于通过所述文本提取模型提取所述文本段集的第一文本特征,并根据所述第一文本特征对所述第一专利文本进行词义分析和文本重组,以得到第一摘要文本;第二提取模块,用于从所述第一摘要文本中提取出第一关键词集;第三提取模块,用于通过所述文本分类模型提取所述文本段集的第二文本特征,并根据所述第二文本特征识别所述第一专利文本的所述专利分类号;
所述第二提取模块通过如下方式实现从所述第一摘要文本中提取出所述第一关键词集:基于所述第一摘要文本中的词的出现频率以及出现位置确定所述第一关键词集。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
检索单元,用于在所述向所述客户端返回与所述第一专利文本相匹配的第一专利文本列表之前,响应所述第一检索请求,通过文本检索模型从数据库中检索出与所述第一专利文本相匹配的所述第一专利文本列表,其中,所述文本检索模型为使用已公开的专利文本进行机器训练后所得到的用于根据文本相似度进行文本检索的模型。
11.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至3或4至5任一项中所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至3或4至5任一项中所述的方法。
CN201811069929.4A 2018-09-13 2018-09-13 文本检索方法和装置、存储介质及电子装置 Active CN110895556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811069929.4A CN110895556B (zh) 2018-09-13 2018-09-13 文本检索方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811069929.4A CN110895556B (zh) 2018-09-13 2018-09-13 文本检索方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110895556A CN110895556A (zh) 2020-03-20
CN110895556B true CN110895556B (zh) 2023-07-28

Family

ID=69785761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811069929.4A Active CN110895556B (zh) 2018-09-13 2018-09-13 文本检索方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110895556B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071198A (ja) * 2006-09-14 2008-03-27 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200695B2 (en) * 2006-04-13 2012-06-12 Lg Electronics Inc. Database for uploading, storing, and retrieving similar documents
CN101276340A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据检索***
CN106156111B (zh) * 2015-04-03 2021-10-19 北京中知智慧科技有限公司 专利文件检索方法、装置和***
US20170075877A1 (en) * 2015-09-16 2017-03-16 Marie-Therese LEPELTIER Methods and systems of handling patent claims
CN106372226B (zh) * 2016-09-07 2020-08-25 知识产权出版社有限责任公司 信息检索装置及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071198A (ja) * 2006-09-14 2008-03-27 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网络环境下的专利信息检索;张晓云;图书馆工作与研究(01);第43-46页 *

Also Published As

Publication number Publication date
CN110895556A (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
CN107346336B (zh) 基于人工智能的信息处理方法和装置
US20200301954A1 (en) Reply information obtaining method and apparatus
CN108280155B (zh) 基于短视频的问题检索反馈方法、装置及其设备
CN110362714B (zh) 视频内容的搜索方法和装置
CN109513211B (zh) 美术资源文件的处理方法、装置以及游戏资源展示***
CN108228873A (zh) 对象推荐、发布内容推送方法、装置、存储介质和设备
CN105677931B (zh) 信息搜索方法和装置
US11055373B2 (en) Method and apparatus for generating information
CN104765791A (zh) 一种信息输入方法和装置
CN106844685B (zh) 用于识别网站的方法、装置及服务器
CN106649446B (zh) 信息推送方法和装置
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN105069077A (zh) 搜索方法及装置
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN111460185A (zh) 书籍搜索方法、装置和***
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN110895556B (zh) 文本检索方法和装置、存储介质及电子装置
CN108564494A (zh) 教学资源推广共享装置
KR101333064B1 (ko) 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법
CN110895555B (zh) 数据检索方法和装置、存储介质及电子装置
CN109145124B (zh) 信息的存储方法、装置、存储介质及电子装置
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN105608183A (zh) 一种提供聚合类型回答的方法和装置
CN106570116B (zh) 基于人工智能的搜索结果的聚合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20210107

Address after: 17c, 14 / F, unit 3, building 3, No.48, Zhichun Road, Haidian District, Beijing 100098

Applicant after: Beijing Blue lantern fish Intelligent Technology Co.,Ltd.

Address before: 1411 Junyue Pavilion, 9 Yannan Road, Fuqiang community, Huaqiangbei street, Futian District, Shenzhen, Guangdong 518031

Applicant before: Shenzhen Blue Lantern Fish Intelligent Technology Co.,Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant