CN110516157A - 一种文献检索方法、设备和存储介质 - Google Patents
一种文献检索方法、设备和存储介质 Download PDFInfo
- Publication number
- CN110516157A CN110516157A CN201910816712.3A CN201910816712A CN110516157A CN 110516157 A CN110516157 A CN 110516157A CN 201910816712 A CN201910816712 A CN 201910816712A CN 110516157 A CN110516157 A CN 110516157A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- type
- document
- keyword
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文献检索方法、设备和存储介质。该方法通过接收自然语言构成的第一检索式;将第一检索式转换为指定格式的第二检索式;根据第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;在检索条件的约束下、根据关键词在文献资料库中进行检索,得到符合结果类型的文献。实现了用户使用自然语言定义搜索意图,由计算机直接给出自然语言的理想答案,以为用户节省大量的筛选时间的效果。
Description
技术领域
本发明实施例涉及数据检索的技术,尤其涉及一种文献检索方法、设备和存储介质。
背景技术
目前图书馆、专利检索的提供的文献的检索功能,采用的主要是关键词匹配,统计分析等技术,在浩瀚的文献中查找用户想要的内容。
现有的自然语言处理技术将语句中的各个部分的语言学角色标注出来,这种语句和句群的标注对于知识的表示仍然保留着对于自然语言在形式上的依赖和自然语言形式的繁琐复杂,所以不利于建立一个高效,统一的知识处理的模型。
但是用户通常很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以用户经常花大量时间对数目巨大的结果网页列表,通过人工辨识来寻找理想的答案。
发明内容
本发明提供一种文献检索方法、设备和存储介质,以解决用户在通过输入关键词进行检索时、需要常花大量时间对数目巨大的结果网页列表,通过人工辨识来寻找理想的答案的问题。
第一方面,本发明实施例提供了一种文献检索方法,包括:
接收自然语言构成的第一检索式;
将所述第一检索式转换为指定格式的第二检索式;
根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;
在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
在此基础上,所述将所述第一检索式转换为指定格式的第二检索式,包括:
在所述第一检索式中检测HTML字符、指定格式的数字和指定格式的时间段;
当在所述第一检索式中检测到所述HTML字符时,删除所述HTML字符;
当在第一检索式中检测到指定格式的数字时,将所述指定格式的数字转化为***数字;
当在第一检索式中检测到指定格式的时间段时,根据所述指定格式的时间段生成用***数字表示的时间区间。
在此基础上,所述根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型,包括:
对所述第二检索式进行分词处理,以获得检索分词;
识别所述检索分词的词性;
根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词;
根据所述待作为检索的关键词的检索分词、待作为约束条件的检索分词,确定所述结果类型。
在此基础上,所述根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词,包括:
筛选所述词性为实体名词的检索分词,作为检索的关键词;
筛选所述词性为***数字和字段名词的检索分词,作为约束条件;
筛选副词、助词和语气词的检索分词,作为待屏蔽的检索分词。
在此基础上,所述在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献,包括:
根据所述关键词在所述文献资料库中确定第一候选文献,所述第一候选文献包括两篇及两篇以上的文献;
使用所述检索条件对所述第一候选文献进行筛选,以获得第二候选文献;
针对所述第二候选文献按照所述结果类型进行返回。
在此基础上,所述针对所述第二候选文献按照所述结果类型进行返回,包括:
确定所述结果类型为聚合类型;
对所述第二候选文献进行聚合分析,以确定聚合结论,所述聚合结论包括所述第二候选文献的数量;
返回所述第二候选文献与所述聚合结论。
在此基础上,所述针对所述第二候选文献按照所述结果类型进行返回,包括:
确定所述结果类型为多实体类型;
返回所述第二候选文献。
在此基础上,所述在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献,包括:
根据所述关键词在所述文献资料库中确定第三候选文献,所述第三候选文献指向一篇文献;
确定所述结果类型为单实体类型;
使用所述检索条件对所述第三候选文献中的字段名词进行筛选,以获得检索答案;
返回所述第三候选文献与所述检索答案。
第二方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的一种文献检索方法。:
第三方面,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的一种文献检索方法。。
本发明通过接收自然语言构成的第一检索式;将第一检索式转换为指定格式的第二检索式;根据第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;在检索条件的约束下、根据关键词在文献资料库中进行检索,得到符合结果类型的文献。实现了用户使用自然语言定义搜索意图,由计算机直接给出自然语言的理想答案,以为用户节省大量的筛选时间的效果。
附图说明
图1为本发明实施例一提供的一种文献检索方法的流程图;
图2A为本发明实施例二提供的一种文献检索方法的流程图;
图2B为本发明实施例二提供的一种文献检索方法的示意图;
图3为本发明实施例三提供的一种文献检索装置的结构图;
图4为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文献检索方法的流程图。本实施例适用用在存储文献的数据库中,通过用户输入的自然语言进行检索的场景。该方法可以由一种文献检索装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可配置在具有数据处理能力的电子设备中,例如,手机、平板电脑、可穿戴设备(如智能眼镜、智能手表)等,该电子设备配置有屏幕、中央处理器(CPU)。
可以理解的,存储文献的数据库指图书情报档案工作者和其他学者,按某种方式方法建立起来的,供读者查检图书情报档案资料等信息的某种有层次的体系。比如图书检索***、论文检索***、裁判文书检索***和专利检索***等。
参考图1,该方法具体包括:
S101、接收自然语言构成的第一检索式。
自然语言通常是指一种自然地随文化演化的语言,自然语言是人类交流和思维的主要工具。与自然语言相对的是逻辑语言。自然语言是人脑与人脑的交际工具,逻辑语言是人脑与电脑的交际工具。认知科学认为,思维和认知是知识的逻辑运算,任何计算化的自然语言分析都主要依赖逻辑语言对这种分析的表述。自然语言的缺陷有:(1)表达式的层次结构不够清晰;(2)个体化认知模式体现不够明确;(3)量词管辖的范围不太确切;(4)句子成分的语序不固定;(5)语形和语义不对应。
在一种可行的实现方式中,图书检索***、论文检索***、裁判文书检索***和专利检索***中的文献检索装置接收用户输入的自然语言,该自然语言用于表示用户的检索需求。文献检索装置将用户输入的自然语言作为第一检索式。
在一可行的实现方式中,文献检索装置基于其所述在的图书检索***、论文检索***、裁判文书检索***和专利检索***开发。当然,文献检索装置也可以作为浏览器的插件进行开发。当文献检索装置作为插件时,可以替代存储文献的数据库的检索接口。
S102、将所述第一检索式转换为指定格式的第二检索式。
由于第一检索式为通过检索接口接收的自然语言。因此第一检索式中会包括HTML(Hyper Text Markup Language,超文本标记语言)字符,HTML字符用于对第一检索式中文字的颜色和字体等进行描述,这些描述对于文字的含义没有太大的影响,因此需要对其进行处理。同时,用户可能为了对某些词语进行强调而使用空格隔开词语,也需要对这些空格进行处理。
由于第一检索式自然语言,而不同的用户有不同的用户习惯。尤其是在使用数字时,使用汉字的数字还是使用***数字的习惯是因人而异的。如部分用户习惯使用“最近三年”而有些用户习惯使用“最近3年”,需要对这些数字进行处理。当描述时间段时,用户的习惯也不同,假设当前时间为2019年12月31日,部分用户习惯使用“最近三年”而有些用户习惯使用“最近3年”,需要对这些数字进行处理,以获得确定的时间段“2016年01月01日-2019年12月31日”。
在一可行的实现方式中,检测HTML字符、空格、汉字的数字和时间段,将其转化为指定格式的元素,以获得第二检索式。第二检索式是适于提取关键词、检索条件和结果类型的句子。
在一可行的实现方式中,接收用户输入的第一检索“请问最近三年AAAA大学<color#a4c331>某某某</color>关于无人机的专利有哪些呢?”将其转化为“请问2016年01月01日-2019年12月31日AAAA大学某某某关于无人机的专利有哪些呢?”这一第二检索式。
S103、根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型。
一般的,可以根据文献资料库的类型预设字段名词,预设的字段名词配有表单,可以直接从第二检索式中检查是否有表单中的名词,如果有的话,再根据字段的类型确定其为检索的关键词、检索条件和结果类型中的一类或多类。
检索的关键词是能概括要检索内容的相关词汇。检索词是表达信息需求和检索课题内容的基本单元,也是与***中有关据库进行匹配运算的基本单元,检索词选择恰当与否,直接影响检索效果。检索的关键词一般包括:表示主题的检索词、表示作者的检索词、表示分类的检索词和表示特殊意义的检索词等。
检索条件一般是对时间区间或者对某些字段进行限制,来达到对关键词检索出的内容进行限制。
文献资料库有不同的类型,因此对于不同的文献资料库,同一名词可能会归属于不同的字段名次。
以“请问2016年01月01日-2019年12月31日AAAA大学某某某关于无人机的专利有哪些呢?”这一第二检索式为例。其中,包括疑问词:有哪些。包括字段名次:发明人。包括实体名词:某某某和AAAA大学。包括副词、助词、语气词:关于、的、呢。包括特殊字符:“?”。包括时间区间:2016年01月01日-2019年12月31日。
S104、在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
根据关键词在文献资料库中进行检索,获得符合关键词的文献。再根据约束条件对文献进行筛选,得到呈现给用户的文献。最后根据结果类型判断呈现给用户的文献应该以何种方式进行呈现。并按照呈现方式向用户返回检索结果。
本发明实施例通过接收自然语言构成的第一检索式;将第一检索式转换为指定格式的第二检索式;根据第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;在检索条件的约束下、根据关键词在文献资料库中进行检索,得到符合结果类型的文献。实现了用户使用自然语言定义搜索意图,由计算机直接给出自然语言的理想答案,以为用户节省大量的筛选时间的效果。
实施例二
图2A为本发明实施例二提供的一种文献检索方法的流程图。图2B为本发明实施例二提供的一种文献检索方法的示意图。本实施例是在实施例一的基础上进行了细化,详细描述了根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型的具体过程。参考图2A和图2B,该方法包括:
S201、接收自然语言构成的第一检索式。
S202、将所述第一检索式转换为指定格式的第二检索式。
在一可行的实现方式中,检测HTML字符、空格、汉字的数字和时间段,将其转化为指定格式的元素,以获得第二检索式。第二检索式是适于提取关键词、检索条件和结果类型的句子。
此步骤可包括下列步骤:
S2021、在所述第一检索式中检测HTML字符、指定格式的数字和指定格式的时间段。
首先对第一检索式进行处理,转化为字符串的格式,在对这些字符传进行遍历检测,以获得其中的HTML字符、指定格式的数字和指定格式的时间段。其中,指定格式的数字是指使用汉字表述的数字;指定格式的时间段是指使用汉字表述的时间段,或者文字含义为时间段。
S2022、当在所述第一检索式中检测到所述HTML字符时,删除所述HTML字符。
一般的,HTML字符可以是CSS(Cascading Style Sheets,层叠样式表)样式。CSS提供了丰富的文档样式外观,以及设置文本和背景属性的能力;允许为任何元素创建边框,以及元素边框与其他元素间的距离,以及元素边框与元素内容间的距离;允许随意改变文本的大小写方式、修饰方式以及其他页面效果。
在一可行的实现方式中,对第一检索式转化为的字符传进行遍历检测,当检测到HTML字符时,删除这些HTML字符。
S2023、当在第一检索式中检测到指定格式的数字时,将所述指定格式的数字转化为***数字。
在一可行的实现方式中,对第一检索式转化为的字符传进行遍历检测,当检测到汉字表述的数字时,将这些汉字表述的数字转化为***数字表示的数字。
S2024、当在第一检索式中检测到指定格式的时间段时,根据所述指定格式的时间段生成用***数字表示的时间区间。
在一可行的实现方式中,在将汉字表述的数字转化为***数字表示的数字之后,判断这些***数字是表示时间点还是时间段,若***数字表示的是时间段,使用“A-B”这样的格式来表示时间段,A和B的格式可以为:某年某月某日。
当然,上文中所描述的“时间段”不限于时间区间。当在第一检索式中检测到与描述区间相关的文字序列,这种文字序列可以为时间、长度、数量、尺寸。其特征为描述时间点、时间段、包含***数字、存在量词。
S203、对所述第二检索式进行分词处理,以获得检索分词。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。英文的行文中,单词之间是以空格作为自然分界符的。中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本实施例对采用何种方式进行分词不做限定,只要能准确的确定出第二检索式中的词组即可。
获得第二检索式后,对第二检索式进行分词处理,将分词处理之后的字词片段作为检索分词。当然,检索分词并不是都会参与到检索中,还需要对检索分词进行进一步的处理。
在一可行的实现方式中,如第二检索式为“AAAA大学某某某关于无人机的专利有哪些呢”。首先对第二检索进行分词处理,获得的检索分词为:AAAA大学/某某某/关于/无人机/的/专利/有哪些/呢。
S204、识别所述检索分词的词性。
对于汉语而言,词可以分成实词和虚词,实词中又包括体词、谓词等,体词中又可以分出名词和代词等。
在一可行的实现方式中,如第二检索式为“AAAA大学某某某关于无人机的专利有哪些呢”。首先对第二检索进行分词处理,获得的检索分词为:AAAA大学/某某某/关于/无人机/的/专利/有哪些/呢。进一步的,对检索分词的词性进行判定,获得结果为:AAAA大学【名词】某某某【名词】关于【介词】无人机【名词】的【助词】专利【名词】有哪些【疑问代词】呢【语气助词】。这其中的助词、代词均无实际意义。
S205、根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词。
根据词性可以确定检索分词的词性,根据检索分词的词性可以将检索分词分类到待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词。
一般的,可以筛选词性为实体名词的检索分词,作为检索的关键词。筛选词性为***数字和字段名词的检索分词,作为约束条件。筛选副词、助词和语气词的检索分词,作为待屏蔽的检索分词。
S206、根据所述待作为检索的关键词的检索分词、待作为约束条件的检索分词,确定所述结果类型。
结果类型包括单实体类型、聚合类型和多实体类型。以专利检索***为例,对各个结果类型进行描述。
结果类型一般可以通过疑问代词进行确定。如疑问代词为“谁”,一般可以确定为单实体类型。如疑问代词为“多少”,一般可以确定为聚合类型。如疑问代词为“哪些”,一般可以确定为多实体类型。
如第一检索式为:专利号为*********A的申请人是谁?这一检索式的结果类型为单实体类型。
如第一检索式为:去年BBBB大学申请的专利有多少个?这一检索式的结果类型为聚合类型。
如第一检索式为:去年CCCC大学申请的专利有哪些?这一检索式的结果类型为多实体类型。
S207、在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
根据关键词进行检索,可能会获得一篇文献,也可能会获得两篇或者两篇以上的文献。
根据关键词进行检索,获得一篇文献时,此步可以包括下列步骤:
S2071、根据所述关键词在所述文献资料库中确定第三候选文献,所述第三候选文献指向一篇文献。
S2072、确定所述结果类型为单实体类型。
S2073、使用所述检索条件对所述第三候选文献中的字段名词进行筛选,以获得检索答案。
S2074、返回所述第三候选文献与所述检索答案。
具体的,单实体类型要求返回唯一的文献以及关于该文献的细节问题。如第一检索式为:专利号为*********A的申请人是谁?这一检索式需要返回的结果为专利号为*********A的专利以及该专利的申请人。
根据关键词进行检索,获得一篇文献时,此步可以包括下列步骤:
S2075、根据所述关键词在所述文献资料库中确定第一候选文献,所述第一候选文献包括两篇及两篇以上的文献。
S2076、使用所述检索条件对所述第一候选文献进行筛选,以获得第二候选文献。
S2077、针对所述第二候选文献按照所述结果类型进行返回。
确定所述结果类型为聚合类型;对所述第二候选文献进行聚合分析,以确定聚合结论,所述聚合结论包括所述第二候选文献的数量;返回所述第二候选文献与所述聚合结论。
确定所述结果类型为多实体类型;返回所述第二候选文献。
具体的,聚合类型要求返回聚合结论和相关的文献。如第一检索式为:去年BBBB大学申请的专利有多少个?这一检索式需要返回的结果为去年BBBB大学申请的专利的列表和具体的数量。
具体的,多实体类型要求返回相关的文献。如第一检索式为:去年CCCC大学申请的专利有哪些?这一检索式需要返回的结果为去年CCCC大学申请的专利的列表。
实施例三
图3为本发明实施例三提供的一种文献检索装置的结构图。该装置包括:第一检索式接收模块31、第二检索式确定模块32、第二检索式使用模块33和文献检索模块34。其中:
第一检索式接收模块31,用于接收自然语言构成的第一检索式;
第二检索式确定模块32,用于将所述第一检索式转换为指定格式的第二检索式;
第二检索式使用模块33,用于根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;
文献检索模块34,用于在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
本发明实施例通过接收自然语言构成的第一检索式;将第一检索式转换为指定格式的第二检索式;根据第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;在检索条件的约束下、根据关键词在文献资料库中进行检索,得到符合结果类型的文献。实现了用户使用自然语言定义搜索意图,由计算机直接给出自然语言的理想答案,以为用户节省大量的筛选时间的效果。
在此基础上,第二检索式确定模块32包括:
检测执行子模块,用于在所述第一检索式中检测HTML字符、指定格式的数字和指定格式的时间段;
HTML字符处理子模块,用于当在所述第一检索式中检测到所述HTML字符时,删除所述HTML字符;
数字转化子模块,用于当在第一检索式中检测到指定格式的数字时,将所述指定格式的数字转化为***数字;
区间转化子模块,用于当在第一检索式中检测到指定格式的时间段时,根据所述指定格式的时间段生成用***数字表示的时间区间。
在此基础上,第二检索式使用模块33包括:
分词处理子模块,用于对所述第二检索式进行分词处理,以获得检索分词;
词性识别子模块,用于识别所述检索分词的词性;
词性处理子模块,用于根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词;
结果类型确定子模块,用于根据所述待作为检索的关键词的检索分词、待作为约束条件的检索分词,确定所述结果类型。
在此基础上,所述词性处理子模块包括:
关键词确定单元,用于筛选所述词性为实体名词的检索分词,作为检索的关键词;
约束条件确定单元,用于筛选所述词性为***数字和字段名词的检索分词,作为约束条件;
屏蔽分词确定单元,用于筛选副词、助词和语气词的检索分词,作为待屏蔽的检索分词。
在此基础上,文献检索模块34包括:
第一候选文献确定子模块,用于根据所述关键词在所述文献资料库中确定第一候选文献,所述第一候选文献包括两篇及两篇以上的文献;
第二候选文献确定子模块,用于使用所述检索条件对所述第一候选文献进行筛选,以获得第二候选文献;
返回操作第一执行子模块,用于针对所述第二候选文献按照所述结果类型进行返回。
在此基础上,返回操作执行子模块包括:
聚合类型确定单元,用于确定所述结果类型为聚合类型;
聚合结论确定单元,用于对所述第二候选文献进行聚合分析,以确定聚合结论,所述聚合结论包括所述第二候选文献的数量;
第一返回操作执行单元,用于返回所述第二候选文献与所述聚合结论。
在此基础上,返回操作执行子模块包括:
多实体类型确定单元,用于确定所述结果类型为多实体类型;
第二返回操作执行单元,用于返回所述第二候选文献。
在此基础上,文献检索模块34包括:
第三候选文献确定子模块,用于根据所述关键词在所述文献资料库中确定第三候选文献,所述第三候选文献指向一篇文献;
单实体类型确定子模块,用于确定所述结果类型为单实体类型;
检索答案确定子模块,用于使用所述检索条件对所述第三候选文献中的字段名词进行筛选,以获得检索答案;
返回操作第二执行子模块,用于返回所述第三候选文献与所述检索答案。
本实施例提供的一种文献检索装置可用于执行实施例一、实施例二提供的一种文献检索方法,具有相应的功能和有益效果。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图。如图4所示,该电子设备包括处理器40、存储器41、通信模块42、输入装置43和输出装置44;电子设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;电子设备中的处理器40、存储器41、通信模块42、输入装置43和输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的一种文献检索方法对应的模块(例如,一种文献检索装置中的第一检索式接收模块31、第二检索式确定模块32、第二检索式使用模块33和文献检索模块34)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的一种文献检索方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块42,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置43可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。
本实施例提供的一种电子设备,可执行本发明任一实施例提供的一种文献检索方法,具体相应的功能和有益效果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文献检索方法,该方法包括:
接收自然语言构成的第一检索式;
将所述第一检索式转换为指定格式的第二检索式;
根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;
在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任一实施例所提供的一种文献检索方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种文献检索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文献检索方法,其特征在于,包括:
接收自然语言构成的第一检索式;
将所述第一检索式转换为指定格式的第二检索式;
根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;
在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一检索式转换为指定格式的第二检索式,包括:
在所述第一检索式中检测HTML字符、指定格式的数字和指定格式的时间段;
当在所述第一检索式中检测到所述HTML字符时,删除所述HTML字符;
当在第一检索式中检测到指定格式的数字时,将所述指定格式的数字转化为***数字;
当在第一检索式中检测到指定格式的时间段时,根据所述指定格式的时间段生成用***数字表示的时间区间。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型,包括:
对所述第二检索式进行分词处理,以获得检索分词;
识别所述检索分词的词性;
根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词;
根据所述待作为检索的关键词的检索分词、待作为约束条件的检索分词,确定所述结果类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词,包括:
筛选所述词性为实体名词的检索分词,作为检索的关键词;
筛选所述词性为***数字和字段名词的检索分词,作为约束条件;
筛选副词、助词和语气词的检索分词,作为待屏蔽的检索分词。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献,包括:
根据所述关键词在所述文献资料库中确定第一候选文献,所述第一候选文献包括两篇及两篇以上的文献;
使用所述检索条件对所述第一候选文献进行筛选,以获得第二候选文献;
针对所述第二候选文献按照所述结果类型进行返回。
6.根据权利要求5所述的方法,其特征在于,所述针对所述第二候选文献按照所述结果类型进行返回,包括:
确定所述结果类型为聚合类型;
对所述第二候选文献进行聚合分析,以确定聚合结论,所述聚合结论包括所述第二候选文献的数量;
返回所述第二候选文献与所述聚合结论。
7.根据权利要求5所述的方法,其特征在于,所述针对所述第二候选文献按照所述结果类型进行返回,包括:
确定所述结果类型为多实体类型;
返回所述第二候选文献。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献,包括:
根据所述关键词在所述文献资料库中确定第三候选文献,所述第三候选文献指向一篇文献;
确定所述结果类型为单实体类型;
使用所述检索条件对所述第三候选文献中的字段名词进行筛选,以获得检索答案;
返回所述第三候选文献与所述检索答案。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的一种文献检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一所述的一种文献检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910816712.3A CN110516157B (zh) | 2019-08-30 | 2019-08-30 | 一种文献检索方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910816712.3A CN110516157B (zh) | 2019-08-30 | 2019-08-30 | 一种文献检索方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516157A true CN110516157A (zh) | 2019-11-29 |
CN110516157B CN110516157B (zh) | 2022-04-01 |
Family
ID=68628863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910816712.3A Active CN110516157B (zh) | 2019-08-30 | 2019-08-30 | 一种文献检索方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516157B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287205A (zh) * | 2020-03-23 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa与ai的文献检索方法、装置、设备及存储介质 |
CN115879441A (zh) * | 2022-11-10 | 2023-03-31 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1622086A (zh) * | 2003-11-27 | 2005-06-01 | 国际商业机器公司 | 在计算机网络中搜索 |
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索***及其检索方法 |
CN1952928A (zh) * | 2005-10-20 | 2007-04-25 | 梁威 | 建立自然语言知识库及其自动问答检索的计算机*** |
CN102402566A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 基于中文网页自动分类技术的Web用户行为分析方法 |
CN102760436A (zh) * | 2012-08-09 | 2012-10-31 | 河南省烟草公司开封市公司 | 一种语音词库筛选方法 |
CN103793439A (zh) * | 2012-11-05 | 2014-05-14 | 腾讯科技(深圳)有限公司 | 一种实时检索信息获取方法、装置及服务器 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104102721A (zh) * | 2014-07-18 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答***的问句分类方法及装置 |
CN105260396A (zh) * | 2015-09-16 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 字词检索方法和装置 |
CN106294350A (zh) * | 2015-05-13 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN106407377A (zh) * | 2016-09-12 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN107562731A (zh) * | 2015-08-19 | 2018-01-09 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及*** |
CN108804594A (zh) * | 2018-05-28 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种新闻内容全文检索引擎的构建方法及装置 |
CN109241258A (zh) * | 2018-08-23 | 2019-01-18 | 江苏索迩软件技术有限公司 | 一种应用税务领域的深度学习智能问答*** |
CN109710742A (zh) * | 2018-12-27 | 2019-05-03 | 清华大学 | 一种个股公告自然语言查询处理的方法、***及设备 |
US20190236683A1 (en) * | 2018-01-30 | 2019-08-01 | Walmart Apollo, Llc | Transformation and aggregation engine |
-
2019
- 2019-08-30 CN CN201910816712.3A patent/CN110516157B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1622086A (zh) * | 2003-11-27 | 2005-06-01 | 国际商业机器公司 | 在计算机网络中搜索 |
CN1952928A (zh) * | 2005-10-20 | 2007-04-25 | 梁威 | 建立自然语言知识库及其自动问答检索的计算机*** |
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索***及其检索方法 |
CN102402566A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 基于中文网页自动分类技术的Web用户行为分析方法 |
CN102760436A (zh) * | 2012-08-09 | 2012-10-31 | 河南省烟草公司开封市公司 | 一种语音词库筛选方法 |
CN103793439A (zh) * | 2012-11-05 | 2014-05-14 | 腾讯科技(深圳)有限公司 | 一种实时检索信息获取方法、装置及服务器 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104102721A (zh) * | 2014-07-18 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答***的问句分类方法及装置 |
CN106294350A (zh) * | 2015-05-13 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
CN107562731A (zh) * | 2015-08-19 | 2018-01-09 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN105260396A (zh) * | 2015-09-16 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 字词检索方法和装置 |
CN106407377A (zh) * | 2016-09-12 | 2017-02-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及*** |
US20190236683A1 (en) * | 2018-01-30 | 2019-08-01 | Walmart Apollo, Llc | Transformation and aggregation engine |
CN108804594A (zh) * | 2018-05-28 | 2018-11-13 | 国家计算机网络与信息安全管理中心 | 一种新闻内容全文检索引擎的构建方法及装置 |
CN109241258A (zh) * | 2018-08-23 | 2019-01-18 | 江苏索迩软件技术有限公司 | 一种应用税务领域的深度学习智能问答*** |
CN109710742A (zh) * | 2018-12-27 | 2019-05-03 | 清华大学 | 一种个股公告自然语言查询处理的方法、***及设备 |
Non-Patent Citations (1)
Title |
---|
高峰 等: "智能电网大数据的分析与应用(英文)", 《电力建设》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287205A (zh) * | 2020-03-23 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa与ai的文献检索方法、装置、设备及存储介质 |
CN115879441A (zh) * | 2022-11-10 | 2023-03-31 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
CN115879441B (zh) * | 2022-11-10 | 2024-04-12 | 中国科学技术信息研究所 | 文本新颖性检测方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110516157B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158352B1 (ko) | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 | |
Van Ham et al. | Mapping text with phrase nets | |
AU2006272510B2 (en) | Patent mapping | |
Holden et al. | GeoDocA–Fast analysis of geological content in mineral exploration reports: A text mining approach | |
Velásquez et al. | DOCODE 3.0 (DOcument COpy DEtector): A system for plagiarism detection by applying an information fusion process from multiple documental data sources | |
Sriharee | An ontology-based approach to auto-tagging articles | |
WO2006015110A2 (en) | Patent mapping | |
CN115344666A (zh) | 政策匹配方法、装置、设备与计算机可读存储介质 | |
Sonbol et al. | Towards a semantic representation for functional software requirements | |
AU2012200701B2 (en) | Patent Mapping | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
Zouaoui et al. | A novel quranic search engine using an ontology-based semantic indexing | |
CN110516157A (zh) | 一种文献检索方法、设备和存储介质 | |
Luthfi et al. | Building an Indonesian named entity recognizer using Wikipedia and DBPedia | |
Malik et al. | NLP techniques, tools, and algorithms for data science | |
Rodosthenous et al. | Using generic ontologies to infer the geographic focus of text | |
Xiao et al. | An automatic approach for extracting process knowledge from the Web | |
Singh et al. | Query relational databases in Punjabi language | |
Guessoum et al. | Dealing with decisional natural language why-question in business intelligence | |
Kitamura et al. | An integrated tool For supporting ontology driven requirements elicitation | |
Aguiar et al. | Towards technological approaches for concept maps mining from text | |
Frank et al. | Building literary corpora for computational literary analysis-a prototype to bridge the gap between CL and DH | |
Bruggmann et al. | Spatializing a digital text archive about history | |
Wimalasuriya | Automatic text summarization for sinhala | |
Malak | Text Preprocessing: A Tool of Information Visualization and Digital Humanities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |