CN112925873A

CN112925873A - 面向文本搜索需求的形式化表达方法、装置及存储介质

Info

Publication number: CN112925873A
Application number: CN202110204034.2A
Authority: CN
Inventors: 蓝建敏; 申鑫
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-08

Abstract

本发明公开了一种面向文本搜索需求的形式化表达方法、装置及存储介质，该方法包括将搜索输入文本按照一定规范转换成词序列；通过统计方法，从所述词序列中提取热词和第一数集，所述热词为最能代表所述输入文本的词语，所述第一数集为表示各个所述词序列重要程度的数值集合；根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体；对所述本体进行分类成上位本体、下位本体和相关本体；根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重；构建搜索需求形式化表达模型的实例。本发明能够统一搜索类应用的开发、维护、扩展提供极大的便利，降低搜索服务的使用门槛；本发明可广泛应用于文本搜索技术领域。

Description

面向文本搜索需求的形式化表达方法、装置及存储介质

技术领域

本发明涉及文本搜索技术领域，尤其是一种面向文本搜索需求的形式化表达方法、装置及存储介质。

背景技术

通常，文本搜索输入(称为文本搜索需求)有两种形式：一是将所有搜索输入项列举出来，然后采用表格或树形结构展示，让用户逐个填写，搜索需求的表达形式是逻辑表达式；二是类似百度、搜狗、搜搜等互联网搜索引擎，通过提取用户输入内容中的关键词来进行搜索；其中，第一种形式是针对结构化数据的搜索，其逻辑性较强，通常采用逻辑表达式来表示搜索需求；第二种形式通常是针对非结构化数据，其搜索需求通常用关键词列表来表示。若要对结构化和非结构化数据进行统一搜索，则需要根据搜索方式的不同构建不同形式的搜索需求分别进行搜索，增加统一搜索类应用开发难度和复杂度，造成扩展和维护工作量巨大。对于第一种形式，需要将搜索需求按照搜索项做非常细致的拆分；第二种形式，通常对输入内容长度有限制，需要对搜索需求人工进行重点提取。因此这两类搜索的使用者局限于具备一定搜索技巧的人。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种面向文本搜索需求的形式化表达方法、装置及存储介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种面向文本搜索需求的形式化表达方法，包括：

将搜索输入文本按照一定规范转换成词序列，所述搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种；

通过统计方法，从所述词序列中提取热词和第一数集，所述热词为最能代表所述输入文本的词语，所述第一数集为表示各个所述词序列重要程度的数值集合；

根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体；

对所述本体进行分类成上位本体、下位本体和相关本体；

根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重；

构建搜索需求形式化表达模型的实例。

进一步地，所述方法还包括：

基于规则匹配和利用机器学习模型识别所述搜索输入文本的体裁。

进一步地，所述方法还包括：

当所述搜索输入文本为文书标题和文书目录组合时，将所述文书目录按层级进行分组，分组后的文书目录层级越低，通过语义映射和特征词匹配的方式查找到的对应的本体分配越高的权重。

进一步地，所述方法还包括：

对所述搜索输入文本中的短句进行语义分析，提取逻辑关系。

进一步地，所述根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体之后，所述方法还包括：

对本体库进行关系遍历，获取相关本体，所述相关本体为与本体相似度达到预设值的本体。

进一步地，所述根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重这一步骤，具体包括：

根据所述第一数集，按比例分配各所述上位本体的权重；

根据所述第一数集，分配各所述下位本体的权重并以0.5为系数缩减；

所述相关本体的权重平分所述相关本体对应的上位本体的权重。

进一步地，所述搜索需求形式化表达模型为包含两层的树状结构，其中，第一层包括多个上位本体，第二层包括各个所述上位本体包含的下位本体和相关本体。

进一步地，所述上位本体、下位本体和相关本体均由属性集合、需求权重、表达式集合构成；

所述属性集合包括属性名及属性值，所述属性集合用于表示本体自身特有的属性；

所述需求权重用于表示当前本体在搜索中的重要程度；

所述表达式集合包含多个逻辑表达式，每个所述逻辑表达式由属性名称、逻辑运算符、和属性值构成。

另一方面，本发明实施例还包括一种面向文本搜索需求的形式化表达装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的面向文本搜索需求的形式化表达方法。

另一方面，本发明实施例还包括计算机可读存储介质，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的面向文本搜索需求的形式化表达方法。

本发明的有益效果是：

本发明搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种，即支持多种形式的输入，针对不同形式输入采用有针对性的处理方法，能更加准确的获取搜索需求；然后从输入内容中提取最具代表性的词汇，并用权重表示其重要程度，能够降低搜索服务使用门槛的同时扩大适用范围；

此外，本发明通过构建的搜索需求形式化表达模型，能够对不同类型的搜索需求进行分类，在关键词匹配的基础上可以为用户提供更精准的搜索结果；同时也简化了搜索需求表达逻辑，使得用户不再需要了解搜素依赖的搜索服务需要何种形式的搜索需求，通过少量的开发和简单配置即可接入任何类型的搜索服务，为统一搜索类应用的开发、维护、扩展提供了极大的便利。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所述面向文本搜索需求的形式化表达方法的步骤流程图；

图2为本发明实施例所述构建搜索需求形式化表达模型的实例的流程图；

图3为本发明实施所述搜索需求形式化表达模型的结构示意图；

图4为本发明实施例所述面向文本搜索需求的形式化表达程序的结构示意图；

图5为本发明实施例所述面向文本搜索需求的形式化表达装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本申请实施例作进一步阐述。

参照图1，本发明实施例包括一种面向文本搜索需求的形式化表达方法，包括：

S1.将搜索输入文本按照一定规范转换成词序列，所述搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落中的至少一种；

S2.通过统计方法，从所述词序列中提取热词和第一数集，所述热词为最能代表所述输入文本的词语，所述第一数集为表示各个所述词序列重要程度的数值集合；

S3.根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体；

S4.对所述本体进行分类成上位本体、下位本体和相关本体；

S5.根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重；

S6.构建搜索需求形式化表达模型的实例。

关于步骤S1，本发明实施例中，将输入文本按照一定规范转换成词的序列；例如：输入文本为“电子信息工程毕业论文”，分词结果为“电子信息”“工程”“毕业论文”，根据不同的规范可以形成不同的词序列，例如本实施例采用全分词的方式，即词序列包含所有可能的词语，上述文本按全分词得到的词序列为“电子”“信息”“电子信息”“工程”“毕业”“论文”“毕业论文”。此外，输入文本还可以包括短句、关键词、文书标题、文书目录和文书段落等其他类型的内容。针对不同形式输入采用有针对性的处理方法，能更加准确的获取搜索需求；例如：相对于段落来说，标题更加能体现文书的中心思想，故从标题中提取的词或者本体的权重会高一些；对于标题和目录的组合，目录的层级越低，其语义越接近目录对于的文本的语义，故目录中提取的词或本体权重大于标题中提取的词或者本体，目录中提取的词或本体随着目录层级的加深而逐步上升。同时，通常的搜索都需要人为控制搜索内容尽可能的简练，要么限制输入长度，要么输入过长内容之后，无法准确识别最重要的搜索需求，造成搜索结果不精准。本发明对输入内容长度没有任何限制，根据输入自动提取最具代表性的词汇，并按重要程度分配权重，从而达到降低对输入内容的要求的同时能够保持较高精准度。

关于步骤S2，本实施例中，基于分词结果，通过统计方法，从所述词序列中提取热词和第一数集，所述热词为最能代表所述输入文本的词语，所述第一数集为表示各个所述词序列重要程度的数值集合；该步骤是针对段落等长文本的，当输入的内容较长时，为了能更准确的体现搜索需求，需要提取输入文本分词结果中最具代表性的词语，通常采用的算法包括TextRank、TF-IDF等。

关于步骤S3，本实施例中，基于热词分析或中文分词得到的词语集合，通过语义映射、特征词匹配的方式查找对应的本体；语义映射包括词语直接映射、同义词映射。例如：“清华大学”可以通过词语直接映射到本体“清华大学”；“北大”可以通过同义词映射到本体“北京大学”；特征词匹配由于精度问题，仅适合针对短文本的领域本体识别和提取，例如：凡是出现“学校”、“学生”等词语，可以推断本次搜索的相关领域为“教育”，从而可以提取本体“教育”作为搜索需求。

关于步骤S4，本实施例中，对步骤S3获取的本体，对所述本体进行分类成上位本体、下位本体和相关本体，具体地，获取其上位概念，然后按照上位概念分组；例如：针对“电子信息工程毕业论文”分词得到词序列“电子”“信息”“电子信息”“工程”“电子信息工程”“毕业”“论文”“毕业论文”，并找到对应的本体“电子”“信息”“电子信息”“工程”“毕业”“论文”“毕业论文”，根据嵌套情况，取“电子信息工程”、“毕业论文”做为正式词序列，依据其分类，取得上位本体为“客体”和“体裁”，在文本上被包含的本体为相关概念，如“电子信息”的下位本体为“电子”和”信息”；“毕业论文”的下位本体为“毕业”和“论文”。重组的目的是为了更好的体现搜索需求，其中上位本体体现需求的类型，相关本体对搜索需求的体现较差，所有权重较低，仅在对应下位本体没有命中时参与搜索。

关于步骤S5，也就是所述根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重这一步骤，具体包括：

S501.根据所述第一数集，按比例分配各所述上位本体的权重；

S502.根据所述第一数集，分配各所述下位本体的权重并以0.5为系数缩减；

S503.所述相关本体的权重平分所述相关本体对应的上位本体的权重。

本实施例中，相关本体权重平分其上层本体的权重，例如：本体1的权重为3.0，且有两个相关本体，则其相关本体的权重都是1.5。

关于步骤S6，本实施例中，构建得到的搜索需求形式化表达模型简化了搜索需求表达逻辑，不再需要了解搜素依赖的搜索服务需要何种形式的搜索需求，彻底同各个搜索服务/引擎解耦，通过少量的开发和简单配置即可接入任何类型的搜索服务，为统一搜索类应用的开发、维护、扩展提供了极大的便利；例如：对于只支持关键词的搜索服务，可以很方便的将需求模型转成词的序列用于搜索；对于支持逻辑表达式的搜索服务，可以从需求模型中提取逻辑表达式用于搜索。

可选地，所述面向文本搜索需求的形式化表达方法还包括：

S7.基于规则匹配和利用机器学习模型识别所述搜索输入文本的体裁。

本实施例中，基于规则匹配，利用机器学习模型识别搜索输入文本的体裁需求；例如：一个高校学生，输入“毕业论文”，其目的很明确就是想搜索别人的“论文”做参考；或者一个职员，输入“春节放假”，各类单位放假安排通常都是以“通知”的形式发布的。很多搜索输入都隐含了对搜索结果体裁的期望，上述例子中的“论文”“通知”就是搜索体裁需求，是搜索人对搜索结果体裁的需求。

可选地，所述面向文本搜索需求的形式化表达方法还包括：

S8.当所述搜索输入文本为文书标题和文书目录组合时，将所述文书目录按层级进行分组；

S9.分组后的文书目录层级越低，通过语义映射和特征词匹配的方式查找到的对应的本体分配越高的权重。

本实施例中，把文档目录按层级进行分组的步骤主要针对写作辅助场景下根据目录结构推荐内容。例如：针对某个目录推荐，会提取当前文档标题，当前目录的所有上级目录，从“文档标题”，加“上级目录”，加“当前目录”通过中文分词来提取搜索需求。

可选地，所述面向文本搜索需求的形式化表达方法还包括：

S9.对所述搜索输入文本中的短句进行语义分析，提取逻辑关系。

本实施例中，分析输入文本中短句的语义，提取逻辑关系，例如：通过对短句“2020年入户流程”分析，提取“入户流程”的概念，并包含一个逻辑表达式“发布年份等于2020年”。

可选地，步骤S3之后，也就是所述根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体之后，所述方法还包括：

本实施例中，通过对本体库进行关系遍历，可通过步骤S3获得相关概念；搜索时，可将在一定情况下等价或者相关度非常高的本体加入搜索可提升检索的广度，例如：搜索需求本体中包含“全国武术冠军”时，可将“李连杰”“吴京”等历届冠军加入搜索需求中。

参照图2，构建搜索需求形式化表达模型的实例过程包括3大场景，分别是普通搜索场景、写作/审核按目录收集材料场景和写作/审核按段收集材料场景，3大场景最后构造的“搜索需求本体”为搜索需求形式化表达模型。

参照图3，所述搜索需求形式化表达模型为包含两层的树状结构，其中，第一层包括多个上位本体，第二层包括各个所述上位本体包含的下位本体和相关本体。

本实施例中，搜索需求形式化表达模型的第一层包含上位本体1、上位本体2、……、上位本体q；其中，上位本体1又包含下位本体1、……、下位本体m，和相关本体1、……、相关本体n；同样地，上位本体2也可包含多个下位本体和多个相关本体。

所述上位本体、下位本体和相关本体均由属性集合、需求权重、表达式集合构成；其中，属性集合用于表示本体自身特有的属性，包括属性名及属性值，例如：张三全部属性中包含“姓名：张三”这样的一个属性；表达式集合可包含多个表达式，每个表达式由属性名称、逻辑运算符、属性值构成；表达式集合可用于描述逻辑表达式，如：属性(属性名：发布年份，逻辑操作符：大于，属性值：2017)标识发布年份晚于2017年。需求权重又为浮点数，用于表示当前本体在本次搜索中重要程度。

本实施例中，通过上位本体可用来区分不同类型的搜索需求，在关键词匹配的基础上可以为用户提供更精准的搜索结果。例如：上位本体中的如果存在“领域”本体，说明搜索的领域范围应符合需求模型中的领域限定，如搜索需求模型中包含“教育”领域，应尽量推荐”教育“领域的内容，而不是包含对应关键词的结果；再比如：上位本体中如果在存在“体裁”，则表示搜索结果的体裁应服务需求模型的体裁限定，如搜索需求模型中存在体裁“论文”，则尽量推荐体裁为“论文”的结果，而不是包含“论文”这个词的结果。

参照图4，本发明实施例还提供一种面向文本搜索需求的形式化表达程序，用于实现如图1所示的方法，具体地，该***包括数据层、基础能力支撑层、应用层和对外接口API；其中，数据层包括存储全部本体的本体库以及存储语义分析规则的规则库；基础能力支撑层由本***各类基础能力组件构成，包括本体查询匹配、规则匹配运算、机器学习模型识别、NLP分词工具、NLP语义分析工具、数学统计算法工具组成；应用层由关键词需求识别、短句需求识别、标题需求识别、目录需求识别、段落需求识别和篇章需求识别六类输入需求识别应用组成；对外接口(API)提供基于Http、RPC等协议的编程接口，将应用层能力对外开放。

本发明实施例所述面向文本搜索需求的形式化表达方法具有以下技术效果：

本发明实施例搜索输入文本包括短句、关键词、文书标题、文书目录和文书段落，即支持多种形式的输入，针对不同的输入采用有针对性的处理方法，能更加准确的获取搜索需求；然后从输入内容中提取最具代表性的词汇，并用权重表示其重要程度，能够降低搜索服务使用门槛的同时扩大适用范围；

此外，本发明实施例通过构建的搜索需求形式化表达模型，能够对不同类型的搜索需求进行分类，在关键词匹配的基础上可以为用户提供更精准的搜索结果；同时，也简化了搜索需求表达逻辑，使得用户不再需要了解搜素依赖的搜索服务需要何种形式的搜索需求，彻底同各个搜索服务/引擎解耦，通过少量的开发和简单配置即可接入任何类型的搜索服务，为统一搜索类应用的开发、维护、扩展提供了极大的便利。

参照图5，本发明实施例还包括一种面向文本搜索需求的形式化表达装置200，具体包括：

至少一个处理器210；

至少一个存储器220，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器210执行，使得所述至少一个处理器210实现如图1所示的方法。

其中，存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解到，图5中示出的装置结构并不构成对装置200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示的装置200中，处理器210可以调取存储器220中储存的程序，并执行但不限于图1所示实施例的步骤。

以上所描述的装置200实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如图1所示的方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种面向文本搜索需求的形式化表达方法，其特征在于，包括：

对所述本体进行分类成上位本体、下位本体和相关本体；

构建搜索需求形式化表达模型的实例。

2.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述根据所述词序列和所述热词，通过语义映射和特征词匹配的方式查找对应的本体之后，所述方法还包括：

6.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述根据所述第一数集，计算所述上位本体、下位本体和相关本体的权重这一步骤，具体包括：

根据所述第一数集，按比例分配各所述上位本体的权重；

7.根据权利要求1所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述搜索需求形式化表达模型为包含两层的树状结构，其中，第一层包括多个上位本体，第二层包括各个所述上位本体包含的下位本体和相关本体。

8.根据权利要求7所述的一种面向文本搜索需求的形式化表达方法，其特征在于，所述上位本体、下位本体和相关本体均由属性集合、需求权重、表达式集合构成；

所述需求权重用于表示当前本体在搜索中的重要程度；

9.一种面向文本搜索需求的形式化表达装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8任一项所述的方法。

10.计算机可读存储介质，其特征在于，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-8任一项所述的方法。