CN104077407A - 一种智能数据搜索***及方法 - Google Patents
一种智能数据搜索***及方法 Download PDFInfo
- Publication number
- CN104077407A CN104077407A CN201410327035.6A CN201410327035A CN104077407A CN 104077407 A CN104077407 A CN 104077407A CN 201410327035 A CN201410327035 A CN 201410327035A CN 104077407 A CN104077407 A CN 104077407A
- Authority
- CN
- China
- Prior art keywords
- search
- intention
- user
- input message
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机信息***中的数据处理领域,特别涉及一种智能数据搜索***及方法。其中方法包括,获取搜索输入信息;根据所述搜索输入信息识别出搜索意图;根据所述搜索输入信息和搜索意图在数据库中进行搜索。通过上述实施例中的方法及***,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
Description
技术领域
本发明涉及计算机信息***中的数据处理领域,特别涉及一种智能数据搜索***及方法。
背景技术
搜索引擎为用户提供了一个快速查找信息***中海量资源的渠道。然而传统的通用搜索引擎中,由于其要适用广泛的要求,其智能性往往不高。因为提高其智能性必定大幅降低搜索的效率,让搜索引擎不堪重负。因此,通用的搜索引擎在信息查找时往往存在很多的缺陷,大多数用户并不能十分准确地用查询词表达自己的搜索意图,而使得搜索引擎无法提供精准、高效、个性化的搜索服务,甚至根本就搜索不到用户真正需要查找的信息。
本发明的发明人发现现有技术中至少包括以下两方面的问题:
无法理解用户输入的查询词所涉及的领域并进行针对性的搜索和展现。如搜索引擎应理解用户输入的是一个人名,还是产品名称,还是客户名称。虽然可用高级搜索方式代替,但通过填写一张表格的方式来完成搜索过于繁琐,不被大多数用户所接受。
无法理解用户潜在的个性化需求。不同用户即使输入相同的查询词,需求往往也是不同的,过于通用的搜索结果将导致用户难以在大量的搜索结果中找到自己确切要找的信息。
发明内容
为了解决现有技术中搜索不够智能的问题,本发明的目的是采用更智能的搜索方法,识别用户的搜索意图,识别用户输入的查询词所属领域,进行针对性的搜索和展现;并且识别用户的个性化偏好,通过排序的方式优先返回最满足用户潜在意图的搜索结果。
本发明实施例提供了一种智能数据搜索方法,包括,
获取搜索输入信息;
根据所述搜索输入信息识别出搜索意图;
根据所述搜索输入信息和搜索意图在数据库中进行搜索。
根据本发明实施例所述一种智能数据搜索方法的一个进一步的方面,所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
根据本发明实施例所述一种智能数据搜索方法的再一个进一步的方面,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
根据本发明实施例所述一种智能数据搜索方法的另一个进一步的方面,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。
本发明实施例还提供了一种智能数据搜索***,
包括输入单元,搜索意图识别单元,搜索单元;
所述输入单元,用于获取搜索输入信息;
所述搜索意图识别单元,用于根据所述搜索输入信息识别出搜索意图;
所述搜索单元,用于根据所述搜索输入信息和搜索意图在数据存储单元中进行搜索。
根据本发明实施例所述一种智能数据搜索***的一个进一步的方面,所述搜索意图识别单元进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
根据本发明实施例所述一种智能数据搜索***的再一个进一步的方面,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
根据本发明实施例所述一种智能数据搜索***的另一个进一步的方面,还包括预分析单元,与所述数据存储单元相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
根据本发明实施例所述一种智能数据搜索***的另一个进一步的方面,还包括用户偏好计算单元,分别与搜索单元和数据存储单元相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
根据本发明实施例所述一种智能数据搜索***的另一个进一步的方面,还包括用户日志采集单元和用户偏好分析单元,所述用户日志采集单元与所述数据存储单元相连接,记录用户日常操作的偏好并存储于所述数据存储单元中,所述用户偏好分析单元与所述数据存储单元相连接,统计所述数据存储单元中的记录结果得到该用户对各个维度的偏好值。
通过上述实施例中的方法及***,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1所示为本发明实施例一种智能数据搜索方法的流程图;
图2所示为本发明实施例一种智能数据搜索***的结构图;
图3所示为本发明实施例一种智能数据搜索方法的具体流程图;
图4所示为上述步骤302的具体流程图;
图5所示为本发明实施例二元模型训练流程图;
图6所示为本发明实施例关于偏好计算和处理的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如图1所示为本发明实施例一种智能数据搜索方法的流程图。
包括步骤101,获取搜索输入信息。例如可以为包括至少一个字符的搜索关键字。
步骤102,根据所述搜索输入信息识别出搜索意图。
步骤103,根据所述搜索输入信息和搜索意图在数据库中进行搜索。
作为本发明的一个实施例,所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
作为本发明的一个实施例,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
作为本发明的一个实施例,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
作为本发明的一个实施例,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
作为本发明的一个实施例,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。其中,日常操作包括对搜索结果的选择、点击、收藏等操作。
通过上述本发明实施例的智能数据搜索方法,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
如图2所示为本发明实施例一种智能数据搜索***的结构图。
包括输入单元201,搜索意图识别单元202,搜索单元203。
所述输入单元201,用于获取搜索输入信息。
所述搜索意图识别单元202,用于根据所述搜索输入信息识别出搜索意图。
所述搜索单元203,用于根据所述搜索输入信息和搜索意图在数据存储单元204中进行搜索。
作为本发明的一个实施例,所述搜索意图识别单元202进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
作为本发明的一个实施例,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
作为本发明的一个实施例,还包括预分析单元205,与所述数据存储单元204相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
作为本发明的一个实施例,还包括用户偏好计算单元206,分别与搜索单元203和数据存储单元204相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
作为本发明的一个实施例,还包括用户日志采集单元207和用户偏好分析单元208,所述用户日志采集单元207与所述数据存储单元204相连接,记录用户日常操作的偏好并存储于所述数据存储单元204中,所述用户偏好分析单元208与所述数据存储单元204相连接,统计所述数据存储单元204中的记录结果得到该用户对各个维度的偏好值。
所述用户日志采集单元207通过日志的形式记录用户所点击的搜索结果中所包含的文档编号及各维度数据并传递至数据存储单元204。
所述数据存储单元204存储的搜索引擎索引信息供搜索单元203进行索引检索;接收用户日志采集单元207传递的收集到的日志数据并进行存储;传递语料数据及用户日志数据至预分析单元205和用户偏好分析单元208供特征分析,并将统计分析得的数据保存到数据存储单元204;将所述预分析单元205分析得到的数据传递给搜索意图识别单元202以进行搜索意图识别。
所述搜索单元203还进一步将搜索结果呈献给用户,在具有用户偏好计算单元的实施例中,还可以将经过偏好排序后的搜索结果发送给用户端计算机浏览器或者相关用户界面进行呈现。
所述搜索意图识别单元202,负责确定用户输入的查询词属于哪个意图领域,如在企业级信息***中,往往有“人物”、“产品”、“客户”、“规章制度”等领域,确定领域后,即可采用具有针对性的搜索及展现方式。该搜索意图识别单元202通过二元模型计算用户输入的查询词属于各个意图领域的概率,并确定概率最大的意图类别。处理过程如下:
假设S表示用户输入的查询词,由一串字符w1,w2,w3…wn组成,n为查询词的长度,S属于某个领域的概率,即为S在该领域中出现的概率:
P(S)=P(w1,w2,w3,…,wn)
假设查询词中任意一个字符wi出现的概率只同它前面的字符wi-1有关,于是该式的展开计算可简化为:
P(S)=P(w1)*P(w2|w1)*P(w3|w2)*…*P(wn|wn-1)
其中P(w2|w1)表示在已知w1在领域中出现的前提下,w2接连出现的条件概率。
根据条件概率的计算定义可得:
P(wi|wi-1)=P(wi-1,wi)/P(wi-1)
由于根据大数定理,只要统计量足够,相对频度就等于概率,将上式转换为相对频率的计算方式,即:
P(wi-1,wi)=#(wi-1,wi)/#
P(wi-1)=#(wi-1)/#
其中#代表用于训练某个领域的二元模型所使用的语料总大小,#(wi-1)表示wi-1在该领域中一共出现了多少次,#(wi-1,wi)则表示wi-1,wi前后相邻的出现了多少次。
因此,P(wi|wi-1)=#(wi-1,wi)/#(wi-1)
综上所述,查询词S属于某个领域的概率可展开为:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中的各项统计值都由预分析单元205所事先统计计算获得,并存储在数据存储单元204,联机查询时直接查找即得,减少联机计算量。或者该统计值可以由搜索意图识别单元202实时从数据存储单元中统计计算获得。
举例:当用户输入“制度规范”时,分别对每个领域计算以下概率:
P(制度规范)=#制/#*#(制度)/#制*#(度规)/#度*#(规范)/#规
搜索意图识别单元202计算得到“制度规范”针对于各个意图领域的概率,通过比较最终可得“制度规范”属于“规章制度”领域的概率最大。
对于各个领域分别计算P(S),并降序排序,概率最大的领域即为S所属可能性最大的领域。
在所述数据存储单元204中存储有各个意图领域的特征信息,包括各个单字、二元组在领域训练语料中出现的次数,以及领域训练语料的总大小等;
用户对每个搜索结果的历史浏览、收藏日志,记录每个搜索结果的各维度取值信息,如下表1所示:
表1:用户日志表
日期 | 操作类型 | 文档编号 | 用户编号 | 维度1:行业 | 维度2:地域 | 维度3:来源 |
3-17 | 浏览 | 文档1 | 用户1 | 零售 | 上海 | 内部 |
3-17 | 浏览 | 文档2 | 用户1 | 金融 | 海外 | 外部 |
3-17 | 收藏 | 文档1 | 用户1 | 零售 | 北京 | 外部 |
3-16 | 收藏 | 文档1 | 用户1 | 教育 | 广州 | 内部 |
3-16 | 浏览 | 文档3 | 用户2 | 建筑 | 上海 | 内部 |
还存储用户各个维度的偏好值;
存储搜索引擎待检索的索引;
存储各项参数,包括搜索意图领域信息、用户偏好计算维度及权重信息;
存储用于训练二元模型的各领域语料数据,语料数据从搜索引擎待检索内容中获取而来,将随着待检索内容的变化而增量更新。
所述预分析单元205,用各个意图领域所涉及到的语料对二元模型进行训练。统计各单字、二元组在训练语料中出现的数量以及语料总字数,存储数据存储单元204,供搜索意图识别单元在联机查询时快速计算查询词属于各个领域的概率。
所述用户偏好计算单元206,负责从数据存储单元204中获取用户对各个维度的偏好值,并读取每个维度的权重值,根据当前搜索结果中所包含的各个维度中的数据,计算当前用户对每条搜索结果的综合偏好数值,并以此对搜索结果进行排序。
综合偏好数值的计算方法如下:
z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为当前用户对每条记录的n个维度偏好值;a1,a2,…,an为每个维度的权重值。
其中的偏好值是由用户偏好分析单元208根据用户的历史浏览、收藏记录,对每个用户的操作进行分析得到。首先从数据存储单元204中读取各种用户操作的类型(针对日志记录的不同操作进行加权计算,得到用户对某一属性的偏好值),如浏览一条搜索结果,用户对该维度该记录属性的偏好值累加1分,而收藏一条搜索结果累加5分(即根据用户对记录的操作不同累加的偏好值也不相同)。在分析后,将各项偏好值存储在数据存储单元204中。以下以“地域”为维度举例,根据分析构建“用户-地域”二维矩阵,表示用户对各个地域中的信息的偏好值:
表2各维度的偏好值列表
上海 | 北京 | 广州 | 海外 | |
用户1 | 12 | 94 | 5 | 2 |
用户2 | 135 | 27 | 34 | 4 |
用户3 | 5 | 5 | 245 | 23 |
用户4 | 58 | 45 | 2 | 2 |
用户5 | 95 | 45 | 23 | 5 |
若单一维度的偏好值偏大,可能会使其他维度的偏好值淹没在其中而无法发挥作用,故使用线性函数的转换方式对该二维矩阵进行归一化处理:
y=(x-MinValue)/(MaxValue-MinValue)
其中,y为归一化后的偏好值,x为当前维度的偏好值,MinValue为该用户所有维度的偏好值最小值,MaxValue为该用户所有维度的偏好值最大值。
将归一化后的结果存储在数据存储单元中:如表3所示
表3归一化后的偏好值
上海 | 北京 | 广州 | 海外 | |
用户1 | 0.1086 | 1 | 0.0326 | 0 |
用户2 | 1 | 0.1755 | 0.2595 | 0 |
用户3 | 0 | 0 | 1 | 0.075 |
用户4 | 1 | 1 | 0.7678 | 0 |
用户5 | 1 | 0.44 | 0.2 | 0 |
如图3所示为本发明实施例一种智能数据搜索方法的具体流程图。
步骤301,用户输入查询词,传递给搜索意图识别单元202进行领域识别。
步骤302,搜索意图识别单元202通过二元模型计算用户输入的查询词属于各个领域的概率,并确定概率最大的领域为查询词最可能涉及的领域,将这个领域的编号传递至数据存储单元204。
步骤303,数据存储单元204通过领域编号查得对应领域的搜索范围和展现方式,并将查询词、领域、展现方式传递至搜索单元203进行搜索。
步骤304,搜索单元203根据接收到的查询词、领域、搜索范围在数据存储单元204中进行查找,将符合条件的搜索结果传递至用户偏好计算单元206进行个性化的排序。
步骤305,用户偏好计算单元206根据数据存储单元204中的用户对各个维度的偏好值和每个维度的权重值,计算用户对每条搜索结果的综合偏好值,并根据所述综合偏好值降序排序,返回给搜索单元203。
步骤306,搜索单元203将排序后的搜索结果,根据展现方式展现给用户。
如图4所示为上述步骤302的具体流程图。
包括步骤401,搜索意图识别单元202获取用户输入的查询词,可表示为字符的序列:S=w1,w2,w3,…,wn。
步骤402,搜索意图识别单元202从数据存储单元204中逐个读取意图领域信息。
步骤403,搜索意图识别单元202从数据存储单元204中获取第一个字符在该领域中的出现次数#w1以及该领域的总字符数#。通过#w1/#计算第一个字符在该领域中出现的概率P(w1)。在本步骤中的字符出现次数、该领域的总字符数等数据均可以由预分析单元205在***空闲时间段统计得出。
步骤404,搜索意图识别单元202从数据存储单元204中逐个获取查询词S中出现的每个字在该领域中出现的次数#w1,#w2,#w3,…,#wn,及相邻两个字符出现的次数#(w1,w2),#(w2,w3),…,#(wn-1,wn)。逐个计算在前一个字符出现的前提下,后一个字符出现的概率值P(wi|wi-1)=#(wi-1,wi)/#(wi-1)。
步骤405,将上述算得的各项概率值相乘即得到P(S)=P(w1)*P(w2|w1)*P(w3|w2)…P(wn|wn-1)的计算结果,表示查询词S在该领域中出现的概率。
步骤406,判断是否是最后一个意图领域,若是,则执行步骤407,否则重复执行步骤402,读取下一个意图领域。
步骤407,对查询词属于每个意图领域的概率进行排序,将概率最大的领域编号传递至数据存储单元204。
如图5所示为本发明实施例二元模型训练流程图。
该流程的目的是采用批量的方式,使用每个意图领域所涉及到的语料训练二元模型,使得二元模型具有识别该领域特征的能力,也就是预分析单元205对数据存储单元中的语料进行的分析处理过程。
包括步骤501,预分析单元205从数据存储单元204中逐个读取意图领域信息。
步骤502,将意图领域编号传递至数据存储单元204,获取该领域所涉及语料的存放位置。
步骤503,从数据存储单元204中读取该意图领域所涉及到的相关语料。
步骤504,将读取到的语料按分隔符拼接成一个意图特征字符串。
步骤505,统计字符串中每个单字出现的次数。
步骤506,统计字符串中每个二元组(相邻两个字符组成的字符组)出现的次数。
步骤507,统计字符串的总字数。
步骤508,将该意图领域的各项统计结果传递至数据存储单元204进行存储。
步骤509,判断是否已经是最后一个意图领域,若是,则结束,否则重复执行步骤,501,读取下一个意图领域进行训练。
如图6所示为本发明实施例关于偏好值计算和处理的流程图。
该流程的目的是采用批量的方式,通过对用户浏览过的历史记录进行分析,偏好值分析用户的偏好值并进行存储,供联机搜索时调用。
其中偏好值:用户对某个维度下的属性的偏好,如用户1对地域维度下的“上海”的偏好是30,对格式维度下的“pdf”偏好度是15。
权重值:各维度的重要性,如地域是最重要的,给他设定权重值较大,其他维度如类型、格式重要度较低,权重值可以给个比较低的。
综合偏好值:用户对某个搜索结果(文档)的多个维度的偏好值及各维度权重进行加权计算得到的综合值,如用户对文档1的综合偏好值20,对文档2的综合偏好值15,搜索时,文档1就排在前面。
包括步骤601,用户偏好分析单元208从数据存储单元204中逐个提取偏好维度的编号、名称等信息。
步骤602,通过用户日志采集单元207获取的用户操作信息存储于数据存储单元204,用户偏好分析单元208读取各用户的历史浏览记录,并结合用户针对该浏览记录的具体操作类型(点击、收藏等)计算各用户该维度的偏好值。
步骤603,将各用户该维度的偏好值进行归一化处理。
步骤604,判断是否是最后一个维度,若是,则执行步骤605,否则重复执行步骤601,针对下一个维度进行计算。
步骤605,将各项偏好值存储于数据存储单元204。
步骤606,在后续的偏好值计算过程中,偏好计算单元206根据用户的偏好值和各维度的权重值计算出搜索结果的综合偏好值,根据该综合偏好值对搜索结果进行排序。其中,权重值预置在所述数据存储单元204中,权重信息是根据业务需求来设定的,比如某公司的搜索引擎,上海分公司的人员往往查看上海的文档多,北京的人员往往查看北京的文档多,有明显的地域需求特性,就可以把地域这个维度的权重值加大。
通过上述本发明实施例的智能数据搜索***,将使搜索引擎通过查询关键字等搜索输入的意图领域,针对性的搜索和展现;并通过用户的偏好识别,理解用户潜在的、个性化的搜索需求,通过排序的方式优先返回最符合用户需要的搜索结果。以此提高查询效率、准确度,提升用户在使用搜索引擎进行搜索时的用户体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种智能数据搜索方法,其特征在于包括,
获取搜索输入信息;
根据所述搜索输入信息识别出搜索意图;
根据所述搜索输入信息和搜索意图在数据库中进行搜索。
2.根据权利要求1所述的一种智能数据搜索方法,其特征在于,所述根据所述搜索输入信息识别出搜索意图进一步包括,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
3.根据权利要求2所述的一种智能数据搜索方法,其特征在于,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
4.根据权利要求1所述的一种智能数据搜索方法,其特征在于,在根据所述搜索输入信息识别出搜索意图之前还包括,在空闲时间段统计字符在所有意图领域的出现次数。
5.根据权利要求1所述的一种智能数据搜索方法,其特征在于,在根据所述搜索输入信息和搜索意图在数据库中进行搜索之后还包括,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序;
其中,z=a1x1+a2x2+a3x3…anxn
其中,z为每条检索结果的综合偏好数值,x1,x2,…xn为用户对n个维度取值的偏好值;a1,a2,…,an为每个维度的权重值。
6.根据权利要求1所述的一种智能数据搜索方法,其特征在于,获取用户对各个维度的偏好值和每个维度的权重值之前还包括,记录用户日常操作的偏好,统计记录结果得到该用户对各个维度的偏好值。
7.一种智能数据搜索***,其特征在于,
包括输入单元,搜索意图识别单元,搜索单元;
所述输入单元,用于获取搜索输入信息;
所述搜索意图识别单元,用于根据所述搜索输入信息识别出搜索意图;
所述搜索单元,用于根据所述搜索输入信息和搜索意图在数据存储单元中进行搜索。
8.根据权利要求7所述的一种智能数据搜索***,其特征在于,所述搜索意图识别单元进一步用于,计算所述搜索输入信息针对于各个意图领域的概率,所述概率最高的一个或者几个意图领域为所述搜索意图。
9.根据权利要求8所述的一种智能数据搜索***,其特征在于,所述计算所述搜索输入信息针对于各个意图领域的概率进一步包括,通过以下公式识别搜索输入信息在某个意图领域的概率:
P(S)=#(w1)/#*#(w1,w2)/#(w1)*#(w2,w3)/#(w2)*…*#(wi-1,wi)/#(wi-1)
其中,P(S)为所述搜索输入信息在某个意图领域的概率,S为所述搜索输入信息,由w1,w2,w3…wn字符组成,#为某个意图领域语料总大小,#(wi-1)表示wi-1在某个意图领域中出现的次数,#(wi-1,wi)则表示wi-1,wi前后相邻的出现次数。
10.根据权利要求7所述的一种智能数据搜索***,其特征在于,还包括预分析单元,与所述数据存储单元相连接,用于在空闲时间段统计字符在所有意图领域的出现次数。
11.根据权利要求7所述的一种智能数据搜索***,其特征在于,还包括用户偏好计算单元,分别与搜索单元和数据存储单元相连接,获取用户对各个维度的偏好值和每个维度的权重值,根据所述偏好值和每个维度的权重值计算每条检索结果的综合偏好数值,并根据该综合偏好值对搜索结果进行排序。
12.根据权利要求11所述的一种智能数据搜索***,其特征在于,还包括用户日志采集单元和用户偏好分析单元,所述用户日志采集单元与所述数据存储单元相连接,记录用户日常操作的偏好并存储于所述数据存储单元中,所述用户偏好分析单元与所述数据存储单元相连接,统计所述数据存储单元中的记录结果得到该用户对各个维度的偏好值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410327035.6A CN104077407B (zh) | 2014-07-10 | 2014-07-10 | 一种智能数据搜索***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410327035.6A CN104077407B (zh) | 2014-07-10 | 2014-07-10 | 一种智能数据搜索***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104077407A true CN104077407A (zh) | 2014-10-01 |
CN104077407B CN104077407B (zh) | 2017-06-16 |
Family
ID=51598661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410327035.6A Active CN104077407B (zh) | 2014-07-10 | 2014-07-10 | 一种智能数据搜索***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077407B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715066A (zh) * | 2015-03-31 | 2015-06-17 | 北京奇虎科技有限公司 | 一种搜索优化方法、装置和*** |
CN105760381A (zh) * | 2014-12-16 | 2016-07-13 | 深圳市腾讯计算机***有限公司 | 搜索结果处理方法及装置 |
WO2017016122A1 (zh) * | 2015-07-29 | 2017-02-02 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN107515857A (zh) * | 2017-08-31 | 2017-12-26 | 科大讯飞股份有限公司 | 基于定制技能的语义理解方法及*** |
CN108256957A (zh) * | 2017-12-22 | 2018-07-06 | 金瓜子科技发展(北京)有限公司 | 基于用户历史行为的车源搜索结果的展现方法及装置 |
CN109660580A (zh) * | 2017-10-11 | 2019-04-19 | 苏州跃盟信息科技有限公司 | 一种信息推送方法及装置 |
CN109951512A (zh) * | 2019-01-09 | 2019-06-28 | 平安科技(深圳)有限公司 | 用户偏好确定方法、***、电子设备及存储介质 |
WO2020019563A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
CN111552768A (zh) * | 2020-03-26 | 2020-08-18 | 平安医疗健康管理股份有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN111737423A (zh) * | 2020-08-26 | 2020-10-02 | 北京声智科技有限公司 | 领域识别方法、装置、电子设备及存储介质 |
CN113672791A (zh) * | 2020-05-13 | 2021-11-19 | 北京沃东天骏信息技术有限公司 | 一种确定搜索结果顺序的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050004902A1 (en) * | 2003-07-02 | 2005-01-06 | Oki Electric Industry Co., Ltd. | Information retrieving system, information retrieving method, and information retrieving program |
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102467541A (zh) * | 2010-11-11 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种情境搜索方法及*** |
US20120173542A1 (en) * | 2010-12-30 | 2012-07-05 | Nhn Corporation | System and method for determining ranking of keywords for each user group |
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和*** |
CN103177087A (zh) * | 2013-03-08 | 2013-06-26 | 浙江大学 | 一种基于概率主题模型的相似中药检索方法 |
US8620951B1 (en) * | 2012-01-28 | 2013-12-31 | Google Inc. | Search query results based upon topic |
-
2014
- 2014-07-10 CN CN201410327035.6A patent/CN104077407B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050004902A1 (en) * | 2003-07-02 | 2005-01-06 | Oki Electric Industry Co., Ltd. | Information retrieving system, information retrieving method, and information retrieving program |
WO2010144618A1 (en) * | 2009-06-09 | 2010-12-16 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
CN102467541A (zh) * | 2010-11-11 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 一种情境搜索方法及*** |
US20120173542A1 (en) * | 2010-12-30 | 2012-07-05 | Nhn Corporation | System and method for determining ranking of keywords for each user group |
US8620951B1 (en) * | 2012-01-28 | 2013-12-31 | Google Inc. | Search query results based upon topic |
CN102880723A (zh) * | 2012-10-22 | 2013-01-16 | 深圳市宜搜科技发展有限公司 | 一种识别用户检索意图的搜索方法和*** |
CN103177087A (zh) * | 2013-03-08 | 2013-06-26 | 浙江大学 | 一种基于概率主题模型的相似中药检索方法 |
Non-Patent Citations (3)
Title |
---|
刘未鹏: "数学之美番外篇:平凡而又神奇的贝叶斯方法", 《HTTP://MINDHACKS.CN/2008/09/21/THE-MAGICAL-BAYESIAN-METHOD》 * |
张文进: "文本信息检索中的概率模型", 《情报检索》 * |
郑炜等: "面向用户意图的智能搜索引擎框架研究", 《现代图书情报技术》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760381B (zh) * | 2014-12-16 | 2019-08-13 | 深圳市腾讯计算机***有限公司 | 搜索结果处理方法及装置 |
CN105760381A (zh) * | 2014-12-16 | 2016-07-13 | 深圳市腾讯计算机***有限公司 | 搜索结果处理方法及装置 |
WO2016155384A1 (zh) * | 2015-03-31 | 2016-10-06 | 北京奇虎科技有限公司 | 一种搜索优化方法、装置和*** |
CN104715066B (zh) * | 2015-03-31 | 2017-04-12 | 北京奇付通科技有限公司 | 一种搜索优化方法、装置和*** |
CN104715066A (zh) * | 2015-03-31 | 2015-06-17 | 北京奇虎科技有限公司 | 一种搜索优化方法、装置和*** |
WO2017016122A1 (zh) * | 2015-07-29 | 2017-02-02 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN107515857B (zh) * | 2017-08-31 | 2020-08-18 | 科大讯飞股份有限公司 | 基于定制技能的语义理解方法及*** |
CN107515857A (zh) * | 2017-08-31 | 2017-12-26 | 科大讯飞股份有限公司 | 基于定制技能的语义理解方法及*** |
CN109660580A (zh) * | 2017-10-11 | 2019-04-19 | 苏州跃盟信息科技有限公司 | 一种信息推送方法及装置 |
CN109660580B (zh) * | 2017-10-11 | 2021-06-22 | 苏州跃盟信息科技有限公司 | 一种信息推送方法及装置 |
CN108256957A (zh) * | 2017-12-22 | 2018-07-06 | 金瓜子科技发展(北京)有限公司 | 基于用户历史行为的车源搜索结果的展现方法及装置 |
WO2020019563A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
US11194822B2 (en) | 2018-07-27 | 2021-12-07 | Tianjin Bytedance Technology Co., Ltd. | Search ranking method and apparatus, electronic device and storage medium |
CN109951512A (zh) * | 2019-01-09 | 2019-06-28 | 平安科技(深圳)有限公司 | 用户偏好确定方法、***、电子设备及存储介质 |
CN109951512B (zh) * | 2019-01-09 | 2022-01-28 | 平安科技(深圳)有限公司 | 用户偏好确定方法、***、电子设备及存储介质 |
CN111552768A (zh) * | 2020-03-26 | 2020-08-18 | 平安医疗健康管理股份有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN111552768B (zh) * | 2020-03-26 | 2022-07-19 | 深圳平安医疗健康科技服务有限公司 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
CN113672791A (zh) * | 2020-05-13 | 2021-11-19 | 北京沃东天骏信息技术有限公司 | 一种确定搜索结果顺序的方法和装置 |
CN111737423A (zh) * | 2020-08-26 | 2020-10-02 | 北京声智科技有限公司 | 领域识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104077407B (zh) | 2017-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104077407A (zh) | 一种智能数据搜索***及方法 | |
CN102236663B (zh) | 一种基于垂直搜索的查询方法、***和装置 | |
CN102053983B (zh) | 一种垂直搜索的查询方法、***和装置 | |
CN106296059B (zh) | 派送网点确定方法及设备 | |
CN103049433B (zh) | 自动问答方法、自动问答***及构建问答实例库的方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
CN103514181B (zh) | 一种搜索方法和装置 | |
CN107729336A (zh) | 数据处理方法、设备及*** | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及*** | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐***及方法 | |
CN111008265A (zh) | 企业信息搜索方法及装置 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN102456058A (zh) | 类目信息提供方法及装置 | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
CN112818230B (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN104021125A (zh) | 一种搜索引擎排序的方法、***以及一种搜索引擎 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及*** | |
CN109885651B (zh) | 一种问题推送方法和装置 | |
CN104268247A (zh) | 一种基于模糊层次分析的主数据归集方法 | |
CN111310032A (zh) | 资源推荐方法、装置、计算机设备及可读存储介质 | |
CN115423555A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
Cho et al. | Mining association rules using RFM scoring method for personalized u-commerce recommendation system in emerging data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |