CN103020311B - 一种用户检索词的处理方法及*** - Google Patents

一种用户检索词的处理方法及*** Download PDF

Info

Publication number
CN103020311B
CN103020311B CN201310005804.6A CN201310005804A CN103020311B CN 103020311 B CN103020311 B CN 103020311B CN 201310005804 A CN201310005804 A CN 201310005804A CN 103020311 B CN103020311 B CN 103020311B
Authority
CN
China
Prior art keywords
term
vocabulary
word
user
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310005804.6A
Other languages
English (en)
Other versions
CN103020311A (zh
Inventor
车天文
雷大伟
石志伟
周步恋
杨振东
王更生
王喜民
何宏靖
徐忆苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen easou world Polytron Technologies Inc
Original Assignee
Shenzhen Yisou Science & Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yisou Science & Technology Development Co Ltd filed Critical Shenzhen Yisou Science & Technology Development Co Ltd
Priority to CN201310005804.6A priority Critical patent/CN103020311B/zh
Publication of CN103020311A publication Critical patent/CN103020311A/zh
Application granted granted Critical
Publication of CN103020311B publication Critical patent/CN103020311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息检索领域,提供了一种用户检索词的处理方法,包括,建立与识别用户检索的核心词相关的资源库;对用户输入的检索词进行基本分层;将所述基本分层后的检索词进行实体引入;输出识别出的检索词的层次结构。本发明还提供了一种用户检索词的处理***。采用本发明的技术方案,保障实体提取的准确率,以避免了仅仅依靠词汇来考察层次造成的局部最优问题,和仅仅依靠整体研究句子结构造成的对特殊实体识别不足的问题。最终又借助从属关系进一步优化检索语句的核心词,识别用户句子的核心词汇,为搜索引擎提供尽可能多的信息支持。同时不完全依赖于线上搜索引擎的结果信息,更易于操作实现。<!--1-->

Description

一种用户检索词的处理方法及***
技术领域
本发明涉及信息检索领域,特别地涉及一种用户检索词的处理方法及***。
背景技术
搜索引擎的出现,让用户有了可以从海量数据中查找、获取信息的工具。但是并非每位用户都了解搜索引擎的原理,所以大多数的用户在使用搜索引擎时,一般是自己组织查询语句来搜索,而且认为输入的查询词越多,越详细就越能获取满意的搜索结果。而事实上却未必,一方面,基于性能考虑,搜索引擎对用户输入的查询语句有最大长度限制,超过最大长度就会截断,只用部分去检索。另一方面,在其返回的结果中,只要带有检索词的都会返回,包含大量的无关信息,准确率低下,不能命中用户的真正意图。
而且,现在的搜索引擎会根据用户输入而引进商家广告作为一种收入的手段。但有时打出的广告却与用户输入信息风马牛不相及。主要原因还是搜索引擎未能识别用户的核心需求,只是命中了用户检索的部分查询词。
所以,如何能让搜索结果更满足用户的要求,更贴近用户本质需求,就要理解用户输入的检索信息。考虑现实语言的复杂性,用户输入的检索语句会有很多的用于限定的词语,而这些词语本身对于检索的实际意义不大。故搜索引擎需要识别检索的核心部分或者主干部分,让搜索结果中命中的是用户检索语句的核心词,主干词,而非命中的是一些意义不大的丢弃词或修饰词。如何从用户的搜索需求中提取相应的核心词,成为目前搜索引擎中检索词(Query)分析急需解决的问题之一。
当用户输入自己的检索语句,搜索引擎可以自动对该语句做分析,识别用户检索输入的核心词,核心词必须要命中才出搜索结果;识别用户输入的丢弃词或修饰词,这类词有或没有命中结果都不会有何影响。如此就可以让展现出的检索结果(包括广告)更能满足用户的核心需求。
截止目前为止,有关搜索引擎识别用户检索核心词方面的方案较少,归纳起来不外乎以下几种,一种是基于事后搜索结果的点击信息来提取相应的核心词;另外一种是基于词语架构分析汉语语义。
例如,中国专利CN102043845A的专利提供了一种用于基于查询序列簇提取核心关键词的方法与设备,包括,当网络中出现大量相同的用户点击的搜索结果的搜索需求时,这些搜索需求往往反映的是相同的主题。通过获取多个查询序列的查询序列簇,每个查询序列至少对应一个相同的用户点击的搜索结果,来提取相应的核心关键词,获得了输入该查询序列簇中的查询序列的用户的搜索需求,还可以根据该核心关键词为用户提供更为贴近的搜索建议或者相关的搜索需求,使得用户获得更好的搜索体验。其不足之处在于:首先对搜索引擎要求高,要求其性能、效果稳定,搜索结果基本能满足用户的需求,这样获取的用户点击结果才可靠,基于此所做的分析处理才与用户实际需求一致;其次,搜索结果一般都是对用户的检索做过处理后得到的,如Query扩展,Query同义词等,使得搜索结果中不一定含有用户的检索词,如此就无法直接提取到用户检索的核心词。
例如,中国专利CN102681982A的专利可让计算机理解的自然语言句子的自动语义识别的方法,提出了一种计算机准确理解中国汉语言的方法,它抛弃了以往选字取词的方法,从汉语的语言特点出发,通过词语架构,准确的让计算机知道操作者输入的语言内容;确切的分析出一句汉语的语意。首先在某个领域建立本体库,将某个领域内所有的精确描述的无歧义的词语归放到一起构成本体库(包括领域知识本体库和通用词本题库);然后基于自然语言句子的理解和领域本体,建立语义框架知识库;最后基于语义框架的本体映射,实现自然语言句子到语义结构的直观匹配。其不足之处在于:首先互联网领域信息每天剧增,一些新词汇也逐步产生,一些普通的词汇也逐步具备新的意义,对于这类词,是作为核心词还是修饰辅助词,是与用户检索语句相关的,无法一概而论;再次语义框架知识库类似于正则规则,数量巨大,无法快速的归纳,且效果需要进一步考察改进。
基于事后搜索的用户检索的核心词识别,首先对搜索引擎有较高要求,在***性能稳定,效果比较好的情况下才能支持;其次过分依赖于搜索结果和用户的反应,容易引入一些不必要的噪音(如广告、其它信息等),且搜索结果是经过各类变换得到的,搜索结果中不一定含有用户的检索词,和检索语句不一定直接对应上。再次线下获取的结果只能在后续用户输入相同、类似的Query时起到借鉴作用,从而召回率较低。
基于建立语义框架知识库的检索的核心词识别方法,对特殊实体处理不足,没有很好的区别那类普通字义的实体词;语义框架知识库是由各类词组成的规则,而整理归纳需要很长的时间,且效果也需要逐步改进。
发明内容
本发明解决的技术问题在于提供了一种用户检索词的处理方法及***,以解决目前无法识别用户检索核心词的问题。
为解决上述问题,本发明实施例提供了一种用户检索词的处理方法,包括,
建立与识别用户检索的核心词相关的资源库;
对用户输入的检索词进行基本分层;
将所述基本分层后的检索词进行实体引入;
输出识别出的检索词的层次结构。
上述的方法,其中,所述建立与识别用户检索的核心词相关的资源库包括,与识别用户检索的核心词相关的一系列词表,包括停用词表,修饰词表和实体资源词典。
上述的方法,其中,所述对用户输入的检索词进行基本分层包括,
在对用户检索语句进行分词后,会得到一系列的查询词汇term以及词性pos,包括term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n],其中term[i]为第i个词汇,pos[i]为其对应的词性;
利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
level [ i ] = 0 term [ i ] &Element; stopwordList | | pos [ i ] cposList 1 term [ i ] &Element; mod ifywordList 2 other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,requirewordList为需求词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号;
若term[i]属于停用词词表或其词性属于cposList,level[i]为0;若term[i]属于修饰词,level[i]为1;其它情况为2。
上述的方法,其中,所述将所述基本分层后的检索词进行实体引入包括,
根据实体词典结合用户的检索语句,提取实际的实体词汇集entityList;
level [ i ] = 2 term [ i ] &Element; entityList level [ i ] other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,entityList为提取的实体集。
上述的方法,其中,所述根据实体词典结合用户的检索语句,提取实际的实体词汇集entityList包括,
考虑用户检索分类相关,在实体的类别与分类信息有关联时则进行实体词提取;或者,
利用语句规则进行实体词提取。
上述的方法,进一步地,在输出识别出的用户检索词的层次结构之前还包括,
对所述用户检索词进行句式句法分析;和/或,
对用户检索词进行从属关系识别。
本发明实施例还提供了一种用户检索词的处理***,包括,
资源库建立模块,用于建立与识别用户检索的核心词相关的资源库;
基本分层模块,用于对用户输入的检索词进行基本分层;
实体引入模块,用于将所述基本分层后的检索词进行实体引入;
输出模块,用于输出识别出的检索词的层次结构。
上述的***,其中,所述建立与识别用户检索的核心词相关的资源库包括,与识别用户检索的核心词相关的一系列词表,包括停用词表,修饰词表和实体资源词典。
上述的***,其中,用于对用户输入的检索词进行基本分层具体包括,
所述基本分层模块,用于在对用户检索语句进行分词后,会得到一系列的查询词汇term以及词性pos,包括term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n],其中term[i]为第i个词汇,pos[i]为其对应的词性;
以及用于利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
level [ i ] = 0 term [ i ] &Element; stopwordList | | pos [ i ] cposList 1 term [ i ] &Element; mod ifywordList 2 other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,requirewordList为需求词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号;
若term[i]属于停用词词表或其词性属于cposList,level[i]为0;若term[i]属于修饰词,level[i]为1;其它情况为2。
上述的***,进一步地,还包括,
句式句法分析模块,用于对所述用户检索词进行句式句法分析;
从属关系识别模块,用于对用户检索词进行从属关系识别。
采用本发明的技术方案,既考虑到检索语句的词汇特征,又考虑到实体词的特殊作用,且引进实体进行实体消歧操作,保障实体提取的准确率,以及借助句式句法分析来对用户整体的检索语句进行分析,避免了仅仅依靠词汇来考察层次造成的局部最优问题,和仅仅依靠整体研究句子结构造成的对特殊实体识别不足的问题。最终又借助从属关系进一步优化检索语句的核心词,识别用户句子的核心词汇,为搜索引擎提供尽可能多的信息支持。同时不完全依赖于线上搜索引擎的结果信息,更易于操作实现。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例流程图;
图2是本发明第二实施例结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在检索时,用户会根据需要输入检索语句,一般来说,检索语句是由若干个检索词构成的。鉴于中文语言的丰富性、复杂性,用户检索输入的语句是多种多样的,为了详细说明自己的需求,不惜用词。但事实上很多词汇都是可以当作辅助分析的词语,让表达的意思更加明确,对于检索的实际意义却不大。在本发明的实施例中,将用户的检索语句中含有的检索词分为四个等级:
丢弃词,是没有什么实际意义的词,如停用词、标点符号等,可以直接丢弃不参搜索查询,可提高检索效率而不失检索效果;
修饰词,即用户表达自身语义时用的修饰性质的词,不起绝对作用,只是丰富语义,搜索结果中可命中也可不命中;
核心词,即用户检索语句的核心,最能表达用户搜索需求信息的词,搜索结果中必须命中才能返回给用户;
需求词,即用户实际需要的事物的一种属性,一般是用户对需求的一种补充或强调,如“下载”,“歌曲”,“歌词”、“电影”等,搜索结果中如果命中更好,说明有该资源,排名要靠前。
如图1所示,是本发明第一实施例流程图,提供了一种用户检索词的处理方法,具体包括,
步骤S101,建立与识别用户检索的核心词相关的资源库;
资源库是与识别用户检索的核心词相关的一系列词表,包括停用词表(stopwordList),修饰词表(modifywordList),和实体资源词典(dicResource)。
停用词表包含中文常见的一系列的停用词汇,如“在”,“于”,“什么”;修饰词表包含常见的修饰词,如“美丽的”,“好看的”等;实体资源词典,包含当前各类资源名称,如小说名、软件名、电影名等频道资源,以及其对应类别,这可以从检索日志中挖掘或从各垂直网站抓取、提取所需信息,尽可能保证资源库的资源信息完备。
步骤S102,对用户输入的检索词进行基本分层;
当用户输入自己的检索语句,在对用户检索的语句进行分词后,会得到一系列的查询词汇term以及词性pos,term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n]。term[i]为第i个词汇,pos[i]为其对应的词性。
利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
level [ i ] = 0 term [ i ] &Element; stopwordList | | pos [ i ] cposList 1 term [ i ] &Element; mod ifywordList 2 other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,requirewordList为需求词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号等。
若term[i]属于停用词词表或其词性属于cposList,level[i]为0(代表丢弃词);若term[i]属于修饰词,level[i]为1(代表修饰词);其它情况为2(核心词)。
通过该步骤,将用户检索的每个词汇初步设定了层次。
步骤S103,将基本分层后的检索词进行实体引入;
用户输入的检索语句中含有的词汇的重要度、等级是不同的,如何区分更重要的、有代表意义的词汇,相对而言,实体词更为重要,一般更能显示用户的本意需求。如果检索语句中含有实体词,则要突出实体词的作用。
实体引入主要是将基本分层中分为修饰词或者丢弃词的重要词汇捞回来,重新赋予其重要的等级。
鉴于实体的重要性且复杂性,需要结合用户本身的输入来判断是否为实体。比如“为什么”是一个最为普通的词,但也可能存在于实体词典中,类别为歌曲。如何区分这类词,尤其是歧义的实体词,则是本环节最重要的一步,可称之为实体消歧办法。
考虑两种方法来提取实体,其中第一种方法考虑用户检索分类相关,在实体的类别与分类信息有关联则进行提取,否则不用。
具体地,第一种方法就是利用外部信息,如Query分类(用户检索语句的分类),这在搜索引擎中比较普遍。如用户搜索“周星驰的搞笑电影功夫下载”,Query类别为下载类;“五月天歌曲为什么试听”,Query类别为歌曲类;“为什么手机连接不上电脑”,Query类别为问答类。
提取检索语句的实体就是利用这些类别信息。如“功夫”是个普通的词,但是在上面用户检索中实际是一部电影的名字,是个实体名,实体类别是电影类(通过调用上述实体资源词典,可以得到用户输入的语句中的候选实体词、实体类别),当Query类别(下载类)与实体的类别(电影)有关联时,就将其提取。再如“为什么”属于停用词,在第一步基本分层已经划分到丢弃词等级,在此通过实体资源词典,也是作为候选实体出现的,实体为歌曲类(有首歌的名字叫“为什么”),Query类别(歌曲类)与实体类别(歌曲)有关联,则认为是实体。而在“为什么手机连接不上电脑”中,即便“为什么”作为候选实体出现,但是Query类别(问答类)与实体类别(歌曲)不关联,则不认为是实体。
这种关联可人工灵活的配一张关联表,表示每个Query类别可能与哪些实体类别有关联,如“下载类:歌曲、电影、电视剧、游戏、软件”;“歌曲类:歌曲”;“视频类:电影,电视剧,动漫”等。
当然,实际情况是,并非每个Query都有类别。如果用户检索的语句没有类别怎么办?按经验来说,如果Query中含有明显的实体词,Query基本都是可以分出类别的,如果真的没有分出类别,那可以直接根据候选实体的长度、切成词汇的个数来择优,保障准确率。
实体引入主要意义在于“捞”核心词。在基本分层后,根据字面意义有了一个基本大概的分层,但是一般的普通的词可能会丢弃词或修饰词层级;而这类词在仔细分析可能会发现其实是相当重要的实体词,于是把这类词“捞回来”,赋予核心词等级。如“因为爱情”,分词为“因为爱情”,“因为”太普通了,在基本分层会被赋予丢弃词。但是它是实体(歌曲“因为爱情”)的一部分,在该步会把其赋予核心词等级。如上述,实体引入最主要的工作是实体消歧,即如何提取真正有用的实体,且更少的引入噪音,保障召回率和准确率,该步想到了上述两种方法。
当然第一种方法是依赖外部的Query分类,准确率比较高。
2)利用语句规则提取:如(人名|需求词)+词T,(人名)词T+(需求词),若T出现在实体词典则提取。如用户检索“蔡卓妍歌曲为什么”,“歌曲为什么”,此时“为什么”可认为是实体。
第二种方法就直接从一些规则着手,比如实体词一般会和人名、需求词语(歌曲、电影等)一起出现,尤其是针对普通意义的实体词。如上述“歌曲为什么”,此处的“为什么”就是实体,“为什么手机连接不上电脑”此处的“为什么“不是实体,该方法实现简易。
根据实体词典结合用户的检索语句,提取实际的实体词汇集entityList。
level [ i ] = 2 term [ i ] &Element; entityList level [ i ] other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,entityList为提取的实体集。
该步骤旨在将用户检索语句中包含的实体的词汇(基本分层可能赋予了丢弃或修饰),提高等级层次,凸显用户的意图。
步骤S106,输出识别出的用户检索词的层次结构。
针对每个检索语句,借助以上步骤,最终获得了该语句包含的每个词汇对应的层次结构,即该词汇是需求词,核心词,修饰词还是丢弃词。
上述步骤基本完成了用户输入检索词的识别,但如果要达到更好的效果,本发明实施例还可以包括以下步骤,下面两个步骤S104和S105不分先后顺序,也可以择一进行选择使用:
步骤S104,对所述用户检索词进行句式句法分析;
以上两步骤通过对用户输入的词汇的基本分层与实体引入,实现了对用户输入的词汇的分层,但都是基于词的角度来实现分层。用户输入的检索语句,内含有很多固定的句式,利用一些句式规则,可辅助分层。如(从)$Adress.*$Adress;(.*手机).*下载;(论述).*与.*的(关系);(以).*为(话题)的作文,括号内的词汇可赋予修饰层次。
另外也可对用户检索语句做依存句法分析,分析句子的构成,得到句子含有的词汇与词汇之间的依存关系,利用特殊句子结构,对词汇的层次结构基于句子的角度做调整。
该步骤是从整体上对用户输入语句把握,调整词汇的层次。
步骤S105,对用户检索词进行从属关系识别。
作为一个实施例,本发明实施例将从属关系分为两类:区域从属和行业从属。
区域从属即地理位置从属,当两个地名是从属关系,上下级关系时,将上级地址调整为修饰。以突出核心地名。如“北京海淀”,海淀属于北京,则“海淀”比“北京”会更倾向于核心词,此处“北京”就被调整为修饰词,区域从属可考虑利用地名编码来识别区域从属关系。
领域从属即实体名所属的类别领域,如电视剧类,电影类,歌曲类等,信息来源于上述实体词典。在上述103实体识别后,根据实体类别,若实体前后出现其类别相关词,这类词调整为需求词。本质来说,需求词是表明用户检索事物的一种属性,所以是与具体的实体、本体相关的,一般会伴随实体出现。故在识别出实体后,进行从属关系判定,是否有需求词。如“刘德华的歌曲忘情水”,“忘情水”是属于“歌曲”的,故在此词汇“歌曲”调整为需求词,核心词是“刘德华”和“忘情水”。这样,一来可以明确用户输入语句的核心词汇,二来可以明确用户的本质需求(歌曲),进行搜索排序优化。再如用户输入“刘德华的电影”,此处没有识别出从属关系,词汇“电影”依然是核心词,不会被识别为需求词,否则检索结果就可能与电影无关。
如图2所示,是本发明第二实施例结构图,提供了一种用户检索词的处理***,包括,
资源库建立模块201,用于建立与识别用户检索的核心词相关的资源库;
基本分层模块202,用于对用户输入的检索词进行基本分层;
实体引入模块203,用于将所述基本分层后的检索词进行实体引入;
输出模块204,用于输出识别出的检索词的层次结构。
进一步地,所述建立与识别用户检索的核心词相关的资源库包括,与识别用户检索的核心词相关的一系列词表,包括停用词表,修饰词表和实体资源词典。
进一步地,所述基本分层模块,用于对用户输入的检索词进行基本分层具体包括,
所述基本分层模块,用于在对用户检索语句进行分词后,会得到一系列的查询词汇term以及词性pos,包括term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n],其中term[i]为第i个词汇,pos[i]为其对应的词性;
以及用于利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
level [ i ] = 0 term [ i ] &Element; stopwordList | | pos [ i ] cposList 1 term [ i ] &Element; mod ifywordList 2 other , i = 1,2 . . . n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,requirewordList为需求词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号。
若term[i]属于停用词词表或其词性属于cposList,level[i]为0;若term[i]属于修饰词,level[i]为1;其它情况为2。
进一步地,所述***还包括,
句式句法分析模块,用于对所述用户检索词进行句式句法分析;和/或
从属关系识别模块,用于对用户检索词进行从属关系识别。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种用户检索词的处理方法,其特征在于,包括,
建立与识别用户检索的核心词相关的资源库;
对用户输入的检索词进行基本分层;
将所述基本分层后的检索词进行实体引入;
输出识别出的检索词的层次结构;
所述对用户输入的检索词进行基本分层具体包括:
在对用户检索语句进行分词后,会得到一系列的查询词汇term以及词性pos,包括term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n],其中term[i]为第i个词汇,pos[i]为其对应的词性;
利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
l e v e l &lsqb; i &rsqb; = 0 t e r m &lsqb; i &rsqb; &Element; s t o p w o r d L i s t | | p o s &lsqb; i &rsqb; &Element; c p o s L i s t 1 t e r m &lsqb; i &rsqb; &Element; mod i f y w o r d L i s t 2 o t h e r , i = 1 , 2 ... n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,modifywordList为修饰词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号;
若term[i]属于停用词词表或其词性属于cposList,level[i]为0;若term[i]属于修饰词,level[i]为1;其它情况为2。
2.根据权利要求1所述的方法,其特征在于,所述建立与识别用户检索的核心词相关的资源库包括,与识别用户检索的核心词相关的一系列词表,包括停用词表,修饰词表和实体资源词典。
3.根据权利要求2所述的方法,其特征在于,所述将所述基本分层后的检索词进行实体引入包括,
根据实体词典结合用户的检索语句,提取实际的实体词汇集entityList;
l e v e l &lsqb; i &rsqb; = 2 t e r m &lsqb; i &rsqb; &Element; e n t i t y L i s t l e v e l &lsqb; i &rsqb; o t h e r , i = 1 , 2 ... n
其中term[i]表示第i个term,level[i]为对应的层次,entityList为提取的实体集。
4.根据权利要求3所述的方法,其特征在于,所述根据实体词典结合用户的检索语句,提取实际的实体词汇集entityList包括,
考虑用户检索分类相关,在实体的类别与分类信息有关联时则进行实体词提取;或者,
利用语句规则进行实体词提取。
5.根据权利要求1至4任一所述的方法,其特征在于,在输出识别出的用户检索词的层次结构之前还包括,
对所述用户检索词进行句式句法分析;和/或,
对用户检索词进行从属关系识别。
6.一种用户检索词的处理***,其特征在于,包括,
资源库建立模块,用于建立与识别用户检索的核心词相关的资源库;
基本分层模块,用于对用户输入的检索词进行基本分层;
实体引入模块,用于将所述基本分层后的检索词进行实体引入;
输出模块,用于输出识别出的检索词的层次结构;
所述基本分层模块,用于对用户输入的检索词进行基本分层,具体包括,所述基本分层模块,用于在对用户检索语句进行分词后,会得到一系列的查询词汇term以及词性pos,包括term[1]_pos[1],term[2]_pos[2],…,term[n]_pos[n],其中term[i]为第i个词汇,pos[i]为其对应的词性;
以及用于利用资源库的停用词表、修饰词表、以及词汇的词性对用户输入的查询词汇实现基本分层,具体如下,
l e v e l &lsqb; i &rsqb; = 0 t e r m &lsqb; i &rsqb; &Element; s t o p w o r d L i s t | | p o s &lsqb; i &rsqb; &Element; c p o s L i s t 1 t e r m &lsqb; i &rsqb; &Element; mod i f y w o r d L i s t 2 o t h e r , i = 1 , 2 ... n
其中term[i]表示第i个term,level[i]为对应的层次,stopwordList为停用词表,modifywordList为修饰词表,cposList为一类不重要的词性表,包含但不限于形容词、副词、介词、叹词、助词、语气词、连词、符号;
若term[i]属于停用词词表或其词性属于cposList,level[i]为0;若term[i]属于修饰词,level[i]为1;其它情况为2。
7.根据权利要求6所述的***,其特征在于,所述建立与识别用户检索的核心词相关的资源库包括,与识别用户检索的核心词相关的一系列词表,包括停用词表,修饰词表和实体资源词典。
8.根据权利要求7所述的***,其特征在于,还包括,
句式句法分析模块,用于对所述用户检索词进行句式句法分析;和/或,
从属关系识别模块,用于对用户检索词进行从属关系识别。
CN201310005804.6A 2013-01-08 2013-01-08 一种用户检索词的处理方法及*** Active CN103020311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310005804.6A CN103020311B (zh) 2013-01-08 2013-01-08 一种用户检索词的处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310005804.6A CN103020311B (zh) 2013-01-08 2013-01-08 一种用户检索词的处理方法及***

Publications (2)

Publication Number Publication Date
CN103020311A CN103020311A (zh) 2013-04-03
CN103020311B true CN103020311B (zh) 2016-05-18

Family

ID=47968914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310005804.6A Active CN103020311B (zh) 2013-01-08 2013-01-08 一种用户检索词的处理方法及***

Country Status (1)

Country Link
CN (1) CN103020311B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务***及其方法
CN109492214B (zh) * 2017-09-11 2023-09-19 苏州大学 属性词识别及其层次构建方法、装置、设备及存储介质
CN107992586A (zh) * 2017-12-08 2018-05-04 成都谷问信息技术有限公司 基于智能语意的检索方法
CN112800175B (zh) * 2020-11-03 2022-11-25 广东电网有限责任公司 一种电力***知识实体跨文档搜索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于短语识别的自然语言理解搜索方法研究;齐波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20080515(第5期);第18-42页,附图4.2、4.9 *

Also Published As

Publication number Publication date
CN103020311A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
US10521463B2 (en) Answering questions via a persona-based natural language processing (NLP) system
Van Hooland et al. Exploring entity recognition and disambiguation for cultural heritage collections
CN101420313B (zh) 一种针对客户端用户群进行聚类的方法和***
CN102629246B (zh) 识别浏览器语音命令的服务器及浏览器语音命令识别方法
US11204927B2 (en) Contextual search on multimedia content
Habernal et al. SWSNL: semantic web search using natural language
RU2509350C2 (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
US20130246392A1 (en) Conversational System and Method of Searching for Information
US20160048500A1 (en) Concept Identification and Capture
CN110073349B (zh) 考虑频率和格式化信息的词序建议
CN104516949B (zh) 网页数据处理方法和装置、查询处理方法及问答***
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
JP2010532897A (ja) 知的なテキスト注釈の方法、システム及びコンピュータ・プログラム
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及***
CN104991943A (zh) 音乐搜索方法及装置
CN107656921B (zh) 一种基于深度学习的短文本依存分析方法
CN116737915B (zh) 基于知识图谱的语义检索方法、装置、设备及存储介质
US11604794B1 (en) Interactive assistance for executing natural language queries to data sets
Lommatzsch et al. An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases.
Jiang et al. Application intelligent search and recommendation system based on speech recognition technology
CN103020311B (zh) 一种用户检索词的处理方法及***
Ghosh et al. Automatic sql query formation from natural language query
Rajasurya et al. Semantic information retrieval using ontology in university domain
Bukhari et al. Ontology-assisted automatic precise information extractor for visually impaired inhabitants
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China

Patentee after: Shenzhen easou world Polytron Technologies Inc

Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A

Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for processing user search terms

Effective date of registration: 20170918

Granted publication date: 20160518

Pledgee: Shenzhen SME financing Company limited by guarantee

Pledgor: Shenzhen easou world Polytron Technologies Inc

Registration number: 2017990000881

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200428

Granted publication date: 20160518

Pledgee: Shenzhen SME financing Company limited by guarantee

Pledgor: Shenzhen easou world Polytron Technologies Inc

Registration number: 2017990000881