CN110209765A - 一种按语义搜索关键词的方法和装置 - Google Patents
一种按语义搜索关键词的方法和装置 Download PDFInfo
- Publication number
- CN110209765A CN110209765A CN201910433774.6A CN201910433774A CN110209765A CN 110209765 A CN110209765 A CN 110209765A CN 201910433774 A CN201910433774 A CN 201910433774A CN 110209765 A CN110209765 A CN 110209765A
- Authority
- CN
- China
- Prior art keywords
- word
- denoted
- entry
- probability
- contextual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语义搜索技术领域,提供了一种按语义搜索关键词的方法和装置。其中方法包括按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象;根据所述待搜索目标对象的属性信息,获取对应的词跳转概率表;根据每一组词条对象中所包含的各词条先后顺序,查找所述词跳转概率表,得到每一组词条对象的成立概率;根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果。本发明采用的语义判断方法,逻辑简单清晰,且经过长时间验证,准确度高。
Description
【技术领域】
本发明涉及语义搜索技术领域,特别是涉及一种按语义搜索关键词的方法和装置。
【背景技术】
在互联网应用以及流量监控项目中,经常有搜索关键字的场景,比如财经类新闻中,如果内容中有包含某只股票或基金的名称,则自动会在该名称后面显示当前价格;再如,流量监控类项目中,需要对含有某关键字的网页进行阻断,这些任务中,都需要对内容进行关键字搜索。
但是,仅仅根据字符的二进制信息而不根据字符的语义,会带来一些非预期的结果,比如,要阻挡包含“中国”二字的网页,那么一篇包含如下字段的科幻小说将会被封堵“在该恒星系文明中国家的概念是根本不存在的”,很显然,这不是下封堵策略的人所想要的,还有种情况,因为字符的搜索在计算机中本质是二进制数据的比对,那么在流量中找到关键字对应的二进制数据,可能仅仅是个巧合,比如命中的部分就只是个整形数字,并不代表某个字符,如果这算命中就可能带来意想不到的问题。再比如,在某综合网站上有篇文章包含以下字段“持续提升工农产品中低级产品的比例”,往往这其中的“农产品”三字会被高亮显示,并且后面会跟着一只叫“农产品”的A股股票的行情,这显然也不合时宜。上述例子很多,归根结底是搜索关键字时没有考虑关键字的语义。当然,可以采用成熟的分词方法对整篇文章进行分词,然后在所有分词中查找关键字,这样语义正确,但实现复杂,效率极低。
鉴于此,克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。
【发明内容】
本发明要解决的技术问题是现有技术中,用于搜索关键词的方法,容易查找到语义不一致的结果,并且,虽然有基于语义的改进搜索方法,但是,其实现起来复杂,效率不高。
本发明进一步要解决的技术问题是如何在遇到大数据分析的环境下,更有效的识别出目标搜索结果。
本发明采用如下技术方案:
第一方面,本发明提供了一种按语义搜索关键词的方法,获取待搜索关键字和各待搜索目标对象的流量数据,并通过匹配所述待搜索关键字和流量数据,得到初始匹配结果,其中,所述初始匹配结果包括各流量数据中对应待搜索关键字的上下文信息内容,包括:
按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象;
根据所述待搜索目标对象的属性信息,获取对应的词跳转概率表;
根据每一组词条对象中所包含的各词条先后顺序,查找所述词跳转概率表,得到每一组词条对象的成立概率;
根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果。
优选的,在所述待搜索关键字为X1,X2,…,Xn-1,Xn,其中,Xi代表一字符,i∈[1,n];所述预设拆分规则,具体包括:
将所述匹配结果中的上下文信息内容,按照以下拆分方式中的至少两种进行拆分,得到至少两组词条对象;其中,拆分方式包括:
拆分方式一:上下文信息内容中,在词库中匹配,由X1与其前一个字符构成的词条,若匹配上则记为W2,若不能匹配上,则X1被认定为一个词,记为W2;在上下文信息内容中位于W2之前继续寻找一个词,记为W1;其中,X2,…,Xn-1,Xn记为W3,在上下文信息内容中,位于X2,…,Xn-1,Xn之后找出一个词,记为W4;此时,得到一组词条对象,记为W1W2W3W4;
拆分方式二:在上下文信息内容中,位于X1,X2,…,Xn-1之前寻找一个词,记为C1;所述X1,X2,…,Xn-1记为C2;对Xn做后向组合匹配,找出最长匹配的词,记为C3,在C3之后继续往后找到一个词,记录为C4;此时,得到一组词条对象,记为C1C2C3C4;
拆分方式三:把X1,X2,…,Xn-1,Xn做为一个词,记为M2;在上下文信息内容中,位于X1之前寻找一个词,记为M1;在上下文信息内容中,位于Xn此之后寻找两个词,记为M3和M4;此时,得到一组词条对象,记为M1M2M3M4;
拆分方式四:把X1,X2,…,Xn-1,Xn做为一个词,记为N3;在上下文信息内容中,位于X1之前寻找两个词,记为N1和N2;在上下文信息内容中,位于Xn此之后寻找一个词,记为N4;此时,得到一组词条对象,记为N1N2N3N4。
优选的,所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词,具体实现为:
在上下文信息内容中,对应于寻找时的起始参考对象,逐一的增加连续的字符的长度,并与词库进行匹配;直到匹配不到结果,则认定前一轮长度的连续字符为所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词;
其中,所述起始参考对象包括所述X1或者所述Xn。
优选的,根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果,具体包括:
若M1M2M3M4或者N1N2N3N4的概率,小于W1W2W3W4和/或C1C2C3C4的概率值,则从初始匹配结果中剔除掉相应目标对象;
若M1M2M3M4或者N1N2N3N4的概率,大于等于W1W2W3W4和/或C1C2C3C4的概率值,则在筛选后的匹配结果中保留该目标对象。
优选的,其中,得到初始匹配结果的过程和所述得到筛选后匹配结果的过程为并行执行过程,则所述方法还包括:
根据筛选后的匹配结果中,所包含的各目标对象的属性信息,分析得到各目标对象的分布地图;其中,地图的区域由所述属性信息标定;
某一区域内对于目标对象数量占比超过预设阈值的第一属性信息,在计算后续的M1M2M3M4或者N1N2N3N4的概率时,为其增设一加权值,以便归属于第一属性信息的目标对象具有更高概率通过所述筛选。
优选的,在所述待搜索目标对象为网页时,则所述待搜索目标对象的属性信息具体为网站主题类型、网页标题内容、网页正文分类中的一项或者多项。
优选的,所述网站主题类型包括新闻、财经、体育、娱乐、综合中的一项或者多项;
所述网页正文分类包括散文、记叙文、综合文体中的一项或者多项。
优选的,所述词跳转概率表,具体为:
通过大数据分析潜在目标对象的流量数据,并根据词库匹配的方式,得到构成相应流量数据中各词条的词性;其中,词性包括名词、动词、形容词、副词、介词、句首、句尾、标点符号中的一项或者多项;
其中,所述跳转概率表中记载有上述对应各词性的词条之间,完成相应前后顺序跳转的概率。
优选的,匹配所述待搜索关键字和流量数据,得到初始匹配结果,具体包括:
把关键字转换成UFT-8、GB2312和/或BIG5的待搜索编码,并通过待搜索编码逐一匹配待搜索目标对象的流量数据,得到初始匹配结果。
优选的,在所述关键词的字数超过预设值时,在执行所述按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象之前,所述方法包括:
根据词库,匹配得到对所述关键词的词性组合;
根据所述词性组合,得到对应各属性信息的各组词条对象概率计算过程中的加权值。
第二方面,本发明还提供了一种按语义搜索关键词的装置,用于实现第一方面所述的按语义搜索关键词的方法,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行第一方面所述的按语义搜索关键词的方法。
第三方面,本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,用于完成第一方面所述的按语义搜索关键词的方法。
本发明实现了保证语义正确的条件下搜索到关键字,相比较现有技术,本发明采用的语义判断方法,逻辑简单清晰,且经过长时间验证,准确度高。
传统方法是先对整个文章或整个句子做分词,然后在所有的词集合中搜索。本发明采用预先分析关键字,再做二进制匹配查找到关键字,再判断查找到的内容是否合乎语义的总体执行流程,效率更高;其中,性能损失主要取决于关键字命中率。
在本发明的优选方案中,在搜索的过程中,还动态的搜集和整理已搜索目标对象的各属性信息,从而为后续计算过程提供更具参考意义的加权值,从而进一步提高了搜索的精准度。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种按语义搜索关键词的方法的流程示意图;
图2是本发明实施例提供的一种初始匹配结果中上下文内容呈现效果图;
图3是本发明实施例提供的一种拆分方式结构示意图;
图4是本发明实施例提供的另一种拆分方式结构示意图;
图5是本发明实施例提供的另一种拆分方式结构示意图;
图6是本发明实施例提供的还一种拆分方式结构示意图;
图7是本发明实施例提供的一种拆分方式的概率求解示意图;
图8是本发明实施例提供的一种长关键字的词性加权值使用方法流程示意图;
图9是本发明实施例提供的一种按语义搜索关键词的装置结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作,因此不应当理解为对本发明的限制。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在实现本发明具体实施例之前,通常要求执行一些常规的检索关键词中的操作,例如:获取待搜索关键字和各待搜索目标对象的流量数据,并通过匹配所述待搜索关键字和流量数据,得到初始匹配结果,其中,所述初始匹配结果包括各流量数据中对应待搜索关键字的上下文信息内容。
在本发明实施例中,所述的待搜索目标对象的流量数据,可以表现为互联网中可获取到的各门户网站、网页内容以及各种通过互联网渠道获取到包含文字表现形式的媒体内容,由于其体现的方式是流量表现,因此,在本发明实施例中被描述为待搜索目标对象的流量数据。
其中,匹配待搜索关键字和流量数据,可以是采用已有的相关搜索匹配算法来实现,在本发明实施例1中也将具体介绍在本发明中优选的一种实现方式;而作为本发明的核心点是在于完成了上述初始匹配过程,得到各流量数据中对应待搜索关键字的上下文信息内容之后,如何通过语义分析甄别哪些是更符合检索意图的匹配结果,哪些是与检索意图不匹配的结果,从而得到筛选后的匹配结果,进一步减少匹配结果浏览人员在无意义匹配结果上的时间浪费。
实施例1:
本发明实施例1提供了一种按语义搜索关键词的方法,基于上述已经得到初始匹配结果的基础上,如图1所示,所述方法包括:
在步骤201中,按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象。
在本发明实施例中,对于所述预设拆分规则,给予了较为浅显的定义;即对于任何一个由一个或者多个字符组成的关键词,按照以下三种方式进行初步拆分:1、拆分成“头字符”+“剩余字符”;2、拆分成“剩余字符”+“尾字符”;3、不进行拆分,保留“完整字符”。然后进行拆分的第二环节,结合关键词所在的上下文信息内容和上述的撒种初步拆分结果,进行统一格式的词条对象组合生成。其中,词条对象组合中可以包含2个词条、3个词条、4个词条等等。但是,经过试验验证,2个词条和3个词条无法有效的还原出关键词所在上下文信息内容中的词跳转特性,而超过4个词条的话,部分词跳转特性由于关键词的关联关系相差较远,词离关键字越远,其对判断关键字语义的作用就越小。因此,在本发明实施例中优选的是采用4个词条构成词条对象组合。而相应的词条对象组合的实现,将在本发明后续实施例中具体展开阐述。
在步骤202中,根据所述待搜索目标对象的属性信息,获取对应的词跳转概率表。
在所述待搜索目标对象为网页时,则所述待搜索目标对象的属性信息具体为网站主题类型、网页标题内容、网页正文分类中的一项或者多项。所述网站主题类型包括新闻、财经、体育、娱乐、综合中的一项或者多项;所述网页正文分类包括散文、记叙文、综合文体中的一项或者多项。例如:根据URL定位到信息的类型(散文、记叙文、综合等等),从而选择相应分类的词跳转概率表。
通过上述例子可知,所述待搜索目标对象的属性信息,也是本发明实施例中生成词跳转概率表的依据之一,在本发明后续实施例中,将具体展示几种典型的词跳转概率表内容。
在步骤203中,根据每一组词条对象中所包含的各词条先后顺序,查找所述词跳转概率表,得到每一组词条对象的成立概率。
本步骤的目的在于,通过历史大数据分析得到的词跳转概率表,来分析出当前不同拆分方式对应成立的概率。而不同拆分方式中,只有通过“不进行拆分,保留‘完整字符’”,这种初步拆分得到的词条对象组合在概率计算结果中获胜,才表明相应的进入到初步匹配结果中目标对象的流量数据,是与用户所输入关键字在语义上相符的对象。
在步骤204中,根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果。
其中,所述的各组词条即通过不同拆分方式得到的词条对象组合。
本发明实现了保证语义正确的条件下搜索到关键字,相比较现有技术,本发明采用的语义判断方法,逻辑简单清晰,且经过长时间验证,准确度高。
以下是本发明实施例中,依据上述分析出来的以4个词条作为词条对象组合的构成形式,来介绍具体如何实现所述词条组合。现以所述待搜索关键字为X1,X2,…,Xn-1,Xn为例,其中,Xi代表一字符,i∈[1,n];在实施例1中步骤201中所涉及的所述预设拆分规则(其中,融入有上述已经介绍的初步拆分内容),具体包括:
将所述匹配结果中的上下文信息内容,如图2所示,其中关键字被包含在所述上下文信息内容之中,按照以下拆分方式中的至少两种进行拆分,得到至少两组词条对象;其中,拆分方式包括:
拆分方式一:上下文信息内容中,在词库中匹配,由X1与其前一个字符构成的词条,若匹配上则记为W2,若不能匹配上,则X1被认定为一个词,记为W2;在上下文信息内容中位于W2之前继续寻找一个词,记为W1;其中,X2,…,Xn-1,Xn记为W3,在上下文信息内容中,位于X2,…,Xn-1,Xn之后找出一个词,记为W4;此时,得到一组词条对象,如图3所示,记为W1W2W3W4;
拆分方式二:在上下文信息内容中,位于X1,X2,…,Xn-1之前寻找一个词,记为C1;所述X1,X2,…,Xn-1记为C2;对Xn做后向组合匹配,找出最长匹配的词,记为C3,在C3之后继续往后找到一个词,记录为C4;此时,得到一组词条对象,如图4所示,记为C1C2C3C4;
拆分方式三:把X1,X2,…,Xn-1,Xn做为一个词,记为M2;在上下文信息内容中,位于X1之前寻找一个词,记为M1;在上下文信息内容中,位于Xn此之后寻找两个词,记为M3和M4;此时,得到一组词条对象,如图5所示,记为M1M2M3M4;
拆分方式四:把X1,X2,…,Xn-1,Xn做为一个词,记为N3;在上下文信息内容中,位于X1之前寻找两个词,记为N1和N2;在上下文信息内容中,位于Xn此之后寻找一个词,记为N4;此时,得到一组词条对象,如图6所示,记为N1N2N3N4。
其中,所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词,具体实现为:
在上下文信息内容中,对应于寻找时的起始参考对象,逐一的增加连续的字符的长度,并与词库进行匹配;直到匹配不到结果,则认定前一轮长度的连续字符为所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词;
其中,所述起始参考对象包括所述X1或者所述Xn。
需要强调的是,所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词,仅仅是上述不同拆分方式中的一种表述形式,例如位于X1之前寻找一个词,在上述不同拆分方式中也被表述为“在上下文信息内容中位于W2之前继续寻找一个词”,而在具体拆分方式中,也存在于寻找一个次的操作是包含X1自身的,例如“由X1与其前一个字符构成的词条,若匹配上则记为W2”。但是,无论哪种形式,其根本原理都可以采用上述给予的实现方式,即“在上下文信息内容中,对应于寻找时的起始参考对象,逐一的增加连续的字符的长度,并与词库进行匹配;直到匹配不到结果,则认定前一轮长度的连续字符为所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词”。
进一步,结合上述给出的词条对象组合的实例,再来看实施例1中步骤203中涉及的所述根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果,具体实现内容表现为:
若M1M2M3M4或者N1N2N3N4的概率,小于W1W2W3W4和/或C1C2C3C4的概率值,则从初始匹配结果中剔除掉相应目标对象;如图7所示,示出了M1M2M3M4计算概率的示意图,其概率值=P1*P2*P3,而其中,P1是指从M1所属词性跳转到M2所述词性的概率,P2是指从M2所属词性跳转到M3所述词性的概率,P3是指从M3所属词性跳转到M4所述词性的概率,而相应的P1、P2和P3的参数值可以通过查找跳转概率表获得。
若M1M2M3M4或者N1N2N3N4的概率,大于等于W1W2W3W4和/或C1C2C3C4的概率值,则在筛选后的匹配结果中保留该目标对象。
考虑一种实现情况,当被检索的目标流量数据很大时,优选的操作方式是得到初始匹配结果的过程和所述得到筛选后匹配结果的过程,采用并行执行过程,则所述方法还包括:
根据筛选后的匹配结果中,所包含的各目标对象的属性信息,分析得到各目标对象的分布地图;其中,地图的区域由所述属性信息标定;
某一区域内对于目标对象数量占比超过预设阈值的第一属性信息,在计算后续的M1M2M3M4或者N1N2N3N4的概率时,为其增设一加权值,以便归属于第一属性信息的目标对象具有更高概率通过所述筛选。其中,为了提高该加权值的使用效果,此处的区域内对于目标对象的认定可以是由操作人员来完成的;因此,所述“目标对象数量占比超过预设阈值”的判定方式,也可以替换为“目标对象被认定错误次数小于预设阈值”。其中,预设阈值可以是根据经验进行设置,而该经验也跟总的分析的待搜索目标对象的流量数据多少而确定。
在本发明的优选方案中,在搜索的过程中,还动态的搜集和整理已搜索目标对象的各属性信息,从而为后续计算过程提供更具参考意义的加权值,从而进一步提高了搜索的精准度。
在本发明实施例中,所述词跳转概率表,具体为:
通过大数据分析潜在目标对象的流量数据,并根据词库匹配的方式,得到构成相应流量数据中各词条的词性;其中,词性包括名词、动词、形容词、副词、介词、句首、句尾、标点符号中的一项或者多项;
其中,所述跳转概率表中记载有上述对应各词性的词条之间,完成相应前后顺序跳转的概率。
比如,不能判断属性信息时使用的通用跳转概率表如下所示:
那么对于散文,其平均句长较短,标点符号较多,如“天,是蓝色的,心,是灰色的。”,其跳转概率示意如下:
P(形容词->名词) | 0.81 |
P(句号->名词) | 0.88 |
P(句号->形容词) | 0.21 |
P(动词->名词) | 0.72 |
P(动词->形容词) | 0.19 |
P(介词->形容词) | 0.55 |
P(介词->标点符号) | 0.10 |
P(名词->标点符号) | 0.66 |
P(标点符号->名词) | 0.91 |
P(标点符号->介词) | 0.80 |
两者一比较,可以明显发现,在散文中“标点符号->介词”的概率被强化了,达到了0.80,而其在通用跳转概率表中仅表现为0.30。其他的概率参数值,因为是做示例呈现,因此,并不能表现为真实值;而其中不同跳转方式的概率值的计算,可以是通过对已有的流量数据中语义分析的统计得到,即总的流量数据中,不同跳转类型发生次数占总的跳转发生次数的占比。
在本发明实施例中,由于采用了一种先匹配,后分析语义的实现方案,相比较现有技术中先根据语义拆分流量数据,然后进行匹配的方式而言,本发明还专门提出了一种完成初步匹配的方法,其中,匹配所述待搜索关键字和流量数据,得到初始匹配结果,具体包括:
把关键字转换成UFT-8、GB2312和/或BIG5的待搜索编码,并通过待搜索编码逐一匹配待搜索目标对象的流量数据,得到初始匹配结果。
传统方法是先对整个文章或整个句子做分词,然后在所有的词集合中搜索。本发明采用预先分析关键字,再做二进制匹配查找到关键字,再判断查找到的内容是否合乎语义的总体执行流程,效率更高;其中,性能损失主要取决于关键字命中率。
本发明实施例上述内容中阐述的用于搜索的关键字,普遍指的是本身拥有词条特性的,而在实际情况中,关键字的表现形式还可能是词条组合,甚至于是句子等,此时关键词就具备了词性组合特性;而根据实践可知,在不同的属性信息的流量数据中,不同词性组合的占比是有较大差异的,因此,结合本发明实施例便存在一种可能的改进方案,如图8所示,在所述关键词的字数超过预设值时(即默认不是单一词条构成的关键字),在执行所述按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象之前,所述方法包括:
在步骤301中,根据词库,匹配得到对所述关键词的词性组合。
在本发明实施例中,词库的作用至少包括根据匹配确定词性、根据匹配确定是一完整的词条、根据匹配确定同时满足两种词条或者多种词条时各自词条的存在概率等等。其中,根据匹配确定同时满足两种词条或者多种词条时各自词条的存在概率,尤其适用于本发明实施例中,在进行“为所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词”时,可能发明的情况。其中,尤其是在设定寻找结束的条件是匹配不上时,而对于一匹配上就结束寻找的条件来说,就不存在上述同时满足两种词条或者多种词条情况发生。
在步骤302中,根据所述词性组合,得到对应各属性信息的各组词条对象概率计算过程中的加权值。
把关键字进行了简单拆分,能解决绝大部分语义有歧义的场景;一般情况下,用户设置的关键字本身为一整体(为一个词或句子),有独立完整的意义,但少数情况下,关键字的首字符是其它词的一部分,或者最后一个字符是其它词的一部分,如关键字“中国”,下这个搜索策略的人肯定认为“中国”是个国家的概念,但在这句话:“在该恒星系文明中国家的概念是根本不存在的”中,“中国”却不是一个词,更不可能是国家的概念。极少情况是关键字的前2词或后2词属于其它词,那么我们只需考虑一般场景即可,这样使逻辑简单易实现,性能损耗也不大。
另外,本发明不需要对整篇文章或整个句子进行语义解析,仅根据词库中标注的词属性来确定最大概率的组合;同时结合关键字的长度和在整个信息中出现的次数进行概率值加权,能得到一个非常高的语义正确率;
不同的信息分类有不同的词跳转概率表,由于没有对整篇文章或句子进行语义解析,那么就必须尽力提高词跳转概率表的准确率,本方案的做法就是对信息进行分类,不同的分类有不同的跳转概率表,若不能确定属性信息,则使用标准词跳转概率表。
实施例2:
如图9所示,是本发明实施例的基于人体状态的按语义搜索关键词装置的架构示意图。本实施例的基于人体状态的按语义搜索关键词装置包括一个或多个处理器21以及存储器22。其中,图9中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器22作为一种按语义搜索关键词的方法和装置非易失性计算机可读存储介质,可用于存储非易失性软件程序和非易失性计算机可执行程序,如实施例1中的按语义搜索关键词的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令,从而执行按语义搜索关键词的方法。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述实施例1中的按语义搜索关键词的方法,例如,执行以上描述的图1和/或图7所示的各个步骤。
值得说明的是,上述装置和***内的模块、单元之间的信息交互、执行过程等内容,由于与本发明的处理方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种按语义搜索关键词的方法,获取待搜索关键字和各待搜索目标对象的流量数据,并通过匹配所述待搜索关键字和流量数据,得到初始匹配结果,其中,所述初始匹配结果包括各流量数据中对应待搜索关键字的上下文信息内容,其特征在于,包括:
按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象;
根据所述待搜索目标对象的属性信息,获取对应的词跳转概率表;
根据每一组词条对象中所包含的各词条先后顺序,查找所述词跳转概率表,得到每一组词条对象的成立概率;
根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果。
2.根据权利要求1所述的按语义搜索关键词的方法,其特征在于,在所述待搜索关键字为X1,X2,…,Xn-1,Xn,其中,Xi代表一字符,i∈[1,n];所述预设拆分规则,具体包括:
将所述匹配结果中的上下文信息内容,按照以下拆分方式中的至少两种进行拆分,得到至少两组词条对象;其中,拆分方式包括:
拆分方式一:上下文信息内容中,在词库中匹配,由X1与其前一个字符构成的词条,若匹配上则记为W2,若不能匹配上,则X1被认定为一个词,记为W2;在上下文信息内容中位于W2之前继续寻找一个词,记为W1;其中,X2,…,Xn-1,Xn记为W3,在上下文信息内容中,位于X2,…,Xn-1,Xn之后找出一个词,记为W4;此时,得到一组词条对象,记为W1W2W3W4;
拆分方式二:在上下文信息内容中,位于X1,X2,…,Xn-1之前寻找一个词,记为C1;所述X1,X2,…,Xn-1记为C2;对Xn做后向组合匹配,找出最长匹配的词,记为C3,在C3之后继续往后找到一个词,记录为C4;此时,得到一组词条对象,记为C1C2C3C4;
拆分方式三:把X1,X2,…,Xn-1,Xn做为一个词,记为M2;在上下文信息内容中,位于X1之前寻找一个词,记为M1;在上下文信息内容中,位于Xn此之后寻找两个词,记为M3和M4;此时,得到一组词条对象,记为M1M2M3M4;
拆分方式四:把X1,X2,…,Xn-1,Xn做为一个词,记为N3;在上下文信息内容中,位于X1之前寻找两个词,记为N1和N2;在上下文信息内容中,位于Xn此之后寻找一个词,记为N4;此时,得到一组词条对象,记为N1N2N3N4。
3.根据权利要求2所述的按语义搜索关键词的方法,其特征在于,所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词,具体实现为:
在上下文信息内容中,对应于寻找时的起始参考对象,逐一的增加连续的字符的长度,并与词库进行匹配;直到匹配不到结果,则认定前一轮长度的连续字符为所述位于X1之前寻找一个词或者所述位于Xn此之后寻找一个词;
其中,所述起始参考对象包括所述X1或者所述Xn。
4.根据权利要求2所述的按语义搜索关键词的方法,其特征在于,根据各组词条的成立概率,筛选所述初始匹配结果,得到筛选后的匹配结果,具体包括:
若M1M2M3M4或者N1N2N3N4的概率,小于W1W2W3W4和/或C1C2C3C4的概率值,则从初始匹配结果中剔除掉相应目标对象;
若M1M2M3M4或者N1N2N3N4的概率,大于等于W1W2W3W4和/或C1C2C3C4的概率值,则在筛选后的匹配结果中保留该目标对象。
5.根据权利要求2所述的按语义搜索关键词的方法,其特征在于,其中,得到初始匹配结果的过程和所述得到筛选后匹配结果的过程为并行执行过程,则所述方法还包括:
根据筛选后的匹配结果中,所包含的各目标对象的属性信息,分析得到各目标对象的分布地图;其中,地图的区域由所述属性信息标定;
某一区域内对于目标对象数量占比超过预设阈值的第一属性信息,在计算后续的M1M2M3M4或者N1N2N3N4的概率时,为其增设一加权值,以便归属于第一属性信息的目标对象具有更高概率通过所述筛选。
6.根据权利要求1所述的按语义搜索关键词的方法,其特征在于,在所述待搜索目标对象为网页时,则所述待搜索目标对象的属性信息具体为网站主题类型、网页标题内容、网页正文分类中的一项或者多项。
7.根据权利要求6所述的按语义搜索关键词的方法,其特征在于,所述网站主题类型包括新闻、财经、体育、娱乐、综合中的一项或者多项;
所述网页正文分类包括散文、记叙文、综合文体中的一项或者多项。
8.根据权利要求1所述的按语义搜索关键词的方法,其特征在于,所述词跳转概率表,具体为:
通过大数据分析潜在目标对象的流量数据,并根据词库匹配的方式,得到构成相应流量数据中各词条的词性;其中,词性包括名词、动词、形容词、副词、介词、句首、句尾、标点符号中的一项或者多项;
其中,所述跳转概率表中记载有上述对应各词性的词条之间,完成相应前后顺序跳转的概率。
9.根据权利要求1所述的按语义搜索关键词的方法,其特征在于,在所述关键词的字数超过预设值时,在执行所述按照预设拆分规则,拆分所述初始匹配结果中的上下文信息内容,得到至少两组词条对象之前,所述方法包括:
根据词库,匹配得到对所述关键词的词性组合;
根据所述词性组合,得到对应各属性信息的各组词条对象概率计算过程中的加权值。
10.一种按语义搜索关键词的装置,所述装置包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行权利要求1-9任一所述的按语义搜索关键词的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433774.6A CN110209765B (zh) | 2019-05-23 | 2019-05-23 | 一种按语义搜索关键词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910433774.6A CN110209765B (zh) | 2019-05-23 | 2019-05-23 | 一种按语义搜索关键词的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209765A true CN110209765A (zh) | 2019-09-06 |
CN110209765B CN110209765B (zh) | 2021-03-30 |
Family
ID=67788362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910433774.6A Active CN110209765B (zh) | 2019-05-23 | 2019-05-23 | 一种按语义搜索关键词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209765B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831832A (zh) * | 2020-07-27 | 2020-10-27 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN112468410A (zh) * | 2020-11-05 | 2021-03-09 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1515241A2 (en) * | 2003-09-15 | 2005-03-16 | Surfcontrol Plc | Using semantic feature structures for document comparisons |
CN1604075A (zh) * | 2004-11-22 | 2005-04-06 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
CN102346777A (zh) * | 2011-10-09 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种对例句检索结果进行排序的方法和装置 |
FR2970795A1 (fr) * | 2011-01-25 | 2012-07-27 | Synomia | Procede de filtrage de synonymes. |
CN103745011A (zh) * | 2014-01-28 | 2014-04-23 | 广州一呼百应网络技术有限公司 | 一种搜索引擎检索结果智能显示的方法 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN104699694A (zh) * | 2013-12-04 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 提示信息获取方法和装置 |
CN105138511A (zh) * | 2015-08-10 | 2015-12-09 | 北京思特奇信息技术股份有限公司 | 一种对搜索关键词进行语义分析的方法和*** |
CN102880645B (zh) * | 2012-08-24 | 2015-12-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
AU2014203117A1 (en) * | 2014-06-10 | 2015-12-24 | Saha, Syamantak MR | Zapaat context internet search engine |
CN106021553A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 结构化数据的匹配方法及*** |
CN107315841A (zh) * | 2017-07-20 | 2017-11-03 | 北京三快在线科技有限公司 | 一种信息搜索方法、装置及*** |
CN107544955A (zh) * | 2016-06-24 | 2018-01-05 | 汇仕电子商务(上海)有限公司 | 自然语言句法分析方法及*** |
CN107562750A (zh) * | 2016-06-30 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种用于提供搜索结果的方法和装置 |
CN108073292A (zh) * | 2016-11-11 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种智能组词方法和装置、一种用于智能组词的装置 |
-
2019
- 2019-05-23 CN CN201910433774.6A patent/CN110209765B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1515241A2 (en) * | 2003-09-15 | 2005-03-16 | Surfcontrol Plc | Using semantic feature structures for document comparisons |
CN1604075A (zh) * | 2004-11-22 | 2005-04-06 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
FR2970795A1 (fr) * | 2011-01-25 | 2012-07-27 | Synomia | Procede de filtrage de synonymes. |
CN102346777A (zh) * | 2011-10-09 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种对例句检索结果进行排序的方法和装置 |
CN102880645B (zh) * | 2012-08-24 | 2015-12-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN103902521A (zh) * | 2012-12-24 | 2014-07-02 | 高德软件有限公司 | 一种中文语句识别方法和装置 |
CN104699694A (zh) * | 2013-12-04 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 提示信息获取方法和装置 |
CN103745011A (zh) * | 2014-01-28 | 2014-04-23 | 广州一呼百应网络技术有限公司 | 一种搜索引擎检索结果智能显示的方法 |
AU2014203117A1 (en) * | 2014-06-10 | 2015-12-24 | Saha, Syamantak MR | Zapaat context internet search engine |
CN105138511A (zh) * | 2015-08-10 | 2015-12-09 | 北京思特奇信息技术股份有限公司 | 一种对搜索关键词进行语义分析的方法和*** |
CN106021553A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 结构化数据的匹配方法及*** |
CN107544955A (zh) * | 2016-06-24 | 2018-01-05 | 汇仕电子商务(上海)有限公司 | 自然语言句法分析方法及*** |
CN107562750A (zh) * | 2016-06-30 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 一种用于提供搜索结果的方法和装置 |
CN108073292A (zh) * | 2016-11-11 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种智能组词方法和装置、一种用于智能组词的装置 |
CN107315841A (zh) * | 2017-07-20 | 2017-11-03 | 北京三快在线科技有限公司 | 一种信息搜索方法、装置及*** |
Non-Patent Citations (5)
Title |
---|
REN XIANG: "Establishment of Dictionary for Personalized Chinese Word Segmentation", 《PROCEEDINGS OF 2011 INTERNATIONAL CONFERENCE ON MANAGEMENT SCIENCE AND INTELLIGENT CONTROL(ICMSIC 2011)》 * |
XUEJUN YU: "Keywords Semantic Extension in Semantic Search Model", 《PROCEEDINGS OF 2013 INTERNATIONAL CONFERENCE ON COMPUTER,NETWORKS AND COMMUNICATION ENGINEERING(ICCNCE 2013)》 * |
吴思颖: "一种实体模式匹配算法", 《郑州大学学报(理学版)》 * |
王素格: "基于搭配模式的汉语词性标注规则的获取方法", 《计算机工程与应用》 * |
苑春法: "基于词性和语义知识的汉语句法规则学习", 《中文信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831832A (zh) * | 2020-07-27 | 2020-10-27 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN111831832B (zh) * | 2020-07-27 | 2022-07-01 | 北京世纪好未来教育科技有限公司 | 词表构建方法、电子设备及计算机可读介质 |
CN112468410A (zh) * | 2020-11-05 | 2021-03-09 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
CN112468410B (zh) * | 2020-11-05 | 2021-10-22 | 武汉绿色网络信息服务有限责任公司 | 一种增强网络流量特征准确率的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110209765B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN106372060B (zh) | 搜索文本的标注方法和装置 | |
Daumé III et al. | A large-scale exploration of effective global features for a joint entity detection and tracking model | |
CN104252533B (zh) | 搜索方法和搜索装置 | |
US20170364518A1 (en) | Linking ontologies to expand supported language | |
US7516397B2 (en) | Methods, apparatus and computer programs for characterizing web resources | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
CN111159414B (zh) | 文本分类方法及***、电子设备、计算机可读存储介质 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和*** | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
Gencosman et al. | Character n-gram application for automatic new topic identification | |
Khan et al. | Audio structuring and personalized retrieval using ontologies | |
CN108197116A (zh) | 一种中文文本分词的方法、装置、分词设备及存储介质 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN113268606A (zh) | 知识图谱构建的方法和装置 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN110399505A (zh) | 语义标签生成方法及设备、计算机存储介质 | |
CN115033668B (zh) | 故事脉络构建方法、装置、电子设备和存储介质 | |
CN110209765A (zh) | 一种按语义搜索关键词的方法和装置 | |
CN103150409A (zh) | 一种用户检索词推荐的方法及*** | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |