CN112685440A - 标记搜索语义角色的结构化查询信息表达方法 - Google Patents

标记搜索语义角色的结构化查询信息表达方法 Download PDF

Info

Publication number
CN112685440A
CN112685440A CN202011640600.6A CN202011640600A CN112685440A CN 112685440 A CN112685440 A CN 112685440A CN 202011640600 A CN202011640600 A CN 202011640600A CN 112685440 A CN112685440 A CN 112685440A
Authority
CN
China
Prior art keywords
query
search
model
semantic
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011640600.6A
Other languages
English (en)
Other versions
CN112685440B (zh
Inventor
王程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinzhaoyang Information Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011640600.6A priority Critical patent/CN112685440B/zh
Publication of CN112685440A publication Critical patent/CN112685440A/zh
Application granted granted Critical
Publication of CN112685440B publication Critical patent/CN112685440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的标记搜索语义角色的结构化查询信息表达方法,将用户输入的搜索查询当作一个词序列,对该序列建立模型分析来解析用户行为,将计算科学和认知科学、心理学融合,通过对输入序列建立模型来分析用户行为背后真正的搜索意图;提出了一种将用户输入的自然语言文本表示成结构化查询信息的方法,是结构化查询信息提取和结构预测领域的成功实践,可以在自然语言处理和数据挖掘等其它领域推广;基于半监督学习方法,并将机器学习和人工经验结合在一起,减少监督学习方法需要人工标记大量样本的成本,对结果集合给出合理的解释;帮助搜索引擎解析用户的搜索意图,提升用户的搜索体验和商品的转化率。

Description

标记搜索语义角色的结构化查询信息表达方法
技术领域
本发明涉及一种结构化查询信息表达方法,特别涉及一种标记搜索语义角色的结构化查询信息表达方法,属于结构化信息检索技术领域。
背景技术
信息检索是对人们查询信息的过程进行分析建模,并设计计算机算法自动执行该查询,以便解析用户所需求的信息。信息检索的关键性问题之一就是相关性,相关性指搜索引擎反馈的搜索结果和用户的真正搜索需求是否匹配,即能否满足用户的搜索需求,相关性在电商等领域还直接关系商品的转化率,这种相关性的决策通常需要更深层次的解析用户的搜索意图,因此在设计比较文本以及对文本进行排序的算法时,需要综合考虑这些因素。
如果单纯如Unix中的文本查找或数据库***工具,对查询和文本进行简单的全文字符串比较,寻求精确的匹配,返回的结果通常无法满足用户的需求,一个明显的原因是:同一个概念能用不同的词语表述出来,而同一个词语在不同的语言环境中也能表达不同的概念,这在信息检索中称为词表不匹配问题;另一方面用户输入的搜索查询词有一定的侧重点,隐性的反映用户的需求和个人偏好。在电商垂直搜索引擎中,相关性的度量极其重要,其直接关系用户的搜索满意度和商品的转化率。现有技术先后提出了多种检索模型,一个检索模型是对用户输入的搜索查询与数据库中文本匹配过程的形式化的表示,它是排序算法的基础,搜索引擎利用检索模型检索数据库中存储的数据并返回信息的有序列表,一个好的检索模型应该能够找到那些与提问者相关的文本,并按照相关性排序,将最能满足用户需求的信息排在前面,在信息检索中,大多数检索模型往往只对文本进行简单的字符串统计而不关心语言内在的结构,这种检索模型会使搜索引擎反馈的结果相关性上存在较大偏差,这种偏差在电商等垂直搜索引擎中表现更明显。
现有技术的检索模型,如空间向量模型、BM25模型、查询似然模型等,大都依赖于词袋,是文本的一种简单表示方式,在这些检索模型中,文本被作为一组无序词语的集合,文本整体的句法或上下文关系没有被体现出来,然而从语言学角度来看,一篇文本遵循特定的句法和语法结构并且每个单词都和特定的语境(上下文)紧密相关,因而词袋的表示能力非常有限。当前目标是打破词袋模型的束缚,分析文本的内部结构并建立一个能处理结构化和非结构数据的常规检索模型。探究文本结构是网络搜索的关键部分,结构化解析方法就是对自然语言文本进行结构化表示,从而更能准确的识别用户的搜索意图。
结构化搜索的基础是从用户输入的搜索查询中提取结构化信息,并将其与后台文本有效匹配,在电商等垂直搜索引擎中,其后台文本(商品)更多的以结构化或半结构化的方式储存,因此结构化搜索的应用有先天优势,对用户输入的搜索查询进行结构化解析进而深层次的解析用户的查询意图有巨大的应用价值。
综合来看,现有技术的查询信息表达依然存在诸多不足,现有技术的难点和本发明解决的问题主要集中在以下方面:
第一,现有技术的文本查找或数据库***工具,对查询和文本进行简单的全文字符串比较,返回的结果通常无法满足用户的需求,存在信息检索词表不匹配问题,另外用户输入的搜索查询词有侧重点,隐性的反映用户的需求和个人偏好大多数检索模型往往只对文本进行简单的字符串统计而不关心语言内在的结构,这种检索模型会使搜索引擎反馈的结果相关性上存在较大偏差,这种偏差在电商等垂直搜索引擎中表现更明显,;
第二,现有技术大都依赖于词袋,是文本的一种简单表示方式,在这些检索模型中,文本被作为一组无序词语的集合,文本整体的句法或上下文关系没有被体现,词袋的表示能力非常有限,现有技术无法打破词袋模型的束缚,分析文本的内部结构并建立一个能处理结构化和非结构数据的常规检索模型,无法准确的识别用户的搜索意图,当前的搜索体验无法满足用户对信息的获取需求,挫伤用户的搜索积极性和整个的用户粘性,不利于网站平台的良性发展;
第三,现有技术识别查询核心词存在以下困难和不足:一是查询文本长度短,属于语句级别的实体识别,而传统的命名实体识别更多的关注篇章级别的分析,因此现有技术文本分析技术(如词法分析、句法分析)在识别查询核心词上的效果不理想;二是查询文本结构不严谨,存在大量的不规范表达,数据的泛化和标准化处理较困难;三是常规的命名实体识别技术是识别特定文本中的特定实体,而查询中一般只有一个核心词能体现用户的搜索目的,需要深层次的挖掘词语上下文信息;四是命名实体识别仅识别出文本中的实体,而查询中核心词识别需要识别出搜索中最能体现用户搜索意图的关键成分,并且将其归属到特定的类别;
第四,现有技术提取结构化查询信息存在以下的困难和不足:一是查询文本不规范,在语义角色标记过程中需要进行大量的泛化和标准化的工作;二是查询文本结构不严谨,现有的搜索引擎都是基于词袋模型进行检索,引导用户输入的搜索查询是一些关键字的堆砌,很多的查询不遵循句法规则甚至完全不成一句话,现有技术的文本分析技术并不完全适用;三是由于文本表述的多样性,导致很多例子存在一词多义或一义多词的现象,给语义单元的归类带来很大的难度;
第五,现有技术半监督或无监督的学习方法应用在自然语言处理领域,常用的半监督学习方法是自学习方法,这些自学习方法是一种实际经验的总结,缺乏理论基础,在很多问题上并不能取得很好的效果,还存在未标记数据状态序列未知,仅用少量的标记数据不能覆盖到所有未标记数据潜在的模式。由于缺少大量的人工标记数据,现有技术基于监督学习的条件随机域模型不能很好的来解决标记搜索语义角色的问题。
发明内容
针对现有技术的不足,本发明提供一种标记搜索语义角色的结构化查询信息表达方法,现了深入分析用户输入的搜索查询,解析用户的搜索意图,更有效准确的反馈用户所需要的信息。将用户输入的自然语言文本以结构化的形式表示,能深入的解析用户的搜索意图和个人偏好,减少用户输入查询次数,缩短用户的搜索路径。
为达到以上技术效果,本发明所采用的技术方案如下:
标记搜索语义角色的结构化查询信息表达方法,进一步的,从用户输入的搜索查询中提取结构化查询信息,将自然语言文本表示成结构化数据,准确解析用户的搜索意图,提升用户的搜索满意度;本发明基于查询的潜在语义结构并对搜索结构化查询信息提取进行形式化的表示,提出标记搜索语义角色的概念并给出其完整定义:将用户输入的搜索查询表示为受核心词支配的结构化数据格式,标记出搜索查询中的核心词和受其支配的语义论元;
标记搜索语义角色从语句的结构特征上对用户输入的搜索查询进行解析,理解把握用户的搜索意图,主要包括标记搜索语义角色的架构、基于半监督条件随机域的查询核心词识别、基于半监督条件随机域的结构化查询信息提取,具体为:
第一,标记搜索语义角色的架构,对用户输入的搜索查询进行深层次的解析,把用户输入的搜索查询切分成若干个独立的语义单元并将其分配到预先设定的语义类别,采取一种递进的方式实现标记搜索语义角色的方法,包括两部分:首先识别出用户输入查询的关键成分,即核心词,关键成分直接表示用户真正的搜索查询意图,当无法对搜索查询进行深层次的结构化解析时,核心词保证相关性在可控范围内;其次对用户输入的搜索查询进行深层次解析,从用户输入的搜索查询中提取结构化的信息,识别用户真正的搜索意图和潜在需求;
第二,基于半监督条件随机域的查询核心词识别,对用户输入的搜索查询建立模型,识别出搜索查询中的核心词并将其分类,从概率角度推导查询语句的生成过程,采用一种三层贝叶斯半监督概率模型建立模型,将搜索查询中的核心词视为文本,将核心词的上下文信息作为组成文本的词汇,核心词的类别作为主题,采用一种半监督条件随机域模型进行核心词的挖掘和分类;
第三,基于半监督条件随机域的结构化查询信息提取,采用一种半监督条件随机域模型来提取结构化查询信息,将用户输入的自然语言文本表示成结构化查询数据,首先提出一种半自动标记方法对大量的查询进行前置标记,然后综合采用少量的人工标记数据和大量的半自动标记数据来训练模型并对未标记数据进行标记,采用半监督条件随机域的方法训练模型对未标记数据进行结构化查询信息提取。
标记搜索语义角色的结构化查询信息表达方法,进一步的,语义角色标记是标记一个语句中的谓语和受其支配的其它成分,是对语句的结构进行深入剖析从而进行语义层面解析的一种方法,语义角色标记识别出一个语句中的谓语和受其支配的其它语义论元,标记搜索语义角色对搜索查询中各个语义角色进行自动标记,分析查询的结构从而深层次解析用户的搜索意图,查询语句受核心词支配,查询中的其它成分从属于核心词;
标记搜索语义角色的定义为:将用户输入的搜索查询表示为受核心词支配的结构化的数据格式,标记出搜索查询中的核心词和受其支配的其它语义论元,其形式化定义为:
p→{ProWord;SeUnit1,SeUnit2,…,SeUnitn}
其中p表示用户输入的搜索查询,ProWord表示查询中的核心词,SeUnit i表示需要标记的语义单元,n表示定义的语义单元的个数。
标记搜索语义角色的结构化查询信息表达方法,进一步的,引入主题模型:在判断文本相关性时不仅考虑词语共现的情况,而且考虑文本所表达的深层次语义,本发明引入主题模型进行语义分析,主题模型中的主题表示为一组相同概念的泛化表述形式,用生成模型来阐述文本的生成过程:一篇文本包含若干的主题,每个主题以概率选择若干词汇,一篇文本的生成过程表示为:
q(词汇|文本)=∑主题q(词语|主题)*q(主题|文本)
主题模型的矩阵形式:其中等式左边的矩阵表示每个文本中每个词语的词频,即词语出现的概率;等式右边第一个矩阵表示每个主题中每个词语的出现概率;等式右边第二个矩阵表示每个文本中不同主题出现的概率,给定一系列文本,预先对文本进行前置处理,然后统计每个文本中单词出现的频率得到左边的“文本-词语”矩阵,主题模型是对左边这个矩阵进行分解,学习出右边两个矩阵;
条件随机域主题模型对文字隐含的主题建立模型,并从海量的文本中把表述同一语义主题的文本聚在一起,采用一种三层贝叶斯半监督概率模型识别查询核心词,核心词对应于文本,核心词的上下文信息对应文本中的词汇,核心词的类别对应主题。
标记搜索语义角色的结构化查询信息表达方法,进一步的,主题模型推导:包含单一核心词信息的查询形式化的表示为一个三元组three(q,r,s),其中q(ProWord)表示查询中的核心词,r表示查询中核心词的上下文信息,s表示核心词的类别信息,查询中核心词识别问题的目标是识别查询中的核心词q,并把q归属于最可能的类别s,问题转换为从所有可能的三元组中找到一个概率最大的三元组three(q,r,s)*
(q,r,s)*=argmax(q,r,s)Qr(p,q,r,s)
=argmax(q,r,s)Qr(p|q,r,s)Qr(q,r,s)
=argmax(q,r,s)∈F(p)Qr(q,r,s)
条件概率Qr(p|q,r,s)表示三元组three(q,r,s)生成查询p的概率,给定一个三元组three(q,r,s)生成唯一的查询,对于一个给定的查询p和三元组three(q,r,s),Qr(p|q,r,s)只能是0或1,即只有两种可能:三元组three(q,r,s)生成查询p或三元组three(q,r,s)无法生成查询q,定义F(q)为所有能够产生查询p的三元组的集合,即Qr(p|q,r,s)=1,则(q,r,s)*一定在F(p)中,查询中核心词识别问题可简化为对于F(p)中的任一三元组求其联合概率Qr(p|q,r,s):
Qr(q,r,s)=Qr(q)Qr(s|q)Qr(r|q,s)
=Qr(q)Qr(s|q)Qr(r|s)
式中,假设Qr(r|q,s)=Qr(r|s),本发明的查询中核心词识别的问题进一步演化为估算Qr(q)、Qr(s|q)和Qr(r|s),其中包含大量的核心词和上下文信息。
标记搜索语义角色的结构化查询信息表达方法,进一步的,半监督条件随机域模型:假设数据集R={(qi,ri,si)|i=1,…,N},(qi,ri,si)是查询p对应的三元组,N是数据集规模,查询中核心词识别问题形式化表示为:
Figure BDA0002881212620000051
若每个核心词属于单一类别,则按照上式构建优化目标,构建数据集R={(qi,ri)},把核心词对应的类别信息si作为隐变量,问题的优化目标变成如下情况:
Figure BDA0002881212620000052
式中,Qr(qi)代表核心词qi出现的概率,Qr(s|qi)表示核心词qi属于类别s的概率,Qr(ri|s)表示类别s下上下文信息ri出现的概率,概率Qr(qi)独立于Qr(s|qi)和Qr(ri|s),从数据集中统计得出,假设Qr(qi)的估算值为Pr*(qi),则上式表示为:
Figure BDA0002881212620000053
问题的求解变成上式的概率估算问题,形式上表示成一个主题模型,核心词对应于文本,核心词的上下文信息对应文本的单词,类别信息对应其主题,本发明中采用条件随机域主题模型,该条件随机域模型采用半监督的方式学习,即本发明中所描述的SS-LDA,主题(类别)预先约定,每个文本(核心词)的主题(类别)在训练数据集中标记。
标记搜索语义角色的结构化查询信息表达方法,进一步的,查询核心词识别方法流程:采用SS-LDA和训练数据集构建一个查询核心词识别***,包括三个模块:数据前置处理模块、线下训练模块和在线标记模块;
数据前置处理:理对用户输入的搜索查询进行归一化和标准化处理,标准化处理是对用户输入的搜索查询进行过滤,过滤乱码、多余的空格和rab键,去掉停用词,前置处理方便后续对查询词的进一步处理,归一化处理是取词根操作,对单个查询词还原其初始形式;
线下训练:是数据挖掘和参数学习方法对参数进行求解的过程,首先从训练数据集中选取核心词作为种子,并将其对应的类别信息进行标记,然后用这些种子核心词扫描数据集,得到训练数据集(qi,ri),用SS-LDA训练出一个主题模型,对于每个种子核心词估算出Qr(s|q),同时对于每个类别得出Qr(r|s),接下来再次扫描数据集,获得所有包含s的查询,把去除上下文信息s的部分作为新的核心词,针对新提取的核心词,再次采用SS-LDA更新Qr(q|s),此步骤中新提取的产品q的概率Qr(q)也进行更新,采用核心词q在数据集中出现的频率来估算Qr(q),即核心词q出现的频率越高,其概率Qr(q)也越高,通过以上步骤,对模型中所需要的Qr(q)和Qr(r|s)进行求解,将线下求得的概率进行存储以便有效的进行线上预测;
线上标记:对于用户输入的搜索查询尝试求解F(p)中概率最大的三元组three(q,r,s),把查询分割成核心词和上下文信息的所有组合,对应的核心词标记为对应的类别来生成F(p),对于F(p)中的任一三元组three(q,r,s),计算其联合概率Qr(q,r,s),概率值最大的三元组作为结果输出。
标记搜索语义角色的结构化查询信息表达方法,进一步的,标记问题形式化表示:标记问题的输入是一个已知的观察序列,输出是一个隐藏的标记序列或者状态序列,标记问题从训练样本中学习一个模型,使它能对新观察序列给出正确的标记序列,标记问题分为学习和标记两个过程,首先给定一个训练数据集:
R={(x1,y1),(x2,y2),…,(xn,yn)}
其中,xi={xi (1),xi (2),…,xi (n)},i=1,2,…,n,是观察序列,yi=(yi (1),yi (2),…,yi (n))是对应的标记序列(状态序列),n表示观测序列的长度,学习***从训练数据集中学习一个模型,整个过程用条件概率分布表示:
Q(Y(1),Y(2),…,Y(n)|X(1),X(2),…,X(n))
其中,每一个X(i)(i=1,2,…,n)取值为所有可能的观察值,每一个Y(i)(i=1,2,…,n)取值为所有可能的标记,标记***根据学习的条件概率分布模型,对新输入观察序列找到对应状态序列作为输出,具体为:对一个观察序列:
Figure BDA0002881212620000071
找到条件概率:
Figure BDA0002881212620000072
最大的标记序列:
Figure BDA0002881212620000073
本发明标记搜索语义角色是一个典型的标记问题,采用序列标记模型解决,具体采用一种半监督条件随机域模型标记搜索语义角色。
标记搜索语义角色的结构化查询信息表达方法,进一步的,条件随机域序列标记模型:条件随机域是给定随机变量X的条件下,随机变量Y的马尔科夫随机场,线性链条件随机域是给定观察序列,计算标记序列的条件概率模型Q(Y/X),其中Y是输出变量,表示标记序列,X是输入变量,表示需要标记的观察序列,学习过程即利用训练数据集通过极大似然估算或正则化的极大似然估算得到训练数据集的条件概率模型Q*(Y|X);预测过程即对于给定的观察序列x,根据学习到的模型求出条件概率Q*(y|x)最大的状态序列y*;
条件随机域定义:设X与Y为随机变量,Q(Y|X)是在给定X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图F=(U,B)表示的马尔科夫随机场,即:
Q(YU|X,YK,k≠u)=Q(X,YK,k~u)
对任意结点u成立,则条件概率分布Q(Y|X)为条件随机域,式中k~u表示在图F=(U,B)中与结点u有边连接的所有结点k,k≠u表示结点u以外的所有结点,YU和YK为结点u和k对应的随机变量,假设X和Y有相同的图结构,有向图为的线性链的情况为:
F=(U={1,2,…,n},B={i,i+1})
其中,i=1,2,…,n-1,X=(X1,X2,…Xn),Y=(Y1,Y2,…Yn),最大团是相邻两个结点的集合。
标记搜索语义角色的结构化查询信息表达方法,进一步的,建立序列标记模型:对用户输入的搜索查询进行语义单元的切分,把每个语义单元归属到预先设定的类别中,本发明采用序列标记模型的方法来解决标记搜索语义角色的问题;
标记搜索语义角色架构的输入包括两类数据:一是少量的人工标记的数据,二是大量的半自动标记的数据,语义标记器由这两类资源训练学习得到,将已标记的n条训练数据表示为(x(i),y(i)),i=1,2,…n,其中x(i)表示观察序列,y(i)表示标记序列,模型训练的目标是寻找最优参数向量h*,使其满足:
Figure BDA0002881212620000081
模型训练完成之后,得到语义标记器,对于给定的输入序列x,得到对应的输出序列y*:
y*=arg maxy q(y|x;h)
训练样本输入语义标记器模型输出标记搜索语义角色架构。
标记搜索语义角色的结构化查询信息表达方法,进一步的,结构化查询信息提取模型:采取半自动标记的方法对查询中的单元进行前置标记,利用更多的潜在信息训练出一个条件随机域模型,采用关系数据表来进行数据集的半自动标记,采用用户的点击日志信息来完成训练数据的半自动标记;
本发明做如下定义:
第一,人工标记数据集:通过人工标记的训练数据集,形式化表示为y=(y1,y2,…,yR);
第二,半自动标记数据集:利用附加资源通过半自动标记方法标记的训练数据集,是标记了查询中的某些单元,形式化表示为z=(z1,z2,…,zR);
半自动标记数据集对人工标记数据集起到补充作用,缓解人工标记数据集不能覆盖未标记数据所有模式造成的问题,本发明主要使用两类数据集:一是少量的人工标记数据集,二是大量的半自动标记数据集,利用这两份数据集学习一个条件随机域模型,半自动标记数据集只有部分语义单元被标记,做如下假设:如果yr=zr,则该变量作为观察变量,否则,该变量作为隐藏变量。
与现有技术相比,本发明的贡献和创新点在于:
第一,本发明的标记搜索语义角色的结构化查询信息表达方法,主要贡献在于:一是本发明从计算机语言的角度,将用户输入的搜索查询当作一个词序列,对该序列建立模型分析来解析用户行为,将计算科学和认知科学、心理学融合,通过对输入序列建立模型来分析用户行为背后真正的搜索意图;二是对用户输入的搜索查询进行了整体的结构分析,提出了一种将用户输入的自然语言文本表示成结构化查询信息的方法,是结构化查询信息提取和结构预测领域的成功实践,可以在自然语言处理和数据挖掘等其它领域推广;三是基于半监督学习方法,并将机器学习和人工经验结合在一起,一方面,半监督学习能减少监督学习方法需要人工标记大量样本的成本,另一方面,其能对结果集合给出一个相对合理的解释(无监督学习的可解释性比较差);四是本发明能够帮助搜索引擎解析用户的搜索意图,从而提升用户的搜索体验和商品的转化率,实现结构化搜索,具有很高的实用价值和广阔的应用前景;
第二,本发明属于用户搜索意图识别的热点问题,实现了深入分析用户输入的搜索查询,解析用户的搜索意图,更有效准确的反馈用户所需要的信息。将用户输入的自然语言文本以结构化的形式表示,能深入的解析用户的搜索意图和个人偏好,减少用户输入查询次数,缩短用户的搜索路径;
第三,本发明标记搜索语义角色的方法具有巨大的现实意义,一方面,为购物搜索引擎提供有价值的查询语义信息,为搜索引擎的检索与排序提供重要的参数,有利于提升用户的搜索体验和商品的转换率;另一方面,标记搜索语义角色能够有效促进页面广告带来收益。本发明的创新性主要进一步体现在以下方面:一是提出了标记搜索语义角色的形式化表示形式,以便对问题进行数学建模;二是从概率角度推导查询语句的生成过程,将问题形式化表示成一个优化问题,采用一种三层贝叶斯半监督概率模型对问题建立模型,并通过实验验证了方法的有效性;三是为了缓解标记样本较少的情况,本发明提出一种半自动标记数据,采用后台结构化的数据对大量的查询进行前置标记,然后结合少量的人工标记样本和大量的半自动标记数据,采用一种半监督条件随机域模型来进行结构化查询信息提取,将用户输入的自然语言文本表示成结构化的数据,实验表明,本发明标记性能进一步提升,尤其是在人工标记样本少的情形下效果得到显著提升;
第四,本发明对用户输入的搜索查询进行深层次的解析,把用户输入的搜索查询切分成若干个独立的语义单元并将其分配到预先设定的语义类别,采取一种递进的方式实现标记搜索语义角色的方法,包括两部分:首先识别出用户输入查询的关键成分,即核心词,关键成分直接表示用户真正的搜索查询意图,当无法对搜索查询进行深层次的结构化解析时,核心词能保证相关性在可控范围内;其次对用户输入的搜索查询进行深层次解析,从用户输入的搜索查询中提取结构化的信息,识别用户真正的搜索意图和潜在需求;
第五,本发明进一步探讨标记搜索语义角色的问题,从用户输入的搜索查询中提取结构化查询信息,并对其进行语义角色标记。垂直网站后台的是一些半结构化的信息,当用户输入查询时,提取结构化查询信息,将结构化信息和后台信息进行匹配,提升用户的搜索体验。针对现有技术耗费大量的人力进行数据的人工标记,同时可能造成数据标记不一致等问题,本发明采用一种半监督条件随机域模型来解决此问题,主要贡献为:一是提出了一种基于用户点击日志和领域知识库的查询半自动标记方法,二是基于半监督条件随机域的标记搜索语义角色方法;
第六,本发明结构化查询信息提取是查询深层次解析,将用户输入的自然语言文本表示成结构化的形式,为结构化搜索打下基础,本发明提出一种半自动标记方法对用户输入的搜索查询进行前置标记,然后综合采用人工标记数据和半自动标记数据,采用半监督条件随机域的方法训练模型对未标记数据进行结构化查询信息提取,半监督条件随机域模型采用少量人工标记的数据和大量半自动标记的数据进行训练,缓解人工标记数据的困难,通过实验验证了本发明的优越性。
附图说明
图1是本发明的条件随机域模型的概率图模型示意图。
图2是本发明条件随机域生成一篇文本三个表示层次示意图。
图3是本发明查询核心词识别方法流程示意图。
图4是本发明查询语义角色标记框架示意图。
图5是本发明结构化查询信息提取方法流程示意图。
具体实施方式
下面结合附图,对本发明提供的标记搜索语义角色的结构化查询信息表达方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。
互联网搜索引擎中,用户输入的搜索查询经常指向结构化数据,如电商平台商品搜索、航班、电影放映时间等。但由于用户输入的搜索查询以自然语言文本的形式表示,从这些结构化的数据中返回相关结果面临很大困难。如果能从用户输入的搜索查询中提取结构化查询信息,将自然语言文本表示成结构化数据能更加准确的解析用户的搜索意图,提升用户的搜索满意度。本发明基于查询的潜在语义结构并对搜索结构化查询信息提取进行形式化的表示,提出标记搜索语义角色的概念并给出其完整定义:将用户输入的搜索查询表示为受核心词支配的结构化数据格式,标记出搜索查询中的核心词和受其支配的语义论元。
标记搜索语义角色从语句的结构特征上对用户输入的搜索查询进行解析,理解把握用户的搜索意图,主要包括:
第一,基于语义角色标记,提出标记搜索语义角色的完整定义及其研究的范围;
第二,基于搜索查询核心词辨认识别问题,对用户输入的搜索查询建立模型,识别出搜索查询中的核心词并将其分类,从概率角度推导查询语句的生成过程,采用一种三层贝叶斯半监督概率模型建立模型,将搜索查询中的核心词视为文本,将核心词的上下文信息作为组成文本的词汇,核心词的类别作为主题;
第三,采用一种半监督条件随机域模型来提取结构化查询信息,将用户输入的自然语言文本表示成结构化查询数据,本发明首先提出一种半自动标记方法对大量的查询进行前置标记,然后综合采用少量的人工标记数据和大量的半自动标记数据来训练模型并对未标记数据进行标记;
第四,就不同模型、不同特征空间的多种情况在真实数据集上进行对比,结果及其分析证明本发明方法在标记搜索语义角色的结构化查询信息表达的优越性。
一、标记搜索语义角色的架构
标记搜索语义角色是结构化搜索的基础,本发明对用户输入的搜索查询进行深层次的解析,把用户输入的搜索查询切分成若干个独立的语义单元并将其分配到预先设定的语义类别,采取一种递进的方式实现标记搜索语义角色的方法,包括两部分:首先识别出用户输入查询的关键成分,即核心词,关键成分直接表示用户真正的搜索查询意图,当无法对搜索查询进行深层次的结构化解析时,核心词能保证相关性在可控范围内;其次对用户输入的搜索查询进行深层次解析,从用户输入的搜索查询中提取结构化的信息,识别用户真正的搜索意图和潜在需求。
(一)标记搜索语义角色的概念
语义角色标记是标记一个语句中的谓语和受其支配的其它成分(主语、宾语等),是对语句的结构进行深入剖析从而进行语义层面解析的一种方法,语义角色标记识别出一个语句中的谓语和受其支配的其它语义论元,标记搜索语义角色对搜索查询中各个语义角色进行自动标记,分析查询的结构从而深层次解析用户的搜索意图,搜索查询是一些关键词的堆砌并没有谓语或其它的语言成分,但查询语句受核心词支配,查询中的其它成分从属于核心词。
基于语义角色标记的概念,标记搜索语义角色的定义为:将用户输入的搜索查询表示为受核心词支配的结构化的数据格式,标记出搜索查询中的核心词和受其支配的其它语义论元,其形式化定义为:
p→{ProWord;SeUnit1,SeUnit2,…,SeUnitn}
其中p表示用户输入的搜索查询,ProWord表示查询中的核心词,SeUnit i表示需要标记的语义单元,n表示定义的语义单元的个数。
(二)识别查询核心词
识别查询核心词是从用户输入的搜索查询中识别出最能表示用户搜索意图的实体,语言学角度的核心词是用户输入查询最重要的语义单元,核心词识别包括两方面:一是搜索查询中核心词的提取,即从用户输入的搜索查询中把核心词提取出来;二是核心词的分类,即把提取的核心词划分到特定的类别;搜索查询中核心词识别用形式化语言表述为:
inquiry→{ProWord,ClassProWord}
其中,ProWord表示查询中最能代表用户搜索意图的核心词,ClassProWord表示核心词ProWord对应的类别。
现有技术识别查询核心词存在以下困难和不足:一是查询文本长度短,属于语句级别的实体识别,而传统的命名实体识别更多的关注篇章级别的分析,因此现有技术文本分析技术(如词法分析、句法分析)在识别查询核心词上的效果不理想;二是查询文本结构不严谨,存在大量的不规范表达,数据的泛化和标准化处理较困难;三是常规的命名实体识别技术是识别特定文本中的特定实体,而查询中一般只有一个核心词能体现用户的搜索目的,需要深层次的挖掘词语上下文信息;四是命名实体识别仅识别出文本中的实体,而查询中核心词识别需要识别出搜索中最能体现用户搜索意图的关键成分,并且将其归属到特定的类别。本发明采用一种三层贝叶斯半监督概率模型来进行查询中核心词的识别及其分类,将查询中的核心词对应文本,将查询的上下文信息对应构成文本的词汇,将核心词的类别对应主题。
(三)提取结构化查询信息
提取结构化查询信息即将用户输入的自然语言文本表示成结构化的数据格式,定义:一个语义单元是一个或多个单词构成的字符序列,假设结构化的数据以表格R={R1,R2,…,Rn}的形式存储,其中Ri表示一个语义类别及其相关属性的集合,将表格R的语义类别表示为R.D={R.D1,R.D2,…,R.Dm},其中m表示预定义的需要标记语义类别的个数,每个语义类别的元素集合表示为R.D.U={R.D.U1,R.D.U2,…,R.D.Uk},其中k表示该语义类别下元素的个数,语义类别下的元素为字符型或数值型。
查询结构化查询信息提取的形式化表示:将用户输入的搜索查询序列p表示成一个二元组的形式<ProWord,RProWord>,其中ProWord代表查询词p中的核心词,RProWord表示ProWord对应的结构化查询信息表。
现有技术提取结构化查询信息存在以下的困难和不足:
一是查询文本不规范,在语义角色标记过程中需要进行大量的泛化和标准化的工作;二是查询文本结构不严谨,现有的搜索引擎都是基于词袋模型进行检索,引导用户输入的搜索查询是一些关键字的堆砌,很多的查询不遵循句法规则甚至完全不成一句话,现有技术的文本分析技术并不完全适用;三是由于文本表述的多样性,导致很多例子存在一词多义或一义多词的现象,给语义单元的归类带来很大的难度;本发明采用一种半监督条件随机域模型对查询中的语义单元进行标记,利用少量人工标记的数据和大量的半自动标记数据(本发明提出了一种半自动数据标记算法)来训练条件随机域模型。
二、基于半监督条件随机域的查询核心词识别
本发明提出搜索查询中核心词识别算法,对于给定的查询识别出其核心词并对其进行分类。在淘宝、京东等电商网站运营过程中,查询中核心词的识别大都依靠规则,而规则的生成要有经验丰富的专业人员参与,依靠规则和词库进行核心词识别人工成本较高、领域特异性强,算法识别结果的覆盖率较低,不能自适应复杂的查询。针对该问题,本发明采用了一种基于SeS-LDA的核心词识别算法,把核心词的上下文信息对应一篇文本的词汇,把核心词的类别当作主题,然后基于条件随机域模型进行训练。
(一)引入主题模型
在判断文本相关性时不仅要考虑词语共现的情况,而且要考虑文本所表达的深层次语义,本发明引入主题模型进行语义分析,主题模型中的主题表示为一组相同概念的泛化表述形式,解决的问题包括:一是怎样才能生成主题,二是对文章的主题如何分析。用生成模型来阐述文本的生成过程:一篇文本包含若干的主题,每个主题以概率选择若干词汇,一篇文本的生成过程表示为:
q(词汇|文本)=∑主题q(词语|主题)*q(主题|文本)
主题模型的矩阵形式:其中等式左边的矩阵表示每个文本中每个词语的词频,即词语出现的概率;等式右边第一个矩阵表示每个主题中每个词语的出现概率;等式右边第二个矩阵表示每个文本中不同主题出现的概率。给定一系列文本,预先对文本进行前置处理,然后统计每个文本中单词出现的频率得到左边的“文本-词语”矩阵。主题模型是对左边这个矩阵进行分解,学习出右边两个矩阵。
条件随机域主题模型对文字隐含的主题建立模型,克服传统信息检索中文本相似度计算方法的缺点,并从海量的文本中把表述同一语义主题的文本聚在一起,本发明采用一种三层贝叶斯半监督概率模型识别查询核心词,核心词对应于文本,核心词的上下文信息对应文本中的词汇,核心词的类别对应主题。
(二)构建条件随机域主题模型
条件随机域主题模型是两个Dirichlet共轭分布,生成一篇文本的过程为:首先以一定的概率生成主题向量θ,向量中每个元素值代表主题被选择的概率;然后从主题向量a中选择一个主题x,按主题x的单词概率分布生成一个单词,条件随机域模型的概率图模型如图1所示,条件随机域的联合概率为:
Figure BDA0002881212620000131
条件随机域生成一篇文本的过程分为三个层次,对应到图上可以如图2所示,条件随机域模型的三个表示层用三种不同颜色标记:
1)corpus-level(实线):b和c表示语料级别的参数,其分别表示一篇文本生成主向量的过程和每个主题向量选择单词的过程,这两个参数是全局参数,在模型训练时采样一次;
2)document-level(虚线):a是文本层面的变量,每个文本对应不同的a,表示该篇文本的主题分布,每篇文本主题x分布不同,每篇文本的生成过程都要采样一次a;
3)word-level(五角星线):x和k都是单词级别变量,x由a生成,简单解析为主题向量中的概率值,k由x和c共同生成,一个单词k对应一个主题x;
条件随机域模型主要由两个参数b和c确定,条件随机域的训练过程是这两个参数的求解过程,将k当作观察变量,a和x当作隐藏变量,采用EM算法学习出参数b和c,训练出一个条件随机域模型。
采用三层贝叶斯半监督概率模型识别查询中的核心词,把包含单一核心词的查询形式化表示为一个三元组,即three(q,r,s),其中,q表示查询中的核心词,r表示核心词的上下文信息,s表示核心词的类别信息,r可以为空,即查询中的核心词没有上下文信息,查询中核心词识别的问题转化为:给定一个查询,找到一个三元组three(q,r,s),使其联合概率Q(q,r,s)最大,本发明采用一种半监督的条件随机域主题模型求解该问题。
(三)主题模型推导
包含单一核心词信息的查询形式化的表示为一个三元组three(q,r,s),其中q(ProWord)表示查询中的核心词,r表示查询中核心词的上下文信息,s表示核心词的类别信息,查询中核心词识别问题的目标是识别查询中的核心词q,并把q归属于最可能的类别s,问题转换为从所有可能的三元组中找到一个概率最大的三元组three(q,r,s)*
(q,r,s)*=argmax(q,r,s)Qr(p,q,r,s)
=argmax(q,r,s)Qr(p|q,r,s)Qr(q,r,s)
=argmax(q,r,s)∈F(p)Qr(q,r,s)
条件概率Qr(p|q,r,s)表示三元组three(q,r,s)生成查询p的概率,给定一个三元组three(q,r,s)生成唯一的查询,对于一个给定的查询p和三元组three(q,r,s),Qr(p|q,r,s)只能是0或1,即只有两种可能:三元组three(q,r,s)生成查询p或三元组three(q,r,s)无法生成查询q,定义F(q)为所有能够产生查询p的三元组的集合,即Qr(p|q,r,s)=1,则(q,r,s)*一定在F(p)中,查询中核心词识别问题可简化为对于F(p)中的任一三元组求其联合概率Qr(p|q,r,s):
Qr(q,r,s)=Qr(q)Qr(s|q)Qr(r|q,s)
=Qr(q)Qr(s|q)Qr(r|s)
式中,假设Qr(r|q,s)=Qr(r|s),本发明的查询中核心词识别的问题进一步演化为估算Qr(q)、Qr(s|q)和Qr(r|s),数据规模的庞大,其中包含大量的核心词和上下文信息。
(四)半监督条件随机域模型
假设数据集R={(qi,ri,si)|i=1,…,N},(qi,ri,si)是查询p对应的三元组,N是数据集规模,查询中核心词识别问题形式化表示为:
Figure BDA0002881212620000151
若每个核心词属于单一类别,则按照上式构建优化目标,但实际应用中,核心词有较多歧义,核心词的数量庞大,构建数据集R={(qi,ri)},把核心词对应的类别信息si作为隐变量,问题的优化目标变成如下情况:
Figure BDA0002881212620000152
式中,Qr(qi)代表核心词qi出现的概率,Qr(s|qi)表示核心词qi属于类别s的概率,Qr(ri|s)表示类别s下上下文信息ri出现的概率,概率Qr(qi)独立于Qr(s|qi)和Qr(ri|s),从数据集中统计得出,假设Qr(qi)的估算值为Pr*(qi),则上式表示为:
Figure BDA0002881212620000153
问题的求解变成上式的概率估算问题,形式上表示成一个主题模型,核心词对应于文本,核心词的上下文信息对应文本的单词,类别信息对应其主题,本发明中采用条件随机域主题模型,该条件随机域模型采用半监督的方式学习,即本发明中所描述的SS-LDA,主题(类别)预先约定,每个文本(核心词)的主题(类别)在训练数据集中标记。
(五)查询核心词识别方法流程
本发明采用SS-LDA和训练数据集构建一个查询核心词识别***,包括三个模块:数据前置处理模块、线下训练模块和在线标记模块,方法流程图如图3所示。
数据前置处理:从真实用户查询日志中选取数据样本作为训练数据,其中存在大量噪音数据(如错误拼写、不规则拼写、大小写混用等情况),对整个模型的训练精度产生很大影响,数据前置处理对用户输入的搜索查询进行归一化和标准化处理,标准化处理是对用户输入的搜索查询进行过滤(如大写转小写),过滤乱码、多余的空格和rab键,去掉停用词,前置处理方便后续对查询词的进一步处理,归一化处理是取词根操作,对单个查询词还原其初始形式。
线下训练:是数据挖掘和参数学习方法对参数进行求解的过程,由于数据样本的规模庞大,数据标记极其困难,首先从训练数据集中选取核心词作为种子,并将其对应的类别信息进行标记(单个核心词可对应多个类别信息),然后用这些种子核心词扫描数据集,得到训练数据集(qi,ri),用SS-LDA训练出一个主题模型。本发明的SS-LDA主题模型相比传统的条件随机域存在明显区别和优势:第一,主题(核心词类别)预先设定;第二,每个文本(核心词)的主题(类别)通过一个弱监督学习的方式得到,通过此步,对于每个种子核心词估算出Qr(s|q),同时对于每个类别得出Qr(r|s),接下来再次扫描数据集,获得所有包含s(上述步骤更新)的查询,把去除上下文信息s的部分作为新的核心词(为保证精度,在实现过程中设定一个临界值),针对新提取的核心词,再次采用SS-LDA更新Qr(q|s),此步骤中新提取的产品q的概率Qr(q)也进行更新,采用核心词q在数据集中出现的频率来估算Qr(q),即核心词q出现的频率越高,其概率Qr(q)也越高,通过以上步骤,对模型中所需要的Qr(q)和Qr(r|s)进行求解,将线下求得的概率进行存储以便有效的进行线上预测。
线上标记:对于用户输入的搜索查询尝试求解F(p)中概率最大的三元组three(q,r,s),把查询分割成核心词和上下文信息的所有组合,对应的核心词标记为对应的类别来生成F(p),对于F(p)中的任一三元组three(q,r,s),计算其联合概率Qr(q,r,s),概率值最大的三元组作为结果输出。
搜索查询中核心词识别问题是电商等垂直搜索引擎非常重要的内容,直接关系用户的搜索体验和搜索转化率,本发明巧妙的采用了一种半监督的主题模型对该问题建模:把核心词作为文本,将核心词的上下文信息作为构成文本的词汇,核心词所述类别当作主题,采用了一种半监督条件随机域模型进行核心词的挖掘和分类。
三、基于半监督条件随机域的结构化查询信息提取
本发明进一步探讨标记搜索语义角色的问题,从用户输入的搜索查询中提取结构化查询信息,并对其进行语义角色标记。垂直网站后台的是一些半结构化的信息,当用户输入查询时,提取结构化查询信息,将结构化信息和后台信息进行匹配,提升用户的搜索体验。现有技术此类标记问题是通过训练一个条件随机域或类似的序列标记模型,但这会耗费大量的人力进行数据的人工标记,同时可能造成数据标记不一致等问题。本发明采用一种半监督条件随机域模型来解决此问题,主要用到两类数据集:一是少量的人工标记的查询,二是大量的半自动标记的查询,即通过其它附加资源为查询中的某些单元进行自动标记。本发明主要贡献为:一是提出了一种基于用户点击日志和领域知识库的查询半自动标记方法,二是基于半监督条件随机域的标记搜索语义角色方法。
(一)标记问题形式化表示
标记问题的输入是一个已知的观察序列,输出是一个隐藏的标记序列或者状态序列,标记问题从训练样本中学习一个模型,使它能对新观察序列给出正确的标记序列,标记问题分为学习和标记两个过程,首先给定一个训练数据集:
R={(x1,y1),(x2,y2),…,(xn,yn)}
其中,xi={xi (1),xi (2),…,xi (n)},i=1,2,…,n,是观察序列,yi=(yi (1),yi (2),…,yi (n))是对应的标记序列(状态序列),n表示观测序列的长度,学习***从训练数据集中学习一个模型,整个过程用条件概率分布表示:
Q(Y(1),Y(2),…,Y(n)|X(1),X(2),…,X(n))
其中,每一个X(i)(i=1,2,…,n)取值为所有可能的观察值,每一个Y(i)(i=1,2,…,n)取值为所有可能的标记,标记***根据学习的条件概率分布模型,对新输入观察序列找到对应状态序列作为输出,具体为:对一个观察序列:
Figure BDA0002881212620000171
找到条件概率:
Figure BDA0002881212620000172
最大的标记序列:
Figure BDA0002881212620000173
本发明标记搜索语义角色是一个典型的标记问题,采用序列标记模型解决,具体采用一种半监督条件随机域模型标记搜索语义角色。
(二)条件随机域序列标记模型
条件随机域是给定随机变量X的条件下,随机变量Y的马尔科夫随机场,线性链条件随机域是给定观察序列,计算标记序列的条件概率模型Q(Y/X),其中Y是输出变量,表示标记序列,X是输入变量,表示需要标记的观察序列,学习过程即利用训练数据集通过极大似然估算或正则化的极大似然估算得到训练数据集的条件概率模型Q*(Y|X);预测过程即对于给定的观察序列x,根据学习到的模型求出条件概率Q*(y|x)最大的状态序列y*。
条件随机域定义:设X与Y为随机变量,Q(Y|X)是在给定X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图F=(U,B)表示的马尔科夫随机场,即:
Q(YU|X,YK,k≠u)=Q(X,YK,k~u)
对任意结点u成立,则条件概率分布Q(Y|X)为条件随机域,式中k~u表示在图F=(U,B)中与结点u有边连接的所有结点k,k≠u表示结点u以外的所有结点,YU和YK为结点u和k对应的随机变量,假设X和Y有相同的图结构,有向图为的线性链的情况为:
F=(U={1,2,…,n},B={i,i+1})
其中,i=1,2,…,n-1,X=(X1,X2,…Xn),Y=(Y1,Y2,…Yn),最大团是相邻两个结点的集合。
(三)建立序列标记模型
本发明对用户输入的搜索查询进行语义单元的切分,把每个语义单元归属到预先设定的类别中,由于数据规模的庞大,纯粹的文本匹配性能不足以支撑***正常运行,同时歧义词语处理也是单纯的文本匹配无法解决的问题。标记搜索语义角色的问题是典型的序列标记的问题,本发明采用序列标记模型的方法来解决标记搜索语义角色的问题,其整体标记搜索语义角色的架构如图4所示。
标记搜索语义角色架构的输入包括两类数据:一是少量的人工标记的数据,二是大量的半自动标记的数据,语义标记器由这两类资源训练学习得到,将已标记的n条训练数据表示为(x(i),y(i)),i=1,2,…n,其中x(i)表示观察序列,y(i)表示标记序列,模型训练的目标是寻找最优参数向量h*,使其满足:
Figure BDA0002881212620000181
模型训练完成之后,得到语义标记器,对于给定的输入序列x,得到对应的输出序列y*(语义类别标签序列):
y*=arg maxy q(y|x;h)
训练样本输入语义标记器(模型)输出图示4标记搜索语义角色架构。
(四)半自动标记方法
基于半监督条件随机域的结构化查询信息提取的主要优势和贡献有两方面:一是采用一种半监督条件随机域来进行语义角色标记问题的求解,把少量人工标记的数据和大量半自动标记的数据融合在一起,采用半监督的方式学习一个条件随机域模型;二是提供一个可行的方法进行查询的半自动标记,假设有用户的搜索日志,即用户查询和搜索引擎返回的商品列表的二元组(inquiry,ProWord title),基于半自动标记方法和半监督条件随机域模型对查询进行半自动标记。
半自动标记方法充分利用用户的搜索点击日志对查询的语义单元进行前置标记,本发明以电商查询为实施例,标记范围涉及Make、Colour、Style、Product四个类别,半自动标记方法将查询中的语义单元和商品点击日志中相关商品信息关联起来,在电商垂直搜索引擎中,商品信息以结构化或半结构化的方式存储在数据库中,通过用户的点击日志就能在查询中的语义单元和商品信息建立关联关系,通过字符串匹配算法对查询中的某些语义单元进行预先标记。半自动标记方法的过程和模块具体包括:
第一,点击数据,从用户的搜索日志中提取,当用户采用搜索引擎搜索产品时,用户的输入查询和一系列的商品点击以二元组(inquiry,ProWord)的方式被记录在用户搜索日志中,建立用户输入查询和商品间的关系;
第二,商品信息库,电商垂直搜索引擎中,商品信息以结构化的数据存储在数据库中,每个商品包含商家填写的标题、属性、详情信息,在半自动化标记的第二阶段,建立用户输入查询和商品结构化查询信息直接关系,由于用户的点击行为相对较少,为解决数据稀疏问题,计算商品信息库中所有商品和用户输入查询和点击商品之间的相似度,选取相似度较高的商品加入到点击商品集合中,在相似度度量上采用基于TF-IDF的cosine距离作为度量公式,临界值设定为0.75,即相似度大于0.75的商品都加入到用户点击商品集合中,然后将商品结构化查询信息去匹配用户输入的搜索查询。为提升标记覆盖率,匹配过程中采用模糊匹配的方法,建立用户输入查询和商品结构化字段之间的映射关系(inquiry,Metadata)。
第三,数据映射,经过上述步骤,得到用户输入查询和商品结构化字段之间的映射关系,数据映射将商品的结构化字段映射到Make、Colour、Style、Product四个类别中。
第四,自动标记,给定二元组(inquiry,Metadata),采用以下规则对用户输入的初始查询进行半自动标记:一是如果查询中的某个单元没有出现在Metadata中的任何一个域中,或查询中某个单词出现在Metadata中的多个域中,则该单词将被标记为NULL;二是如果查询中的某个单元恰好出现在Metadata中某一个域中,该单元将会被标记为该域对应的类别;经过以上步骤,完成查询的自动标记过程。
(五)结构化查询信息提取模型
当前,半监督或无监督的学习方法在自然语言处理领域取得了发展,现有技术常用的半监督学习方法是自学习方法:首先在少量人工标记的数据集上训练出一个种子模型,然后用该模型预测未标记的数据,选取置信度高的预测结果加入到人工标记数据集中扩充训练样本,如此迭代直到达到理想效果。这些自学习方法能一定程度上解决标记数据不充分的问题,但其是一种实际经验的总结,缺乏理论基础,在很多问题上并不能取得很好的效果,还存在未标记数据状态序列未知,仅用少量的标记数据不能覆盖到所有未标记数据潜在的模式。
本发明采取半自动标记的方法对查询中的单元进行前置标记,利用更多的潜在信息训练出一个条件随机域模型,采用关系数据表来进行数据集的半自动标记,采用用户的点击日志信息来完成训练数据的半自动标记。由于缺少大量的人工标记数据,基于监督学习的条件随机域模型不能很好的来解决标记搜索语义角色的问题。
本发明做如下定义:
第一,人工标记数据集:通过人工标记的训练数据集,形式化表示为y=(y1,y2,…,yR);
第二,半自动标记数据集:利用附加资源通过半自动标记方法标记的训练数据集,是标记了查询中的某些单元,形式化表示为z=(z1,z2,…,zR)。
半自动标记数据集对人工标记数据集起到补充作用,缓解人工标记数据集不能覆盖未标记数据所有模式造成的问题。本发明主要使用两类数据集:一是少量的人工标记数据集,二是大量的半自动标记数据集,利用这两份数据集学习一个条件随机域模型,半自动标记数据集只有部分语义单元被标记,做如下假设:如果yr=zr,则该变量作为观察变量,否则,该变量作为隐藏变量。
(六)结构化查询信息提取方法流程
查询结构化查询信息提取的算法流程图如图5所示,其中根据本发明半自动标记模块的方法对初始数据进行半自动标记,然后根据本发明半监督条件随机域模型综合采用半自动标记数据和人工标记数据集训练模型对未标记的数据进行标记,将用户输入的自然语言文本表示为结构化数据的形式。
本发明的标记搜索语义角色,涉及两个子问题:查询中核心词识别和查询结构化查询信息提取,通过实验验证了本发明的有效性:一是通过和序列标记模型对比实验证明了三层贝叶斯半监督概率模型在查询核心词识别中的效果,二是通过和现有技术序列标记模型以及分类模型对比,证明了半监督条件随机域模型在查询结构化查询信息提取上的优越性。
本发明定义标记搜索语义角色的概念,基于机器学习主题模型和序列标记模型,分析主题模型和序列标记在查询结构化解析层面的应用场景,将三层贝叶斯半监督概率模型和半监督的条件随机域模型结合应用到标记搜索语义角色领域。主要包括以下几个方面:第一,在基础理论层面,对主题模型和序列标记模型有深入的解析,对模型推导、训练方法及其应用场景进行***的研发,填补了理论知识的缺陷,更有效的指导结构化查询信息表达的实践;二是结合语义角色标记,提出标记搜索语义角色的概念,并给出了完整的定义:将用户输入的搜索查询表示为受核心词支配的结构化的数据格式,标记出查询中的核心词和受其支配的其它语义论元;三是对用户输入的搜索查询进行数学建模,将其用三元组形式化表示,然后采用一种半监督的主题模型来识别查询中的核心词;四是分析查询的内在语言结构,采用一种半监督条件随机域模型来进行结构化查询信息提取,将用户输入的自然语言文本表示成结构化的数据,在真实的电商搜索引擎数据集上取得了很好的效果;五是就不同模型、不同特征空间多种情况在真实数据集上进行对比试验,实验结果证明了本发明在标记搜索语义角色问题上的优越性。

Claims (10)

1.标记搜索语义角色的结构化查询信息表达方法,其特征在于,从用户输入的搜索查询中提取结构化查询信息,将自然语言文本表示成结构化数据,准确解析用户的搜索意图,提升用户的搜索满意度;本发明基于查询的潜在语义结构并对搜索结构化查询信息提取进行形式化的表示,提出标记搜索语义角色的概念并给出其完整定义:将用户输入的搜索查询表示为受核心词支配的结构化数据格式,标记出搜索查询中的核心词和受其支配的语义论元;
标记搜索语义角色从语句的结构特征上对用户输入的搜索查询进行解析,理解把握用户的搜索意图,主要包括标记搜索语义角色的架构、基于半监督条件随机域的查询核心词识别、基于半监督条件随机域的结构化查询信息提取,具体为:
第一,标记搜索语义角色的架构,对用户输入的搜索查询进行深层次的解析,把用户输入的搜索查询切分成若干个独立的语义单元并将其分配到预先设定的语义类别,采取一种递进的方式实现标记搜索语义角色的方法,包括两部分:首先识别出用户输入查询的关键成分,即核心词,关键成分直接表示用户真正的搜索查询意图,当无法对搜索查询进行深层次的结构化解析时,核心词保证相关性在可控范围内;其次对用户输入的搜索查询进行深层次解析,从用户输入的搜索查询中提取结构化的信息,识别用户真正的搜索意图和潜在需求;
第二,基于半监督条件随机域的查询核心词识别,对用户输入的搜索查询建立模型,识别出搜索查询中的核心词并将其分类,从概率角度推导查询语句的生成过程,采用一种三层贝叶斯半监督概率模型建立模型,将搜索查询中的核心词视为文本,将核心词的上下文信息作为组成文本的词汇,核心词的类别作为主题,采用一种半监督条件随机域模型进行核心词的挖掘和分类;
第三,基于半监督条件随机域的结构化查询信息提取,采用一种半监督条件随机域模型来提取结构化查询信息,将用户输入的自然语言文本表示成结构化查询数据,首先提出一种半自动标记方法对大量的查询进行前置标记,然后综合采用少量的人工标记数据和大量的半自动标记数据来训练模型并对未标记数据进行标记,采用半监督条件随机域的方法训练模型对未标记数据进行结构化查询信息提取。
2.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,语义角色标记是标记一个语句中的谓语和受其支配的其它成分,是对语句的结构进行深入剖析从而进行语义层面解析的一种方法,语义角色标记识别出一个语句中的谓语和受其支配的其它语义论元,标记搜索语义角色对搜索查询中各个语义角色进行自动标记,分析查询的结构从而深层次解析用户的搜索意图,查询语句受核心词支配,查询中的其它成分从属于核心词;
标记搜索语义角色的定义为:将用户输入的搜索查询表示为受核心词支配的结构化的数据格式,标记出搜索查询中的核心词和受其支配的其它语义论元,其形式化定义为:
p→{ProWord;SeUnit1,SeUnit2,…,SeUnitn}
其中p表示用户输入的搜索查询,ProWord表示查询中的核心词,SeUnit i表示需要标记的语义单元,n表示定义的语义单元的个数。
3.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,引入主题模型:在判断文本相关性时不仅考虑词语共现的情况,而且考虑文本所表达的深层次语义,本发明引入主题模型进行语义分析,主题模型中的主题表示为一组相同概念的泛化表述形式,用生成模型来阐述文本的生成过程:一篇文本包含若干的主题,每个主题以概率选择若干词汇,一篇文本的生成过程表示为:
q(词汇|文本)=∑主题q(词语|主题)*q(主题|文本)
主题模型的矩阵形式:其中等式左边的矩阵表示每个文本中每个词语的词频,即词语出现的概率;等式右边第一个矩阵表示每个主题中每个词语的出现概率;等式右边第二个矩阵表示每个文本中不同主题出现的概率,给定一系列文本,预先对文本进行前置处理,然后统计每个文本中单词出现的频率得到左边的“文本-词语”矩阵,主题模型是对左边这个矩阵进行分解,学习出右边两个矩阵;
条件随机域主题模型对文字隐含的主题建立模型,并从海量的文本中把表述同一语义主题的文本聚在一起,采用一种三层贝叶斯半监督概率模型识别查询核心词,核心词对应于文本,核心词的上下文信息对应文本中的词汇,核心词的类别对应主题。
4.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,主题模型推导:包含单一核心词信息的查询形式化的表示为一个三元组three(q,r,s),其中q(ProWord)表示查询中的核心词,r表示查询中核心词的上下文信息,s表示核心词的类别信息,查询中核心词识别问题的目标是识别查询中的核心词q,并把q归属于最可能的类别s,问题转换为从所有可能的三元组中找到一个概率最大的三元组three(q,r,s)*
(q,r,s)*=argmax(q,r,s)Qr(p,q,r,s)
=argmax(q,r,s)Qr(p|q,r,s)Qr(q,r,s)
=argmax(q,r,s)∈F(p)Qr(q,r,s)
条件概率Qr(p|q,r,s)表示三元组three(q,r,s)生成查询p的概率,给定一个三元组three(q,r,s)生成唯一的查询,对于一个给定的查询p和三元组three(q,r,s),Qr(p|q,r,s)只能是0或1,即只有两种可能:三元组three(q,r,s)生成查询p或三元组three(q,r,s)无法生成查询q,定义F(q)为所有能够产生查询p的三元组的集合,即Qr(p|q,r,s)=1,则(q,r,s)*一定在F(p)中,查询中核心词识别问题可简化为对于F(p)中的任一三元组求其联合概率Qr(p|q,r,s):
Qr(q,r,s)=Qr(q)Qr(s|q)Qr(r|q,s)
=Qr(q)Qr(s|q)Qr(r|s)
式中,假设Qr(r|q,s)=Qr(r|s),本发明的查询中核心词识别的问题进一步演化为估算Qr(q)、Qr(s|q)和Qr(r|s),其中包含大量的核心词和上下文信息。
5.根据权利要求4所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,半监督条件随机域模型:假设数据集R={(qi,ri,si)|i=1,…,N},(qi,ri,si)是查询p对应的三元组,N是数据集规模,查询中核心词识别问题形式化表示为:
Figure FDA0002881212610000031
若每个核心词属于单一类别,则按照上式构建优化目标,构建数据集R={(qi,ri)},把核心词对应的类别信息si作为隐变量,问题的优化目标变成如下情况:
Figure FDA0002881212610000032
式中,Qr(qi)代表核心词qi出现的概率,Qr(s|qi)表示核心词qi属于类别s的概率,Qr(ri|s)表示类别s下上下文信息ri出现的概率,概率Qr(qi)独立于Qr(s|qi)和Qr(ri|s),从数据集中统计得出,假设Qr(qi)的估算值为Pr*(qi),则上式表示为:
Figure FDA0002881212610000033
问题的求解变成上式的概率估算问题,形式上表示成一个主题模型,核心词对应于文本,核心词的上下文信息对应文本的单词,类别信息对应其主题,本发明中采用条件随机域主题模型,该条件随机域模型采用半监督的方式学习,即本发明中所描述的SS-LDA,主题(类别)预先约定,每个文本(核心词)的主题(类别)在训练数据集中标记。
6.根据权利要求5所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,查询核心词识别方法流程:采用SS-LDA和训练数据集构建一个查询核心词识别***,包括三个模块:数据前置处理模块、线下训练模块和在线标记模块;
数据前置处理:理对用户输入的搜索查询进行归一化和标准化处理,标准化处理是对用户输入的搜索查询进行过滤,过滤乱码、多余的空格和rab键,去掉停用词,前置处理方便后续对查询词的进一步处理,归一化处理是取词根操作,对单个查询词还原其初始形式;
线下训练:是数据挖掘和参数学习方法对参数进行求解的过程,首先从训练数据集中选取核心词作为种子,并将其对应的类别信息进行标记,然后用这些种子核心词扫描数据集,得到训练数据集(qi,ri),用SS-LDA训练出一个主题模型,对于每个种子核心词估算出Qr(s|q),同时对于每个类别得出Qr(r|s),接下来再次扫描数据集,获得所有包含s的查询,把去除上下文信息s的部分作为新的核心词,针对新提取的核心词,再次采用SS-LDA更新Qr(q|s),此步骤中新提取的产品q的概率Qr(q)也进行更新,采用核心词q在数据集中出现的频率来估算Qr(q),即核心词q出现的频率越高,其概率Qr(q)也越高,通过以上步骤,对模型中所需要的Qr(q)和Qr(r|s)进行求解,将线下求得的概率进行存储以便有效的进行线上预测;
线上标记:对于用户输入的搜索查询尝试求解F(p)中概率最大的三元组three(q,r,s),把查询分割成核心词和上下文信息的所有组合,对应的核心词标记为对应的类别来生成F(p),对于F(p)中的任一三元组three(q,r,s),计算其联合概率Qr(q,r,s),概率值最大的三元组作为结果输出。
7.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,标记问题形式化表示:标记问题的输入是一个已知的观察序列,输出是一个隐藏的标记序列或者状态序列,标记问题从训练样本中学习一个模型,使它能对新观察序列给出正确的标记序列,标记问题分为学习和标记两个过程,首先给定一个训练数据集:
R={(x1,y1),(x2,y2),…,(xn,yn)}
其中,xi={xi (1),xi (2),…,xi (n)},i=1,2,…,n,是观察序列,yi=(yi (1),yi (2),…,yi (n))是对应的标记序列(状态序列),n表示观测序列的长度,学习***从训练数据集中学习一个模型,整个过程用条件概率分布表示:
Q(Y(1),Y(2),…,Y(n)|X(1),X(2),…,X(n))
其中,每一个X(i)(i=1,2,…,n)取值为所有可能的观察值,每一个Y(i)(i=1,2,…,n)取值为所有可能的标记,标记***根据学习的条件概率分布模型,对新输入观察序列找到对应状态序列作为输出,具体为:对一个观察序列:
Figure FDA0002881212610000041
找到条件概率:
Figure FDA0002881212610000042
最大的标记序列:
Figure FDA0002881212610000043
本发明标记搜索语义角色是一个典型的标记问题,采用序列标记模型解决,具体采用一种半监督条件随机域模型标记搜索语义角色。
8.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,条件随机域序列标记模型:条件随机域是给定随机变量X的条件下,随机变量Y的马尔科夫随机场,线性链条件随机域是给定观察序列,计算标记序列的条件概率模型Q(Y/X),其中Y是输出变量,表示标记序列,X是输入变量,表示需要标记的观察序列,学习过程即利用训练数据集通过极大似然估算或正则化的极大似然估算得到训练数据集的条件概率模型Q*(Y|X);预测过程即对于给定的观察序列x,根据学习到的模型求出条件概率Q*(y|x)最大的状态序列y*;
条件随机域定义:设X与Y为随机变量,Q(Y|X)是在给定X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图F=(U,B)表示的马尔科夫随机场,即:
Q(YU|X,YK,k≠u)=Q(X,YK,k~u)
对任意结点u成立,则条件概率分布Q(Y|X)为条件随机域,式中k~u表示在图F=(U,B)中与结点u有边连接的所有结点k,k≠u表示结点u以外的所有结点,YU和YK为结点u和k对应的随机变量,假设X和Y有相同的图结构,有向图为的线性链的情况为:
F=(U={1,2,…,n},B={i,i+1})
其中,i=1,2,…,n-1,X=(X1,X2,…Xn),Y=(Y1,Y2,…Yn),最大团是相邻两个结点的集合。
9.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,建立序列标记模型:对用户输入的搜索查询进行语义单元的切分,把每个语义单元归属到预先设定的类别中,本发明采用序列标记模型的方法来解决标记搜索语义角色的问题;
标记搜索语义角色架构的输入包括两类数据:一是少量的人工标记的数据,二是大量的半自动标记的数据,语义标记器由这两类资源训练学习得到,将已标记的n条训练数据表示为(x(i),y(i)),i=1,2,…n,其中x(i)表示观察序列,y(i)表示标记序列,模型训练的目标是寻找最优参数向量h*,使其满足:
Figure FDA0002881212610000051
模型训练完成之后,得到语义标记器,对于给定的输入序列x,得到对应的输出序列y*:
y*=arg maxyq(y|x;h)
训练样本输入语义标记器模型输出标记搜索语义角色架构。
10.根据权利要求1所述的标记搜索语义角色的结构化查询信息表达方法,其特征在于,结构化查询信息提取模型:采取半自动标记的方法对查询中的单元进行前置标记,利用更多的潜在信息训练出一个条件随机域模型,采用关系数据表来进行数据集的半自动标记,采用用户的点击日志信息来完成训练数据的半自动标记;
本发明做如下定义:
第一,人工标记数据集:通过人工标记的训练数据集,形式化表示为y=(y1,y2,…,yR);
第二,半自动标记数据集:利用附加资源通过半自动标记方法标记的训练数据集,是标记了查询中的某些单元,形式化表示为z=(z1,z2,…,zR);
半自动标记数据集对人工标记数据集起到补充作用,缓解人工标记数据集不能覆盖未标记数据所有模式造成的问题,本发明主要使用两类数据集:一是少量的人工标记数据集,二是大量的半自动标记数据集,利用这两份数据集学习一个条件随机域模型,半自动标记数据集只有部分语义单元被标记,做如下假设:如果yr=zr,则该变量作为观察变量,否则,该变量作为隐藏变量。
CN202011640600.6A 2020-12-31 2020-12-31 标记搜索语义角色的结构化查询信息表达方法 Active CN112685440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011640600.6A CN112685440B (zh) 2020-12-31 2020-12-31 标记搜索语义角色的结构化查询信息表达方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640600.6A CN112685440B (zh) 2020-12-31 2020-12-31 标记搜索语义角色的结构化查询信息表达方法

Publications (2)

Publication Number Publication Date
CN112685440A true CN112685440A (zh) 2021-04-20
CN112685440B CN112685440B (zh) 2022-03-22

Family

ID=75456746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640600.6A Active CN112685440B (zh) 2020-12-31 2020-12-31 标记搜索语义角色的结构化查询信息表达方法

Country Status (1)

Country Link
CN (1) CN112685440B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392323A (zh) * 2021-06-15 2021-09-14 电子科技大学 基于多源数据联合学习的商务角色预测方法
CN116680418A (zh) * 2023-07-27 2023-09-01 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425710A (zh) * 2012-05-25 2013-12-04 北京百度网讯科技有限公司 一种基于主题的搜索方法和装置
US20160085800A1 (en) * 2014-09-23 2016-03-24 United Video Properties, Inc. Systems and methods for identifying an intent of a user query
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN106294662A (zh) * 2016-08-05 2017-01-04 华东师范大学 基于上下文感知主题的查询表示及混合检索模型建立方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425710A (zh) * 2012-05-25 2013-12-04 北京百度网讯科技有限公司 一种基于主题的搜索方法和装置
US20160085800A1 (en) * 2014-09-23 2016-03-24 United Video Properties, Inc. Systems and methods for identifying an intent of a user query
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN106294662A (zh) * 2016-08-05 2017-01-04 华东师范大学 基于上下文感知主题的查询表示及混合检索模型建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王桂华等: "一种建立在对客户端浏览历史进行LDA建模基础上的个性化查询推荐算法", 《四川大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392323A (zh) * 2021-06-15 2021-09-14 电子科技大学 基于多源数据联合学习的商务角色预测方法
CN113392323B (zh) * 2021-06-15 2022-04-19 电子科技大学 基于多源数据联合学习的商务角色预测方法
CN116680418A (zh) * 2023-07-27 2023-09-01 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和***
CN116680418B (zh) * 2023-07-27 2024-01-16 广州城市信息研究所有限公司 一种基于知识图谱的大数据检索方法和***

Also Published As

Publication number Publication date
CN112685440B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答***
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN111079419B (zh) 一种基于大数据的国防科技热词发现方法及***
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112685440B (zh) 标记搜索语义角色的结构化查询信息表达方法
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空***知识图谱构建方法
Xie et al. Unsupervised learning of paragraph embeddings for context-aware recommendation
CN115438195A (zh) 一种金融标准化领域知识图谱的构建方法及装置
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
Groza et al. From raw publications to linked data
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Chakraborty et al. Extraction of (key, value) pairs from unstructured ads
Pera et al. Web-based closed-domain data extraction on online advertisements
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Ramachandran et al. Document Clustering Using Keyword Extraction
Yao et al. Efficient Implementation of Dirty Words Detection in Decision Tree Model
Martinez-Gil et al. KnoE: A web mining tool to validate previously discovered semantic correspondences
Mills et al. A comparative survey on NLP/U methodologies for processing multi-documents
CN117149859B (zh) 一种基于政务用户画像的城市易涝点信息推荐方法
CN118069852B (zh) 一种多模型融合的数据分类预测方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220308

Address after: Room 609, building 3, 33 Leshan Road, Xuhui District, Shanghai 200030

Applicant after: Shanghai xinzhaoyang Information Technology Co.,Ltd.

Address before: No.55 Nanxing Road, Fuxi street, Tiantai County, Taizhou City, Zhejiang Province 317200

Applicant before: Wang Cheng

GR01 Patent grant
GR01 Patent grant