CN110309400A - 一种智能理解用户查询意图的方法及*** - Google Patents
一种智能理解用户查询意图的方法及*** Download PDFInfo
- Publication number
- CN110309400A CN110309400A CN201810123239.6A CN201810123239A CN110309400A CN 110309400 A CN110309400 A CN 110309400A CN 201810123239 A CN201810123239 A CN 201810123239A CN 110309400 A CN110309400 A CN 110309400A
- Authority
- CN
- China
- Prior art keywords
- word
- mark
- dictionary
- speech
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能理解用户查询意图的方法及***,其实现过程为输入查询语句,结合词典,进行分词处理;对分词结果进行词性标注;对标注词性后词语进行命名实体识别;通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。本发明方法针对贷款审计行业中行文特点,对输入的查询语句逐层分析,深入地理解用户查询意图,在保证准确性的前提下,提高了查询效率。
Description
技术领域
本发明涉及自然语言处理技术,具体涉及一种智能理解用户查询意图的方法及***。
背景技术
用户查询意图的理解与处理旨在通过对用户输入查询的建模、分析和处理。理解用户查询的意图,利于提高信息检索的质量和用户体验。现有通用搜索的特点是抓取互联网/数据库上的一切有价值的信息同时建立索引,以关键字匹配为基本检索方式。传统的通用搜索引擎中,由于其要适用广泛的要求,其智能性往往不高;因为提高其智能性必定大幅降低搜索的效率,让搜索引擎不堪重负。因此,通用的搜索引擎在信息查找时往往存在很多的缺陷,大多数用户并不能十分准确地用查询词表达自己的搜索意图,而使得搜索引擎无法提供精准、高效、个性化的搜索服务,甚至根本就搜索不到用户真正需要查找的信息。
到目前为止,关于用户查询意图理解的研究有很多,但在面向主题的用户查询意图理解中还存在以下问题:
(1)现有的查询搜索方法中多是基于简短的关键字或特定格式模版的查询,能查询的输入长度十分有限,在输入一句较长文本的情况下,大多时候会被截断并忽略处理,使得用户查询意图无法正确获取;
(2)对于输入完整语句的查询算法中,没有较好的利用语句中的关键实体和句法结构带来的有用信息。
本发明人了解到,贷款审计行业中存在大量文档阅读审计的需求,阅读量大需要根据文档内容进行理解、判断进行决策。由于文本中大量都是非结构化或半结构化的数据,且写文档的人水平思路又不尽相同,造成人在审阅过程中所有内容都需要进行理解查看,而实际需要重点关注的内容其实并不多或者不同部门的人关注的内容不同,如在财务报表中,存在着大量的非结构化数据,但经常更关注各个指标与对应数值而不需要阅读全部文字内容,从而造成人力浪费严重;进而可能需要将非结构化或半结构化的数据转化为结构化数据,或者分析非结构化或半结构化的数据中的信息对,获得匹配的指标与对应数值。
但不论是将非结构化或半结构化的数据转化为结构化数据,还是分析非结构化或半结构化的数据中的信息对,理解文档中表述的意图是基本前提。面对大量的阅读需求,有必要采用自动化智能理解技术,通过语法解析获取关键词(或实体) 依存关系,对文档进行理解。人们通过语法解析后输出结果,即可获得文档语义及关键词表达。
基于上述问题,亟需开发一种智能理解用户查询意图的方法,该方法不受查询输入长度限制,且能较好利用关键词,快速、准确判断用户查询意图(即查询文档内容),为准确及时的对查询信息进行反馈提供支持。
发明内容
为了克服上述问题,本发明人进行了锐意研究,基于用户大量的查询输入和主题特点,结合关键词和特定主题,提出了一种经分词、词性分析、命名实体识别和自底向上的句法结构分析,逐层深入地理解用户查询意图的方法,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种智能理解用户查询意图的方法,所述方法包括:
步骤110,输入查询语句,结合词典,进行分词处理;
步骤120,对分词结果进行词性标注;
步骤130,对标注词性后词语进行命名实体识别;
步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
(2)一种用于实现上述(1)所述方法的智能理解用户查询意图的***,所述***包括:
分词模块,用于结合词典,对输入的查询语句进行分词处理;
词性标注模块,用于对分词结果进行词性标注;
命名实体识别模块,对标注词性后词语进行命名实体识别;
语法解析模块,用于通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
根据本发明提供的一种智能理解用户查询意图的方法及***,具有以下有益效果:
(1)本发明中,词典为字典树结构,且词典中词语与应用领域密切相关,根据贷款审计行业行文用语对词典中词语进行筛选,以降低数据占用空间,提高分词词语查找速度;而粗粒度词典和细粒度词典的设置,便于针对不同类文档进行分词。
(2)本发明中,采用正向最大匹配法结合回溯机制进行分词,在保证分词准确性的前提下,相较于逆向最匹配法或隐马尔可夫模型,极大提高了分词效率。
(3)本发明中,采用隐马尔可夫模型进行词性标注,词性种类设置疏密度依据贷款审计行业词性种类专门设计,相较于现有的词性分类***,有效词语针对性得到提高,在获得有效信息的前提下,相对地降低了***操作繁琐性。
(4)本发明中,输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,再使用CYK算法进行语法解析,通过上述自然语言处理过程,对输入查询语言的理解准确性极高,且处理难度降低,提高了处理速度。
附图说明
图1示出根据本发明一种优选实施方式的智能理解用户查询意图的方法流程示意图。
图2示出本发明实施例2中的简易意图查询过程。
具体实施方式
下面通过附图和实施例对本发明示例性详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
根据本发明提供的一种智能理解用户查询意图的方法,该方法用于对贷款审计行业中文档进行理解。如图1所示,所述方法使用自然语言处理技术,通过对用户输入的语句进行分词、词性标注、命名实体识别、和句法分析,逐层对输入语句进行分析和理解,进而识别查询意图。
具体地,本发明提供的一种智能理解用户查询意图的方法,包括以下步骤:
步骤110,输入查询语句,结合词典,进行分词处理;
步骤120,对分词结果进行词性标注;
步骤130,对标注词性后词语进行命名实体识别;
步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
步骤110,输入查询语句,结合词典,进行分词处理。
本发明中,所述词典是指包括有常用的或固定的词语的数据库,其是分词的基准,通过比照词典以使输入的查询语句转化为具有最大字符长度的独立词语。词典中词语与应用领域密切相关,针对应用领域不同,需要对词典中词语进行筛选,以降低数据占用空间,提高分词词语查找速度。
本发明中方法针对理解贷款审计行业中文档设计而成,输入的查询语句也多涉及该领域,基于这种主题性和专业性,词典则为包括该领域中常用的或固定的词语的数据库,例如包含词语“净利润”、“收益”、“股票”、“债券”、“煤炭”等,而可能并不包含“犯罪”、“刑法”等词语;通过对词语进行筛选再收录至词典中,在满足词语查询的前提下,降低了查询周期。
现有技术中,词典的设置普遍为列表(list)形式,在设定规律下(如字母表的顺序a-z)排列。该方式的优点在于排布简单,可按照排布规律准确查到词语;然而,通常字典中数据量较大,采用列表形式需要占用较大存储空间,且需核查众多词语后才能确定目标词语,效率低。举例如下:输入“财务部2017 年1月支出20万元”,分词后得到的第一个词语应当为“财务部”,分词时,在词典中查找到“财务”后并不能确定为最长字符,进一步查到“财务部”,再次确定“财务部2”已不能构成词语时,才能确定“财务部”为目标词语。
本发明中,将列表形式词典转换为字典树结构,该字典树结构以根节点作为起始,通过子节点进行延伸;根节点不包含字符,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所有子节点包含的字符都不相同。在此,对英文来说,一个字母为一个字符;对中文来说,一个汉字为一个字符;一个数字或一个标点符号均对应一个字符。
以字典树结构作为词典表达方式,可利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的,词语查询速度快,尤其在大规模数据上非常明显。在对“财务部2017年1 月支出20万元”进行分词时,由于字符“务”节点下仍有“部”节点,则可初步确定“财务部”为独立词语,而不需要重新由字符“财”重新确定词语。
在一种优选的实施方式中,词典分为粗粒度词典和细粒度词典;粗粒度词典中词语词长较长,细粒度词典中词语词长较短,例如,“个人所得税”在粗粒度词典为一个词,在细粒度词典中为“个人”和“所得税”两个词。根据输入数据(处理文档)中常用词/惯用词的词频或词长选用不同的词典,输入查询语句中常用词或惯用词的词频高或词长较长时,选用粗粒度词典,如财务报表即可以选用粗粒度词典;输入查询语句中常用词或惯用词的词频低或词长较短时,选用细粒度词典。
本发明中,所述分词是指将字符串划分为词串的过程。本发明中,分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型。正向最大匹配法的特点是分词效率高,具有线性时间复杂度,容易实现,不需要指定词语的最大长度;逆向最大匹配法的特点是具有线性时间复杂度,需要指定词语的最大长度maxLen;隐马尔可夫模型的特点是对未登录词的识别效果优于最大匹配法,但整体效果依赖于训练语料;条件随机场模型的特点是不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。本发明人经过大量实验验证发现,优选采用正向最大匹配法和条件随机场模型两种分词模式;在较为常用的语句和对分词速度要求较高的场景中,推荐使用最大匹配分词算法;在生僻语料或出现较多新词场景中,推荐使用条件随机场模型分词。
汉语语言较为复杂,在语句中存在交集型歧义,该交集型歧义是指语句中存在某字既可与前一(或几)字组成词语,也可与后一(或几)字组成词语,在分词时引起的歧义。本发明采用正向最大匹配法对输入语句进行顺向扫描,在存在交集型歧义时很可能产生分词错误。
面对这种情况,本发明通过增加回溯机制来校正正向最大匹配法的分词结果。所述回溯是指在分词过程中,采用后退的策略以修正当前分词结果的试探方法。举例如下:输入待查询语句为“送客人去火车站”,顺向扫描的结果是“送客/人/去/ 火车站”,通过查词典知道“人”不在词典中,于是进行回溯,将“送客”的尾字“送”取出与后面的“人”组成“客人”,再查词典,看“送”、“客人”是否在词典中,如果在,就将分词结果调整为“送/客人/去/火车站”。通过增加回溯机制能够提高分词准确率,有效改善交集型歧义问题。
在一种优选的实施方式中,本发明还通过增加歧义词表和设置排歧规则进一步提高分词准确性。根据歧义词表中存储的歧义词在使用时的上下文情况进行归纳总结,获得排歧规则。举例如下,歧义词“家人”可以表示“家人”或“家/人”,规定若词语“家人”前为数次属性,则,“家人”应拆分为“家/ 人”。
本发明中上述分词方法或规则,可快速有效进行分词,且不受输入语句长度限制,适用于贷款审计行业文档中语句分词。
步骤120,对分词结果进行词性标注。
词性标注是指为分词结果中的每个词语标注一个正确的词性的过程,即确定每个词语是名词、动词、形容词或其他词性的过程。
在本发明中,采用隐马尔可夫模型进行词性标注。隐马尔可夫模型构建过程包括:将手工标注词性的数据分为训练集和测试集,根据训练集中的样本数据训练得到隐马尔可夫模型;训练完成后,利用测试集中的样本数据,对隐马尔可夫模型进行测试,获得标注准确性高的模型。
现有技术中,对词性标注的方式很多,词性分类多样化,选择现有的词性标注方式或分类固然可以满足本发明要求,但是针对性较差,词性标注不够明确,例如可以将“机构团体名称”,可以标注为“名词”,但在贷款审计行业中,“机构团体明名称”是十分重要的属性名称,有必要将其独立划分出来,形成“机构团体名词”。
在本发明中,通过对贷款审计行业文档用语中关注度较高的词语词性进行统计,并对文档用语中必不可少的或常用词语的词性进行统计,筛选获得符合该行业要求的词性分类列表,并以该词性列表各词性为指标,训练得到隐马尔可夫模型。其中,训练集中数据词性可以包括名词、时间词、处所词、方位词、动词、形容词、区别词等大类,还包括进一步对词性进行细分,如将名词划分出人名名词、地名名词、机构团体名词等小类,具体地,本发明中训练用词性列表统计如下表1所示。上述基于对行业文档中词语关注度来确定词性划分粗细疏密度,有效词语针对性得到提高,在获得有效信息的前提下,相对地降低了***操作繁琐性。
表1词性列表
步骤130,对标注词性后词语进行命名实体识别。
本发明中,一方面可以通过标注词性后词语直接进行命名实体识别;另一方面,可以对标注词性后词语先进行打标处理,然后再进行命名实体识别。
本发明中,打标是指根据分词和词性标注后词语的属性对词语赋予标签,类似对微信通讯录中好友或者电脑中的文件类型设置标签。打标为对词语进行细致分类,该处理过程能够对词语及语句进行更好理解和意图分析。
本发明中,打标词语的类型基于应用领域的主题性和专业性确定;即任务中需要哪些类型,就将对应类型的常用词词典放入索引文件中,例如对于公告信息抽取,可能需要的有:公司名,股票,职务名等。表2示出打标词语实例及对应的打标标志如下:
表2打标词语及打标标志
打标词语 | 打标标志(词典) |
招商银行 | company,ticker… |
董事长,总经理 | duty |
苹果 | company,fruit |
北京大学 | university |
野村证券 | stock |
教授,高级工程师 | titles· |
财经网 | website |
189xxxx0010 | phone |
本发明中,利用人工标注的词典结合条件随机场模型进行打标。其中,任意打标标志均能够形成一个词典,词典中包含有对应该词典类型的常用词,如词典“company”下包含有招商银行、中国银行等,词典“university”下包含有北京大学、清华大学等;词典通过人工归纳和标注获得。
具体地,对于经过分词和词性标注步骤得到的词语,通过以下步骤进行打标处理:
1.将分词后的词语初始打标为基本类型(basic);
2.通过索引文件检索不同类型的词典,如果检索到,就对该词打上相应类型的标签(即词典类型);其中,一个词可以打有多个标签;
3.对于没有在词典中检索到的词语,如果是单一的词,即该词的左右词都已经打了标签,则将其标为basic;
否则,将未打标的词语输入条件随机场模型,利用训练好的条件随机场模型对新词和未登录词较好的学习能力进行二次打标;
4.为了避免分词粒度对打标的影响,步骤2~3过程是迭代进行的,即一个词语无法打标,但和相邻词语组合的新词语可能符合某种标签,所以进行迭代打标,提高打标率和准确性;
5.通过步骤1~4,得到词语的打标结果。
本发明中,通过打标,确定词语所属的标签。命名实体识别过程也可以说是特殊类型的打标,将打标和命名实体识别分成两个过程,在打标词语的基础上进行命名实体识别,即将小类合为大类的过程,逐层聚合,提高命名实体识别准确性。
本发明中,命名实体识别是指识别文本中具有特定意义的实体,为后续关系抽取等任务做铺垫。实体可以指代煤炭、钢铁、股票等产品,也可以指代招商银行、华润集团等机构。在本发明中,命名实体分为人名、地名、机构和团体名、时间和数字,如表3所示,命名实体标注符号与词性标注符号采用相同符号体系,如命名实体“人名”的标注为“nr”,与“人名名词”词性标注“nr”相同。
表3命名实体及标注
本发明中,利用条件随机场模型进行命名实体识别。条件随机场模型构建过程包括:采用BIO标注集,将BIO标注集分为训练集和测试集,根据训练集中的样本数据训练得到条件随机场模型;训练完成后,利用测试集中的样本数据,对条件随机场模型进行测试,获得标注准确性高的模型。
命名实体识别与词性标注过程相反,词性标注是“分”的过程,命名实体识别是“聚”的过程,但如何确定哪些词语聚合为具有特定意义的实体,则需要通过设置BIO标注集中样本的BIO标注符号,并以样本及其BIO标注符号对条件随机场模型进行训练。BIO标注集中样本的BIO标注符号为预测标签(B, I,O)标注后的命名实体标注符号,即以B-命名实体标注符号、 I-命名实体标注符号、或O表示,B代表命名实体(人名、地名、机构团体名、时间和数字)的首字,I代表命名实体的非首字, O代表该词语不属于命名实体。BIO标注集示例如表4所示。
一方面,通过标注词性后词语直接进行命名实体识别时, BIO标注集中样本词语即为标注词性后词语;另一方面,对标注词性后词语先进行打标处理,然后再进行命名实体识别时, BIO标注集中样本词语为打标处理后形成的词语。
表4 BIO标注集示例
按照训练集数据格式,学习得到条件随机场模型,条件随机场模型可以较好的拟合训练数据。条件随机场模型对词性标注后的或者打标处理后的词语添加预测标签(B,I,O),根据所得到的标签识别实体,举例如下:
步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
本发明根据贷款审计行业行文规则,通过大量的数据查询人工归纳该类数据的语法规则。
在一种优选的实施方式中,输入的查询语句的语法规则以 CFG(Content-FreeGrammar,上下文无关文法)表示,并等价转换为CNF(Chomsky Normal Form,乔姆斯基范式)形式,使用CYK算法(Cocke-Younger-Kasami算法)进行语法解析。
在本发明中,人工归纳CFG的语法规则,输入的查询语句通过分词,词性标注,打标,打出的标志即为CFG文法中的成分。
以输入查询语句“Book that fight”为例,CFG表示及转化为后的CNF形式如下表5所示。
表5
注:S:sentence(句子);NP:名词短语;VP:动词短语;pp:介词短语。
本发明的另一方面在于提供一种智能理解用户查询意图的***,用于实施上述方法,该***包括:
分词模块,用于结合词典,对输入的查询语句进行分词处理;
词性标注模块,用于对分词结果进行词性标注;
命名实体识别模块,对标注词性后词语进行命名实体识别;
语法解析模块,用于通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
在本发明中,所属词典为字典树结构。词典分为粗粒度词典和细粒度词典;粗粒度词典中词语词长较长,细粒度词典中词语词长较短,根据输入数据(处理文档)中常用词/惯用词的词频或词长(词中字数)选用不同的词典,如财务报表中即可以选用粗粒度词典。
在一种优选的实施方式中,分词模块采用正向最大匹配法、逆向最大匹配法、条件随机场模型或隐马尔可夫模型方法进行分词,优选采用正向最大匹配法和条件随机场模型两种分词模式,更优选正向最大匹配法结合回溯机制进行分词和条件随机场模型两种分词模式。在较为常用的语句和对分词速度要求较高的场景中,推荐使用最大匹配分词算法;在生僻语料或出现较多新词场景中,推荐使用条件随机场模型分词。
在一种优选的实施方式中,分词模块中存储有歧义词表,并设置排歧规则。通过增加歧义词表和设置排歧规则进一步提高分词准确性。
在本发明中,词性标注模块采用隐马尔可夫模型进行词性标注。隐马尔可夫模型的构建过程包括:将手工标注词性的数据分为训练集和测试集,根据训练集中的样本数据训练得到隐马尔可夫模型;训练完成后,利用测试集中的样本数据,对隐马尔可夫模型进行测试,获得标注准确性高的模型。
在本发明中,命名实体识别模块,利用条件随机场模型进行命名实体识别。条件随机场模型构建过程包括:采用BIO标注集,将BIO标注集分为训练集和测试集,根据训练集中的样本数据训练得到条件随机场模型;训练完成后,利用测试集中的样本数据,对条件随机场模型进行测试,获得标注准确性高的模型。
在一种优选的实施方式中,命名实体识别模块包括打标子模块和命名实体识别子模块:
打标子模块,用于对标注词性后词语进行打标处理,赋予词性标注后词语以类型标签;
命名实体识别子模块,用于利用条件随机场模型对打标处理后词语进行命名实体识别。
在一种优选的实施方式中,命名实体标注符号与词性标注符号采用相同符号体系。
在本发明中,语法解析模块对输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,再使用CYK算法进行语法解析。
实施例
实施例1
以输入的查询语句“招商银行净利润营业收入”为例,通过对查询语句进行理解,希望获得用户真实查询意图:
第一步,结合词典,通过正向最大匹配法获得分词结果:
招商/银行/净利润/营业/收入/;
第二步,通过训练得到的隐马尔可夫模型,对分词结果进行词性标注,词性标注结果为:
招商_v银行_n净利润_n营业_n收入_v;
第三步,通过训练得到的条件随机场模型,进行打标和命名实体识别,结果为:
打标:招商<basic>银行<basic>净利润<finance>营业 <basic>收入<basic>
实体识别:招商银行<Organization>
第四步,输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,CFG表示及转化为后的CNF形式如下表6所示:
表6
第五步,使用CYK算法对转化的CNF形式进行语法解析,所解析的语法分析过程如图2所示。
实施例2
以输入的查询语句“截至2016年3月31日,公司负债总额 10.36亿,主要构成为:短期借款(含本年到期的长期借款)9.6 亿,长期借款5500万元,应付账款707万元,应交税费51万元。目前贷款规模为10.15亿元,短期借款占负债总额的93%,说明短期内公司有较大的偿债压力。结合公司现有7.62亿元的货币资金量来看,财务风险不大。”为例,通过对查询语句进行理解,希望获得用户真实查询意图:
第一步,结合词典,通过正向最大匹配法获得分词结果:
短期/借款/(含/本年/到期/的/长期/借款/)/9.6 亿/,/长期/借款/5500万/元/,/应付/账款/707万/元/, /应/交/税费/51万/元/。/目前/贷款/规模/为/10.15亿 /元/,/短期/借款/占/负债/总额/的/93%/,/说明/短期/内/公司/有/较/大/的/偿债/压力/。/结合/公司/ 现有/7.62亿/元/的/货币/资金量/来/看/,/财务/风险 /不/大/。/
第二步,通过训练得到的隐马尔可夫模型,对分词结果进行词性标注,词性标注结果为:
<短期,b><借款,n><(含,vn><本年,n><到期,vn><的, u><长期,b><借款,n><),n><9.6亿,n><,,v><长期,b>< 借款,n><5500万,m><元,q><,,n><应付,v><账款,v><707 万,m><元,q><,,n><应,v><交,v><税费,n><51万,m>< 元,q><。,w><目前,t><贷款,vn><规模,n><为,v><10.15 亿,m><元,q><,,v><短期,b><借款,n><占,v><负债,vn> <总额,n><的,u><93%,m><,,q><说明,v><短期,n><内,f> <公司,n><有,v><较,d><大,a><的,u><偿债,vn><压力,n> <。,w><结合,v><公司,n><现有,v><7.62亿,m><元,q>< 的,u><货币,n><资金量,n><来,v><看,v><,,v><财务,n> <风险,n><不,d><大,a><。,w>
第三步,通过训练得到的条件随机场模型,进行打标,结果为:省略打标为basic以及使用命名实体识别类型的词语。
负债总额(total_liabilities),合计(sum,total),短期借款(short_term_borrowing),资金量(funds),财务(duty)
通过训练得到的条件随机场模型,进行命名实体识别,结果为:
9.6亿(Number)5500万(Number)707万(Number)51 万(Number)目前(Datetime)10.15亿(Number)93%(Number) 7.65亿(Number)。
第四步,输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,使用CYK算法进行语法解析,根据语法解析结果,理解用户查询意图为查询公司的负债情况。
根据第二届国际汉语分词测评(The Second International Chinese WordSegmentation Bakeoff)发布的国际中文分词测评标准,使用mac环境对本***,jieba(c++)版分别在 pku_test(510KB),msr_test(560KB)数据集上进行测试。通行5次取平均时间,使用icwb2-data提供的perl脚本计算分词结果的召回率和准确率,测试结果如下表7和表8所示:
表7 pku_test(510KB)测试
算法 | 时间 | 准确率 | 召回率 | F值 |
正向最大匹配 | 0.2259s | 0.867 | 0.863 | 0.865 |
jieba(C++版) | 0.1033s | 0.850 | 0.784 | 0.816 |
表8 msr_test(560KB)测试
实施例3
输入的查询语句与实施例2相同,理解用户查询意图的方法与实施例2相同,区别仅在于:通过条件随机场模型获得分词结果。条件随机场分词模型效果如表9所示。
表9条件随机场分词模型效果
数据集 | 时间 | 准确率 | 召回率 | F值 |
pku_test(510KB) | 1.676s | 0.931 | 0.919 | 0.925 |
msr_test(560KB) | 1.928s | 0.859 | 0.894 | 0.876 |
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (10)
1.一种智能理解用户查询意图的方法,其特征在于,该方法包括步骤:
步骤110,输入查询语句,结合词典,进行分词处理;
步骤120,对分词结果进行词性标注;
步骤130,对标注词性后词语进行命名实体识别;
步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
2.根据权利要求1所述的方法,其特征在于,步骤110中,词典分为粗粒度词典和细粒度词典;
粗粒度词典中词语的词长较长,输入查询语句中常用词或惯用词的词频较高或词长较长时,选用粗粒度词典;
细粒度词典中词语的词长较短,输入查询语句中常用词或惯用词的词频低或词长较短时,选用细粒度词典。
3.根据权利要求1所述的方法,其特征在于,步骤110中,分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型,优选为正向最大匹配法或条件随机场模型;更优选正向最大匹配法结合回溯机制或条件随机场模型进行分词。
4.根据权利要求1所述的方法,其特征在于,步骤120中,采用隐马尔可夫模型进行词性标注;
隐马尔可夫模型的构建过程包括:将手工标注词性的数据分为训练集和测试集,根据训练集中的样本数据训练得到隐马尔可夫模型;训练完成后,利用测试集中的样本数据,对隐马尔可夫模型进行测试,获得标注准确性高的模型。
5.根据权利要求1所述的方法,其特征在于,步骤130中,利用条件随机场模型进行命名实体识别;条件随机场模型构建过程包括:采用BIO标注集,将BIO标注集分为训练集和测试集,根据训练集中的样本数据训练得到条件随机场模型;训练完成后,利用测试集中的样本数据,对条件随机场模型进行测试,获得标注准确性高的模型;
BIO标注集中样本的BIO标注符号为预测标签标注后的命名实体标注符号,即以B-命名实体标注符号、I-命名实体标注符号、或O表示,B代表命名实体的首字,I代表命名实体的非首字,O代表该词语不属于命名实体。
6.根据权利要求1所述的方法,其特征在于,步骤140中,输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,使用CYK算法进行语法解析。
7.一种用于实施上述权利要求1至6之一所述方法的智能理解用户查询意图的***,该***包括:
分词模块,用于结合词典,对输入的查询语句进行分词处理;
词性标注模块,用于对分词结果进行词性标注;
命名实体识别模块,对标注词性后词语进行命名实体识别;
语法解析模块,用于通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。
8.根据权利要求7所述的***,其特征在于,分词模块中存储有歧义词表,并根据歧义词表中存储的歧义词在使用时的上下文情况进行归纳总结,获得排歧规则。
9.根据权利要求7所述的***,其特征在于,词性标注模块采用隐马尔可夫模型进行词性标注;
隐马尔可夫模型的构建过程包括:将手工标注词性的数据分为训练集和测试集,根据训练集中的样本数据训练得到隐马尔可夫模型;训练完成后,利用测试集中的样本数据,对隐马尔可夫模型进行测试,获得标注准确性高的模型。
10.根据权利要求7所述的***,其特征在于,语法解析模块对输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,再使用CYK算法进行语法解析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810123239.6A CN110309400A (zh) | 2018-02-07 | 2018-02-07 | 一种智能理解用户查询意图的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810123239.6A CN110309400A (zh) | 2018-02-07 | 2018-02-07 | 一种智能理解用户查询意图的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309400A true CN110309400A (zh) | 2019-10-08 |
Family
ID=68073609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810123239.6A Pending CN110309400A (zh) | 2018-02-07 | 2018-02-07 | 一种智能理解用户查询意图的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309400A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104423A (zh) * | 2019-12-18 | 2020-05-05 | 北京百度网讯科技有限公司 | Sql语句生成方法、装置、电子设备和存储介质 |
CN111177323A (zh) * | 2019-12-31 | 2020-05-19 | 国网安徽省电力有限公司安庆供电公司 | 基于人工智能的停电计划非结构化数据提取与识别方法 |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111723582A (zh) * | 2020-06-23 | 2020-09-29 | 中国平安人寿保险股份有限公司 | 智能语义分类方法、装置、设备及存储介质 |
CN112270189A (zh) * | 2020-11-12 | 2021-01-26 | 佰聆数据股份有限公司 | 一种提问式的分析节点生成方法、***及存储介质 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN113297456A (zh) * | 2021-05-20 | 2021-08-24 | 北京三快在线科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118514A1 (en) * | 2005-11-19 | 2007-05-24 | Rangaraju Mariappan | Command Engine |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN105677725A (zh) * | 2015-12-30 | 2016-06-15 | 南京途牛科技有限公司 | 一种用于旅游垂直搜索引擎的前置解析方法 |
CN107015964A (zh) * | 2017-03-22 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人开发的自定义意图实现方法及装置 |
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
-
2018
- 2018-02-07 CN CN201810123239.6A patent/CN110309400A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118514A1 (en) * | 2005-11-19 | 2007-05-24 | Rangaraju Mariappan | Command Engine |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
CN105677725A (zh) * | 2015-12-30 | 2016-06-15 | 南京途牛科技有限公司 | 一种用于旅游垂直搜索引擎的前置解析方法 |
CN107015964A (zh) * | 2017-03-22 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人开发的自定义意图实现方法及装置 |
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
徐淑彩: ""建立基于Solr平台的环境污染网络舆情监测***"", 《信息安全与技术》 * |
肖明等: "《信息计量学》", 31 August 2014 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104423A (zh) * | 2019-12-18 | 2020-05-05 | 北京百度网讯科技有限公司 | Sql语句生成方法、装置、电子设备和存储介质 |
CN111104423B (zh) * | 2019-12-18 | 2023-01-31 | 北京百度网讯科技有限公司 | Sql语句生成方法、装置、电子设备和存储介质 |
CN111209746A (zh) * | 2019-12-30 | 2020-05-29 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN111177323B (zh) * | 2019-12-31 | 2022-04-01 | 国网安徽省电力有限公司安庆供电公司 | 基于人工智能的停电计划非结构化数据提取与识别方法 |
CN111177323A (zh) * | 2019-12-31 | 2020-05-19 | 国网安徽省电力有限公司安庆供电公司 | 基于人工智能的停电计划非结构化数据提取与识别方法 |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN111723582B (zh) * | 2020-06-23 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 智能语义分类方法、装置、设备及存储介质 |
CN111723582A (zh) * | 2020-06-23 | 2020-09-29 | 中国平安人寿保险股份有限公司 | 智能语义分类方法、装置、设备及存储介质 |
CN112270189A (zh) * | 2020-11-12 | 2021-01-26 | 佰聆数据股份有限公司 | 一种提问式的分析节点生成方法、***及存储介质 |
CN112417885A (zh) * | 2020-11-17 | 2021-02-26 | 平安科技(深圳)有限公司 | 基于人工智能的答案生成方法、装置、计算机设备及介质 |
CN113297456A (zh) * | 2021-05-20 | 2021-08-24 | 北京三快在线科技有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN114385933A (zh) * | 2022-03-22 | 2022-04-22 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN114385933B (zh) * | 2022-03-22 | 2022-06-07 | 武汉大学 | 一种顾及语义的地理信息资源检索意图识别方法 |
CN117743506A (zh) * | 2023-09-04 | 2024-03-22 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及*** |
CN117743506B (zh) * | 2023-09-04 | 2024-05-28 | 应急管理部大数据中心 | 一种基于自然语言的数据关联查询方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309400A (zh) | 一种智能理解用户查询意图的方法及*** | |
Jung | Semantic vector learning for natural language understanding | |
CN110442760B (zh) | 一种问答检索***的同义词挖掘方法及装置 | |
US20210157975A1 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN106919673B (zh) | 基于深度学习的文本情绪分析*** | |
Xu et al. | Using deep linguistic features for finding deceptive opinion spam | |
RU2636098C1 (ru) | Использование глубинного семантического анализа текстов на естественном языке для создания обучающих выборок в методах машинного обучения | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
Curtotti et al. | Corpus based classification of text in Australian contracts | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN112231472A (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN112434535A (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查*** | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111191051A (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及*** | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
Volk et al. | Nunc profana tractemus. Detecting code-switching in a large corpus of 16th century letters | |
KR20100041019A (ko) | 문서 번역 장치 및 그 방법 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及*** | |
Sharma et al. | Ideology detection in the Indian mass media | |
Gugliotta et al. | Tarc: Tunisian arabish corpus first complete release | |
CN110162781A (zh) | 一种金融文本主观句自动识别方法 | |
WO2023110580A1 (en) | Automatically assign term to text documents | |
Kolomiyets et al. | Meeting tempeval-2: Shallow approach for temporal tagger |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220614 |
|
AD01 | Patent right deemed abandoned |