CN106095956A - 支持信息裂变查询方法及装置 - Google Patents
支持信息裂变查询方法及装置 Download PDFInfo
- Publication number
- CN106095956A CN106095956A CN201610425294.1A CN201610425294A CN106095956A CN 106095956 A CN106095956 A CN 106095956A CN 201610425294 A CN201610425294 A CN 201610425294A CN 106095956 A CN106095956 A CN 106095956A
- Authority
- CN
- China
- Prior art keywords
- fission
- word
- pattern
- sentence
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种支持信息裂变查询方法及装置,其中,所述方法包括根据预设语料中的句子所包含的词语的词性以及包含预设裂变词的句子确定裂变模式,并根据所述裂变模式的第一支持信息将裂变模式加入裂变模集合;从预设语料中提取包含所述裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述词语的第二支持信息将该词语加入到裂变词集合中;根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。本发明提高了数据的离线挖掘效率,缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种支持信息裂变查询方法及装置。
背景技术
网络、通讯及计算机技术的迅猛发展也极大程度地推动了人工智能技术的进步。而随着文本情感分析以及自然语言处理技术的日益成熟,通过计算机应用智能分析研究大数据已经成为互联网时代的一大需求和趋势。在此背景下,语音处理及数据挖掘也受到了越来越多的关注。
语音处理可识别出说话人所说的内容,并将其转化为文本数据,进而可以将这些总量持续增长的数据持久保存下来,以为后续进行数据挖掘,进而进行数据查询提供基础。
现有技术中,采用人工制定关键词及模式,通过模式匹配识别目标的数据挖掘方法扩展性低,难以大规模应用;而根据关键词和句型结构制定模式,通过与模式计算相似度识别目标的数据挖掘方法则需要大量标注数据,其效果很大程度上依赖样本的覆盖,前期投入过大。
发明内容
为消除现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,本发明提出如下技术方案:
一种支持信息裂变查询方法,包括:
根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所属裂变模式对该词语的第二支持信息将该词语作为裂变词加入到裂变词集合中;
根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。
可选地,所述根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中,包括:
根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;
计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
可选地,根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,包括:
通过分词程序对所述预设语料中的每个句子进行分词,并进行实体标注,以生成每个句子的分词模式。
可选地,所述从所述预设语料中提取包含所述裂变模集合中的裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据该词语的所属裂变模式对该词语的第二支持信息将该词语作为裂变词加入到裂变词集合中,包括:
从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;
计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
可选地,所述根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中之前,所述方法还包括:
初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;
初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
可选地,所述根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果,包括:
接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的问答目标,以根据所述问答目标获取查询结果。
一种支持信息裂变查询装置,包括:
裂变模集合确定单元,用于根据预设语料中每个句子所包含的词语的词性以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
裂变词集合确定单元,用于从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所属裂变模式对该词语的第二支持信息将该词语作为裂变词加入到裂变词集合中;
裂变查询单元,用于根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索,以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。
可选地,所述裂变模确定单元进一步用于根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;以及,
用于计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
可选地,所述裂变词确定单元进一步用于从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;以及,
用于计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
可选地,所述装置还包括:
集合初始化单元,用于初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;以及,
用于初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
本发明的支持信息裂变查询方法及装置,基于支持信息以及迭代裂变搜索得到的裂变词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结果,消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率,缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的支持信息裂变查询方法的流程示意图;
图2为本发明另一个实施例提供的支持信息裂变查询方法的流程示意图;
图3为本发明一个实施例提供的支持信息裂变查询装置的结构示意图;
图4为本发明另一个实施例提供的支持信息裂变查询装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例提供的支持信息裂变查询方法的流程示意图;如图1所示,该方法包括:
S1:根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
具体来说,根据预设语料中每个句子所包含的词语的词性(如[人名]、[动词]、[代词]等)以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式(如[人名]+[裂变词]等),并根据所述预设裂变词对所述裂变模式的第一支持信息(包括支持度、置信度、信息增益以及卡方等信息)将所述裂变模式加入到裂变模集合中;
S2:从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中;
具体地,从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所属裂变模式对该词语的第二支持信息(包括支持度、置信度、信息增益以及卡方等信息)将该词语作为裂变词加入到裂变词集合中;
S3:根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果;
具体地,根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索(即重复步骤S1~S2,直至所述裂变词集合以及所述裂变模集合收敛,即不再出现新的裂变词和裂变模式),以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。
本实施例的支持信息裂变查询方法,基于支持信息以及迭代裂变搜索得到的裂变词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结果,消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率,缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
进一步地,作为本实施例的优选,上述步骤S1可以包括:
S11:根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;
其中,每个句子所包含的词语的词性包括名词、动词以及代词等等,在此基础上,根据每个句子所包含的词语的词性而生成的分词模式例如为[人名]、[动词][代词]、[人名][动词][代词]等等。
具体来说,可通过分词程序(如hadoop的map/reduce调用分词程序)对所述预设语料中的每个句子进行分词,并按照词性进行实体标注,以生成每个句子的分词模式,其中,裂变词为用于将语句划分成裂变模式的关键词,例如“为什么”、“是什么”、“是谁”、“刘德华”等[动词+代词]或[名词];所述的裂变模式为根据所述语句包含的所述关键词的词性以及包含的其他词语的词性将所述语句进行划分所得的模式,例如对于语句“刘德华是谁”而言,若其裂变词为“是谁”,则其裂变模式可确定为“[人名]+[裂变词]”。
具体地,例如在裂变词集合中加入的“是谁”,并扫描上述语料中的包含“是谁”的原句子,得到该原句子及其模式:
刘德华是谁[人名][动词][代词][动词][代词]=[裂变词],以将得到的模式“[人名][动词][代词]”加入裂变模集合中。
S12:计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
具体地,即将裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度分别与置信度阈值和支持度阈值进行比较,并在第一置信度与第一支持度均大于相应的阈值的情况下,将该裂变模式加入到裂变模集合中。
进一步地,作为本实施例的优选,上述步骤S2还可以包括:
S21:从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;
具体地,例如从预设语料中扫描出裂变模集合中的裂变模式“[人名][动词][代词]”的句子:“梁朝伟在哪”,由前所述,[动词][代词]=[裂变词],因此可提取出裂变词位置上的新词“在哪”。
S22:计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
具体地,即将裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度分别与置信度阈值和支持度阈值进行比较,并在第二置信度与第二支持度均大于相应的阈值的情况下,将该词语作为新的裂变词加入到裂变词集合中。
图2为本发明另一个实施例提供的支持信息裂变查询方法的流程示意图;如图2所示,在上一实施例的基础上,步骤S1中根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中之前,该方法还可以进一步包括:
S0:初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
具体地,上述初始化裂变词集合,包括保留用于放置查询出的裂变词的裂变词集合,并向初始化后的裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词,例如[在哪]、[是谁]等等,以存储后续通过迭代处理所获取的裂变词。
而初始化所述裂变模集合,包括保留一个用于放置查询出的裂变模式的裂变模集合,以存储后续通过迭代处理所获取的裂变模式。
作为本实施例的优选,步骤S3中根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果,可以进一步包括:
接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的问答目标,以根据所述问答目标获取查询结果。
本实施例的支持信息裂变查询方法基于支持信息以及迭代搜索方式获得的裂变词集合和裂变模集合,可以缩短数据处理时间,提高了数据挖掘与数据查询的效率。
图3为本发明一个实施例提供的支持信息裂变查询装置的结构示意图;如图3所示,该装置包括:
裂变模集合确定单元10,用于根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
具体地,裂变模集合确定单元10用于根据预设语料中每个句子所包含的词语的词性(如[人名]、[动词]、[代词]等)以及包含预设裂变词的句子确定所述包含预设裂变词的句子的裂变模式(如[人名]+[裂变词]等),并根据所述预设裂变词对所述裂变模式的第一支持信息(包括支持度、置信度、信息增益以及卡方等信息)将所述裂变模式加入到裂变模集合中;
裂变词集合确定单元20,用于从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中;
具体地,裂变词集合确定单元20用于从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并获取该句子中裂变词的位置所对应的词语,并根据所述裂变词的位置所对应的词语的所属裂变模式对该词语的第二支持信息(包括支持度、置信度、信息增益以及卡方等信息)将该词语作为裂变词加入到裂变词集合中;
裂变查询单元30,用于根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果;
具体地,裂变查询单元30用于根据所述裂变词集合以及所述裂变模集合进行迭代裂变搜索(即重复步骤S1~S2,直至所述裂变词集合以及所述裂变模集合收敛,即不再出现新的裂变词和裂变模式),以根据最终得到的裂变词集合和最终得到的裂变模集合对待查询语句进行裂变处理,并根据处理结果获取查询结果。
本实施例所述的支持信息裂变查询装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
进一步地,作为本实施例的优选,裂变模确定单元10可进一步用于根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;
其中,每个句子所包含的词语的词性包括名词、动词以及代词等等,在此基础上,根据每个句子所包含的词语的词性而生成的分词模式例如为[人名]、[动词][代词]、[人名][动词][代词]等等。
具体来说,可通过分词程序(如hadoop的map/reduce调用分词程序)对所述预设语料中的每个句子进行分词,并按照词性进行实体标注,以生成每个句子的分词模式,其中,裂变词为用于将语句划分成裂变模式的关键词,例如“为什么”、“是什么”、“是谁”、“刘德华”等[动词+代词]或[名词];所述的裂变模式为根据所述语句包含的所述关键词的词性以及包含的其他词语的词性将所述语句进行划分所得的模式,例如对于语句“刘德华是谁”而言,若其裂变词为“是谁”,则其裂变模式可确定为“[人名]+[裂变词]”。
具体地,例如在裂变词集合中加入的“是谁”,并扫描上述语料中的包含“是谁”的原句子,得到该原句子及其模式:
刘德华是谁[人名][动词][代词][动词][代词]=[裂变词],以将得到的模式“[人名][动词][代词]”加入裂变模集合中。
在此基础上,裂变模确定单元10还可用于计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
具体地,即将裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度分别与置信度阈值和支持度阈值进行比较,并在第一置信度与第一支持度均大于相应的阈值的情况下,将该裂变模式加入到裂变模集合中。
进一步地,作为本实施例的优选,裂变词确定单元20可进一步用于从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;
具体地,例如从预设语料中扫描出裂变模集合中的裂变模式“[人名][动词][代词]”的句子:“梁朝伟在哪”,由前所述,[动词][代词]=[裂变词],因此可提取出裂变词位置上的新词“在哪”。
在此基础上,裂变词确定单元20还可用于计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
具体地,即将裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度分别与置信度阈值和支持度阈值进行比较,并在第二置信度与第二支持度均大于相应的阈值的情况下,将该词语作为新的裂变词加入到裂变词集合中。
图4为本发明另一个实施例提供的支持信息裂变查询装置的结构示意图;如图4所示,在上一实施例的基础上,本实施例的装置还可以进一步包括:
集合初始化单元40,用于初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
具体地,上述初始化裂变词集合,包括保留用于放置查询出的裂变词的裂变词集合,并向初始化后的裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词,例如[在哪]、[是谁]等等,以存储后续通过迭代处理所获取的裂变词。
而初始化所述裂变模集合,包括保留一个用于放置查询出的裂变模式的裂变模集合,以存储后续通过迭代处理所获取的裂变模式。
作为上述所有装置实施例的优选,裂变查询单元30可进一步用于:
接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的问答目标,以根据所述问答目标获取查询结果。
下面以一具体的实施例来说明本发明,但不限定本发明的保护范围。本实施例的支持信息裂变查询方法的步骤如下:
1、预处理语料结果如下表一所示:
表一 语料预处理结果
原句子 | 分词和标注后的句子 | 裂变模式 |
刘德华是谁 | 刘德华[人名]是[动词]谁[代词] | [人名][动词][代词] |
梁朝伟在哪 | 梁朝伟[人名]在[动词]哪[代词] | [人名][动词][代词] |
羊驼是什么 | 羊驼[动物]是[动词]什么[代词] | [动物][动词][代词] |
2、初始化裂变模集合为空,初始化裂变词集合为空;
3、在裂变词集合中加入“是谁”(预设裂变词);
4、扫描原句子中包含“是谁”的句子,得到原句子及其裂变模式,例如:
刘德华是谁(原句子)[人名][动词][代词](裂变模式),其中,[动词][代词]=[裂变词]。
5、计算上述裂变模式的支持信息,并根据经验制定支持信息阈值,当支持度大于该阈值时,将上述裂变模式加入到裂变模集合中;
其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度为例:
假设裂变模式的置信度阈值为0.6、支持度阈值为0.6,则:
[人名]和[动词][代词]置信度为:2/3=0.67;
[人名]对[动词][代词]的支持度为:2/3=0.67;
即均大于阈值,因此将裂变模式“[人名][动词][代词]”加入裂变模集合中。
6、在原句子中扫描出[人名][动词][代词]模式的句子,例如:梁朝伟在哪。
7、计算“在哪”的支持信息,并根据经验制定支持信息阈值,当支持度大于该阈值时,将该裂变词加入到裂变词集合中;
其中,支持信息包括支持度、置信度、信息增益、卡方等信息;以支持度和置信度为例:
假设裂变词的置信度阈值为0.3、支持度阈值为0.3,则:
[人名]和“在哪”置信度为:1/3=0.33
[人名]对“在哪”的支持度为:1/3=0.33
即均大于阈值,因此将裂变词“在哪”加入裂变词集合中。
8、结束,得到裂变词集合:是谁、在哪;
得到裂变模集合:[人名][动词][代词];
9、标注:
[人名]+“是谁”的目标是who;
[人名]+“在哪”的目标是where;
10、线上使用时,符合[人名]+“是谁”模式的,问题目标为who,将返回该[人名]是谁的答案。
符合[人名]+“在哪”模式的,问题目标为where,将返回该[人名]在什么地方的答案。
本发明的支持信息裂变查询方法及装置,基于支持信息以及迭代裂变搜索得到的裂变词集合和裂变模集合,对用户输入的待查询语句进行裂变处理模式匹配并返回查询结果,消除了现有数据查询中进行离线数据挖掘时存在的数据挖掘方法扩展性低、难以大规模应用,以及依赖样本的覆盖程度高、前期投入过大的弊端,提高了数据的离线挖掘效率,缩短了数据挖掘时间,进而提高了查询准确度和查询效率,提升了用户体验。
以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种支持信息裂变查询方法,其特征在于,包括:
根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中;
根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果。
2.根据权利要求1所述的方法,其特征在于,所述根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中,包括:
根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;
计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
3.根据权利要求2所述的方法,其特征在于,根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,包括:
通过分词程序对所述预设语料中的每个句子进行分词,并进行实体标注,以生成每个句子的分词模式。
4.根据权利要求2所述的方法,其特征在于,所述从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中,包括:
从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;
计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中之前,所述方法还包括:
初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;
初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果,包括:
接收根据所述最终得到的裂变词集合和最终得到的裂变模集合进行人工标注的问答目标,以根据所述问答目标获取查询结果。
7.一种支持信息裂变查询装置,其特征在于,包括:
裂变模集合确定单元,用于根据预设语料以及预设裂变词确定所述预设裂变词对应的裂变模式,并根据所述预设裂变词对所述裂变模式的第一支持信息将所述裂变模式加入到裂变模集合中;
裂变词集合确定单元,用于从所述预设语料中查找出匹配所述裂变模集合中的裂变模式的句子,并提取所述句子中裂变词的位置所对应的词语,以根据所述词语的所属裂变模式对所述词语的第二支持信息将所述词语加入到裂变词集合中;
裂变查询单元,用于根据所述裂变词集合以及所述裂变模集合通过迭代裂变搜索获取最终的裂变词集合和最终的裂变模集合,并对待查询语句进行裂变处理,以获取查询结果。
8.根据权利要求7所述的装置,其特征在于,所述裂变模确定单元进一步用于根据预设语料中的每个句子所包含的词语的词性生成所述每个句子的分词模式,并提取所述预设语料中包含预设裂变词的句子,以根据所述预设裂变词将所述句子的分词模式转换为裂变模式;以及,
用于计算所述裂变模式的第一置信度和所述预设裂变词到所述裂变模式的第一支持度,以根据所述第一置信度和所述第一支持度将所述裂变模式加入到裂变模集合中。
9.根据权利要求8所述的装置,其特征在于,所述裂变词确定单元进一步用于从所述预设语料中提取包含所述裂变模集合中的任一裂变模式的句子,并提取该句子中裂变词位置所对应的词语;以及,用于计算所述裂变词的位置所对应的词语的第二置信度和该词语的所属裂变模式到该词语的第二支持度,以根据所述第二置信度和所述第二支持度将所述词语作为裂变词加入到裂变词集合中。
10.根据权利要求7至9任一项所述的装置,其特征在于,所述装置还包括:
集合初始化单元,用于初始化所述裂变词集合,并向初始化后的所述裂变词集合中添加若干疑问句的裂变词和词组作为预设裂变词;以及,
用于初始化所述裂变模集合,以将所述裂变模集合设置为空集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610425294.1A CN106095956A (zh) | 2016-06-15 | 2016-06-15 | 支持信息裂变查询方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610425294.1A CN106095956A (zh) | 2016-06-15 | 2016-06-15 | 支持信息裂变查询方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106095956A true CN106095956A (zh) | 2016-11-09 |
Family
ID=57235362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610425294.1A Pending CN106095956A (zh) | 2016-06-15 | 2016-06-15 | 支持信息裂变查询方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095956A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018201916A1 (zh) * | 2017-05-04 | 2018-11-08 | 华为技术有限公司 | 数据查询的方法、装置和数据库*** |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答***实现方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN104252533A (zh) * | 2014-09-12 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 搜索方法和搜索装置 |
CN104573009A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种领域知识库属性扩展的方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和*** |
-
2016
- 2016-06-15 CN CN201610425294.1A patent/CN106095956A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答***实现方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN104252533A (zh) * | 2014-09-12 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 搜索方法和搜索装置 |
CN104573009A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种领域知识库属性扩展的方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018201916A1 (zh) * | 2017-05-04 | 2018-11-08 | 华为技术有限公司 | 数据查询的方法、装置和数据库*** |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915340B (zh) | 自然语言问答方法及装置 | |
CN108345690B (zh) | 智能问答方法与*** | |
CN104142915B (zh) | 一种添加标点的方法和*** | |
CN108595696A (zh) | 一种基于云平台的人机交互智能问答方法和*** | |
CN104008166B (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
CN106295796A (zh) | 基于深度学习的实体链接方法 | |
CN106446018B (zh) | 基于人工智能的查询信息处理方法和装置 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN107305550A (zh) | 一种智能问答方法及装置 | |
CN104143331B (zh) | 一种添加标点的方法和*** | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN104778204A (zh) | 基于两层聚类的多文档主题发现方法 | |
US20190095447A1 (en) | Method, apparatus, device and storage medium for establishing error correction model based on error correction platform | |
CN106326307A (zh) | 一种语言交互方法 | |
CN109308315A (zh) | 一种基于专家领域相似度与关联关系的协同推荐方法 | |
WO2022151594A1 (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN104281565A (zh) | 语义词典构建方法和装置 | |
CN112395867A (zh) | 同义词挖掘方法、装置、存储介质及计算机设备 | |
CN104391969A (zh) | 确定用户查询语句句法结构的方法及装置 | |
CN108388556A (zh) | 同类实体的挖掘方法及*** | |
CN106095956A (zh) | 支持信息裂变查询方法及装置 | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
CN109344233A (zh) | 一种中文人名识别方法 | |
CN107480128A (zh) | 中文文本的分词方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161109 |