CN104331398A - 生成同义词对齐词典的方法及装置 - Google Patents
生成同义词对齐词典的方法及装置 Download PDFInfo
- Publication number
- CN104331398A CN104331398A CN201410601632.3A CN201410601632A CN104331398A CN 104331398 A CN104331398 A CN 104331398A CN 201410601632 A CN201410601632 A CN 201410601632A CN 104331398 A CN104331398 A CN 104331398A
- Authority
- CN
- China
- Prior art keywords
- replacement
- alignment
- dictionary
- synonym
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种生成同义词对齐词典的方法及装置,上述方法包括:根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典。本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种生成同义词对齐词典的方法及装置。
背景技术
在信息检索领域,当用户发出检索请求时,对于用户输入的检索词,为了提供相关性更好的检索结果,需要将其中的每个检索词进行适当的替换,以便检索出更多更好的检索结果。比如:一个冷门词被替换成同样意思的热门词,将检索出更多的相关性好的检索结果,一个单一的检索词被替换成多种形式的同义词,将能够使得检索结果更具备多样性;一个表述不全的检索词被补全为完整的表达,将能够找回更精确的检索结果。因此,提供丰富而且准确的同义词对齐词典是检索过程中非常基础而重要的一环,该同义词对齐词典中词条的数量和质量将直接影响到检索结果的召回率和精确度。
在现有技术中,通常采用如下技术方案生成同义词对齐词典:根据已有的同义词对齐词典,人工设计统计量,选择其中能较好地反应替换效果的统计值作为主要的过滤特征;通过人工过滤的方式调整上述过滤特征的阈值,得到一个比较稳定而良好的经验阈值;将上述已有的同义词对齐词典的替换词条中特征值小于\大于过滤特征的阈值的替换词条删除,得到一个经过提纯的精确的同义词对齐词典。
然而,前述技术方案至少存在如下问题:
尽管通过人工有效地设置统计量、设置经验阈值的方法,经验阈值很难精确地设置,人工调整只能确定一个模糊的范围,对替换词条的过滤不够精确。除此以外,随着统计特征增多,难以通过人工直接衡量各个特征之间的关系,不能总体上综合考虑特征值,只能对各个特征值逐一比较,一旦有一个特征值不满足经验阈值该词条就会被过滤掉,容易丢失好的替换词条,从而在检索结果方面会受到一定的损失。
发明内容
本发明的目的在于提供一种生成同义词对齐词典的方法及装置,能够自动地生成更精确的同义词对齐词典,并解决了现有技术中过滤方法导致的误过滤优等替换词条的问题。
根据本发明的一方面,本发明提供一种生成同义词对齐词典的方法,包括:根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典。
根据本发明的另一方面,本发明提供一种生成同义词对齐词典的装置,包括:替换决策树模型生成单元,用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;词典过滤单元,用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。
附图说明
图1为本发明示例性实施例的生成同义词对齐词典的方法的流程图。
图2为本发明优选实施例的生成同义词对齐词典的方法的流程图。
图3为本发明示例性实施例的生成同义词对齐词典的装置的逻辑框图。
图4为本发明优选实施例的生成同义词对齐词典的装置的逻辑框图。
具体实施方式
本发明的总体发明构思是,提供一种生成同义词对齐词典的方法及装置,先根据多个替换词标注数据样本及其多个预定特征的特征值生成根据多个预定特征进行决策的替换决策树模型,然后根据替换决策树模型对已有的同义词对齐词典进行过滤,生成更精确的同义词对齐词典。通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。
下面结合附图对本发明的生成同义词对齐词典的方法及装置进行详细描述。
图1为本发明示例性实施例的生成同义词对齐词典的方法的流程图。
参照图1,在步骤S110,根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息。根据本法发明的示例性实施例,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
例如,多个替换词标注数据样本及其多个预定特征的特征值可以如下:
可以通过weka中标准的决策树模型J48,对这些数据样本进行训练,得到的替换决策树模型如下:
在步骤S120,根据所述替换决策树模型对已有的同义词对齐词典(例如IBM对齐词典)进行过滤,生成第一同义词对齐词典。根据本发明的示例性实施例,所述已有的对齐词典中的替换词条信息可以包括基于统计对齐获得的原词、替换词以及替换统计数据。其中,替换统计数据可以包括:替换词条的共现次数信息和对齐次数信息。共现次数表示原词和替换词同时出现在一次检索的检索词中并且同时为热门词的次数,对齐次数表示通过统计对齐计算出来的原词对齐到替换词的统计次数。一种已有的同义词对齐词典的例子可以是通过IBM对齐算法(如IBM模型1)对平行据对中的替换点进行对齐次数统计而产生的基本替换点词典。
根据本发明的示例性实施例,步骤S120可具体包括:
首先,根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值。具体地,可以根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。下面举例说明替换词条的多个预定特征中的2个特征值的计算方法:
替换词条的一个特征值1:共现对齐的概率,该特征值的计算方法可以为:共现对齐的概率=共现次数/对齐次数。
替换词条的一个特征值4:精确度,该特征值的计算方法可以为:精确度=对齐次数/count(A in query&&B in hl)。其中,count(A in query&&B in hl)表示原词出现检索词中而同时替换词为热门词的次数。在检索技术中,通常会通过统计所有的平行句对,将每个检索词中的词和检索结果中的高亮词共同出现的次数进行统计,生成所有词对的共现次数词典。该次数可以通过词对共现次数词典查询到。例如,已有的对齐词典中的一个替换词条为:
原词 | 替换词 | 共现次数 | 对齐次数 |
cooking | cuisine | 3 | 9 |
线下cooc词典中相应的词条是:cooking cuisine 18。由此得到上述词条的一个特征值精确度=9/18=0.5。
然后,针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,从所述已有的对齐词典删除被确定为劣的替换词条,以生成第一同义词对齐词典。下面举例说明如何确定词条为劣:
假设已有的对齐词典中的一个替换词条为:原词:cores,替换词:cortes。
计算得到该替换词条的19个特征分别为:0.758445946,0.002470032,0.00738698,0.384166126,42.27272727,7.92E-05,0.000180535,0.013447433,155,1.21E-05,3.43E-05,0.003667482,0.929606625,0.003407047,0.007573026,0.313432836,0,1.09E-05,0.142887964。
根据上面的特征值,通过上面生成的替换决策树模型的决策流程,得到最终的标签。例如:特征1命中第二分支,特征7命中第一个分支,所以该替换词条被判别为bad(即劣),需要删除。
通过上述的处理,生成了拥有更多的优等替换词条的第一同义词对齐词典。
图2为本发明优选实施例的生成同义词对齐词典的方法的流程图。
参照图2,本发明的优选实施例的生成同义词对齐词典的方法在步骤S120之后,还可以执行步骤S130。
在步骤S130,将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。已有的高置信度同义词对齐词典中的替换词条都是精确度较高的高置信度词条,一般情况下,高置信度同义词对齐词典中的词条不会与上述的已有的对齐词典中的词条有重合。通过将第一同义词对齐词典与已有的高置信度同义词对齐词典合并,得到了拥有更多的精确的替换词条的第二同义词对齐词典,从而在进行检索时,能够得到更多的精确的检索结果。
进一步地,本发明优选实施例的生成同义词对齐词典的方法在步骤S130之后,还可以执行步骤S140。
在步骤S140,根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。
具体地,在步骤S140中,针对所述第二同义词对齐词典中每条替换词条,所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。
下面通过一个具体的例子对传统的计算替换词条的替换权值的方法与本实施例的计算替换词条的替换权值的方法进行比较,以加强对步骤S140的理解。
假设高置信度同义词对齐词典中有如下条词条:
原词 | 替换词 | 对齐次数 |
A | B | 10 |
A | C | 100 |
A | D | 1000 |
第一同义词对齐词典中有如下条词条:
原词 | 替换词 | 对齐次数 |
A | E | 50 |
A | F | 500 |
A | G | 5000 |
传统的计算替换词条的替换权值的算法为:
a:归一化高置信度同义词对齐词典中词条的对齐次数。用p(X->Y)表示原词为X替换词为Y的词条的替换权值,可得:
p(A->B)=10/1000=0.01
p(A->C)=100/1000=0.1
p(A->D)=1000/1000=1.0
b:归一化第一同义词对齐词典中词条的对齐次数。
p(A->E)=50/5000=0.01
p(A->F)=500/5000=0.1
p(A->G)=5000/5000=1.0
c:步骤a和步骤b所计算的替换概率合并后的集合即为最终的词典,即:
原词 | 替换词 | 对齐次数 | 替换权值 |
A | B | 10 | 0.01 |
A | C | 100 | 0.1 |
A | D | 1000 | 1.0 |
A | E | 50 | 0.01 |
A | F | 500 | 0.1 |
A | G | 5000 | 1.0 |
由此可见,传统计算替换词条的替换权值的算法将两个同义词对齐词典的替换权值归一化分开完成,最后才合并,每个替换词条仅仅和自己词典中的其他替换词条进行归一化,而没有与另一个词典中的替换词条进行比较,从而使得在其中某个对齐词典的替换词条的对齐次数偏低的时候,其替换权值的大小却与另一个列表相似。这样导致了当同一个词A的两个不同来源的替换候选列表在对齐次数上具有比较悬殊差距时,该打分方式无法体现这种差距。
而本实施例的计算替换词条的替换权值的算法为:对由第一同义词对齐词典与高置信度同义词对齐词典合并后生成的第二同义词对齐词典中词条的对齐次数进行统一归一化,可得:
p(A->B)=10/5000=0.002
p(A->C)=100/5000=0.02
p(A->D)=1000/5000=0.2
p(A->E)=50/5000=0.01
p(A->F)=500/5000=0.1
p(A->G)=5000/5000=1.0
从而得到最终的词典如下:
原词 | 替换词 | 对齐次数 | 替换权值 |
A | B | 10 | 0.002 |
A | C | 100 | 0.02 |
A | D | 1000 | 0.2 |
A | E | 50 | 0.01 |
A | F | 500 | 0.1 |
A | G | 5000 | 1.0 |
由此可见,本实施例的计算替换词条的替换权值的算法能够更加全面的衡量每个替换词条的优劣程度。
图3为本发明示例性实施例的生成同义词对齐词典的装置的逻辑框图。
参照图3,本发明的生成同义词对齐词典的装置包括:替换决策树模型生成单元310以及词典过滤单元320。
替换决策树模型生成单元310用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息。根据本发明的示例性实施例,替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。替换决策树模型生成单元310的具体处理可参考上述对图1中的步骤S110的说明,在此不再赘述。
词典过滤单元320用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。其中,已有的对齐词典中的替换词条信息可以包括基于统计对齐获得的原词、替换词以及替换统计数据。替换统计数据可以包括:替换词条的共现次数信息和对齐次数信息。
根据本发明的实例性实施例,词典过滤单元320可以包括:
特征值计算单元321,用于根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值。具体地,特征值计算单元321根据已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。关于特征值计算单元321对特征值的计算,可参考上述对图1中的对步骤S120的关于特征值计算的说明,在此不再赘述。
词典过滤子单元322,用于针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。关于词典过滤子单元322的处理,可参考上述对图1中的步骤S120的关于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典的处理的详细说明,在此不再赘述。
图4为本发明优选实施例的生成同义词对齐词典的装置的逻辑框图。
参照图4,本发明优选实施例的生成同义词对齐词典的装置除了决策树模型生成单元310以及词典过滤单元320之外,还可以包括词典合并单元330,用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。已有的高置信度同义词对齐词典中的替换词条都是精确度较高的高置信度词条,一般情况下,高置信度同义词对齐词典中的词条不会与上述的已有的对齐词典中的词条有重合。通过将第一同义词对齐词典与已有的高置信度同义词对齐词典合并,得到了拥有更多的精确的替换词条的第二同义词对齐词典,从而在进行检索时,能够得到更多的精确的检索结果。
进一步地,本发明优选实施例的生成同义词对齐词典的装置还可以包括:替换权值获取单元340,用于根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。根据本发明的实例性实施例,替换权值获取单元340针对所述第二同义词对齐词典中每条替换词条,计算所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。替换权值获取单元340获得所述第二同义词对齐词典中的替换词条的替换权值的处理以及该处理相对于传统获取方法的有益效果可参考上述对图2中步骤S140的相关描述,在此不再赘述。
根据上述本发明的实施例的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。此外,本发明的实施例还通过对由第一同义词对齐词典与高置信度同义词对齐词典合并后生成的第二同义词对齐词典中词条的对齐次数进行统一归一化来获取替换词条的替换权值,更加全面的衡量每个替换词条的优劣程度。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种生成同义词对齐词典的方法,其特征在于,所述方法包括:
根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;
根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
2.根据权利要求1所述的方法,其特征在于,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
3.根据权利要求2所述的方法,其特征在于,所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典的处理包括:
根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值;
针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。
5.根据权利要求4所述的方法,其特征在于,所述替换统计数据包括:替换词条的共现次数信息和对齐次数信息,
所述根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值的处理包括:
根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:
将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值包括:
针对所述第二同义词对齐词典中每条替换词条,所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。
9.一种生成同义词对齐词典的装置,其特征在于,所述装置包括:
替换决策树模型生成单元,用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;
词典过滤单元,用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
10.根据权利要求9所述的装置,其特征在于,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
11.根据权利要求10所述的装置,其特征在于,所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。
12.根据权利要求11所述的装置,其特征在于,所述词典过滤单元包括:
特征值计算单元,用于根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值;
词典过滤子单元,用于针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。
13.根据权利要求12所述的装置,其特征在于,所述替换统计数据包括:替换词条的共现次数信息和对齐次数信息,
所述特征值计算单元根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。
14.根据权利要求9~13中任一项所述的装置,其特征在于,所述装置还包括:
词典合并单元,用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
替换权值获取单元,用于根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。
16.根据权利要求15所述的装置,其特征在于,所述替换权值获取单元针对所述第二同义词对齐词典中每条替换词条,计算所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410601632.3A CN104331398B (zh) | 2014-10-30 | 2014-10-30 | 生成同义词对齐词典的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410601632.3A CN104331398B (zh) | 2014-10-30 | 2014-10-30 | 生成同义词对齐词典的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104331398A true CN104331398A (zh) | 2015-02-04 |
CN104331398B CN104331398B (zh) | 2018-07-13 |
Family
ID=52406127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410601632.3A Active CN104331398B (zh) | 2014-10-30 | 2014-10-30 | 生成同义词对齐词典的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331398B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN113011166A (zh) * | 2021-04-19 | 2021-06-22 | 华北电力大学 | 一种基于决策树分类的继电保护缺陷文本同义词识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959674A (zh) * | 2006-11-09 | 2007-05-09 | 华为技术有限公司 | 网络搜索方法、网络搜索设备和用户终端 |
CN101576916A (zh) * | 2009-06-18 | 2009-11-11 | 清华大学 | 一种获取同义词的方法及装置 |
CN102722502A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 一种获取去冗余的建议查询序列的方法与设备 |
WO2014087424A2 (en) * | 2012-12-03 | 2014-06-12 | Parthys Reverse Informatics Analytic Solutions (P) Ltd. | Information retrieval, extraction and visualisation |
CN103942339A (zh) * | 2014-05-08 | 2014-07-23 | 深圳市宜搜科技发展有限公司 | 同义词挖掘方法及装置 |
-
2014
- 2014-10-30 CN CN201410601632.3A patent/CN104331398B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959674A (zh) * | 2006-11-09 | 2007-05-09 | 华为技术有限公司 | 网络搜索方法、网络搜索设备和用户终端 |
CN101576916A (zh) * | 2009-06-18 | 2009-11-11 | 清华大学 | 一种获取同义词的方法及装置 |
CN102722502A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 一种获取去冗余的建议查询序列的方法与设备 |
WO2014087424A2 (en) * | 2012-12-03 | 2014-06-12 | Parthys Reverse Informatics Analytic Solutions (P) Ltd. | Information retrieval, extraction and visualisation |
CN103942339A (zh) * | 2014-05-08 | 2014-07-23 | 深圳市宜搜科技发展有限公司 | 同义词挖掘方法及装置 |
Non-Patent Citations (1)
Title |
---|
张书娟: "基于电子商务用户行为的同义词识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN110688837B (zh) * | 2019-09-27 | 2023-10-31 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN113011166A (zh) * | 2021-04-19 | 2021-06-22 | 华北电力大学 | 一种基于决策树分类的继电保护缺陷文本同义词识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104331398B (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103530334B (zh) | 基于比较模板的数据匹配***和方法 | |
CN109033086A (zh) | 一种地址解析、匹配的方法及装置 | |
US9047369B2 (en) | Method and apparatus of determining product category information | |
CN102768659B (zh) | 重复账号自动识别方法和*** | |
CN108647318A (zh) | 一种基于多源数据的知识融合方法 | |
CN109522746A (zh) | 一种数据处理方法、电子设备及计算机存储介质 | |
US20150356128A1 (en) | Index key generating device, index key generating method, and search method | |
US11036685B2 (en) | System and method for compressing data in a database | |
CN104756106A (zh) | 表征数据存储***中的数据源 | |
CN104636424A (zh) | 一种基于图谱分析构建文献综述框架的方法 | |
CN107885760A (zh) | 一种基于多种语义的知识图谱表示学习方法 | |
CN107305577B (zh) | 基于K-means的妥投地址数据处理方法和*** | |
CN110110322A (zh) | 网络新词发现方法、装置、电子设备及存储介质 | |
CN105320778A (zh) | 一种适用于电子商务中文网站商品标签化的方法 | |
CN101937436B (zh) | 一种文本分类方法及装置 | |
CN104216876A (zh) | 信息文本过滤方法及*** | |
CN112162977B (zh) | 一种面向mes的海量数据去冗余方法和*** | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN109062936B (zh) | 一种数据查询方法、计算机可读存储介质及终端设备 | |
CN114817553A (zh) | 知识图谱构建方法、知识图谱构建***和计算设备 | |
CN109542742A (zh) | 基于专家模型的数据库服务器硬件健康评估方法 | |
CN104158682A (zh) | 一种基于贡献度的同步数字体系sdh故障定位方法 | |
CN108664605B (zh) | 一种模型评估方法及*** | |
CN106959943B (zh) | 语种识别更新方法及装置 | |
CN105590245A (zh) | 定位电子交易的故障成因的计算机实施方法和数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |