CN107193799A - 一种数据匹配方法 - Google Patents
一种数据匹配方法 Download PDFInfo
- Publication number
- CN107193799A CN107193799A CN201710349923.1A CN201710349923A CN107193799A CN 107193799 A CN107193799 A CN 107193799A CN 201710349923 A CN201710349923 A CN 201710349923A CN 107193799 A CN107193799 A CN 107193799A
- Authority
- CN
- China
- Prior art keywords
- concept
- similarity
- justice
- msub
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据匹配方法,方法包括:获取第一词语以及第二词语;对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。
Description
技术领域
本发明数据处理领域,尤其涉及一种数据匹配方法。
背景技术
在现在的网络通信或数据处理过程中,常常会产生对两个词语进行相似度匹配的需求。
现有技术主要采用的匹配方式为字面含义的匹配,通过相同或近似的字来判断词语是否匹配,例如“接近”和“靠近”,由于都具有“近”这个字,***会判断这两个词匹配度较高。
但是,文字的内涵博大精深,仅仅依靠字面含义进行匹配经常容易出现错误,从而严重影响了匹配精确度。
发明内容
本发明提供了一种数据匹配方法。
本发明提供的一种数据匹配方法,方法包括:
获取第一词语以及第二词语;
对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;
根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。
可选地,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
可选地,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
可选地,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
可选地,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:
按照如下公式计算所述概念相似度Sim(Si,Tj):
本发明中,获取第一词语以及第二词语;对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。本发明中,在进行数据匹配时要对词语进行拆分,形成概念集合,而概念集合中的概念可以最大程度的涵盖词语的本质含义,所以从概念的粒度对词语进行匹配,可以有效的提高匹配的精确度。
附图说明
图1为数据匹配方法流程示意图。
具体实施方式
为了使本领域的技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
请参阅图1,本发明数据匹配方法流程包括:
101、获取第一词语以及第二词语;
102、对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
103、计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
104、将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;
105、根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。
Hownet中,对实词的概念描述由以下三种形式的描述式组成:
(1)独立义原描述式:由“基本义原”或“(具体词)”表示;
(2)关系义原描述式:由“关系义原=基本义原”或“关系义原=(具体词)”或者“(关系义原=具体词)”来表示,其中关系义原是指包含“EventRole| 动态角色”和“EventFeatures|动态属性”这两类的义原;
(3)符号义原描述式:由“关系符号基本义原”或者“关系符号(具体词)”表示,其中关系符号包括“#、%、$、*、+、&、@、?、!”,其各自代表的关系不再赘述。
在实际应用中,每一个概念由多个义原组成,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。
所有的概念都可以分解成各种各样的义原。同时也应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。中文中的字(包括单纯词) 是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。
通过对义原和概念的定义,就可以对两个词语的相似度进行计算,例如对于词语X1和词语X2,如果X1有n个概念[S1,S2,…,Sn],X2有m个概念[T1, T2,…,Tm],X1和X2的相似度Sim(X1,X2)为各个概念的相似度的最大值:
因此,为了计算得到X1和X2的相似度Sim(X1,X2),则需要计算每两个概念之间的相似度。
计算两个概念之间的相似度则需要通过多个方面来综合计算:
(1)第一独立义原描述式:
因为所有的概念都最终归结于用义原来表示,所以义原的相似度计算是概念相似度的基础。由于所有的义原根据上下位关系构成树状的义原层次体系,可以简单的通过语义距离计算相似度。
用Sim1(V1,V2)表示两个概念的这部分相似度,具体就是两个义原的相似度,具体计算公式如下:
其中(d+α)表示两个义原,d是和在义原层次体系中的路径长度。α是一个可调节的参数,在基于Hownet的词汇语义相似度计算方法中可以设定α的取值,例如:α=0.5。
(2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原,用Sim2(V1,V2)表示两个概念的这部分相似度,具体计算步骤如下:
a、先把两个表达式的所有独立义原任意配对,计算两两义原相似度;
b、取值最大的一对归为一组;
c、对剩下的独立义原两两相似度执行第b步。如此反复,直到所有都完成分组。任何义原与空值的相似度定义为常数δ,例如:δ=0.2;
d、最后求平均值。
(3)关系义原描述式:语义表达式中所有的关系义原,用Sim3(V1,V2) 表示两个概念的这部分相似度,把关系义原相同的表达式分为一组,计算相似度,最后求平均值。
(4)符号义原描述式:语义表达式中所有的符号义原,用Sim4(V1,V2) 表示两个概念的这部分相似度,把关系符号相同的表达式分为一组,计算相似度,最后求平均值。
综上所述,两个概念的相似度计算方法如公式(3)所示。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种数据匹配方法,其特征在于,所述方法包括:
获取第一词语以及第二词语;
对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;
根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。
2.根据权利要求1所述的数据匹配方法,其特征在于,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
3.根据权利要求2所述的数据匹配方法,其特征在于,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
<mrow>
<msub>
<mi>Sim</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>&alpha;</mi>
<mrow>
<mi>d</mi>
<mo>+</mo>
<mi>&alpha;</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
4.根据权利要求3所述的数据匹配方法,其特征在于,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
5.根据权利要求4所述的数据匹配方法,其特征在于,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:
按照如下公式计算所述概念相似度Sim(Si,Tj):
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>T</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>4</mn>
</munderover>
<msub>
<mi>&beta;</mi>
<mi>x</mi>
</msub>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>y</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>x</mi>
</munderover>
<msub>
<mi>Sim</mi>
<mi>y</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
1
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349923.1A CN107193799A (zh) | 2017-05-17 | 2017-05-17 | 一种数据匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349923.1A CN107193799A (zh) | 2017-05-17 | 2017-05-17 | 一种数据匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107193799A true CN107193799A (zh) | 2017-09-22 |
Family
ID=59872789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710349923.1A Pending CN107193799A (zh) | 2017-05-17 | 2017-05-17 | 一种数据匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193799A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538290A (zh) * | 2018-04-06 | 2018-09-14 | 东莞市华睿电子科技有限公司 | 一种基于音频信号检测的智能家居控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702665B2 (en) * | 2005-06-14 | 2010-04-20 | Colloquis, Inc. | Methods and apparatus for evaluating semantic proximity |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN102651014A (zh) * | 2012-03-29 | 2012-08-29 | 华侨大学 | 基于概念关系的领域数据语义的处理方法和检索方法 |
CN105022794A (zh) * | 2015-06-26 | 2015-11-04 | 广州时韵信息科技有限公司 | 一种快速搜索所需文章内容的方法及装置 |
-
2017
- 2017-05-17 CN CN201710349923.1A patent/CN107193799A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702665B2 (en) * | 2005-06-14 | 2010-04-20 | Colloquis, Inc. | Methods and apparatus for evaluating semantic proximity |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN102651014A (zh) * | 2012-03-29 | 2012-08-29 | 华侨大学 | 基于概念关系的领域数据语义的处理方法和检索方法 |
CN105022794A (zh) * | 2015-06-26 | 2015-11-04 | 广州时韵信息科技有限公司 | 一种快速搜索所需文章内容的方法及装置 |
Non-Patent Citations (1)
Title |
---|
金博 等: "基于语义理解的文本相似度算法", 《大连理工大学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538290A (zh) * | 2018-04-06 | 2018-09-14 | 东莞市华睿电子科技有限公司 | 一种基于音频信号检测的智能家居控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726446B2 (en) | Method and apparatus for pushing information | |
Zhang et al. | Shne: Representation learning for semantic-associated heterogeneous networks | |
CN103885937B (zh) | 基于核心词相似度判断企业中文名称重复的方法 | |
CN107515873B (zh) | 一种垃圾信息识别方法及设备 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN104615687B (zh) | 一种面向知识库更新的实体细粒度分类方法与*** | |
CN104809117B (zh) | 视频数据聚合处理方法、聚合***及视频搜索平台 | |
CN109614614A (zh) | 一种基于自注意力的bilstm-crf产品名称识别方法 | |
CN107193930A (zh) | 一种网站敏感词屏蔽方法 | |
CN104462327B (zh) | 语句相似度的计算、搜索处理方法及装置 | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN110888897A (zh) | 一种根据自然语言生成sql语句的方法及装置 | |
CN105843799B (zh) | 一种基于多源异构信息图模型的学术论文标签推荐方法 | |
CN110033097B (zh) | 基于多个数据域确定用户与物品的关联关系的方法及装置 | |
CN107194769A (zh) | 一种基于用户搜索内容的商品推荐方法 | |
CN107315731A (zh) | 文本相似度计算方法 | |
CN103544312A (zh) | 一种基于社交网络的招聘信息匹配方法 | |
CN107423348A (zh) | 一种基于关键词的精确检索方法 | |
CN102521420B (zh) | 基于偏好模型的社会化过滤方法 | |
CN107193882A (zh) | RDF数据上基于图匹配的why‑not查询回答方法 | |
CN104850647A (zh) | 一种微博团体的发现方法及装置 | |
CN107105349A (zh) | 一种视频推荐方法 | |
US10719779B1 (en) | System and means for generating synthetic social media data | |
CN103064907A (zh) | 基于无监督的实体关系抽取的主题元搜索***及方法 | |
CN107193799A (zh) | 一种数据匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1242801 Country of ref document: HK |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170922 |