CN105045853A - 一种行业数据匹配的方法和装置 - Google Patents

一种行业数据匹配的方法和装置 Download PDF

Info

Publication number
CN105045853A
CN105045853A CN201510394585.4A CN201510394585A CN105045853A CN 105045853 A CN105045853 A CN 105045853A CN 201510394585 A CN201510394585 A CN 201510394585A CN 105045853 A CN105045853 A CN 105045853A
Authority
CN
China
Prior art keywords
participle
technical term
result set
matching result
duplicate removal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510394585.4A
Other languages
English (en)
Inventor
张立珠
宋伟伟
邵辉
张壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur General Software Co Ltd
Original Assignee
Inspur General Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur General Software Co Ltd filed Critical Inspur General Software Co Ltd
Priority to CN201510394585.4A priority Critical patent/CN105045853A/zh
Publication of CN105045853A publication Critical patent/CN105045853A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种行业数据匹配的方法和装置,该方法包括:配置专业术语词库,确定待查询数据;根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;对所述至少一个专业术语匹配结果集合中的分词进行去重;按照所述分词的重复次数,对所述分词进行排序;根据所述去重后的分词和所述分词的排序,检索并返回结果信息,实现了准确的对专业术语进行分词。

Description

一种行业数据匹配的方法和装置
技术领域
本发明涉及计算机应用领域,特别涉及一种行业数据匹配的方法和装置。
背景技术
检索引擎已经成为各行各业获取信息的重要服务工具,其为用户提供信息的主要过程:在接收到用户数据后,根据基础词典对用户数据进行分词,并根据分词,返回检索到的信息。但是,对于包含有专业术语的行业数据来说,现有技术仍然不能准确的对专业术语进行分词。
发明内容
本发明提供一种行业数据匹配的方法和装置,实现了准确的对专业术语进行分词。
一种行业数据匹配的方法,配置专业术语词库,还包括:
确定待查询数据;
根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
对所述至少一个专业术语匹配结果集合中的分词进行去重;
按照所述分词的重复次数,对所述分词进行排序;
根据所述去重后的分词和所述分词的排序,检索并返回结果信息。
优选地,上述方法进一步包括:配置基础词典;
在所述返回至少一个专业术语匹配结果集合之后,进一步包括:判断所述至少一个专业术语匹配结果集合是否为空,
如果是,则根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合,并对所述至少一个基础词匹配结果集合中的分词进行去重;
否则,执行所述对所述至少一个专业术语匹配结果集合中的分词进行去重。
优选地,上述方法进一步包括:配置同义词词库;
在所述返回至少一个专业术语匹配结果集合之后,在所述对所述至少一个专业术语匹配结果集合中的分词进行去重之前,进一步包括:根据所述同义词词库,对所述至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
所述至少一个专业术语匹配结果集合中的分词进行去重,包括:对所述至少一个新的专业术语匹配结果集合中的分词进行去重。
优选地,在所述检索并返回结果信息之前,进一步包括:
判断所述专业术语匹配结果集合的个数是否大于等于两个,如果是,则确定分词个数越少的集合检索优先级越高;
所述根据所述去重后的分词和所述分词的排序,检索并返回结果信息,包括:按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息。
优选地,所述返回结果信息,包括:
对所述结果信息进行去重;
根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
一种行业数据匹配装置,包括:
配置单元,用于配置专业术语词库;
匹配专业术语单元,用于确定待查询数据,根据所述配置单元配置的专业术语词库中的专业术语,对所述确定单元确定的待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
第一去重排序单元,用于对所述匹配专业术语单元返回的所述至少一个专业术语匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序;
检索单元,用于根据所述去重排序单元去重后的分词和所述分词的排序,检索并返回结果信息。
优选地,上述装置进一步包括:第一判断单元和匹配基础词单元,其中,
所述配置单元,进一步用于配置基础词典;
所述第一判断单元,用于判断所述匹配专业术语单元中所述至少一个专业术语匹配结果集合是否为空,如果是,则触发所述匹配基础词单元,否则,触发所述第一去重排序单元执行所述对所述至少一个专业术语匹配结果集合中的分词进行去重;
所述匹配基础词单元,用于则根据所述基础词典,对所述确定的待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合;
所述第一去重排序单元,进一步用于对所述匹配基础词单元返回的至少一个基础词匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序。
优选地,上述装置进一步包括:匹配同义词单元,其中,
所述配置单元,进一步用于配置同义词词库;
所述匹配同义词单元,用于根据所述同义词词库,对所述匹配专业术语单元返回的至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
所述第一去重排序单元,进一步用于对所述匹配同义词单元返回的至少一个新的专业术语匹配结果集合中的分词进行去重,按照所述分词的重复次数,对所述分词进行排序。
优选地,上述装置进一步包括:第二判断单元,其中,
所述第二判断单元,用于判断所述专业术语匹配结果集合的个数是否大于等于两个,并触发所述检索单元;
所述检索单元,进一步用于当所述第二判断单元判断出所述专业术语匹配结果集合的个数大于等于两个时,确定分词个数越少的集合检索优先级越高,并按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息;当所述第二判断单元判断出所述专业术语匹配结果集合的个数等于一个时,按照该专业术语匹配结果集合,检索并返回该专业术语匹配结果集合对应的结果信息。
优选地,上述装置进一步包括:第二去重排序单元,用于对所述结果信息进行去重,根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
本发明实施例提供了一种行业数据匹配的方法和装置,通过配置专业术语词库,在确定待查询数据后,能够根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合,对所述至少一个专业术语匹配结果集合中的分词进行去重;按照所述分词的重复次数,对所述分词进行排序;根据所述去重后的分词和所述分词的排序,检索并返回结果信息,通过这一过程,实现了准确的对专业术语进行分词。
附图说明
图1为本发明实施例提供的一种行业数据匹配的方法流程图;
图2为本发明另一实施例提供的一种行业数据匹配的方法流程图;
图3为本发明实施例提供的一种行业数据匹配装置结构示意图;
图4为本发明另一实施例提供的一种行业数据匹配装置结构示意图;
图5为本发明又一实施例提供的一种行业数据匹配装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种行业数据匹配的方法,该方法可以包括以下步骤:
步骤101:配置专业术语词库;
步骤102:确定待查询数据;
步骤103:根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
步骤104:对所述至少一个专业术语匹配结果集合中的分词进行去重;
步骤105:按照所述分词的重复次数,对所述分词进行排序;
步骤106:根据所述去重后的分词和所述分词的排序,检索并返回结果信息。
在本发明一个实施例中,为了使该行业数据匹配的方法也能够应用于非行业数据匹配,即为了使该方法具有更广泛的应用,本发明进一步包括:配置基础词典;并在上述步骤103之后,进一步包括:判断所述至少一个专业术语匹配结果集合是否为空,如果是,则根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合,并对所述至少一个基础词匹配结果集合中的分词进行去重;否则,执行上述步骤104。
在本发明一个实施例中,在进行匹配过程中,为了能够使专业术语的同义词也能够被检索出,以使结果信息检索尽可能的完善,同时提高检索效率,本发明实施例进一步包括:配置同义词词库;在上述步骤103之后,在上述步骤104之前,进一步包括:根据所述同义词词库,对所述至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;上述步骤104的具体实施方式:对所述至少一个新的专业术语匹配结果集合中的分词进行去重。
在本发明一个实施例中,为了进一步增加检索结果信息的准确性,在上述步骤106之前,进一步包括:判断所述专业术语匹配结果集合的个数是否大于等于两个,如果是,则确定分词个数越少的集合检索优先级越高;上述步骤106的具体实施方式为:按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息。
在本发明一个实施例中,为了减少结果信息的重复性,进一步提高检索效率和用户的检索体验,上述步骤106之后,进一步包括:对所述结果信息进行去重;根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
如图2所示,本发明实施例以粮食行业的数据匹配为例,展开说明行业数据匹配的方法,该方法可以包括以下步骤:
步骤201:配置粮食行业的专业术语词库、粮食行业的专业术语对应的同义词词库以及基础词典;
在该步骤中可以通过建立智能词典,并将粮食行业的专业术语词库、粮食行业的专业术语对应的同义词词库以及基础词典均放入该智能词典中实现。另外,专业术语词库和同义词词库可以根据行业发展,增加专业术语和同义词。
步骤202:确定待查询数据;
步骤203:根据粮食行业的专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
例如:在粮食行业的专业术语词库中,包含有宜存率、达标率、最低价收购粮、最低价收购、托市粮、轮换架空、轮换净空头寸等等专业术语,如果用户搜索“最低价收购粮”,通过本步骤可以为“最低价收购粮”进行分词,返回两个专业术语匹配结果集合,分别为{最低价收购粮}和{最低价收购、粮}。
步骤204:判断所述至少一个专业术语匹配结果集合是否为空,如果是,则顺序执行步骤205和步骤206,否则,执行步骤207;
例如:用户搜索数据“上网卡资费信息”,并不包含有粮食行业的专业术语词库,那么,通过步骤203并不能实现对该数据进行分词,即返回的专业术语匹配结果集合为空。
步骤205:根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合;
步骤206:对所述至少一个基础词匹配结果集合中的分词进行去重,并根据所述去重后的分词,检索并返回结果信息;
步骤205和步骤206实现了对非专业术语进行分词,例如:当用户搜索数据“上网卡资费信息”时,由于无法按照步骤203进行专业术语分词,在对这一数据进行搜索时,则根据基础词典,可将其划分为多个集合,如{上网卡、资费、信息}、{上网、卡、资费、信息}以及{上、网卡资费、信息}等等。那么,可以对“资费”和“信息”进行去重,根据分词上网卡、资费、信息、上网、卡、上和网卡资费等等进行检索,并返回含有这些分词中的一个或多个的结果信息。
步骤207:根据所述同义词词库,对所述至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
例如:{最低价收购粮}和{最低价收购、粮}中收购的同义词可以为购买,最低的同义词可以为最小,那么,将这些同义词也加进这些集合中,形成{最低价收购粮、最小价购买粮}和{最低价收购、粮、最小价购买}。
步骤208:判断新的专业术语匹配结果集合的个数是否大于等于两个,如果是,则执行步骤209,否则,执行步骤210;
步骤209:确定分词个数越少的集合检索优先级越高;
例如:对于这两个集合{最低价收购粮、最小价购买粮}和{最低价收购、粮、最小价购买}来说,第一个集合有2个分词,第二个集合有3个分词,从分词看,含有分词少的集合更贴近于用户输入信息,那么,{最低价收购粮、最小价购买粮}的集合检索优先级高于{最低价收购、粮、最小价购买}。
步骤210:根据该新的专业术语匹配结果集合中的分词,检索并返回结果信息;
如果通过分词,只获得了一个集合,那么,只需根据该集合中的分词,进行检索并返回结果信息。
步骤211:对所述至少一个新的专业术语匹配结果集合中的分词进行去重;
例如:{最低价收购粮、最小价购买粮}和{最低价收购、粮、最小价购买}这两个集合来说,不存在重复的分词,则不需要去重;如果在一个检索数据中,一个集合中含有宜存率,而在另外一个集合中也含有宜存率,则需要对该宜存率进行去重。
步骤212:按照所述分词的重复次数,对所述分词进行排序;
例如:“宜存率”在每一个集合中都有出现,而其他分词只在一个或者两个集合中出现,那么,“宜存率”的重复次数最多,则将列为第一个检索词。
步骤213:按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索各个专业术语匹配结果集合对应的结果信息;
例如:对于{最低价收购粮、最小价购买粮}检索出信息1、信息2、信息3;{最低价收购、粮、最小价购买}检索出信息5、信息6、信息7、信息8。
步骤214:对所述结果信息进行去重,根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
例如:步骤213检索出的信息1、信息2和信息5重复,信息3和信息7重复,那么,返回的结果信息的显示顺序依次为:信息1、信息3、信息6和信息8。
如图3所示,在本发明一个实施例中,一种行业数据匹配装置,该装置包括:
配置单元301,用于配置专业术语词库;
匹配专业术语单元302,用于确定待查询数据,根据所述配置单元配置的专业术语词库中的专业术语,对所述确定单元确定的待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
第一去重排序单元303,用于对所述匹配专业术语单元返回的所述至少一个专业术语匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序;
检索单元304,用于根据所述去重排序单元去重后的分词和所述分词的排序,检索并返回结果信息。
如图4所示,在本发明另一实施例中,上述一种行业数据匹配装置,进一步包括:第一判断单元401和匹配基础词单元402,其中,
所述配置单元301,进一步用于配置基础词典;
所述第一判断单元401,用于判断所述匹配专业术语单元中所述至少一个专业术语匹配结果集合是否为空,如果是,则触发所述匹配基础词单元402,否则,触发所述第一去重排序单元303执行所述对所述至少一个专业术语匹配结果集合中的分词进行去重;
所述匹配基础词单元402,用于则根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合;
所述第一去重排序单元303,进一步用于对所述匹配基础词单元返回的至少一个基础词匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序。
如图5所述,在本发明另一实施例中,上述一种行业数据匹配装置,进一步包括:匹配同义词单元501,其中,
所述配置单元301,进一步用于配置同义词词库;
所述匹配同义词单元501,用于根据所述同义词词库,对所述匹配专业术语单元302返回的至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
所述第一去重排序单元303,进一步用于对所述匹配同义词单元返回的至少一个新的专业术语匹配结果集合中的分词进行去重,按照所述分词的重复次数,对所述分词进行排序。
在本发明又一实施例中,上述一种行业数据匹配装置,进一步包括:第二判断单元(图中未示出),其中,
所述第二判断单元,用于判断所述专业术语匹配结果集合的个数是否大于等于两个,并触发所述检索单元;
所述检索单元304,进一步用于当所述第二判断单元判断出所述专业术语匹配结果集合的个数大于等于两个时,确定分词个数越少的集合检索优先级越高,并按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息;当所述第二判断单元判断出所述专业术语匹配结果集合的个数等于1个时,按照该专业术语匹配结果集合,检索并返回该专业术语匹配结果集合对应的结果信息。
在本发明又一实施例中,上述一种行业数据匹配装置,进一步包括:第二去重排序单元(图中未示出),用于对所述结果信息进行去重,根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
上述实施例至少可以达到如下有益效果:
1.通过配置专业术语词库,在确定待查询数据后,能够根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合,对所述至少一个专业术语匹配结果集合中的分词进行去重;按照所述分词的重复次数,对所述分词进行排序;根据所述去重后的分词和所述分词的排序,检索并返回结果信息,通过这一过程,实现了准确的对专业术语进行分词。
2.通过配置基础词典,判断所述至少一个专业术语匹配结果集合是否为空,如果是,则根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合,并对所述至少一个基础词匹配结果集合中的分词进行去重,使得对于非专业术语也可进行分词,从而使该行业数据匹配的方法也能够应用于非行业数据匹配,即该方法具有更广泛的应用。
3.如果不进行行业术语的自动匹配则在搜索时会返回很多无关的结果,甚至将用户真正需要的信息淹没,而通过本发明实施例的方法对专业术语进行分词,可以使专业术语的检索更加具有针对性,从而增加了检索准确率,同时,增加了用户的满意度。
4.通过配置同义词词库,并根据所述同义词词库,对所述至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合,通过这一过程,能够使专业术语的同义词也能够被检索出,从而使得结果信息检索更加完善,同时也提高了有效信息的检索效率。
5.通过为分词集合设置优先级,即判断所述专业术语匹配结果集合的个数是否大于等于两个,如果是,则确定分词个数越少的集合检索优先级越高,使得检索结果信息的准确性也相应的提高;而通过对所述结果信息进行去重;根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息,有效地减少结果信息的重复性,也进一步提高检索效率和用户的检索体验。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种行业数据匹配的方法,其特征在于,配置专业术语词库,还包括:
确定待查询数据;
根据所述专业术语词库中的专业术语,对所述待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
对所述至少一个专业术语匹配结果集合中的分词进行去重;
按照所述分词的重复次数,对所述分词进行排序;
根据所述去重后的分词和所述分词的排序,检索并返回结果信息。
2.根据权利要求1所述的方法,其特征在于,进一步包括:配置基础词典;
在所述返回至少一个专业术语匹配结果集合之后,进一步包括:判断所述至少一个专业术语匹配结果集合是否为空,
如果是,则根据所述基础词典,对所述待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合,并对所述至少一个基础词匹配结果集合中的分词进行去重;
否则,执行所述对所述至少一个专业术语匹配结果集合中的分词进行去重。
3.根据权利要求1所述的方法,其特征在于,进一步包括:配置同义词词库;
在所述返回至少一个专业术语匹配结果集合之后,在所述对所述至少一个专业术语匹配结果集合中的分词进行去重之前,进一步包括:根据所述同义词词库,对所述至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
所述至少一个专业术语匹配结果集合中的分词进行去重,包括:对所述至少一个新的专业术语匹配结果集合中的分词进行去重。
4.根据权利要求1或3所述的方法,其特征在于,在所述检索并返回结果信息之前,进一步包括:
判断所述专业术语匹配结果集合的个数是否大于等于两个,如果是,则确定分词个数越少的集合检索优先级越高;
所述根据所述去重后的分词和所述分词的排序,检索并返回结果信息,包括:按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息。
5.根据权利要求1至4任一所述的方法,其特征在于,所述返回结果信息,包括:
对所述结果信息进行去重;
根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
6.一种行业数据匹配装置,其特征在于,包括:
配置单元,用于配置专业术语词库;
匹配专业术语单元,用于确定待查询数据,根据所述配置单元配置的专业术语词库中的专业术语,对所述确定单元确定的待查询数据进行第一匹配分词,并返回至少一个专业术语匹配结果集合;
第一去重排序单元,用于对所述匹配专业术语单元返回的所述至少一个专业术语匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序;
检索单元,用于根据所述去重排序单元去重后的分词和所述分词的排序,检索并返回结果信息。
7.根据权利要求6所述的装置,其特征在于,进一步包括:第一判断单元和匹配基础词单元,其中,
所述配置单元,进一步用于配置基础词典;
所述第一判断单元,用于判断所述匹配专业术语单元中所述至少一个专业术语匹配结果集合是否为空,如果是,则触发所述匹配基础词单元,否则,触发所述第一去重排序单元执行所述对所述至少一个专业术语匹配结果集合中的分词进行去重;
所述匹配基础词单元,用于则根据所述基础词典,对所述确定的待查询数据进行第二匹配分词,并返回至少一个基础词匹配结果集合;
所述第一去重排序单元,进一步用于对所述匹配基础词单元返回的至少一个基础词匹配结果集合中的分词进行去重,并按照所述分词的重复次数,对所述分词进行排序。
8.根据权利要求6所述的装置,其特征在于,进一步包括:匹配同义词单元,其中,
所述配置单元,进一步用于配置同义词词库;
所述匹配同义词单元,用于根据所述同义词词库,对所述匹配专业术语单元返回的至少一个专业术语匹配结果集合中的分词进行同义词匹配,返回至少一个新的专业术语匹配结果集合;
所述第一去重排序单元,进一步用于对所述匹配同义词单元返回的至少一个新的专业术语匹配结果集合中的分词进行去重,按照所述分词的重复次数,对所述分词进行排序。
9.根据权利要求6或8所述的装置,其特征在于,进一步包括:第二判断单元,其中,
所述第二判断单元,用于判断所述专业术语匹配结果集合的个数是否大于等于两个,并触发所述检索单元;
所述检索单元,进一步用于当所述第二判断单元判断出所述专业术语匹配结果集合的个数大于等于两个时,确定分词个数越少的集合检索优先级越高,并按照所述至少一个专业术语匹配结果集合的优先级、所述去重后的分词和所述分词的排序,依次检索并返回各个专业术语匹配结果集合对应的结果信息;当所述第二判断单元判断出所述专业术语匹配结果集合的个数等于一个时,按照该专业术语匹配结果集合,检索并返回该专业术语匹配结果集合对应的结果信息。
10.根据权利要求6至9任一所述的装置,其特征在于,进一步包括:
第二去重排序单元,用于对所述结果信息进行去重,根据所述结果信息中每一个信息的重复次数,对所述每一个信息进行排序,并返回排序后的结果信息。
CN201510394585.4A 2015-07-07 2015-07-07 一种行业数据匹配的方法和装置 Pending CN105045853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510394585.4A CN105045853A (zh) 2015-07-07 2015-07-07 一种行业数据匹配的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510394585.4A CN105045853A (zh) 2015-07-07 2015-07-07 一种行业数据匹配的方法和装置

Publications (1)

Publication Number Publication Date
CN105045853A true CN105045853A (zh) 2015-11-11

Family

ID=54452400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510394585.4A Pending CN105045853A (zh) 2015-07-07 2015-07-07 一种行业数据匹配的方法和装置

Country Status (1)

Country Link
CN (1) CN105045853A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101118562A (zh) * 2006-08-21 2008-02-06 凌强 中医临床参考***
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及***
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索***和方法
CN102411568A (zh) * 2010-09-20 2012-04-11 苏州同程旅游网络科技有限公司 基于旅游业特征词库的中文分词方法
CN102768679A (zh) * 2012-06-25 2012-11-07 深圳市汉络计算机技术有限公司 一种搜索方法及搜索***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6976053B1 (en) * 1999-10-14 2005-12-13 Arcessa, Inc. Method for using agents to create a computer index corresponding to the contents of networked computers
CN101118562A (zh) * 2006-08-21 2008-02-06 凌强 中医临床参考***
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及***
CN102411568A (zh) * 2010-09-20 2012-04-11 苏州同程旅游网络科技有限公司 基于旅游业特征词库的中文分词方法
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索***和方法
CN102768679A (zh) * 2012-06-25 2012-11-07 深圳市汉络计算机技术有限公司 一种搜索方法及搜索***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗浩: "基于CLucene和Larbin的企业搜索引擎的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郑阳等: "基于专业术语提取的中文分词方法", 《大众科技》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN104077306B (zh) 一种搜索引擎的结果排序方法及***
US9117006B2 (en) Recommending keywords
CN102446326B (zh) 一种信息推送的方法、***及设备
US20130339350A1 (en) Ranking Search Results Based on Click Through Rates
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
WO2021057250A1 (zh) 一种商品搜索的查询策略的生成方法及装置
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN105205188A (zh) 采购物料供应商的推荐方法及推荐装置
CN105824898A (zh) 一种网络评论的标签提取方法和装置
CN110046298A (zh) 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN109299383A (zh) 生成推荐词的方法、装置、电子设备及存储介质
CN104636429A (zh) 商标类别检索方法和装置
CN103559313B (zh) 搜索方法及装置
CN108920665A (zh) 基于网络结构和评论文本的推荐评分方法及装置
CN104881504A (zh) 一种信息搜索方法及装置
CN116308684B (zh) 一种网购平台店铺信息推送方法及***
CN103136213A (zh) 一种提供相关词的方法及装置
CN106934679A (zh) 信息匹配方法及装置
CN105787004A (zh) 一种文本分类方法及装置
CN106485551A (zh) 一种信息推送方法、装置及电子设备
CN109558462A (zh) 数据统计方法及装置
CN102737038B (zh) 关联度确定方法及装置、信息提供方法及装置
CN113343095A (zh) 一种模型训练以及信息推荐方法及装置
CN105095203B (zh) 同义词的确定、搜索方法及服务器
CN113536156B (zh) 搜索结果排序方法、模型构建方法、装置、设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111