CN109739955A - 基于分词与多模匹配的房源标签自动提取装置及其方法 - Google Patents

基于分词与多模匹配的房源标签自动提取装置及其方法 Download PDF

Info

Publication number
CN109739955A
CN109739955A CN201910070120.1A CN201910070120A CN109739955A CN 109739955 A CN109739955 A CN 109739955A CN 201910070120 A CN201910070120 A CN 201910070120A CN 109739955 A CN109739955 A CN 109739955A
Authority
CN
China
Prior art keywords
houses
source
label
descriptor
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910070120.1A
Other languages
English (en)
Inventor
张文战
杨丽娟
白峻峰
刘子曜
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhuge Zhaofang Information Technology Co Ltd
Original Assignee
Beijing Zhuge Zhaofang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuge Zhaofang Information Technology Co Ltd filed Critical Beijing Zhuge Zhaofang Information Technology Co Ltd
Priority to CN201910070120.1A priority Critical patent/CN109739955A/zh
Publication of CN109739955A publication Critical patent/CN109739955A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于分词与多模匹配的房源标签自动提取装置及其方法,包括标签生成模块,用于发现房源描述词并生成标签库;标签放弃模块,用于对互斥的房源描述词进行放弃;分词模块,用于对标签库内的房源描述词进行分词;多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。本发明的优点是:方便购房者从冗长的房源描述中,提取出人们最关心的结构化特征,在比较醒目的地方展示,让购房者可以迅速了解,对比房源特色,判断是否对该房源敢兴趣。

Description

基于分词与多模匹配的房源标签自动提取装置及其方法
技术领域
本发明涉及一种基于分词与多模匹配的房源标签自动提取方法。
背景技术
当前没有自动化给房源打标签的产品,经纪公司都是根据经验设定了一些标签,然后录入房源时人工录入标签的。
标签种类不够丰富,各个平台标签体系也不一致,房源是否有和有几个标签完全取决于经纪公司的制度和经纪人的态度。
购房者在了解购房信息时,阅读的房源信息冗长,不能有效快速的了解房源信息。
发明内容
为克服现有技术的缺陷,本发明提供一种基于分词与多模匹配的房源标签自动提取方法,本发明的技术方案是:
基于分词与多模匹配的房源标签自动提取装置,包括标签生成模块,用于发现房源描述词并生成标签库;标签放弃模块,用于对互斥的房源描述词进行放弃;分词模块,用于对标签库内的房源描述词进行分词;多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。
一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
S4、对输入的文本匹配出标签库中的多个目标词。
所述的步骤S1具体为:基于标签库的规则要求,搜索整合房源描述词,并对一些不规则的描述词进行转换,建立标签库;
所述的步骤S2具体为:对与互斥的标签进行标注,当一套房源匹配上了互斥的标签时,则放弃此类标签。
所述的步骤S3具体为:通过中文分词工具对多套房源的房源描述词进行分词。
所述的步骤S4具体为:基于Aho-Corasick 多模式匹配算法,搜索待处理的文本。
本发明的优点是:方便购房者从冗长的房源描述中,提取出人们最关心的结构化特征,在比较醒目的地方展示,让购房者可以迅速了解,对比房源特色,判断是否对该房源敢兴趣。
附图说明
图1是本发明的主体结构示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种基于分词与多模匹配的房源标签自动提取装置,包括标签生成模块1,用于发现房源描述词并生成标签库;标签放弃模块2,用于对互斥的房源描述词进行放弃;分词模块3,用于对标签库内的房源描述词进行分词;多模匹配模块4,用于对输入的文本匹配出标签库中的多个目标词。
一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
S4、对输入的文本匹配出标签库中的多个目标词。
所述的步骤S1具体为:基于标签库的规则要求,搜索整合房源描述词,并对一些不规则的描述词进行转换,建立标签库,根据行业习惯人为将描述中一些非结构化标准化的说法,转换成结构化规范化的说法,去扩展标签库。比如描述里会频繁出现: 一梯两户,两梯四户,四梯八户这样,进行抽象出有电梯一词,建立这些词与有电梯这个标签的映射关系,建立全面的描述词库与结构化标签库的对应关系;例如:标签1、基本属性/户型/稀缺户型,则对应描述词有稀缺户型 少有户型、少有的户型、户型很少有、户型稀缺和少出;标签2、基本属性/户型/户型方正,则对应描述词:田字格、豆腐块、方方正正、户型方正和格局方正。
同时新词发现使用Lucene TokenStream的OffsetAttribute类,将前后位置相邻的词拼接成新词,统计二元词的左右自由度和凝固度,划定阈值,即可判定二元词是否是新词。
所述的步骤S2具体为:对与互斥的标签进行标注,当一套房源匹配上了互斥的标签时,则放弃此类标签。例如:厨房(同一个房子是不可能同时是明厨和暗厨,会将明厨、暗厨放到放弃规则库,如果一个房源的描述同时匹配上了这两个,就放弃。
所述的步骤S3具体为:通过中文分词工具对多套房源的房源描述词进行分词。中分词采用的中文分词工具jieba做一元分词。
所述的步骤S4具体为:基于Aho-Corasick 多模式匹配算法,搜索待处理的文本,具体为,使用Aho-Corasick算法需要三步,(1)建立模式的Trie;(2)给Trie添加失败路径;(3)根据AC自动机,搜索待处理的文本。
当然,影响准确性的常见因素是否定词的不统一,经纪人的描述相对随意,同样的否定意思有很多中表达,如果不能尽量全的覆盖否定词,那么最后会错打成肯定标签。所以需要用否定标签涉及到的描述词的非否定部分,对原始房源描述进行筛选,然后对比描述和标签,看看是否有未涵盖到的否定词,不断填充否定词库,提高标签化算法的准确性。
当词库及规则有较大的更新时,用最新的词库与规则库对所有房源的描述信息进行标签化。

Claims (6)

1.基于分词与多模匹配的房源标签自动提取装置,其特征在于,包括
标签生成模块,用于发现房源描述词并生成标签库;
标签放弃模块,用于对互斥的房源描述词进行放弃;
分词模块,用于对标签库内的房源描述词进行分词;
多模匹配模块,用于对输入的文本匹配出标签库中的多个目标词。
2.一种房源标签自动提取方法,包括以下步骤:
S1、发现房源描述词并生成标签库,
S2、对互斥的标签进行放弃,
S3、反复对标签库内的房源描述词进行分词,
S4、对输入的文本匹配出标签库中的多个目标词。
3.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S1具体为:基于标签库的规则要求,搜索整合房源描述词,并对一些不规则的描述词进行转换,建立标签库。
4.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S2具体为:对与互斥的标签进行标注,当一套房源匹配上了互斥的标签时,则放弃此类标签。
5.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S3具体为:通过中文分词工具对多套房源的房源描述词进行分词。
6.根据权利要求2所述的一种房源标签自动提取方法,其特征在于,
所述的步骤S4具体为:基于Aho-Corasick 多模式匹配算法,搜索待处理的文本。
CN201910070120.1A 2019-01-24 2019-01-24 基于分词与多模匹配的房源标签自动提取装置及其方法 Pending CN109739955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910070120.1A CN109739955A (zh) 2019-01-24 2019-01-24 基于分词与多模匹配的房源标签自动提取装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910070120.1A CN109739955A (zh) 2019-01-24 2019-01-24 基于分词与多模匹配的房源标签自动提取装置及其方法

Publications (1)

Publication Number Publication Date
CN109739955A true CN109739955A (zh) 2019-05-10

Family

ID=66365953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910070120.1A Pending CN109739955A (zh) 2019-01-24 2019-01-24 基于分词与多模匹配的房源标签自动提取装置及其方法

Country Status (1)

Country Link
CN (1) CN109739955A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818652A (zh) * 2021-01-26 2021-05-18 深圳市房多多网络科技有限公司 房源描述文本生成方法、装置、设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN106294563A (zh) * 2016-07-27 2017-01-04 海信集团有限公司 一种多媒体数据的处理方法和装置
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107729317A (zh) * 2017-10-13 2018-02-23 北京三快在线科技有限公司 评价标签的确定方法、装置及服务器
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678335A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 商品标识标签的方法、装置及商品导航的方法
CN106294563A (zh) * 2016-07-27 2017-01-04 海信集团有限公司 一种多媒体数据的处理方法和装置
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107729317A (zh) * 2017-10-13 2018-02-23 北京三快在线科技有限公司 评价标签的确定方法、装置及服务器
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理***

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
VENTEM: "KMP算法&AC自动机", 《HTTPS://WENKU.BAIDU.COM/VIEW/D481920527284B73F3425024.HTML》 *
WAVEVECTOR: "中文新词发现短发解析", 《HTTPS://BLOG.CSDN.NET/WENDINGZHULU/ARTICLE/DETAILS/44464895》 *
WWW.MYEXCEPTION.CN网友: "汉语新词发现算法解析", 《HTTP://WWW.MYEXCEPTION.CN/SOFTWARE/1867318.HTML》 *
旭东的博客: "Aho-Corasick 多模式匹配算法、AC自动机详解", 《HTTPS://WWW.CNBLOGS.COM/XUDONG-BUPT/P/3433506.HTML》 *
程序园: "中文新词发现算法解析", 《HTTP://WWW.VOIDCN.COM/ARTICLE/P-BAJVVRWW-QC.HTML》 *
莫水千流: "Aho-Corasick 多模式匹配算法、AC自动机详解", 《HTTPS://WWW.CNBLOGS.COM/ZHOUG2020/P/6548845.HTML》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818652A (zh) * 2021-01-26 2021-05-18 深圳市房多多网络科技有限公司 房源描述文本生成方法、装置、设备及计算机存储介质

Similar Documents

Publication Publication Date Title
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及***
CN105718586B (zh) 分词的方法及装置
CN107330451B (zh) 基于深度卷积神经网络的服装属性检索方法
CN107330752B (zh) 识别品牌词的方法和装置
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
WO2015144065A1 (zh) 基于语义识别的帮助处理方法及设备
US20050065919A1 (en) Method and apparatus for document filtering capable of efficiently extracting document matching to searcher's intention using learning data
US20130151239A1 (en) Orthographical variant detection apparatus and orthographical variant detection program
CN110059156A (zh) 基于关联词的协同检索方法、装置、设备及可读存储介质
CN112100422A (zh) 工程图纸处理方法、装置、设备及存储介质
JP7291419B2 (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
CN103902733A (zh) 基于疑问词扩展的信息检索方法
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN113033198A (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN111767420A (zh) 一种生成服饰搭配数据的方法和装置
Fujiwara et al. Code-to-code search based on deep neural network and code mutation
CN109739955A (zh) 基于分词与多模匹配的房源标签自动提取装置及其方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
US20220156599A1 (en) Generating hypothesis candidates associated with an incomplete knowledge graph
CN111133429A (zh) 提取表达以供自然语言处理
Nguyen et al. Affordance-based robot object retrieval
CN111159411A (zh) 一种融合知识图谱的文本立场分析方法、***及存储介质
CN113688243B (zh) 语句中实体的标注方法、装置、设备以及存储介质
CN109800240A (zh) Sql语句归类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510

RJ01 Rejection of invention patent application after publication