CN112699659A - 房源虚假信息识别方法、装置、电子设备及存储介质 - Google Patents

房源虚假信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112699659A
CN112699659A CN202011637576.0A CN202011637576A CN112699659A CN 112699659 A CN112699659 A CN 112699659A CN 202011637576 A CN202011637576 A CN 202011637576A CN 112699659 A CN112699659 A CN 112699659A
Authority
CN
China
Prior art keywords
content
target
question
entity
price
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011637576.0A
Other languages
English (en)
Other versions
CN112699659B (zh
Inventor
毛丁辉
赵瑞
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN202011637576.0A priority Critical patent/CN112699659B/zh
Publication of CN112699659A publication Critical patent/CN112699659A/zh
Application granted granted Critical
Publication of CN112699659B publication Critical patent/CN112699659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种房源虚假信息识别方法、装置、电子设备及存储介质,可以抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;并从该聊天记录中识别出浏览者提出的关于目标帖子中房源信息的问题以及目标发帖者回答问题的实体内容;在目标帖子中的目标字段内容与实体内容不一致的情况下,确认目标帖子的内容为虚假信息。本发明的方案可以基于自然语言处理技术,自动从聊天记录的内容以及发帖内容中识别到相应的内容并进行对比,不必依赖于人工巡检,可以同时监控房源租售平台上存在海量的房源信息,并且检测效率有保证。

Description

房源虚假信息识别方法、装置、电子设备及存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种房源虚假信息识别方法、装置、电子设备及存储介质。
背景技术
信息内容的真实性对信息提供平台而言至关重要。以房源租售平台为例,部分违规用户为了获取客源,会发布含有虚假内容的房源信息,以吸引租客或者买家。其中,虚假内容包括但不限于低于平均水平的虚假租售价格、虚假的房源图片、虚假的房源所在小区、虚假的房源户型等。当租客或者买家被吸引并发起沟通后,在实地看房时,违规用户会引导租客或者买家去看其他房源。该类“货不对板”的虚假信息极大地影响作为租客或者买家的一些用户的使用房源租售平台的体验,因此,需要针对房源的虚假信息进行有效的检测和治理。
然而,目前针对上述房源虚假信息的检测,主要是依赖于一些用户的举报以及房源租售平台的工作人员进行人工巡检。然而,当房源租售平台上存在海量的房源信息时,仅仅依赖于用户举报和人工巡检,无法同时监控海量信息,检测的效率较低。
发明内容
本发明提供了一种房源虚假信息识别方法、装置、电子设备及存储介质,以解决目前房源虚假信息的检测效率低的问题。
第一方面,本发明提供了一种房源虚假信息识别方法,包括:
抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;
从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容;
在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息;所述目标字段内容用于表示在所述目标帖子中与所述问题相关的字段内容。
结合第一方面,在第一方面的一种可实施方式中,所述抽取目标帖子的发帖者与浏览者之间的聊天记录的步骤,包括:
从发帖用户库中抽取需要检测的目标发帖者,所述目标发帖者用于表示在历史发帖操作中被其他用户举报过或者被人工标记过的发帖者;
从所述目标发帖者发过的帖子中抽取目标帖子;
从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
结合第一方面,在第一方面的一种可实施方式中,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的价格问题;
选取与所述价格问题对应的价格提取模型从所述聊天记录中提取所述目标发帖者回答所述价格问题的实体价格内容。
结合第一方面,在第一方面的一种可实施方式中,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述价格问题相关的价格字段内容与所述实体价格内容进行对比;
在所述价格字段内容与所述实体价格内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
结合第一方面,在第一方面的一种可实施方式中,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的户型问题;
选取与所述户型问题对应的户型提取模型从所述聊天记录中提取所述目标发帖者回答所述户型问题的实体户型内容。
结合第一方面,在第一方面的一种可实施方式中,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述户型问题相关的户型字段内容与所述实体户型内容进行对比;
在所述户型字段内容与所述实体户型内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
结合第一方面,在第一方面的一种可实施方式中,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的位置问题;
选取与所述位置问题对应的位置提取模型从所述聊天记录中提取所述目标发帖者回答所述位置问题的实***置内容。
结合第一方面,在第一方面的一种可实施方式中,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述位置问题相关的位置字段内容与所述实***置内容进行对比;
在所述位置字段内容与所述实***置内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
第二方面,本发明提供了一种房源虚假信息识别装置,包括:
内容抽取模块,用于抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;
内容识别模块,用于从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容;
内容对比模块,用于在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息;所述目标字段内容用于表示在所述目标帖子中与所述问题相关的字段内容。
结合第二方面,在第二方面的一种可实施方式中,所述内容抽取模块,包括:
发帖者抽取单元,用于从发帖用户库中抽取需要检测的目标发帖者,所述目标发帖者用于表示在历史发帖操作中被其他用户举报过或者被人工标记过的发帖者;
帖子抽取单元,用于从所述目标发帖者发过的帖子中抽取目标帖子;
聊天记录抽取单元,用于从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
结合第二方面,在第二方面的一种可实施方式中,所述内容识别模块,包括:
价格问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的价格问题;
价格内容提取单元,用于选取与所述价格问题对应的价格提取模型从所述聊天记录中提取所述目标发帖者回答所述价格问题的实体价格内容。
结合第二方面,在第二方面的一种可实施方式中,所述内容对比模块,还用于:
将所述目标帖子中与所述价格问题相关的价格字段内容与所述实体价格内容进行对比;
在所述价格字段内容与所述实体价格内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
结合第二方面,在第二方面的一种可实施方式中,所述内容识别模块,包括:
户型问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的户型问题;
户型内容提取单元,用于选取与所述户型问题对应的户型提取模型从所述聊天记录中提取所述目标发帖者回答所述户型问题的实体户型内容。
结合第二方面,在第二方面的一种可实施方式中,所述内容对比模块,还用于:
将所述目标帖子中与所述户型问题相关的户型字段内容与所述实体户型内容进行对比;
在所述户型字段内容与所述实体户型内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
结合第二方面,在第二方面的一种可实施方式中,所述内容识别模块,包括:
位置问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的位置问题;
位置内容提取单元,用于选取与所述位置问题对应的位置提取模型从所述聊天记录中提取所述目标发帖者回答所述位置问题的实***置内容。
结合第二方面,在第二方面的一种可实施方式中,所述内容对比模块,还用于:
将所述目标帖子中与所述位置问题相关的位置字段内容与所述实***置内容进行对比;
在所述位置字段内容与所述实***置内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
第三方面,本发明提供了一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的房源虚假信息识别方法。
第四方面,本发明提供还提供了一种存储介质,所述存储介质中存储有计算机程序,当房源虚假信息识别装置的至少一个处理器执行所述计算机程序时,房源虚假信息识别装置执行第一方面所述的房源虚假信息识别方法。
由以上技术方案可知,本发明提供的房源虚假信息识别方法、装置、电子设备及存储介质,可以抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;并从该聊天记录中识别出浏览者提出的关于目标帖子中房源信息的问题以及目标发帖者回答问题的实体内容;在目标帖子中的目标字段内容与实体内容不一致的情况下,确认目标帖子的内容为虚假信息。本发明的方案可以基于自然语言处理技术,自动从聊天记录的内容以及发帖内容中识别到相应的内容并进行对比,不必依赖于人工巡检,可以同时监控房源租售平台上存在海量的房源信息,并且检测效率有保证。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例示出的一种房源虚假信息识别方法的流程图;
图2为本发明实施例示出的一种房源租售平台中帖子的示意图;
图3为本发明实施例示出的抽取聊天记录的方法流程图;
图4为本发明实施例示出的一种识别实体内容的方法流程图;
图5为本发明实施例示出的第二种识别实体内容的方法流程图;
图6为本发明实施例示出的第三种识别实体内容的方法流程图;
图7为本发明实施例示出的房源虚假信息识别的处理流程图;
图8为本发明实施例示出的一种房源虚假信息识别装置的结构框图;
图9为本发明实施例示出的电子设备硬件结构示意图。
具体实施方式
为使本发明的目的和实施方式更加清楚,下面将结合本发明示例性实施例中的附图,对本发明示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本发明一部分实施例,而不是全部的实施例。
需要说明的是,本发明中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本发明的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
信息内容的真实性对信息提供平台而言至关重要。以房源租售平台为例,部分违规用户为了获取客源,会发布含有虚假内容的房源信息,以吸引租客或者买家。其中,虚假内容包括但不限于低于平均水平的虚假租售价格、虚假的房源图片、虚假的房源所在小区、虚假的房源户型等。当租客或者买家被吸引并发起沟通后,在实地看房时,违规用户会引导租客或者买家去看其他房源。该类“货不对板”的虚假信息极大地影响作为租客或者买家的一些用户的使用房源租售平台的体验,因此,需要针对房源的虚假信息进行有效的检测和治理。
然而,目前针对上述房源虚假信息的检测,主要是依赖于一些用户的举报以及房源租售平台的工作人员进行人工巡检。然而,当房源租售平台上存在海量的房源信息时,仅仅依赖于用户举报和人工巡检,无法同时监控海量信息,检测的效率较低。
基于上述内容,本发明实施例提供了一种房源虚假信息识别方法、装置、电子设备及存储介质,可以基于自然语言处理技术,自动从聊天记录的内容以及发帖内容中识别到相应的内容并进行对比,不必依赖于人工巡检,可以同时监控房源租售平台上存在海量的房源信息,并且检测效率有保证。
图1为本发明实施例示出的一种房源虚假信息识别方法的流程图。如图1所示,本发明实施例提供的房源虚假信息识别方法可以包括:
步骤S101,抽取目标发帖者与浏览者之间关于目标帖子的聊天记录。
本发明实施例中所说的目标发帖者是在一些发帖者中随机抽取的一个发帖者,并且每个发帖者在房源租售平台所发出的帖子也不可能不止一个,从目标发帖者所发的帖子中随机抽取的一个帖子可以称为目标帖子。
在本发明实施例中,可以通过执行房源虚假信息识别方法自动地抽取目标帖子,以及所述目标发帖者与浏览者之间关于目标帖子的聊天记录。
图2为本发明实施例示出的一种房源租售平台中帖子的示意图。
如图2所示,通常,发帖者在房源租售平台发布帖子时,需要将房源的价格、房源的户型以及房源的位置的等写明,以便浏览者通过帖子可以初步了解到房源的信息。在浏览者初步了解后,如果有意向继续了解,可以向发帖者发起聊天,确认房源的信息以及询问更加具体的信息等。
但是,有一些发帖者会发布一些虚假的房源信息帖子进而吸引浏览者,而真实向浏览者介绍的却是其他的房源。为了避免这种情况,本发明实施例中,通过以下步骤的内容可以自动识别出发布者与浏览者聊天的内容,进而确定发布者发布的帖子内容是否是虚假的信息。
步骤S102,从聊天记录中识别出浏览者提出的关于目标帖子中房源信息的问题以及目标发帖者回答所述问题的实体内容。
在房源租售平台的聊天页面上,发布者和浏览者可以发送文字内容也可以发送图片内容等,为了准确地识别出浏览者所关注的房源信息,排除图片内容的干扰,在本发明实施例中,仅仅从聊天记录的文字记录中识别出相应的内容。
通常,浏览者比较关注的是房源信息中的价格问题、户型问题和位置问题等,在聊天记录中可能以“这套房子多少钱”、“这套房子在什么位置”、“这套房子是几室”等形式体现。在本发明实施例中,需要从聊天记录中识别出这些问题,并且识别出发帖者回答这些问题的实体内容,其中,实体内容例如“500万”、“XX小区”、“两室”等。其中,户型问题也可以称为房型问题。
步骤S103,在目标帖子中的目标字段内容与实体内容不一致的情况下,确认目标帖子的内容为虚假信息。其中,目标字段内容用于表示在目标帖子中与所述问题相关的字段内容。
如图2所示,本发明实施例中,发布房源信息的帖子中,包含很多字段,例如价格字段、户型字段、位置字段等。相对应的,各个字段中包含具体价格、户型、位置等信息的内容即为字段内容,例如,“500万”、“XX小区”、“两室”等。
本发明实施例中的房源虚假信息识别方法,可以自动地识别出聊天记录中的实体内容,也可以自动地识别出目标帖子中的字段内容,并将相关联的实体内容与字段内容进行比较,如果二者相同,则说明目标帖子的内容为真实内容,例如,目标帖子中发布的房源信息为“Y小区、三室一厅、700万”,在关于目标帖子的聊天记录中发布者告知浏览者该房源的价格为700万、在Y小区并且是一套三室的房子,那么则可以认为目标帖子的内容是真实内容;而如果发布者告知浏览者该房源的价格为800万、在Y小区并且使一套三室的房子,那么则可以认为目标帖子的房源价格与实际价格不符,目标帖子的内容为虚假内容。
另外,本发明实施例中识别各种问题、实体内容、字段内容的方法均属于自然语言处理的范畴,可以通过学习而训练出多种语义识别模型,进而使用语义识别模型进行识别。
可见,本发明实施例中的房源虚假信息识别方法,可以基于自然语言处理技术,自动从聊天记录的内容以及发帖内容中识别到相应的内容并进行对比,不必依赖于人工巡检,可以同时监控房源租售平台上存在海量的房源信息,并且检测效率有保证。
图3为本发明实施例示出的抽取聊天记录的方法流程图。
如前述实施例所述,可以从若干发布者中随机抽取发布者进行检测。若干发布者可以由发帖用户库提供。如图3所示,在一些实施例中,前述抽取聊天记录的方法,还可以包括:
步骤S201,从发帖用户库中抽取需要检测的目标发帖者。
在一些实施例中,发帖用户库中保存大量的用户账号等,其中一些用户的可能是具有发布虚假信息历史的发帖者。在房源租售平台上,发布过虚假信息的发帖者再次发布虚假信息的概率相对较高,因此,在一些实施例中,需要重点监测这些发帖用户的行为。这些发帖用户可能因为发布虚假信息被举报过,可能因为工作人员的巡检被标记过,统一将其进行标记,作为备选发帖者。
步骤S202,从目标发帖者发过的帖子中抽取目标帖子。
从发帖用户库中抽取目标发帖者后,进而可以获的目标发帖者发布的全部帖子。再从中抽取并未被检测过的帖子作为目标帖子进行检测。
步骤S203,从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
聊天记录库中保存全部发帖者与浏览者的聊天记录,可以根据目标帖子的标识等信息,从聊天记录库中抽取到与目标帖子对应的聊天记录。
图4为本发明实施例示出的一种识别实体内容的方法流程图。
如前述实施例所述,用户比较关注的一些房源问题比如价格问题、户型问题、位置问题等。针对于价格问题,在一些实施例中,如图4所示,识别实体内容的方法可以包括:
步骤S301,从聊天记录中识别出浏览者提出的关于目标帖子中房源信息的价格问题。
例如,“这个房子售价多少”,“这套房子多少钱”,“这个房子月租多少”等。
步骤S302,选取与价格问题对应的价格提取模型从聊天记录中提取目标发帖者回答价格问题的实体价格内容。
价格提取模型即为上述实施例中所述的通过前期基于大量价格语义样本训练而成的价格提取模型,本发明实施例中将聊天记录中的内容作为输入信息输入到价格提取模型中,价格提取模型可以输出对应的实体价格内容,例如“100万”、“5000元/月”等。
另外,在提取到实体价格内容之后,还可以:将目标帖子中与价格问题相关的价格字段内容与实体价格内容进行对比。在价格字段内容与实体价格内容不一致的情况下,确认目标帖子的内容为虚假信息。而在价格字段内容与实体价格内容一致的情况下,确认目标帖子的内容为真实信息。
图5为本发明实施例示出的第二种识别实体内容的方法流程图。
针对于户型问题,在一些实施例中,如图5所示,识别实体内容的方法可以包括:
步骤S401,从聊天记录中识别出浏览者提出的关于目标帖子中房源信息的户型问题。
例如,“这套房子是几室的”、“这套房子有几个卧室”、“这套房子是什么朝向”等。
步骤S402,选取与户型问题对应的户型提取模型从聊天记录中提取目标发帖者回答户型问题的实体户型内容。
户型提取模型即为上述实施例中所述的通过前期基于大量户型语义样本训练而成的户型提取模型,本发明实施例中将聊天记录中的内容作为输入信息输入到户型提取模型中,户型提取模型可以输出对应的实体户型内容,例如“两室一厅”、“三室”、“南向”等。
另外,在提取到实体户型内容之后,还可以:将目标帖子中与户型问题相关的户型字段内容与实体户型内容进行对比。在户型字段内容与实体户型内容不一致的情况下,确认目标帖子的内容为虚假信息。而在户型字段内容与实体户型内容一致的情况下,确认目标帖子的内容为真实信息。
图6为本发明实施例示出的第三种识别实体内容的方法流程图。
针对于位置问题,在一些实施例中,如图6所示,识别实体内容的方法可以包括:
步骤S501,从聊天记录中识别出浏览者提出的关于目标帖子中房源信息的位置问题。
例如,“这套房子在什么位置”、“这套房子在什么小区”等。
步骤S502,选取与位置问题对应的位置提取模型从聊天记录中提取目标发帖者回答位置问题的实***置内容。
位置提取模型即为上述实施例中所述的通过前期基于大量位置语义样本训练而成的位置提取模型,本发明实施例中将聊天记录中的内容作为输入信息输入到位置提取模型中,位置提取模型可以输出对应的实***置内容,例如“XX小区”、“XX环附近”、“XX学校附近”等。
另外,在提取到实***置内容之后,还可以:将目标帖子中与位置问题相关的位置字段内容与实***置内容进行对比。在位置字段内容与实***置内容不一致的情况下,确认目标帖子的内容为虚假信息。而在位置字段内容与实***置内容一致的情况下,确认目标帖子的内容为真实信息。
本发明实施例中,在检测一个目标帖子时,针对于价格、户型和位置问题,可以每次只进行一项进行识别,也可以对任意两项进行识别,还可以三项共同识别,识别的方法参见前述实施例的内容。
在对任意两项识别的情况下,需保证两项问题各自对应的目标字段内容与实体内容全部一致,例如识别价格和户型时,需在价格字段内容与实体价格内容一致并且户型字段内容与实体户型内容一致的情况下,确认目标帖子的内容为真实信息,否则为虚假信息。
在对三项共同识别的情况下,需保证三项问题各自对应的目标字段内容与实体内容全部一致,例如识别价格、户型和位置时,需要在价格字段内容与实体价格内容一致、户型字段内容与实体户型内容一致并且位置字段内容与实***置内容一致的情况下,确认目标帖子的内容为真实信息,否则为虚假信息。
图7为本发明实施例示出的房源虚假信息识别的处理流程图。
如图7所示,在一些实施例中,对房源虚假信息识别时,可以同时识别出价格字段内容与实体价格内容是否一致、户型字段内容与实体户型内容是否一致以及位置字段内容与实***置内容是否一致。在全部一致的情况,才认为目标帖子的内容为真实内容,否则出现任一项对比不一致,则认为目标帖子的内容为虚假信息。
另外,值得说明的是,在实际的房源租售平台中,不仅仅只涉及前述实施例中所述的价格问题、户型问题和位置问题,还包括一些有关于楼层、面积、房源产权、房源出租时长、出租方式等问题,针对于这些问题也可以有相对应的提取模型和字段等,具体的提取方式也可以参照前述实施例的内容,在此不再赘述。
在确认出目标帖子的内容为虚假信息时,可以对该目标帖子进行屏蔽等处理,并且对发出该目标帖子的目标发帖者进行封号或者禁言等处理,以免其继续误导浏览者,也进一步净化房源租售平台的信息发布环境。
由上述内容可知,本发明实施例提供的房源虚假信息识别方法,可以抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;并从该聊天记录中识别出浏览者提出的关于目标帖子中房源信息的问题以及目标发帖者回答问题的实体内容;在目标帖子中的目标字段内容与实体内容不一致的情况下,确认目标帖子的内容为虚假信息。本发明的方案可以基于自然语言处理技术,自动从聊天记录的内容以及发帖内容中识别到相应的内容并进行对比,不必依赖于人工巡检,可以同时监控房源租售平台上存在海量的房源信息,并且检测效率有保证。
图8为本发明实施例示出的一种房源虚假信息识别装置的结构框图。如图8所示,该装置可以包括:
内容抽取模块801,用于抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;内容识别模块802,用于从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容;内容对比模块803,用于在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息;所述目标字段内容用于表示在所述目标帖子中与所述问题相关的字段内容。
在一些实施例中,所述内容抽取模块801,可以包括:发帖者抽取单元,用于从发帖用户库中抽取需要检测的目标发帖者,所述目标发帖者用于表示在历史发帖操作中被其他用户举报过或者被人工标记过的发帖者;帖子抽取单元,用于从所述目标发帖者发过的帖子中抽取目标帖子;聊天记录抽取单元,用于从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
在一些实施例中,所述内容识别模块802,可以包括:价格问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的价格问题;价格内容提取单元,用于选取与所述价格问题对应的价格提取模型从所述聊天记录中提取所述目标发帖者回答所述价格问题的实体价格内容。
在一些实施例中,所述内容对比模块803,还用于:将所述目标帖子中与所述价格问题相关的价格字段内容与所述实体价格内容进行对比;在所述价格字段内容与所述实体价格内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
在一些实施例中,所述内容识别模块802,可以包括:户型问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的户型问题;户型内容提取单元,用于选取与所述户型问题对应的户型提取模型从所述聊天记录中提取所述目标发帖者回答所述户型问题的实体户型内容。
在一些实施例中,所述内容对比模块803,还用于:将所述目标帖子中与所述户型问题相关的户型字段内容与所述实体户型内容进行对比;在所述户型字段内容与所述实体户型内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
在一些实施例中,所述内容识别模块802,可以包括:位置问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的位置问题;位置内容提取单元,用于选取与所述位置问题对应的位置提取模型从所述聊天记录中提取所述目标发帖者回答所述位置问题的实***置内容。
在一些实施例中,所述内容对比模块803,还用于:将所述目标帖子中与所述位置问题相关的位置字段内容与所述实***置内容进行对比;在所述位置字段内容与所述实***置内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
图9为本发明实施例示出的电子设备硬件结构示意图。如图9所示,本发明还提供了一种电子设备,包括:存储器901,用于存储程序指令;处理器902,用于调用并执行所述存储器中的程序指令,以实现上述实施例中所述的房源虚假信息识别方法。具体可以参见前述实施例中的相关描述。
本发明实施例中,处理器902和存储器901可通过总线或其他方式连接。处理器可以是通用处理器,例如中央处理器、数字信号处理器、专用集成电路,或者被配置成实施本发明实施例的一个或多个集成电路。存储器可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘。
本发明实施例还提供了一种存储介质,所述存储介质中存储有计算机程序,当房源虚假信息识别装置的至少一个处理器执行所述计算机程序时,房源虚假信息识别装置执行上述实施例中所述的房源虚假信息识别方法。
所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (18)

1.一种房源虚假信息识别方法,其特征在于,包括:
抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;
从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容;
在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息;所述目标字段内容用于表示在所述目标帖子中与所述问题相关的字段内容。
2.根据权利要求1所述的方法,其特征在于,所述抽取目标帖子的发帖者与浏览者之间的聊天记录的步骤,包括:
从发帖用户库中抽取需要检测的目标发帖者,所述目标发帖者用于表示在历史发帖操作中被其他用户举报过或者被人工标记过的发帖者;
从所述目标发帖者发过的帖子中抽取目标帖子;
从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的价格问题;
选取与所述价格问题对应的价格提取模型从所述聊天记录中提取所述目标发帖者回答所述价格问题的实体价格内容。
4.根据权利要求3所述的方法,其特征在于,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述价格问题相关的价格字段内容与所述实体价格内容进行对比;
在所述价格字段内容与所述实体价格内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的户型问题;
选取与所述户型问题对应的户型提取模型从所述聊天记录中提取所述目标发帖者回答所述户型问题的实体户型内容。
6.根据权利要求5所述的方法,其特征在于,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述户型问题相关的户型字段内容与所述实体户型内容进行对比;
在所述户型字段内容与所述实体户型内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
7.根据权利要求1-2任一项所述的方法,其特征在于,所述从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容的步骤包括:
从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的位置问题;
选取与所述位置问题对应的位置提取模型从所述聊天记录中提取所述目标发帖者回答所述位置问题的实***置内容。
8.根据权利要求7所述的方法,其特征在于,所述在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息的步骤,包括:
将所述目标帖子中与所述位置问题相关的位置字段内容与所述实***置内容进行对比;
在所述位置字段内容与所述实***置内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
9.一种房源虚假信息识别装置,其特征在于,包括:
内容抽取模块,用于抽取目标发帖者与浏览者之间关于目标帖子的聊天记录;
内容识别模块,用于从所述聊天记录中识别出所述浏览者提出的关于目标帖子中房源信息的问题以及所述目标发帖者回答所述问题的实体内容;
内容对比模块,用于在所述目标帖子中的目标字段内容与所述实体内容不一致的情况下,确认所述目标帖子的内容为虚假信息;所述目标字段内容用于表示在所述目标帖子中与所述问题相关的字段内容。
10.根据权利要求9所述的装置,其特征在于,所述内容抽取模块,包括:
发帖者抽取单元,用于从发帖用户库中抽取需要检测的目标发帖者,所述目标发帖者用于表示在历史发帖操作中被其他用户举报过或者被人工标记过的发帖者;
帖子抽取单元,用于从所述目标发帖者发过的帖子中抽取目标帖子;
聊天记录抽取单元,用于从聊天记录库中抽取目标发帖者与浏览者之间关于所述目标帖子的聊天记录。
11.根据权利要求9-10任一项所述的装置,其特征在于,所述内容识别模块,包括:
价格问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的价格问题;
价格内容提取单元,用于选取与所述价格问题对应的价格提取模型从所述聊天记录中提取所述目标发帖者回答所述价格问题的实体价格内容。
12.根据权利要求11所述的装置,其特征在于,所述内容对比模块,还用于:
将所述目标帖子中与所述价格问题相关的价格字段内容与所述实体价格内容进行对比;
在所述价格字段内容与所述实体价格内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
13.根据权利要求9-10任一项所述的装置,其特征在于,所述内容识别模块,包括:
户型问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的户型问题;
户型内容提取单元,用于选取与所述户型问题对应的户型提取模型从所述聊天记录中提取所述目标发帖者回答所述户型问题的实体户型内容。
14.根据权利要求13所述的装置,其特征在于,所述内容对比模块,还用于:
将所述目标帖子中与所述户型问题相关的户型字段内容与所述实体户型内容进行对比;
在所述户型字段内容与所述实体户型内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
15.根据权利要求9-10任一项所述的装置,其特征在于,所述内容识别模块,包括:
位置问题识别单元,用于从所述聊天记录中识别出所述浏览者提出的关于所述目标帖子中房源信息的位置问题;
位置内容提取单元,用于选取与所述位置问题对应的位置提取模型从所述聊天记录中提取所述目标发帖者回答所述位置问题的实***置内容。
16.根据权利要求15所述的装置,其特征在于,所述内容对比模块,还用于:
将所述目标帖子中与所述位置问题相关的位置字段内容与所述实***置内容进行对比;
在所述位置字段内容与所述实***置内容不一致的情况下,确认所述目标帖子的内容为虚假信息。
17.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,以实现权利要求1-8任一项所述的房源虚假信息识别方法。
18.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,当房源虚假信息识别装置的至少一个处理器执行所述计算机程序时,房源虚假信息识别装置执行权利要求1-8任一项所述的房源虚假信息识别方法。
CN202011637576.0A 2020-12-31 2020-12-31 房源虚假信息识别方法、装置、电子设备及存储介质 Active CN112699659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011637576.0A CN112699659B (zh) 2020-12-31 2020-12-31 房源虚假信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011637576.0A CN112699659B (zh) 2020-12-31 2020-12-31 房源虚假信息识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112699659A true CN112699659A (zh) 2021-04-23
CN112699659B CN112699659B (zh) 2022-09-30

Family

ID=75513817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011637576.0A Active CN112699659B (zh) 2020-12-31 2020-12-31 房源虚假信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112699659B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449506A (zh) * 2021-06-29 2021-09-28 未鲲(上海)科技服务有限公司 一种数据检测方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160225030A1 (en) * 2015-02-02 2016-08-04 Adobe Systems Incorporated Social data collection and automated social replies
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置
CN109598540A (zh) * 2018-11-09 2019-04-09 湖南工业大学 一种广告精准推送方法及广告精准推送***
CN110297987A (zh) * 2019-07-02 2019-10-01 武汉斗鱼网络科技有限公司 一种帖子推荐方法、装置、设备和存储介质
CN111400476A (zh) * 2020-03-25 2020-07-10 北京字节跳动网络技术有限公司 房源识别方法、装置、可读介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160225030A1 (en) * 2015-02-02 2016-08-04 Adobe Systems Incorporated Social data collection and automated social replies
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置
CN109598540A (zh) * 2018-11-09 2019-04-09 湖南工业大学 一种广告精准推送方法及广告精准推送***
CN110297987A (zh) * 2019-07-02 2019-10-01 武汉斗鱼网络科技有限公司 一种帖子推荐方法、装置、设备和存储介质
CN111400476A (zh) * 2020-03-25 2020-07-10 北京字节跳动网络技术有限公司 房源识别方法、装置、可读介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449506A (zh) * 2021-06-29 2021-09-28 未鲲(上海)科技服务有限公司 一种数据检测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN112699659B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CA3138730C (en) Public-opinion analysis method and system for providing early warning of enterprise risks
US20080163128A1 (en) Click-Fraud Prevention
CN109345417B (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN112507936A (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN113297840B (zh) 恶意流量账号检测方法、装置、设备和存储介质
CN111327514A (zh) 微信图文消息群发方法、***、服务器及存储介质
Beall Avoiding the Peril of Publishing Qualitative Scholarship in Predatory Journals.
CN111966915A (zh) 信息巡检方法、计算机设备及存储介质
CN113139816A (zh) 信息处理方法、装置、电子设备和存储介质
CN112699659B (zh) 房源虚假信息识别方法、装置、电子设备及存储介质
CN112434144A (zh) 生成目标问题的方法、装置、电子设备和计算机可读介质
CN106131604A (zh) 一种多媒体信息的传输方法及装置
CN109711849B (zh) 以太坊地址画像生成方法、装置、电子设备及存储介质
CN108509582B (zh) 一种信息的回复方法、终端设备及计算机可读存储介质
CN109636627B (zh) 基于区块链的保险产品管理方法、装置、介质及电子设备
CN116662987A (zh) 业务***监控方法、装置、计算机设备及存储介质
CN116703555A (zh) 一种预警方法、装置、电子设备及计算机可读介质
CN115731028A (zh) 一种预警方法、装置、电子设备及计算机可读介质
CN113610535B (zh) 适用于消费分期业务过程的风险监控方法及装置
CN109858900A (zh) 一种支付信息推送方法、装置及终端设备
CN114443634A (zh) 数据质量检核方法、装置、设备及存储介质
JP6928073B2 (ja) オンラインサービスでの不正使用行為の識別方法、装置、およびコンピュータプログラム
CN111008373B (zh) 智能问答的处理方法、装置、计算机可读介质及电子设备
CN114241206A (zh) 目标对象的特征提取方法、装置、电子设备及存储介质
CN113902553A (zh) 基于知识图谱的风险识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant