CN105260877A - 基于电子邮件获取用户画像数据的方法 - Google Patents

基于电子邮件获取用户画像数据的方法 Download PDF

Info

Publication number
CN105260877A
CN105260877A CN201510611139.4A CN201510611139A CN105260877A CN 105260877 A CN105260877 A CN 105260877A CN 201510611139 A CN201510611139 A CN 201510611139A CN 105260877 A CN105260877 A CN 105260877A
Authority
CN
China
Prior art keywords
email
user tag
user
weight
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510611139.4A
Other languages
English (en)
Inventor
陶智明
张颖
梁家盛
张荣圣
谭自强
马幸晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CENTURY DRAGON INFORMATION NETWORK Co Ltd
Original Assignee
CENTURY DRAGON INFORMATION NETWORK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CENTURY DRAGON INFORMATION NETWORK Co Ltd filed Critical CENTURY DRAGON INFORMATION NETWORK Co Ltd
Priority to CN201510611139.4A priority Critical patent/CN105260877A/zh
Publication of CN105260877A publication Critical patent/CN105260877A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于电子邮件获取用户画像数据的方法及其***,先获取电子邮件中的用户标签关键词、用户标签库中与所述用户标签关键词对应的用户标签、以及所述用户标签的权重,再利用电子邮件反垃圾***对所述电子邮件进行垃圾邮件判定,最后根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,对最终导出的用户标签具有明显的针对性,从而提高用户画像的准确度。

Description

基于电子邮件获取用户画像数据的方法
技术领域
本发明涉及用户画像领域,特别是一种基于电子邮件获取用户画像数据的方法。
背景技术
在互联网逐渐步入大数据时代后,不可避免的为企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
用户画像的焦点工作就是为用户打标签,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,基本就可以勾勒出该用户的立体“画像”了。
就目前来看,用户画像的大部分基础数据来源很零散,彼此关系不紧密,对最终导出的用户标签缺乏针对性,因此推导归纳出的用户画像的准确度较低,效果不够理想。
发明内容
针对上述现有技术中存在的用户画像的准确度较低的问题,本发明的目的在于提供一种基于电子邮件获取用户画像数据的方法及其***,能够提高用户画像的准确度。
一种基于电子邮件获取用户画像数据的方法,包括以下步骤:
获取电子邮件中的用户标签关键词;
获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的权重;
获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据;
根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
本发明还包括一种基于电子邮件获取用户画像数据的***,包括:
关键词获取模块,用于获取电子邮件中的用户标签关键词;
用户标签获取模块,用于获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的权重;
垃圾邮件判定模块,用于获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据;
权重修正模块,用于根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
本发明的基于电子邮件获取用户画像数据的方法及其***,先获取电子邮件中的用户标签关键词、用户标签库中与所述用户标签关键词对应的用户标签、以及所述用户标签的权重,再利用电子邮件反垃圾***对所述电子邮件进行垃圾邮件判定,最后根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,对最终导出的用户标签具有明显的针对性,从而提高用户画像的准确度。
附图说明
图1为一个实施例的基于电子邮件获取用户画像数据的方法的流程示意图;
图2为一个实施例的基于电子邮件获取用户画像数据的***的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
请参阅图1中一个实施例的基于电子邮件获取用户画像数据的方法流程示意图。
一种基于电子邮件获取用户画像数据的方法,包括以下步骤:
S102,获取电子邮件中的用户标签关键词。
通过该步骤,从电子邮件中获取用户标签关键词,由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,从而提高用户画像基础数据的紧密性。
在其中一个实施例中,所述获取电子邮件中的用户标签关键词的步骤包括:
获取电子邮件中的内容,将所述电子邮件中的内容与预设的用户标签关键词进行匹配;
获取符合匹配结果的电子邮件内容中的词语,即为电子邮件中的用户标签关键词。
通过该实施例,使得获取的用户标签关键词更符合预设的用户标签的描述,进一步提高用户画像基础数据的紧密性。
S104,获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的标签权重。
通过该步骤,为后面的垃圾邮件判定步骤提供基础数据,从而提高垃圾邮件判定的准确性。
S106,获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据。
通过所述用户标签、以及标签权重的垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,一方面可以降低垃圾邮件的误判率,从而提高垃圾邮件判定的准确率;另一方面提高了电子邮件反垃圾判定的优先级,减少了***后续的判定步骤,从而节约了***资源。
在其中一个实施例中,所述对电子邮件进行垃圾邮件判定的步骤包括:
将所述用户标签关键词添加到电子邮件标头;
利用电子邮件反垃圾***对电子邮件标头中的内容进行垃圾邮件判定。
通过该实施例,提高了对电子邮件进行垃圾邮件判定的便利性,从而节省***资源。
S108,根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
该步骤根据垃圾邮件判定结果对所述用户标签对应的权重进行修正,从而提高用户画像的准确度。
在其中一个实施例中,所述根据垃圾邮件判定结果对所述用户标签对应的权重进行修正的步骤包括:
根据所述垃圾邮件判定结果,若被判定为垃圾邮件,则对所述用户标签的权重进行减权修正,否则,对所述用户标签的权重进行加权修正。
被判定为垃圾邮件的电子邮件,对其对应用户标签的标签权重进行减权修正;被判定为非垃圾邮件的电子邮件,对其对应用户标签的标签权重进行加权修正,使得到的用户标签权重更加准确,从而提高用户画像的准确度。
结合上述实施例,通过先获取电子邮件中的用户标签关键词、用户标签库中与所述用户标签关键词对应的用户标签、以及所述用户标签的权重,再利用电子邮件反垃圾***对所述电子邮件进行垃圾邮件判定,最后根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,对最终导出的用户标签具有明显的针对性,从而提高用户画像的准确度。
在其中一个实施例中,所述基于电子邮件获取用户画像数据的方法还包括:
获取用户标签库中用户标签的历史数据;
统计所述历史数据,根据统计结果判定历史数据等级;
根据所述历史数据等级、及其对应的预设等级权重对用户标签的权重进行修正。
通过该实施例,进一步提高用户标签权重的准确性,从而进一步提高用户画像的准确度。
在其中一个实施例中,所述用户标签的历史数据包括用户标签的历史关键词、关键词加权次数、关键词减权次数、邮件发送频率、邮件拦截频率、垃圾邮件历史判定结果。
通过上述历史数据,使得收集到的用户画像基础数据来源更集中、关系更紧密,对最终导出的用户标签更具针对性。
本发明还提供一种基于电子邮件获取用户画像数据的***,如图2所示,包括:
关键词获取模块202,用于获取电子邮件中的用户标签关键词。
所述关键词获取模块202,从电子邮件中获取用户标签关键词,由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,从而提高用户画像基础数据的紧密性。
用户标签获取模块204,用于获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的权重。
所述用户标签获取模块204,为后面的垃圾邮件判定步骤提供基础数据,从而提高垃圾邮件判定的准确性。
垃圾邮件判定模块206,用于获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据。
所述垃圾邮件判定模块206,通过所述用户标签、以及标签权重的垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,一方面可以降低垃圾邮件的误判率,从而提高垃圾邮件判定的准确率;另一方面提高了电子邮件反垃圾判定的优先级,减少了***后续的判定步骤,从而节约了***资源。
权重修正模块208,用于根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
所述权重修正模块208,根据垃圾邮件判定结果对所述用户标签对应的权重进行修正,从而提高用户画像的准确度。
上述实施例中,由于电子邮件通信形式比较正式、严谨,从电子邮件内容获取的用户标签关键词、及其相关信息能更准确的反映人的属性特点,因此,收集到的用户画像基础数据来源集中、关系紧密,对最终导出的用户标签具有明显的针对性,从而提高用户画像的准确度。
在其中一个实施例中,所述关键词获取模块202包括:
关键词匹配模块,用于获取电子邮件中的内容,将所述电子邮件中的内容与预设的用户标签关键词进行匹配;
用户标签获取子模块,用于获取符合匹配结果的电子邮件内容中的词语,即为电子邮件中的用户标签关键词。
通过该实施例,使得获取的用户标签关键词更符合预设的用户标签的描述,进一步提高用户画像基础数据的紧密性。
在其中一个实施例中,所述垃圾邮件判定模块206包括:
关键词添加模块,用于将所述用户标签关键词添加到电子邮件标头;
判定子模块,用于利用电子邮件反垃圾***对电子邮件标头中的内容进行垃圾邮件判定。
通过该实施例,提高了对电子邮件进行垃圾邮件判定的便利性,从而节省***资源。
在其中一个实施例中,所述权重修正模块208包括:
减权修正模块,用于根据所述垃圾邮件判定结果,若被判定为垃圾邮件,则对所述用户标签的权重进行减权修正;
加权修正模块,用于根据所述垃圾邮件判定结果,若被判定为非垃圾邮件,则对所述用户标签的权重进行加权修正。
通过该实施例,被判定为垃圾邮件的电子邮件,对其对应用户标签的标签权重进行减权修正;被判定为非垃圾邮件的电子邮件,对其对应用户标签的标签权重进行加权修正,使得到的用户标签权重更加准确,从而提高用户画像的准确度。
在其中一个实施例中,所述基于电子邮件获取用户画像数据的***还包括:
历史数据获取模块,用于获取用户标签库中用户标签的历史数据;
等级统计模块,用于统计所述历史数据,根据统计结果判定历史数据等级;
历史数据权重修正模块,用于根据所述历史数据等级、及其对应的预设等级权重对用户标签的权重进行修正。
通过该实施例,进一步提高用户标签权重的准确性,从而进一步提高用户画像的准确度。
在其中一个实施例中,所述用户标签的历史数据包括用户标签的历史关键词、关键词加权次数、关键词减权次数、邮件发送频率、邮件拦截频率、垃圾邮件历史判定结果。
通过上述历史数据,使得收集到的用户画像基础数据来源更集中、关系更紧密,对最终导出的用户标签更具针对性。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于电子邮件获取用户画像数据的方法,其特征在于,包括以下步骤:
获取电子邮件中的用户标签关键词;
获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的标签权重;
获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据;
根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
2.根据权利要求1所述的基于电子邮件获取用户画像数据的方法,其特征在于,所述获取电子邮件中的用户标签关键词的步骤包括:
获取电子邮件中的内容,将所述电子邮件中的内容与预设的用户标签关键词进行匹配;
获取符合匹配结果的电子邮件内容中的词语为电子邮件中的用户标签关键词。
3.根据权利要求1所述的基于电子邮件获取用户画像数据的方法,其特征在于,所述对电子邮件进行垃圾邮件判定的步骤包括:
将所述用户标签关键词添加到电子邮件标头;
利用电子邮件反垃圾***对电子邮件标头中的内容进行垃圾邮件判定。
4.根据权利要求1所述的基于电子邮件获取用户画像数据的方法,其特征在于,所述根据垃圾邮件判定结果对所述用户标签对应的权重进行修正的步骤包括:
根据所述垃圾邮件判定结果,若被判定为垃圾邮件,则对所述用户标签的权重进行减权修正,否则,对所述用户标签的权重进行加权修正。
5.根据权利要求1所述的基于电子邮件获取用户画像数据的方法,其特征在于,还包括:
获取用户标签库中用户标签的历史数据;
统计所述历史数据,根据统计结果判定历史数据等级;
根据所述历史数据等级、及其对应的预设等级权重对用户标签的权重进行修正。
6.一种基于电子邮件获取用户画像数据的***,其特征在于,包括:
关键词获取模块,用于获取电子邮件中的用户标签关键词;
用户标签获取模块,用于获取用户标签库中与所述用户标签关键词对应的用户标签,以及与所述用户标签对应的权重;
垃圾邮件判定模块,用于获取电子邮件反垃圾***中的垃圾邮件判据,根据所述垃圾邮件判据,对所述电子邮件进行垃圾邮件判定,其中,所述垃圾邮件判据包括所述用户标签、以及标签权重的垃圾邮件判据;
权重修正模块,用于根据垃圾邮件判定结果对所述用户标签对应的权重进行修正。
7.根据权利要求6所述的基于电子邮件获取用户画像数据的***,其特征在于,所述关键词获取模块包括:
关键词匹配模块,用于获取电子邮件中的内容,将所述电子邮件中的内容与预设的用户标签关键词进行匹配;
用户标签获取子模块,用于获取符合匹配结果的电子邮件内容中的词语,即为电子邮件中的用户标签关键词。
8.根据权利要求6所述的基于电子邮件获取用户画像数据的***,其特征在于,所述垃圾邮件判定模块包括:
关键词添加模块,用于将所述用户标签关键词添加到电子邮件标头;
判定子模块,用于利用电子邮件反垃圾***对电子邮件标头中的内容进行垃圾邮件判定。
9.根据权利要求6所述的基于电子邮件获取用户画像数据的***,其特征在于,所述权重修正模块包括:
减权修正模块,用于根据所述垃圾邮件判定结果,若被判定为垃圾邮件,则对所述用户标签的权重进行减权修正;
加权修正模块,用于根据所述垃圾邮件判定结果,若被判定为非垃圾邮件,则对所述用户标签的权重进行加权修正。
10.根据权利要求6所述的基于电子邮件获取用户画像数据的***,其特征在于,还包括:
历史数据获取模块,用于获取用户标签库中用户标签的历史数据;
等级统计模块,用于统计所述历史数据,根据统计结果判定历史数据等级;
历史数据权重修正模块,用于根据所述历史数据等级、及其对应的预设等级权重对用户标签的权重进行修正。
CN201510611139.4A 2015-09-22 2015-09-22 基于电子邮件获取用户画像数据的方法 Pending CN105260877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510611139.4A CN105260877A (zh) 2015-09-22 2015-09-22 基于电子邮件获取用户画像数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510611139.4A CN105260877A (zh) 2015-09-22 2015-09-22 基于电子邮件获取用户画像数据的方法

Publications (1)

Publication Number Publication Date
CN105260877A true CN105260877A (zh) 2016-01-20

Family

ID=55100555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510611139.4A Pending CN105260877A (zh) 2015-09-22 2015-09-22 基于电子邮件获取用户画像数据的方法

Country Status (1)

Country Link
CN (1) CN105260877A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133393A (zh) * 2017-12-28 2018-06-08 新智数字科技有限公司 数据处理方法及***
CN108388572A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 一种用户画像取数方法
CN109391535A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 域级的联系人确定方法、垃圾邮件判断方法和装置
CN109548005A (zh) * 2018-11-27 2019-03-29 浙江每日互动网络科技股份有限公司 获取移动终端标签信息的***
CN113284509A (zh) * 2021-05-06 2021-08-20 北京百度网讯科技有限公司 语音标注的正确率获取方法、装置和电子设备
CN114331368A (zh) * 2021-12-31 2022-04-12 深圳市云登智能有限公司 一种邮件处理方法及其相关设备
CN114693245A (zh) * 2022-03-02 2022-07-01 深圳市小满科技有限公司 用户画像生成方法及装置、电子设备、可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218355A (zh) * 2012-01-18 2013-07-24 腾讯科技(深圳)有限公司 一种为用户生成标签的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109391535A (zh) * 2017-08-02 2019-02-26 阿里巴巴集团控股有限公司 域级的联系人确定方法、垃圾邮件判断方法和装置
CN108133393A (zh) * 2017-12-28 2018-06-08 新智数字科技有限公司 数据处理方法及***
CN108388572A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 一种用户画像取数方法
CN109548005A (zh) * 2018-11-27 2019-03-29 浙江每日互动网络科技股份有限公司 获取移动终端标签信息的***
CN109548005B (zh) * 2018-11-27 2021-10-01 每日互动股份有限公司 获取移动终端标签信息的***
CN113284509A (zh) * 2021-05-06 2021-08-20 北京百度网讯科技有限公司 语音标注的正确率获取方法、装置和电子设备
CN113284509B (zh) * 2021-05-06 2024-01-16 北京百度网讯科技有限公司 语音标注的正确率获取方法、装置和电子设备
CN114331368A (zh) * 2021-12-31 2022-04-12 深圳市云登智能有限公司 一种邮件处理方法及其相关设备
CN114693245A (zh) * 2022-03-02 2022-07-01 深圳市小满科技有限公司 用户画像生成方法及装置、电子设备、可读存储介质

Similar Documents

Publication Publication Date Title
CN105260877A (zh) 基于电子邮件获取用户画像数据的方法
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
CN102479223B (zh) 数据查询方法及***
US11270316B2 (en) Systems, methods, and apparatuses for implementing automatic entry of customer relationship management (CRM) data into a CRM database system
US9015254B2 (en) Method and system for calculating email and email participant prominence
JP2018511116A (ja) 端末にプッシュされるデータコンテンツを選択するための方法およびデバイス
CN102915307A (zh) 一种个性化信息推荐的方法、装置及信息处理***
CN104881770A (zh) 一种快递单信息识别***和方法
US11210284B2 (en) Method, system, apparatus, and computer-readable storage medium for sharing account resources
US20120143806A1 (en) Electronic Communications Triage
US10157228B2 (en) Communication system including a confidence level for a contact type and method of using same
CN105701488A (zh) 一种身份证识别方法
CN102419975B (zh) 一种基于语音识别的数据挖掘方法和***
US20120233197A1 (en) Social network system and member searching and analyzing method in social network
CN103001994B (zh) 好友推荐方法及装置
CN110516057B (zh) 一种信访问题答复方法及装置
CN106599060B (zh) 获取用户画像的方法及***
US10296509B2 (en) Method, system and apparatus for managing contact data
CN105631016A (zh) 一种向导式的检索方法和***
KR101930394B1 (ko) 시공자의 견적서와 공시단가를 비교하여 투명한 견적 서비스를 제공하는 방법
CN104598780A (zh) 账户识别方法和***
CN105453081A (zh) 回答人员相关问题
CN105701171A (zh) 基于用户属性的个性化大数据搜索方法和***
CN107071181B (zh) 一种自动匹配通讯联系人的方法
CN112732923B (zh) 一种基于知识图谱的快件物流服务语义提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160120

RJ01 Rejection of invention patent application after publication