CN106056350B - 一种电子邮件的信息抽离方法、装置和*** - Google Patents

一种电子邮件的信息抽离方法、装置和*** Download PDF

Info

Publication number
CN106056350B
CN106056350B CN201610341717.1A CN201610341717A CN106056350B CN 106056350 B CN106056350 B CN 106056350B CN 201610341717 A CN201610341717 A CN 201610341717A CN 106056350 B CN106056350 B CN 106056350B
Authority
CN
China
Prior art keywords
template
mail
preset
information
mail content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610341717.1A
Other languages
English (en)
Other versions
CN106056350A (zh
Inventor
赵丰
赵东
刘俊
楼宏微
林华尚
张丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610341717.1A priority Critical patent/CN106056350B/zh
Publication of CN106056350A publication Critical patent/CN106056350A/zh
Application granted granted Critical
Publication of CN106056350B publication Critical patent/CN106056350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种电子邮件的信息抽离方法、装置和***;本发明实施例在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定邮件内容是否与该预设模板匹配,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;该方案可以提高其灵活性、以及信息抽离的可靠性和准确性。

Description

一种电子邮件的信息抽离方法、装置和***
技术领域
本发明涉及通信技术领域,具体涉及一种电子邮件的信息抽离方法、装置和***。
背景技术
随着互联网技术的发展,电子邮件已经成互联网应用最广的服务。电子邮件给人们带来低廉且快速的通信方式的同时,也带来一些问题,比如,如何在众多的电子邮件信息中快速提取所需要的信息,而这种从电子邮件中提取信息的技术,我们称为电子邮件的信息抽离。
在现有技术中,电子邮件的信息抽离,一般会通过对电子邮件内容进行关键字匹配、或通过正则表达式进行过滤的方式来实现。例如,以银行电子账单为例,若需要抽离该银行电子账单的内容,则可以在电子邮件内容中查找“还款金额”、和“还款日期”等字样,然后再根据查找到的字样定位到具体的值上,等等。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有方案在邮件内容格式发生变化时,若没有及时更新匹配方法,则容易出现匹配错误等情况,最终导致信息抽离失效或不准确,灵活性较差。
发明内容
本发明实施例提供一种电子邮件的信息抽离方法、装置和***,可以提高其灵活性、信息抽离的可靠性和准确性。
本发明实施例还提供一种电子邮件的信息抽离方法,包括:
接收电子邮件,所述电子邮件包括邮件内容和发信地址;
根据所述发信地址获取对应的预设模板,并确定所述邮件内容是否与所述预设模板匹配;
若是,则确定所述预设模板为抽离模板;
若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
采用抽离模板对所述邮件内容进行信息抽离。
相应的,本发明实施例还提供一种电子邮件的信息抽离装置,包括:
接收单元,用于接收电子邮件,所述电子邮件包括邮件内容和发信地址;
获取单元,用于根据所述发信地址获取对应的预设模板;
模板确定单元,用于确定所述邮件内容是否与所述预设模板匹配,若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
处理单元,用于采用抽离模板对所述邮件内容进行信息抽离。
此外,本发明实施例还提供一种电子邮件的信息抽离***,包括本发明实施例所提供的任一种电子邮件的信息抽离装置。
本发明实施例在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定邮件内容是否与该预设模板匹配,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;由于该方案在预设模板不适用时,可以根据邮件内容灵活地生成新的模板,并基于该新的模板进行信息抽离,因此,即便邮件内容格式发生变化,也不会有影响,大大减少识别错误或匹配失效的情况的发生;总而言之,该方案相对于现有技术而言,可以提高其灵活性、以及信息抽离的可靠性和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的电子邮件的信息抽离方法的场景示意图;
图1b是本发明实施例提供的电子邮件的信息抽离方法的流程图;
图2是本发明实施例提供的电子邮件的信息抽离方法的另一流程图;
图3a是本发明实施例提供的电子邮件的信息抽离装置的结构示意图;
图3b是本发明实施例提供的电子邮件的信息抽离装置的另一结构示意图;
图4是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种电子邮件的信息抽离方法、装置和***。
其中,该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中,例如,如图1a所示,邮件服务器在接收到发信服务器发送的电子邮件之后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定该电子邮件的邮件内容是否命中该预设模板(即确定该电子邮件的邮件内容是否与该预设模板匹配),若是,则采用该预设模板对该邮件内容进行信息抽离,否则,若不命中,则根据邮件内容生成新的模板,比如,具体可以按照预设策略对邮件内容进行分类,根据分类结果生成模板,然后,采用该新的模板对该邮件内容进行信息抽离;也就是说,若预设模板可以适用,则采用预设模板作为抽离模板,而若该预设模板不适用,则生成新的模板作为抽离模板,从而使得该抽离模板可以随着邮件内容格式的变化进行自适应调整,大大减少识别错误或匹配失效的情况的发生;此后,还可以将抽离的信息发送给终端,以进行显示,比如以页面或通过终端应用(APP,Application)的形式在终端中进行显示,以便用户查看。
以下将分别进行详细说明。需说明的是,以下实施例的编号并不作为对实施例优选次序的限制。
实施例一、
本实施例将从电子邮件的信息抽离装置的角度进行描述,该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中。
一种电子邮件的信息抽离方法,包括:接收电子邮件,该电子邮件包括邮件内容和发信地址;根据该发信地址获取对应的预设模板,并确定该邮件内容是否与该预设模板匹配;若是,则确定该预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对该邮件内容进行信息抽离。
如图1b所示,该电子邮件的信息抽离方法的具体流程可以如下:
101、接收电子邮件,比如,具体可以接收发信服务器发送的电子邮件。
其中,该电子邮件可以包括邮件内容和发信地址等信息,发信地址指的是该电子邮件中发信人的地址,邮件内容指的是该电子邮件正文的内容。
102、根据该发信地址获取对应的预设模板。
例如,具体可以根据该发信地址从预设模板集合中获取对应的预设模板。
其中,该预设模板集合可以包括多个预设模板,分别对应着不同的发信地址;该预设模板可以根据实际应用的需求预先进行设置,例如,以银行电子账单为例,可以根据不同的银行的账单电子邮件的内容和格式设置不同的模板格式。其中,该模板可以采用多种形式来表示,比如,可以采用可扩展标记语言的路径语言(XPath,XML Path)来表示。XPath是一种用来确定可扩展标记语言(XML,Extensible Markup Language)文档中某部分信息位置的语言。比如,若该银行电子账单的内容包括用户姓名、还款金额、还款日期、以及还款明细等信息,则该模板具体可以为用户姓名、还款金额、还款日期、以及还款明细等XPath集合的账单模版,以此类推,等等。
需说明的是,该模板除了可以用XPath来表示之外,还可以采用其他的语音来表示,比如XPointer。该模板采用的语言具体可以与电子邮件的邮件内容所采用的语言相匹配,若邮件内容采用XPath,则模板也采用XPath,而若邮件内容采用其他的语言,比如XPointer,则模板也可以进行相应调整,比如也采用XPointer,等等。
103、确定该邮件内容是否与该预设模板匹配,即确定该邮件内容是否可以命中该预设模板,若可以命中(即邮件内容与该预设模板匹配),则确定该预设模板为抽离模板,并执行步骤105;否则,若未能命中(即邮件内容与该预设模板不匹配),则执行步骤104。
其中,确定该邮件内容是否命中该预设模板的方式可以有多种,例如,可以从该邮件内容中从预设字段中提取关键字,得到第一关键字组,以及从预设模板的预设字段中提取关键字,得到第二关键字组,然后将第一关键字组与第二关键字组进行匹配,若匹配,比如差异小于预设值(若预设值为0,则表示两者一致),则确定该邮件内容命中该预设模板;否则,若不匹配,比如差异不小于预设值,则确定该邮件内容不命中该预设模板。又例如,还可以根据提取的位置信息来进行匹配,具体可以如下:
S1、从该邮件内容中提取位置信息,得到第一位置信息。
其中,根据邮件内容所采用的页面编程语言的不同,该位置信息的表现形式也会有所不同,比如,若该邮件内容采用的是XML等语言,则此时可以从该邮件内容中提取XPath信息,得到第一位置信息,等等。
S2、从该预设模板中提取位置信息,得到第二位置信息。
比如,若在步骤S1中,位置信息为XPath信息,则此时,也可以从该预设模板中提取XPath信息,得到第二位置信息。
S3、确定该第一位置信息与第二位置信息是否匹配,若匹配,则确定该邮件内容命中该预设模板;若不匹配,则确定该邮件内容不命中该预设模板。
其中,匹配指的是差异小于预设值,即步骤S3具体可以如下:
确定该第一位置信息与第二位置信息二者的差异是否小于预设值,若是,则确定该邮件内容命中该预设模板;若否,则确定该邮件内容不命中该预设模板。
其中,该预设值可以根据实际应用的需求进行设置,在此不再赘述。
104、按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板。
其中,该预设策略可以根据实际应用的需求而定,比如,可以采用朴素贝叶斯分类法、决策树或相似分类法等来进行分类,即步骤“按照预设策略对邮件内容进行分类”具体可以如下:
采用朴素贝叶斯分类法构建分类器,通过该分类器对邮件内容进行分类;或者,
采用决策树构建分类器,通过该分类器对邮件内容进行分类;或者,
采用相似分类法构建分类器,通过该分类器对邮件内容进行分类。
在通过分类器对邮件内容进行分类时,可以利用该分类器将邮件内容划分为多个字段,然后对划分后的多个字段进行合成以生成模板,例如,还是以XPath为例,则步骤“通过该分类器对邮件内容进行分类,根据分类结果生成模板”可以包括:
从邮件内容中提取XPath信息,通过该分类器将提取到的XPath信息划分为多个字段,对划分后的多个字段进行合成,以生成模板。
可选的,为了提高模板的适用率,在根据分类结果生成模板之后,还可以对生成的模板进行审核,具体可以如下:
对生成的模板进行审核,若审核通过,则执行将生成的模板作为抽离模板的步骤;若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的步骤,即此时可以重新对邮件内容进行分类,并根据分类结果生成模板,然后再进行审核,以此类推,直至生成的模板审核通过为止。
此外,在生成的模板审核通过时,还可以将生成的模板添加至预设模板集合中,从而使得该预设模板集合中的模板可以不断得到更新或补充。
105、采用抽离模板对该邮件内容进行信息抽离。
例如,具体根据抽离模板中多个划分字段分别从邮件内容中提取相应的内容,并将提取的内容添加至目标文本相应的划分字段下。
其中,目标文本指的是用于记录抽离信息,且最终显示给用户的载体,比如银行电子账单、或水费通知书,等等。
比如,以目标文本为银行电子账单为例,则可以从邮件内容中将命中抽离模板的用户名称、还款金额、还款时间、以及消费明细等XPath信息对应的内容提取出来,分别对应到银行电子账单的用户名称、还款金额、还款时间、以及消费明细等信息上,等等。
可选的,在将信息抽离后,还可以将抽离信息通过页面或APP等形式发送给终端,以提供给用户。比如,可以将目标文本,比如银行电子账单或水费通知书等发送给终端,并在终端上进行显示,等等。
由上可知,本实施例在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定邮件内容是否命中该预设模板,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;由于该方案在预设模板不适用时,可以根据邮件内容灵活地生成新的模板,并基于该新的模板进行信息抽离,因此,即便邮件内容格式发生变化,也不会有影响,大大减少识别错误或匹配失效的情况的发生;总而言之,该方案相对于现有技术而言,可以提高其灵活性、以及信息抽离的可靠性和准确性。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以银行电子账单,且该电子邮件的信息抽离装置具体集成在邮件服务器中为例进行说明。
如图2所示,一种电子邮件的信息抽离方法,具体流程可以如下:
201、邮件服务器接收发信服务器发送的电子邮件。
其中,该电子邮件可以包括邮件内容和发信地址等信息。
202、邮件服务器根据该发信地址从预设模板集合中获取对应的预设模板。
其中,该预设模板集合可以包括多个预设模板,分别对应着不同的发信地址;该预设模板可以根据实际应用的需求预先进行设置。
例如,以银行电子账单为例,可以根据不同的银行的账单电子邮件的内容和格式设置不同的模板格式,比如,若A银行采用的是A格式,比如字段顺序为“用户名称”、“消费明细”、“还款时间”、以及“还款金额”等,则对于A银行,可以采用A格式的模板;而若B银行采用的是B格式,比如字段顺序为“用户名称”、“还款金额”、“还款时间”、以及“消费明细”等,则对于B银行,可以采用B格式的模板。
其中,该模板可以采用多种形式来表示,比如,可以采用XPath或XPointer来表示,为例描述方便,在本实施例中,将均以XPath为例进行说明。
203、邮件服务器确定该邮件内容是否命中该预设模板,若可以命中,则确定该预设模板为抽离模板,并执行步骤206;否则,若未能命中,则执行步骤204。
例如,邮件服务器具体可以从该电子邮件的邮件内容中提取XPath信息,得到第一位置信息,以及从该预设模板中提取XPath信息,得到第二位置信息,然后,确定该第一位置信息与第二位置信息是否匹配,若匹配,则确定该邮件内容命中该预设模板;若不匹配,则确定该邮件内容不命中该预设模板。
比如,以银行电子账单包括用户名称、还款金额、还款时间、以及消费明细等信息为例,则邮件服务器具体可以从该电子邮件的邮件内容中提取XPath信息,然后确定该XPath信息是否与预设模板中的用户名称、还款金额、还款时间、以及消费明细等XPath信息匹配,若匹配,则确定该邮件内容命中该预设模板,否则,若不匹配,则确定该邮件内容不命中该预设模板。
204、邮件服务器采用朴素贝叶斯分类法构建分类器,并通过该分类器对邮件内容进行分类,得到分类结果。
例如,邮件服务器可以从该电子邮件的邮件内容中提取XPath信息,通过该分类器将提取到的XPath信息划分为多个字段,将这多个字段作为分类结果。
比如,还是以银行电子账单包括用户名称、还款金额、还款时间、以及消费明细等信息为例,则从该电子邮件的邮件内容中提取XPath信息之后,可以通过分类器将提取到的XPath信息划分为“用户名称字段”、“还款金额字段”、“还款时间字段”、“消费明细字段”、以及“其他字段”等。
需说明的是,除了朴素贝叶斯分类法之外,还可以采用其他的方法进行分类,比如决策树或相似分类法等,在此不再赘述。
205、邮件服务器根据分类结果生成模板,将生成的模板作为抽离模板。
例如,若在步骤204中,已经通过分类器将提取到的XPath信息划分为多个字段,比如“用户名称字段”、“还款金额字段”、“还款时间字段”、“消费明细字段”、以及“其他字段”等,则此时,可以对划分后的多个字段(即分类好的XPath信息)进行合成,以生成模板。
可选的,为了提高模板的适用率,在根据分类结果生成模板之后,还可以对生成的模板进行审核,具体可以如下:
对生成的模板进行审核,若审核通过,则执行将生成的模板作为抽离模板的步骤;若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的步骤,即此时可以重新对邮件内容进行分类,并根据分类结果生成模板,然后再进行审核,以此类推,直至生成的模板审核通过为止。
此外,在生成的模板审核通过时,还可以将生成的模板添加至预设模板集合中,从而使得该预设模板集合中的模板可以不断得到更新或补充。
206、邮件服务器采用抽离模板对该邮件内容进行信息抽离。
例如,还是以银行电子账单为例,则此时可以从邮件内容中将命中抽离模板的用户名称、还款金额、还款时间、以及消费明细等XPath信息对应的内容提取出来,分别对应到银行电子账单的用户名称、还款金额、还款时间、以及消费明细等信息上,等等。
比如,若邮件内容中用户名称为“张三”,还款金额为“10000元”,还款时间为“20160501”,消费明细为“20160401XXXX1000元,20160420XXXX9000元”,则此时,可以将“张三”、“10000元”、“20160501”、以及“20160401XXXX1000元,20160420XXXX9000元”等信息从邮件内容中提取出来,然后,分别添加至银行电子账单中的用户名称、还款金额、还款时间、以及消费明细等信息上,即添加完毕后,银行电子账单上将会显示“用户名称:张三”,“还款金额:10000元”,“还款时间:20160501”,“消费明细:20160401XXXX1000元,20160420XXXX9000元”,等等。
207、邮件服务器将抽离信息通过页面或APP等形式发送给终端,以提供给用户。
由上可知,本实施例的邮件服务器在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并从邮件内容中提取XPath信息,确定提取的XPath信息是否命中该预设模板中的XPath信息,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容中提取出来的XPath信息进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;由于该方案在预设模板不适用时,可以根据邮件内容灵活地生成新的模板,并基于该新的模板进行信息抽离,因此,即便邮件内容格式发生变化,也不会有影响,大大减少了识别错误或匹配失效的情况的发生;而且,只需要简单的维护如用户名称、还款金额、还款时间、以及消费明细等分类样本,就可以应对不断变化的银行电子账单,因此,也可以大大提高其灵活性,以及维护成本;总而言之,该方案相对于现有技术而言,不仅可以提高其灵活性、以及信息抽离的可靠性和准确性,而且,还可以降低维护的复杂性和成本。
实施例三、
为了更好地实施以上方法,本发明实施例还提供一种电子邮件的信息抽离装置,简称信息抽离装置,如图3a所示,该信息抽离装置包括接收单元301、获取单元302、模板确定单元303和处理单元304,如下:
(1)接收单元301;
接收单元301,用于接收电子邮件。
比如,接收单元301,具体可以用于接收发信服务器发送的电子邮件。
其中,该电子邮件可以包括邮件内容和发信地址等信息,发信地址指的是该电子邮件中发信人的地址,邮件内容指的是该电子邮件正文的内容。
(2)获取单元302;
获取单元302,用于根据该发信地址获取对应的预设模板。
例如,获取单元302,具体可以用于根据该发信地址从预设模板集合中获取对应的预设模板。
其中,该预设模板集合可以包括多个预设模板,分别对应着不同的发信地址;该预设模板可以根据实际应用的需求预先进行设置,例如,以银行电子账单为例,可以根据不同的银行的账单电子邮件的内容和格式设置不同的模板格式。其中,该模板可以采用多种形式来表示,比如,可以采用XPath或XPointer等来表示。
(3)模板确定单元303;
模板确定单元303,用于确定该邮件内容是否与该预设模板匹配(即确定该邮件内容是否命中该预设模板),若是,则确定该预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
其中,确定该邮件内容是否命中该预设模板的方式可以有多种,例如,可以从该邮件内容中从预设字段中提取关键字,得到第一关键字组,以及从预设模板的预设字段中提取关键字,得到第二关键字组,然后将第一关键字组与第二关键字组进行匹配,若匹配,比如差异小于预设值,则确定该邮件内容命中该预设模板;否则,若不匹配,比如差异不小于预设值,则确定该邮件内容不命中该预设模板。又例如,还可以根据提取的位置信息来进行匹配,即该模板确定单元303可以包括提取子单元和匹配子单元,如下:
该提取子单元,用于从该邮件内容中提取位置信息,得到第一位置信息;从该预设模板中提取位置信息,得到第二位置信息;比如,可以从该邮件内容中提取XPath信息,得到第一位置信息,以及从该预设模板中提取XPath信息,得到第二位置信息,等等。
该匹配子单元,用于确定该第一位置信息与第二位置信息是否匹配;若匹配,则确定该邮件内容与该预设模板匹配(即确定该邮件内容命中该预设模板),确定该预设模板为抽离模板;若不匹配,则确定该邮件内容与该预设模板不匹配(即确定该邮件内容不命中该预设模板),按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板。
其中,该预设策略可以根据实际应用的需求而定,比如,可以采用朴素贝叶斯分类法、决策树或相似分类法等来进行分类,即:
该模板确定单元303,具体用于在确定该邮件内容与该预设模板不匹配(即确定该邮件内容不命中该预设模板)时,采用朴素贝叶斯分类法、决策树或相似分类法等构建分类器,通过该分类器对邮件内容进行分类。
在通过分类器对邮件内容进行分类时,可以利用该分类器将邮件内容划分为多个字段,然后对划分后的多个字段进行合成以生成模板,即:
该模板确定单元303,具体可以用于在确定该邮件内容与该预设模板不匹配(即确定该邮件内容不命中该预设模板)时,采用朴素贝叶斯分类法构建分类器,从邮件内容中提取可扩展标记语言的路径语言XPath信息,通过该分类器将提取到的XPath信息划分为多个字段,对划分后的多个字段进行合成,以生成模板。
(4)处理单元304;
处理单元304,用于采用抽离模板对该邮件内容进行信息抽离。
例如,处理单元304,具体可以用于根据抽离模板中多个划分字段分别从邮件内容中提取相应的内容,并将提取的内容添加至目标文本相应的划分字段下。
比如,以目标文本为银行电子账单为例,则可以从邮件内容中将命中抽离模板的用户名称、还款金额、还款时间、以及消费明细等XPath信息对应的内容提取出来,分别对应到银行电子账单的用户名称、还款金额、还款时间、以及消费明细等信息上,等等。
可选的,在将信息抽离后,处理单元304还可以将抽离信息通过页面或APP等形式发送给终端,以提供给用户。比如,可以将目标文本,比如银行电子账单或水费通知书等发送给终端,并在终端上进行显示,等等。
可选的,为了提高模板的适用率,在根据分类结果生成模板之后,还可以对生成的模板进行审核,
即如图3b所示,该信息抽离装置还可以包括审核单元305,如下:
该审核单元305,用于对生成的模板进行审核;若审核通过,则触发模板确定单元303执行将生成的模板作为抽离模板的操作;若审核未通过,则对邮件内容进行调整后,触发模板确定单元303执行按照预设策略对邮件内容进行分类的操作。
此外,在生成的模板审核通过时,还可以将生成的模板添加至预设模板集合中,从而使得该预设模板集合中的模板可以不断得到更新或补充;即如图3b所示,该信息抽离装置还可以包括还可以包括添加单元306,如下:
该添加单元306,可以用于将模板确定单元303生成的模板添加至预设模板集合中。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中。
由上可知,本实施例在接收到电子邮件后,可以由获取单元302根据该电子邮件的发信地址获取对应的预设模板,并由模板确定单元303确定邮件内容是否命中该预设模板,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,由处理单元304采用生成的模板对该邮件内容进行信息抽离;由于该方案在预设模板不适用时,可以根据邮件内容灵活地生成新的模板,并基于该新的模板进行信息抽离,因此,即便邮件内容格式发生变化,也不会有影响,大大减少识别错误或匹配失效的情况的发生;总而言之,该方案相对于现有技术而言,可以提高其灵活性、以及信息抽离的可靠性和准确性。
实施例四、
相应的,本发明实施例还提供一种电子邮件的信息抽离***,简称信息抽离***,可以包括本发明实施例所提供的任一种电子邮件的信息抽离装置,具体可参见实施例三;其中,该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中,例如,可以如下:
邮件服务器,用于接收电子邮件,该电子邮件包括邮件内容和发信地址;根据该发信地址获取对应的预设模板,并确定该邮件内容是否命中该预设模板;若是,则确定该预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对该邮件内容进行信息抽离。
可选的,在将信息抽离后,邮件服务器,还可以将抽离信息通过页面或APP等形式发送给终端,以提供给用户。
可选的,该邮件服务器,还可以用于对生成的模板进行审核,若审核通过,则执行将生成的模板作为抽离模板的操作;若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的操作。
此外,在生成的模板审核通过时,邮件服务器还可以将生成的模板添加至预设模板集合中,从而使得该预设模板集合中的模板可以不断得到更新或补充。
此外,该信息抽离***还可以包括其他的设备,比如发信服务器和终端等,如下:
发信服务器,用于向邮件服务器发送电子邮件。
终端,用于接收邮件服务器发送的抽离信息。
以上各个设备的具体实施可参见前面的实施例,在此不再赘述。
由于该电子邮件的信息抽离***可以包括本发明实施例所提供的任一种电子邮件的信息抽离装置,因此,可以实现本发明实施例所提供的任一种电子邮件的信息抽离装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
实施例五、
本发明实施例还提供一种服务器,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯***(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理***与处理器401逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
接收电子邮件,该电子邮件包括邮件内容和发信地址;根据该发信地址获取对应的预设模板,并确定该邮件内容是否命中该预设模板;若是,则确定该预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对该邮件内容进行信息抽离。
可选的,在将信息抽离后,还可以将抽离信息通过页面或APP等形式发送给终端,以提供给用户,即处理器401还可以用于执行:
将抽离信息发送给终端。
可选的,为了提高模板的适用率,在根据分类结果生成模板之后,还可以对生成的模板进行审核,即该处理器401还可以用于执行:
对生成的模板进行审核,若审核通过,则执行将生成的模板作为抽离模板的操作;若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的操作。
此外,在生成的模板审核通过时,还可以将生成的模板添加至预设模板集合中,从而使得该预设模板集合中的模板可以不断得到更新或补充;即该处理器401还可以用于执行:
将生成的模板添加至预设模板集合中。
以上各个操作的具体实施可参见前面的实施例,该服务器同样可以实现本发明实施所提供的任一种信息抽离装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种电子邮件的信息抽离方法、装置和***进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种电子邮件的信息抽离方法,其特征在于,包括:
接收电子邮件,所述电子邮件包括邮件内容和发信地址;
根据所述发信地址从预设模板集合中获取对应的预设模板,并确定所述邮件内容中提取的位置信息是否与所述预设模板匹配;其中所述预设模板根据电子邮件的内容和格式进行设置;
若是,则确定所述预设模板为抽离模板;
若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
采用抽离模板对所述邮件内容进行信息抽离;
所述确定所述邮件内容中提取的位置信息是否与所述预设模板匹配,包括:
从所述邮件内容中提取位置信息,得到第一位置信息;
从所述预设模板中提取位置信息,得到第二位置信息;
确定所述第一位置信息与第二位置信息是否匹配;
若匹配,则确定所述邮件内容与所述预设模板匹配;
若不匹配,则确定所述邮件内容与所述预设模板不匹配;
其中所述匹配是指差异小于预设值。
2.根据权利要求1所述的方法,其特征在于,
所述从所述邮件内容中提取位置信息,得到第一位置信息,包括:从所述邮件内容中提取可扩展标记语言的路径语言XPath信息,得到第一位置信息;
所述预设模板中提取位置信息,得到第二位置信息,包括:从所述预设模板中提取XPath信息,得到第二位置信息。
3.根据权利要求1所述的方法,其特征在于,所述按照预设策略对邮件内容进行分类,包括:
采用朴素贝叶斯分类法、决策树或相似分类法构建分类器;
通过所述分类器对邮件内容进行分类。
4.根据权利要求3所述的方法,其特征在于,所述通过所述分类器对邮件内容进行分类,包括:
从邮件内容中提取可扩展标记语言的路径语言XPath信息;
通过所述分类器将提取到的XPath信息划分为多个字段;
所述根据分类结果生成模板,包括:对划分后的多个字段进行合成,以生成模板。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据分类结果生成模板之后,还包括:
对生成的模板进行审核;
若审核通过,则执行将生成的模板作为抽离模板的步骤;
若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的步骤。
6.根据权利要求5所述的方法,其特征在于,在生成的模板审核通过时,还包括:
将生成的模板添加至预设模板集合中。
7.一种电子邮件的信息抽离装置,其特征在于,包括:
接收单元,用于接收电子邮件,所述电子邮件包括邮件内容和发信地址;
获取单元,用于根据所述发信地址从预设模板集合中获取对应的预设模板;
模板确定单元,用于确定所述邮件内容中提取的位置信息是否与所述预设模板匹配,其中所述预设模板根据电子邮件的内容和格式进行设置;若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
处理单元,用于采用抽离模板对所述邮件内容进行信息抽离;
其中所述模板确定单元包括提取子单元和匹配子单元;
所述提取子单元,用于从所述邮件内容中提取位置信息,得到第一位置信息;从所述预设模板中提取位置信息,得到第二位置信息;
所述匹配子单元,用于确定所述第一位置信息与第二位置信息是否匹配;若匹配,则确定所述邮件内容与所述预设模板匹配,确定所述预设模板为抽离模板;若不匹配,则确定所述邮件内容与所述预设模板不匹配,按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;
其中所述匹配是指差异小于预设值。
8.根据权利要求7所述的装置,其特征在于,
所述提取子单元,具体用于从所述邮件内容中提取可扩展标记语言的路径语言XPath信息,得到第一位置信息,以及从所述预设模板中提取XPath信息,得到第二位置信息。
9.根据权利要求7所述的装置,其特征在于,
所述模板确定单元,具体用于在确定所述邮件内容与所述预设模板不匹配时,采用朴素贝叶斯分类法、决策树或相似分类法构建分类器,通过所述分类器对邮件内容进行分类。
10.根据权利要求9所述的装置,其特征在于,
所述模板确定单元,具体用于在确定所述邮件内容与所述预设模板不匹配时,采用朴素贝叶斯分类法构建分类器,从邮件内容中提取可扩展标记语言的路径语言XPath信息,通过所述分类器将提取到的XPath信息划分为多个字段,对划分后的多个字段进行合成,以生成模板。
11.根据权利要求7至10任一项所述的装置,其特征在于,还包括审核单元;
所述审核单元,用于对生成的模板进行审核;若审核通过,则触发模板确定单元执行将生成的模板作为抽离模板的操作;若审核未通过,则对邮件内容进行调整后,触发模板确定单元执行按照预设策略对邮件内容进行分类的操作。
12.根据权利要求11所述的装置,其特征在于,还包括添加单元;
所述添加单元,用于将模板确定单元生成的模板添加至预设模板集合中。
13.一种电子邮件的信息抽离***,其特征在于,包括权利要求7至12任一项所述的电子邮件的信息抽离装置。
14.一种存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行如权利要求1至6中任一的电子邮件的信息抽离方法。
CN201610341717.1A 2016-05-20 2016-05-20 一种电子邮件的信息抽离方法、装置和*** Active CN106056350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610341717.1A CN106056350B (zh) 2016-05-20 2016-05-20 一种电子邮件的信息抽离方法、装置和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610341717.1A CN106056350B (zh) 2016-05-20 2016-05-20 一种电子邮件的信息抽离方法、装置和***

Publications (2)

Publication Number Publication Date
CN106056350A CN106056350A (zh) 2016-10-26
CN106056350B true CN106056350B (zh) 2020-10-13

Family

ID=57177406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610341717.1A Active CN106056350B (zh) 2016-05-20 2016-05-20 一种电子邮件的信息抽离方法、装置和***

Country Status (1)

Country Link
CN (1) CN106056350B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533921B (zh) * 2016-12-02 2018-02-13 深圳市小满科技有限公司 基于电子邮件信息的快速建档方法及***
CN110837996A (zh) * 2018-08-16 2020-02-25 深圳市唯德科创信息有限公司 一种对邮件进行智能分析管理的方法及***
CN109617981A (zh) * 2018-12-25 2019-04-12 北京天融信网络安全技术有限公司 一种基于网络的数据处理方法及电子设备
CN111753675B (zh) * 2020-06-08 2024-03-26 北京天空卫士网络安全技术有限公司 一种图片型垃圾邮件的识别方法和装置
CN113094523A (zh) * 2021-03-19 2021-07-09 北京达佳互联信息技术有限公司 资源信息的获取方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240066A (zh) * 2013-06-18 2014-12-24 腾讯科技(深圳)有限公司 一种电子邮件的会话展示方法和装置
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
CN104714970A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 电子邮件归类的方法、发送端、接收端和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150033141A1 (en) * 2013-07-24 2015-01-29 Yahoo! Inc. System and method for providing an interactive message inbox

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240066A (zh) * 2013-06-18 2014-12-24 腾讯科技(深圳)有限公司 一种电子邮件的会话展示方法和装置
CN104463552A (zh) * 2013-09-22 2015-03-25 中国电信股份有限公司 日历提醒生成方法和装置
CN104714970A (zh) * 2013-12-16 2015-06-17 阿里巴巴集团控股有限公司 电子邮件归类的方法、发送端、接收端和***

Also Published As

Publication number Publication date
CN106056350A (zh) 2016-10-26

Similar Documents

Publication Publication Date Title
CN105900466B (zh) 消息处理方法及装置
CN106056350B (zh) 一种电子邮件的信息抽离方法、装置和***
US10680978B2 (en) Generating recommended responses based on historical message data
CN106557330B (zh) 移动终端***通知栏通知信息处理方法、装置和移动终端
CN107085479B (zh) 提供手写风格校正功能的方法和适用于其的电子装置
CN103702297B (zh) 短信增强方法、装置及***
KR102560635B1 (ko) 컨텐트 인식 장치 및 그 동작 방법
US20170249934A1 (en) Electronic device and method for operating the same
KR20160003399A (ko) 스미싱 알림 방법 및 장치
CN109427331B (zh) 语音识别方法及装置
US20170109756A1 (en) User Unsubscription Prediction Method and Apparatus
CN109948090A (zh) 网页加载方法及装置
CN107145780A (zh) 恶意软件检测方法及装置
WO2015043163A1 (en) Method and apparatus for inputting account information
CN104281610B (zh) 过滤微博的方法和装置
CN106294087B (zh) 一种对业务执行操作的操作频率的统计方法及装置
CN108073613A (zh) 信息发送方法及装置
CN110020338B (zh) 浏览器、网页打开方法及设备
CN105095161B (zh) 一种显示富文本信息的方法及装置
KR102569998B1 (ko) 어플리케이션에 대한 알림을 관리하는 방법 및 그 전자 장치
CN106020983B (zh) 一种虚拟资源的处理方法、装置和***
CN106709330B (zh) 记录文件执行行为的方法及装置
CN109714483B (zh) 锁屏界面消息处理方法、装置、移动终端及存储介质
CN109657469B (zh) 一种脚本检测方法及装置
CN106657544A (zh) 一种来电录音的方法及终端设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant