CN108701291B - 在社交网络中利用用户信息的数字图像 - Google Patents

在社交网络中利用用户信息的数字图像 Download PDF

Info

Publication number
CN108701291B
CN108701291B CN201680039056.5A CN201680039056A CN108701291B CN 108701291 B CN108701291 B CN 108701291B CN 201680039056 A CN201680039056 A CN 201680039056A CN 108701291 B CN108701291 B CN 108701291B
Authority
CN
China
Prior art keywords
user
data items
data
account
digital image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680039056.5A
Other languages
English (en)
Other versions
CN108701291A (zh
Inventor
A·莱
C·德吉雷
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108701291A publication Critical patent/CN108701291A/zh
Application granted granted Critical
Publication of CN108701291B publication Critical patent/CN108701291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了基于数字图像(例如名片的数字图像)自动创建在线账户的技术。在一种技术中,识别已经从名片的数字图像提取的多个数据项。特定数据项是与名片相关联(或通过名片识别)的用户的联系信息。基于特定数据项向用户的计算设备发送验证码。从用户的计算设备接收验证码。响应于接收到验证码,为用户创建帐户,并且修改帐户以包含多个数据项中的至少一些。

Description

在社交网络中利用用户信息的数字图像
相关申请的交叉引用
本申请涉及2015年8月31日提交的申请号为14/841,527的美国专利申请;该美国申请的全部内容出于所有目的,如同在本文中充分公开一样通过引用并入本文。
技术领域
本公开内容涉及数据处理,更具体地涉及利用从数字图像提取的数据来为用户注册产品或服务。
背景技术
在线注册产品或服务是现代用户的一项常见任务。人们提供个人信息来注册社交网络、贸易展览会、以及其他内容或服务提供商。许多用户依赖于智能手机和其他移动设备,不仅要在产品或服务上注册,还要消费内容、利用服务以及参与在线社区。注册产品或服务的主要缺点之一是手动输入数据的繁琐性。为了解决这个问题,许多移动设备设置有相对较小的触摸屏或物理键盘。
在本部分中描述的方法是可以实行的方法,但不一定是先前已经构思或实行过的方法。因此,除非另外指明,否则不应该假定本部分中描述的任何方法仅由于其包含在此本部分中而被认为是现有技术。
附图说明
在附图中:
图1是描绘在一个实施方式中的用于为用户创建账户的***的框图;
图2A是描绘在一个实施方式中的用于自动注册用户的过程的流程图;
图2B是描绘在一个实施方式中的示例名片和显示名片的数字图像的移动设备的框图;
图2C是描绘在一个实施方式中的在注册过程期间生成的屏幕截图的框图;
图3是描绘在一个实施方式中的用于更新用户账户的过程的流程图;
图4是描绘在一个实施方式中的用于检测数字图像中的欺诈的过程的流程图;
图5A至图5B是描绘在一个实施方式中的用于识别从一个或多个名片提取的多语言同源词的过程的流程图;
图6是描绘可以在其上实施本发明的实施方式的计算机***的框图。
具体实施方式
在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,很显然本发明可以在没有这些具体细节的情况下实施。在其他情况下,以框图形式示出了公知的结构和设备,以避免不必要地模糊本发明。
总体概述
提供了一种基于对用户名片的扫描自动为用户创建账户(或注册用户)的方法和***。在一种技术中,用户对用户的名片拍照。分析照片以识别字符和词语,所述字符和词语与诸如个人姓名、公司名称、公司地址和手机号码之类的某些属性相关联。在为用户创建账户之前,例如通过短信或通过电子邮件向用户发送验证码。如果用户用正确的验证码进行响应,则为用户创建帐户。另外,将至少一些属性的已识别的一些属性值存储在账户中。以此方式,注册用户相对来说比较快,并且使得用户输入最少。
在相关技术中,基于对用户名片的扫描,用户的现有账户或在线简档将自动更新。在线服务器识别用户的现有帐户,并且将所辨别的任何数据项与已存储在现有帐户中的数据项进行比较。例如,如果照片辨别的公司名称与帐户中指定的公司名称不匹配,则照片辨别的公司名称将替换该公司名称。
尽管以下描述提供了涉及名片的示例,但是实施方式可以包括:另外地或排他地包括非商业相关信息的其他类型的卡。其他类型的卡的示例可以仅包括个人信息,例如(与卡上所命名的人的)个人地址,而不是商业地址。另一种类型的卡片的示例是全日制或兼职学生可能具有的学校卡或学术卡,所述卡标识学生当前登记的学术机构。另一个示例是其中包括关于一个人的个人信息和关于这个人的工作和/或学历背景的信息的简历。
***概述
图1是描绘在一个实施方式中的用于为用户创建账户的***100的框图。***100还可以用于实施在本文中描述的其他技术。***100包括客户端110、网络120、服务器***130和存储器140。
客户端110是被配置为通过网络120与服务器***130通信的应用或计算设备。计算设备的示例包括膝上型计算机、平板电脑、智能手机、台式计算机、个人数字助理(PDA)、以及被配置为基于在诸如纸张、印刷照片或名片等物理介质上反映的信息生成电子扫描数据的扫描设备。因此,计算设备可以包括能够拍照(即,创建相机视图的数字图像)的相机组件。应用程序的示例包括在被配置为通过网络120与服务器130进行通信的本地计算设备上安装和执行的专用应用程序。应用程序的另一个示例是从服务器***130下载并且在计算设备上运行的网络浏览器内执行的网络应用程序。客户端110可以用硬件、软件、或者硬件和软件的组合来实施。虽然仅描绘了单个客户端110,但是***100可以包括通过网络120与服务器***130交互的多个客户端。
通过客户端110,用户能够将数字图像和/或其他数字信息上传到服务器***130。然后,用户可以使用客户端110与服务器130交互以检索、补充和/或更新数字信息(或者简称为“数据”)。
网络120可以在提供客户端110和服务器***130之间的数据交换的任何媒介或机制上实施。网络120的示例包括但不限于诸如局域网(LAN)、广域网(WAN)、以太网或因特网等网络、或者一个或多个陆地链路、卫星链路或无线链路。
服务器***
尽管被描绘为单个元件,但是服务器***130可以包括连接在在本地网络中或者地域性地或全球性地分布在诸如因特网等许多网络上的多个计算元件和设备。因此,服务器***130可以包括除了账户管理器132和账户数据库134之外的多个计算元件。账户管理器132基于从数字图像提取的数据创建或更新账户。此外,账户管理器132通过网络120从计算设备(例如,客户端110)接收账户数据,其中账户数据由用户操作计算设备(例如,选择物理或图形键盘上的字符)来输入。
账户数据库134包括关于多个账户的信息。账户数据库134可以存储在一个或多个存储设备(永久性的和/或易失性的)上,该存储设备可以驻留在与服务器***130相同的本地网络内和/或驻留在相对于服务器***远程的网络中。因此,尽管被描绘为包括在服务器***130中,但是每个存储设备可以是(a)服务器***130的一部分,或者(b)通过本地网络、广域网或因特网被服务器***130访问。
在社交联网环境中,服务器***130由诸如LinkedIn、Facebook或Google+之类的社交网络提供商提供。在此环境下,账户数据库134中的每个账户包括由不同用户提供的用户简档。用户的简档可以包括名字、姓氏、电子邮件地址、住所信息、邮寄地址、电话号码、参加过的一个或多个教育机构、当前和/或之前的一个或多个雇主、当前和/或之前的一个或多个工作头衔、技能列表、证书(endorsement)列表、和/或朋友的姓名或身份、联系人、用户的人脉以及以候选者采取的行为为基础的派生数据。此类行为的示例包括:用户应聘过的工作、招聘信息的视图、公司页面的视图、用户与用户的社交网络中的其他用户之间的私人消息、以及用户发布的且用户的社交网络之外的用户(但他们是社交网络提供商的注册用户/成员)可见的公共消息。
用户简档内的一些数据(例如工作经历)可以由用户提供,而用户简档内的其他数据(例如技能和证书)可以由诸如用户的“朋友”、人脉、同事之类的第三方提供。
服务器***130可以以多种方式之一提示用户提供简档信息。例如,服务器***130可以在网页上为上面提到的一种或多种类型的信息提供文本输入框。响应于从用户设备接收到简档信息,服务器***130将信息存储在与用户相关联且与凭证数据相关联的帐户中,所述凭证数据用于在用户随后尝试登录到服务器***130时向服务器***130认证用户。用户提供的每个文本字符串可以与输入文本字符串的输入框相关联地存储。例如,如果用户在工作头衔输入框中输入“销售经理”,则“销售经理”与指示“销售经理”为工作头衔的类型数据相关联地存储。作为另一个示例,如果用户在技能输入框中输入“Java编程”,则“Java编程”与指示“Java编程”为技能的类型数据相关联地存储。
在一个实施方式中,服务器***130将访问数据与用户的账户相关联地存储。访问数据指示哪些用户、团体或设备可以访问或查看用户的简档或其部分。例如,用户简档的第一访问数据指示只有用户的人脉可以查看用户的个人兴趣,第二访问数据指示确认的招聘者可以查看用户的工作经历,以及第三访问数据指示任何人都可以查看用户的证书和技能。
在一个实施方式中,用户简档中的一些信息由服务器***130自动确定(或者另一种自动处理)。例如,用户在他/她的简档中指明了用户的雇主姓名。服务器***130基于该姓名来确定雇主和/或用户位于何处。如果雇主具有多个办公室,则当用户向(例如由服务器***130提供的)社交网络服务注册时并且/或者当用户最后一次登录到社交网络服务时,可以基于与用户相关联的IP地址来推测用户的位置。
尽管本文中的许多示例是在社交联网的环境下,但是实施方式不限于此。例如,用户可以向贸易展览会、杂货店连锁(例如为了获得未来购买的折扣)、在线竞赛、或者例如银行的金融机构注册,而不是向社交网络提供商注册。作为另一个示例,用户可以在任何在线服务上注册以获得免费的产品、服务或奖品。
过程概述
图2A是描绘在一个实施方式中的用于自动注册用户的过程200的流程图。过程200可以由客户端110、服务器***130、或者客户端110和服务器***130的组合来实施。
在框210处,识别已经从数字图像提取的多个数据项。数字图像可以是与特定用户相关联的名片的数字图像。数字图像可以是诸如.jpg文件、.png文件、.tif文件或.gif文件之类的许多不同格式中之一。
图2B是描绘在一个实施方式中的示例名片250和显示该名片的数字图像的移动设备260的框图。
框210可以在服务器***130、客户端110或第三方服务采用相机或扫描设备来生成数字图像之前进行。然后,可以使用一种或多种光学字符辨别(OCR)技术从数字图像中辨别和提取字符和词语。在应用OCR技术之前,可以使用一种或多种预处理技术将数字图像转换为不同的格式,例如从.png文件转换为.jpg文件。
可以通过与生成数字图像的设备相同或不同的(例如远程)设备来实施OCR技术。例如,正在操作客户端110(例如,包括相机的移动设备)的用户对用户(或另一个用户)的名片拍照。然后将图片(或数字图像)通过网络120传送到服务器***130,服务器***130针对数字图像实施OCR技术。
在框210中识别的数据项包括用户相关信息,例如用户的名字、姓氏、雇主名称、雇主地址、工作头衔和联系信息(例如电子邮件地址和/或电话号码)。
名片可以标记至少一些数据项。例如,名片可以在连续字符串之前具有短语“名字:”。作为另一个示例,名片可以在作为典型地址的字符串之前具有词语“地址:”。作为另一个示例,名片可以在包括10个数字字符和数字字符之间的两个或更多个句点(“。”)、破折号(“-”)或空格(“”)的字符串之前具有词语“电话号码:”。以此方式,OCR技术可以依赖于标签,以便自动将适当的标签与各个数据项高置信度地关联起来(或者将每个数据项与适当的属性高置信度地关联起来)。标签指示诸如名字、公司名称、电话号码和电子邮件地址之类的信息类型。可替选地,名片可以没有任何标签。因此,OCR技术分析从数字图像中提取的文本中的样式。
在相关实施方式中,OCR技术仅辨别数字图像中的字符以及各字符之间的顺序,并且确定如何在数据项之间进行标示并且适当地标记数据项是另一个软件处理和/或硬件组件的责任。例如,由于许多电话号码、电子邮件地址、网络域名和地址遵循某些样式,因此这些数据项可以更容易识别。一旦其他数据项已被识别和标记,识别和标记其余的数据项(例如个人姓名和公司名称)可以更容易。
框210还可以涉及在用户的计算设备上显示用以创建账户的选项。图2C是描绘在一个实施方式中的在注册过程期间生成的示例屏幕截图的框图。屏幕截图270描绘了从数字图像中提取的信息,例如用户的姓名、组织名称(在所描述的示例中为“LinkedIn”)、工作头衔以及识别组织的时间段。屏幕截图270还包括邀请用户创建帐户的“创建帐户”按钮,创建帐户至少部分通过选择该按钮来完成。
在框220处,使用联系信息向用户的计算设备发送验证码。验证码可以是任何数值串,例如字母数字字符。
在一个实施方式中,如图2C所示,在用户的计算设备上显示验证码。屏幕截图280包括接受或拒绝接收验证码的提示。可替选地,屏幕截图280不包括上述提示,而是包括通过短信或通过电子邮件接收验证码的选项。如果从数字图像中识别出用户的电话号码和电子邮件地址这二者,则可以显示该选项。该选项还可以指示所提取的电话号码和所提取的电子邮件地址,以防其中一个不正确或者两个都不正确。
验证码可以作为210的一部分生成或者在数字图像生成之后生成。例如,响应于检测到数字图像中的联系信息,服务器***130生成验证码。可替选地,验证码可以是在数字图像被创建之前生成的。例如,服务器***130产生一组验证码,并且在接收到数字图像时(例如随机地或以连续方式)选择验证码中的一个。因此,验证码可以使用两次(即,针对不同的用户可使用两次)。无论何时生成验证码,验证码都与数字图像中识别的联系信息或用户相关联。
如果联系信息是电话号码,则经由诸如SMS或MMS消息等短信将验证码通过蜂窝网络发送。在此情况下,计算设备是移动电话,电话号码是移动电话的电话号码。如果联系信息是电子邮件地址,则通过电子邮件消息将验证码通过数据网络(例如网络120)发送到由电子邮件地址识别的电子邮件帐户。用户使用计算设备访问电子邮件账户并查看电子邮件消息。
在任一种情况下,向用户呈现通过计算设备呈现的包括验证码的用户界面。例如,由服务器***130通过在计算设备上执行的网络浏览器来提供用户界面。作为另一个示例,由在计算设备上执行的移动应用程序生成用户界面。
在这两种情况下,用户查看验证码(无论是通过短信还是电子邮件)并且通过用户界面提供输入。输入可以是文本输入(在文本输入中,用户通过例如智能手机上显示的图形键盘手动输入验证码)或语音输入(在语音输入中,用户说出验证码并且验证码被自动翻译成文本,无论是在计算设备处还是远程地例如在服务器***130处)。
图2C的屏幕截图280描绘了一种用户界面,包括(1)用户输入验证码的文本输入框以及(2)在被选择时使得验证码被发送到服务器***130的按钮。
在框230处,从用户的计算设备接收验证码。例如,在计算设备上执行的应用程序或网页应用程序通过网络120将验证码发送到服务器***130。
在框240处,响应于接收到验证码,为用户创建账户。例如,账户管理器132创建账户并将账户(及其相应的细节)存储在账户数据库134中。新帐户可以具有诸如名字、姓氏、雇主名称、雇主地址、雇主网站域名、电话号码、电子邮件地址和工作头衔之类的多个默认属性。新账户被修改为包括在框210中识别的诸如用户的姓名、工作头衔、雇主名称和雇主地址之类的数据项(或对应于属性的属性值)中的一些(或全部)。
在一些情况下,新用户可以是个体经营者。例如,服务器***130确定在从数字图像提取的信息中没有识别到雇主名称。服务器***130可以将验证新用户是否是个体经营者的提示发送到客户端110。如果新用户(例如通过手动选择图形按钮)提供了适当的输入,则账户管理器132与新账户相关联地存储用于指示新用户是否是个体经营者的就业数据。
如果用户发起了过程200,则框240可以涉及在提取的数据项与新帐户相关联地持续存储之前或者在用户和/或其他用户访问新帐户之前提示用户验证所提取的一个或多个数据项的准确性。可以仅针对服务器***130(或OCR过程)不确定的数据项提供提示。可以以多种方式之一来测量置信度,并且置信度分数可以基于任何标度,例如在0与1之间,其中高于例如0.7的任意置信度分数被认为是高置信度的。
例如,服务器***130可以对以下具有高置信度:数据项是用户的姓名并且用户的姓名被准确地提取。在此情况下,不会显示提示。然而,服务器***130可以对于数据项是雇主名称或者雇主名称被准确提取不具有高置信度。在此情况下,会显示提示。提示可以涉及用户界面,用户界面向用户提供两个选项:“是”和“否”。如果“否”(或不准确),则允许用户更正雇主名称的拼写或者重新标记作为雇主名称的数据项。
在创建账户之后,可以通过计算设备提示用户为账户创建至少一个密码,以及可选地为账户创建用户名。最初,可以将用户名设置为从数字图像中提取的联系信息的一部分,例如电子邮件地址或移动电话号码。然后,用户因此可以使用用户名和密码安全地访问新创建的账户。
在一个实施方式中,客户端110包括被配置为具有预注册模式和后注册模式这两种模式的移动应用程序。基于所述模式,移动应用程序允许用户执行不同的功能。例如,在预注册模式下,移动应用程序允许用户对名片拍照并通过网络120将名片上传到服务器***130,使得服务器***130可以分析图片并辨别在图片上反映的数据项。在后注册模式下,移动应用程序允许用户访问他/她的账户,并发起一个或多个操作使得用户不能以预注册模式发起。
具体示例
作为具体示例,用户使用相机、智能电话、或者其他包括相机的移动设备来对用户的名片拍照。将照片发送到实施光学字符辨别技术的在线服务。在线服务对照片中检测到的字符元素进行令牌化(tokenize)。在线服务(或其他组件)将令牌化元素与特定的简档属性(例如姓名、公司地址、公司名称和电话号码)进行标记或关联。可以将令牌化元素显示给用户以允许用户确认令牌化的元素的准确性。将验证码发送到(与原始用户相同或不同的)用户的计算设备或用户的在线账户(例如电子邮件账户)。可以已经从照片中提取出计算设备的身份(例如移动电话号码)或在线账户。(被通知的)用户接收到验证码,然后将验证码提交给在线服务(或其他组件)。如果验证码是合法的,则在线服务为被通知的用户创建帐户。该帐户会自动填充至少一些令牌化元素。例如,在照片中辨别出姓名,并将其存储为(或标记为)姓名。类似地,在照片中辨别出商业地址,并将其存储为(或标记为)商业地址。
在相关实施方式中,在过程200中不使用验证码。而是基于从数字图像提取的数据项自动注册用户。例如,用户从“应用程序商店”向她的移动设备下载应用程序。该应用程序允许用户对名片拍照,并且通过网络120将图片(或数字图像)发送到服务器***130。账户管理器132基于从数字图像提取的数据项创建账户。服务器***130通过网络120向应用程序发送用于通知用户成功注册的通知。该通知可以包括提取的数据项,并且可以提示用户使用应用程序对数据项进行任何更正。
在任一实施方式中,可以执行检查以确定用户是否已经是服务器***130的注册用户。例如,将从数字图像提取的姓名与一个或多个注册用户的姓名进行比较以确定是否存在匹配。如果存在匹配(并且可选地,从数字图像提取的一个或多个其他数据项匹配同一现有账户的数据项),则可以不自动创建新账户并且/或者需要用户进一步输入以便创建新的帐户。
对另一名片拍照
以下示例类似于上述示例,不同之处在于第一用户对第二用户的名片拍照。第二用户可以已经在贸易展览会或客户会议上向第一用户分发了名片。作为该过程的一部分,向第二用户的计算设备或第二用户的在线账户(例如电子邮件账户)发送邀请。再次,计算设备的身份(例如移动电话号码)或在线账户可以已经从名片的照片中被提取。第二用户接收到通知,然后提供输入,表明第二用户希望为第二用户创建在线账户,例如由社交网络提供商维护的账户。通知可以是包含第二用户选择的链接的短信或电子邮件。通知可以包括从照片中提取的并标记为例如名字、姓氏、公司名称、公司地址、电话号码等的令牌化元素(或数据项)。链接可以是为第二用户生成的唯一链接。例如,链接可以包括与第二用户和所提取的简档信息相关联的唯一代码。该链接在被第二用户选择时使得指示了为第二用户自动创建在线账户的网页被显示,或者使得基于第二用户的进一步输入(例如确认所提取的信息是准确的和/或正确标记的)来创建这样的账户的网页被显示。
在服务器***130托管社交联网服务并且第一用户(即对第二用户的名片拍照的人)是服务注册成员的实施方式中,(例如由服务器***130)为第二用户自动地生成连接(或朋友)请求。第二用户可以在例如第二用户登录他/她的账户时或者当第二用户经由在第二用户设备上执行的移动应用程序接收到通知时查看连接请求。连接请求在被显示给第二用户时,指示第一用户(即,发起创建第二用户的名片的一个或多个数字图像的用户)想要连接到第二用户(或者与第二用户“成为朋友”)。连接请求可以将第一用户识别为对第二用户的名片拍照的人。以此方式,第一用户不需要提供(除了对第二用户的名片拍照之外的)明确输入来向第二用户发送连接请求。如果第二用户提供某个输入(例如选择作为连接请求的一部分被显示的“接受”按钮),则在服务器***130中创建第二用户与第一用户之间的连接或关联。此后,第二用户和第一用户在社交网络中被认为是彼此的朋友或人脉。
在相关实施方式中,为第一用户自动生成连接请求。可以响应于确定为第二用户自动创建账户和/或确定第二用户提供表明希望与第一用户连接的输入来创建该连接请求。
在相关实施方式中,不是自动生成针对第二用户或第一用户的连接请求,而是自动生成连接建议。当由例如第二用户选择时,生成连接请求并将连接请求递送给第一用户。
在一个实施方式中,仅当第二用户是社交联网服务的成员时才自动生成连接请求。
确定如何递送验证码
在一个实施方式中,例如在发给第二用户的电子邮件帐户的电子邮件中,关于是否通过蜂窝网络向第二用户的计算设备或通过数据网络向与第二用户相关联的在线账户发送验证码进行确定。可以基于辨别第二用户的名片的数字图像中的电子邮件来自动识别电子邮件。可以基于一天中的当前时间或者基于(客户端110的)应用程序当前正在执行的模式来确定。例如,如果一天中的当前时间在早上9点与下午6点之间,则(通过蜂窝网络)向第二用户的计算设备发送短信。在夜间接收到短信会被认为是不合礼节。因此,在傍晚和夜晚时间(例如,在一天的下午6点到次日的上午9点之间)期间,替代地通过数据网络(例如以电子邮件的形式)发送验证码。
作为另一个示例,第一用户在客户端110上进行交互所利用的应用程序可以处于包括当前扫描模式和稍后扫描模式的多种模式之一。在当前扫描模式下,通过蜂窝网络将验证码发送到第二用户的计算设备。在稍后扫描模式中,通过数据网络将验证码发送到与第二用户相关联的在线账户。第一用户提供输入,指示应用程序应当在哪种模式下操作或运行。当前扫描模式假定用户最近(例如在最近几分钟内)接收到即将要被拍照的名片。稍后扫描模式假定从用户接收到这样一张名片之后已经过去了相当长的时间。例如,用户可以在白天的贸易展览会上收集多张名片,并且在一天结束时相对较快地连续对所有名片拍照。
在相关的示例中,不采用上述模式,用户通过客户端110提供输入,指示验证码是要通过蜂窝网络还是数据网络(或者是使用短信还是电子邮件消息)发送。输入可以在对名片拍照之前或在拍照之后。例如,在客户端110上执行的应用程序可以提示(客户端110的)第一用户指示应当如何将验证码发送到第二用户。提示可以包括诸如短信、电子邮件消息、或其他消息等多个选项,例如被发送到与第二用户相关联的在线账户并将通过数据网络自动地转发到第二用户的计算设备的通知。第一用户选择所述多个选项中的一个选项,使得消息被发送。
日期项特定处理
在一个实施方式中,从数字图像提取的不同数据项以不同方式处理。例如,确定将哪些提取的数据项包括在新帐户中或者确定对个别数据项应用什么访问权限。作为具体示例,公司名称的处理方式与电话号码不同。公司名称可以自动包括在新帐户中,而电话号码则不会。可替选地,两个数据项都被包括在新账户中,但是公司名称被认为是服务器***130的其他用户或成员可以查看的公共信息,而电话号码被认为是只有某些用户才能查看的私人信息,某些用户例如是新用户(即对应于新帐户的新用户)的“朋友”或人脉的用户。
访问权限可以包括公共权限、私人权限和半私人权限。公共权限可以指示:允许任何访问服务器***130的用户(不管用户是否是注册成员)查看“公共”数据项(例如公司电话号码)。私人权限可以指示:仅允许用户的经确认的人脉或“朋友”查看“私人”数据项(例如电子邮件地址)。半私人权限可以指示:仅允许服务器***130(或社交网络提供商)的注册成员查看“半私人”数据项(例如Twitter ID)。可以定义更多或更少的访问权限。例如,“超级私人”权限可以指示仅允许用户的某些人脉查看“超级私人”数据项(例如家庭电话号码)。
在一个实施方式中,每个账户属性(例如姓名、地址、雇主名称、网域地址、电话号码、电子邮件地址)与默认访问权限相关联,其中一些访问权限可以与同一账户的其他访问权限有所不同。因此,在创建新帐户时,新帐户包括这些默认访问权限。因此,如果第一数据项与具有第一访问权限的第一属性相关联,则第一数据项与第一访问权限相关联地存储在新账户中。如果第二数据项与具有第二访问权限的第二属性相关联,则第二数据项与第二访问权限相关联地存储在新账户中。
在一个实施方式中,提示与新账户相关联的用户确认或验证对于一个或多个日期项的访问权限的类型。例如,(例如通过用于发起创建数字图像的移动应用程序)提示用户确认公司名称将与公共权限相关联。可以针对所提取的每个数据项提供该提示,或者仅针对所提取的被认为是私人的、半私人的或超级私人的数据项提供该提示。因此,对于所提取的被默认认为是“公共的”数据项,可以不提示用户对访问权限进行验证。在新账户被正式创建或可供新用户或其他用户随后访问之前,可以提供提示。可替选地,当新用户首次访问新账户时,可以提供提示。可替选地,当新帐户对于一个或多个其他用户变得可用或者当创建新账户与其他用户的一个或多个连接时,可以提供提示。
更新现有账户
在一个实施方式中,将从(例如名片的)数字图像提取的一个或多个数据项用于自动更新用户的现有账户。以此方式,用户可以简单地通过扫描用户的新名片来更新例如用户的工作头衔、雇主名称和工作地址。
图3是描绘用于更新用户的账户的过程300的流程图。过程300可以由账户管理器132执行或者由服务器***130的另一组件执行。
在框310处,计算设备(例如客户端110)显示由应用程序生成的用户界面。在框310处,正在操作计算设备的用户已经登录到服务器***130。应用程序可以是被配置为通过网络120与服务器***130通信的移动应用程序。可替选地,应用程序可以是在网页浏览器内执行的网页应用程序。
在框320处,生成数字图像。例如,用户将相机朝向包括用户信息的(可打印的或以其他方式的)名片或其他介质,并使相机拍照,从而得到存储在客户端110中的数字图像。随后,用户使用应用程序选择为数字图像分配的名称,并使得数字图像上传到服务器***130或者上传到执行OCR的另外的(例如附属的)在线服务。作为相关示例,在客户端110上执行的移动应用程序和与客户端110集成的相机进行通信,并接收用户的输入(例如选择触摸屏显示器上的图形按钮)以使相机拍照。
拍照可以自动发起将数字图像发送到OCR过程的过程,OCR过程可以(例如作为移动应用程序的一部分)在客户端110上执行或者可以在客户端110的远程设备上执行。
在框330处,作为OCR过程的一部分,在数字图像中检测并辨别一个或多个数据项。框330可以由服务器***130执行,或者由另外的计算组件(例如通信地耦合到服务器***130的第三方服务)执行。如果是由另外的计算组件执行,则另外的计算组件将一个或多个数据项发送到服务器***130。
在框340处,针对一个或多个数据项中的每个数据项确定信息类型。例如,可以确定一个数据项是雇主名称,而可以确定另一数据项为电话号码。框340可以由服务器***130执行,或者由另外的计算组件(例如还对数字图像执行OCR的计算组件)执行。
在框350处,识别在线账户。可以基于登录到服务器***130且发起生成数字图像的用户的身份来识别在线账户。可替选地,可以基于从中接收到数字图像的计算设备的身份来识别在线账户。可替选地,可以基于从数字图像提取的信息(例如电话号码或电子邮件地址)来识别在线账户。
在框360处,将每个数据项和与在线账户相关联地存储的对应数据项进行比较以确定是否存在匹配。因此,如果提取的数据项是特定的公司名称,则将该特定的公司名称与在线账户中的公司名称的现有值进行比较。匹配可涉及精确匹配(例如,在精确匹配中,一个数据项中的每个字符必须与另一数据项中的对应字符相匹配)。可替选地,匹配可以是数据项不精确匹配的“模糊”匹配。例如,提取的数据项可以是“XYZ,Inc.”,而在线账户中的对应数据项是“XYZ股份有限公司”。
如果在框330处从数字图像提取了仅单个数据项,则框360可涉及单个比较。如果在框330处提取了多个数据项,则框360可以涉及多次比较,所提取的每个数据项进行一次比较。
在一种情况下,所提取的数据项可以没有在线账户中的对应物。例如,电话号码是从数字图像中提取的,但在线帐户不包含用户的电话号码。在一个实施方式中,这被认为是不匹配的,在此情况下,自动更新在线账户以包括电话号码。在相关实施方式中,提示用户首先确认他/她希望将电话号码包括在在线账户中。
如果框360为否(即,不存在匹配),则过程300进行到框370。
在框370处,基于不匹配的一个或多个数据项来更新在线账户。例如,如果从数字图像中提取的公司名称与当前存储在在线账户中的公司名称不同,则在在线账户中用提取的公司名称替换当前公司名称。
“有噪声”OCR
先前的描述假定OCR用于对数字图像中的数据项进行高质量提取。然而,在信息不准确的情况下,会得到许多“有噪声”结果。例如,所提取的公司名称可以是“Linkedn”,其中名片上的公司名称实际上是“LinkedIn”。作为另一个示例,所提取的URL可以是“(ompauywctisile.com”,其中名片上的URL实际上是“companywebsite.com”。错误的OCR提取不仅能造成麻烦,还会触发不希望的简档更新,例如更改用户当前雇主的名称。
在一个实施方式中,使用社交图来改进OCR提取。换句话说,使用社交图中反映的已知实体(例如个人姓名和公司名称)及其各自关系来更正存在于OCR提取中的辨别错误。例如,如果个人的姓名和电子邮件地址是准确的,则使用这样的信息从社交图中识别这个人。识别在这个人的社交图中的与这个人连接的一个或多个成员,并且将其各自简档中的一个或多个简档数据项与所提取的数据项进行比较。如果所提取的数据项与另一成员的简档数据项(特别是由另一成员手动输入的简档数据项)之间的编辑距离为零(指示精确匹配),则确定所提取的数据项被正确辨别。可替选地,因为一个或两个匹配可能并不重要,所以在确定所提取的数据项被正确辨别之前,需要识别相对于所提取的数据项具有零编辑距离的多个简档数据项(例如四个),每个简档数据项来自不同的简档。
如果所提取的数据项与另一成员的简档数据项之间的编辑距离大于零但小于特定阈值(例如,小于三),则可以确定所提取的数据项被错误辨别。可替选地,在确定所提取的数据项被错误辨别之前,对所提取的单个数据项执行能得到非零编辑距离的多次比较。在此情况下,选择与相对于所提取的数据项的最小编辑距离相关联的简档数据项作为候选数据项。可以修改在线账户/简档(无论是旧的还是新的)以包括候选数据项。可替选地,在更新在线账户/简档之前,提示用户输入以确认(例如在多个候选数据项中)候选数据项确实是正确的。
在相关实施方式中,服务器***130维护诸如个人姓名、组织名称、组织电话号码和组织URL等已知实体的列表。每种信息都可以具有单独的列表。已知实体的列表可以来自由服务器***130托管的社交网络的现有成员。已知实体的列表可以限于在至少一定数量(例如六十个)的成员简档中找到的实体。然后使用从数字图像提取的数据项来遍历已知实体的列表。例如,如果所提取的数据项被确定为个人姓名或组织名称(或者明确不是电话号码、电子邮件地址或URL),则将所提取的数据项与个人姓名列表和组织名称列表中的实体进行比较。如果所提取的数据项与其中一个列表中的名称相匹配,则假定所提取的数据项被正确辨别。因为例如新公司名称可能不匹配任何先前的公司名称,所以即使所提取的数据项与任一列表中的任一名称都不匹配,所提取的数据项仍然可以被正确辨别。然而,如果所提取的数据项(相对于一个或多个简档数据项)具有小于特定阈值(例如四)的非零编辑距离,则确定所提取的不匹配数据项被错误辨别。
在一个实施方式中,使用与匹配数据项(即,其匹配已提取数据项)相关的数据项来检查拼写和/或更正从与所述已提取数据项相同的数字图像或名片中提取的数据项。在该实施方式中,(例如由服务器***130)存储与多个组织中的每一个组织有关的多个数据项。例如,特定公司的记录包括公司的名称、公司的电话号码、公司的URL、以及公司的地址。之后,当从数字图像中提取的数据项被识别时,确定所提取的数据项是否匹配多个记录的一个记录中的数据项。如果所提取的数据项匹配特定记录中的数据项,则使用特定记录中包括的其他数据项来检查拼写或更正从数字图像提取的其他数据项。例如,如果所提取的第二数据项与特定记录中的数据项之间的编辑距离大于零且小于四,则可以假定所提取的第二数据项拼写错误,并且可以用特定记录中的数据项来替换所提取的第二数据项。
双面名片
一些名片可以在两面包括关于公司和/或个人的信息。在一个实施方式中,允许用户扫描卡片的两面,从而产生两个数字图像。使用从两面提取的信息来填充新帐户或更新现有帐户。
在一个实施方式中,提示用户指示名片是否具有两面。(a)在创建第一数字图像之前,(b)在创建第一数字图像之后但在创建第二数字图像之前,或者(c)在创建两个数字图像之后,可以提供这样的提示。
在可替选实施方式中,服务器***130(或客户端110)自动确定两个数字图像是否基于同一张名片。用于确定两个数字图像是同一张名片的示例标准包括与每个数字图像相关联的时间戳、在数字图像中检测到的伪像(artifact)的相似性、在每个数字图像中识别的所提取数据项、和/或两个数字图像中的互补信息。
例如,如果在彼此的两分钟内创建两个数字图像,则两个数字图像更可能是同一张名片的不同面。作为另一个示例,如果两个数字图像具有相同或相似的格式(例如,相同的文本字体和边界颜色)并且/或者如果从两个数字图像中提取到相同的组织名称,则这两个数字图像更可能是同一张名片的不同面。作为另一个示例,如果从一个数字图像提取的数据项包含个人信息(例如姓名、工作头衔和联系信息),并且从另一个数字图像提取的数据项包含商业信息(例如公司名称、公司地址和公司URL),则这两个数字图像更可能是同一张名片的不同面。作为类似示例,如果(1)从一个数字图像提取的数据项的信息类型(例如姓名、电子邮件地址、电话号码)小于默认信息类型的60%;(2)从另一数字图像提取的数据项的信息类型(例如雇主名称、徽标、商业地址)小于默认信息类型的60%;(3)这些信息类型一起覆盖超过了默认信息类型的80%,则这两个数字图像可能是同一张名片。
可以结合使用这些标准或类似标准中的多个标准来确定两个数字图像是否是同一张名片的不同面。
工作经历
在一个实施方式中,基于从多个数字图像提取的信息自动创建工作经历并将其包括在在线账户中。例如,用户(无论是否注册)(例如使用客户端110)对多个名片拍照。关于从一系列数字图像提取的每个雇主和/或工作头衔的信息被添加到在线账户。所提取的每组信息(每个名片对应一组信息)被标记为先前工作职位或当前工作职位。在一些实施方式中,即使用户能够指示多个工作职位为当前职位,在线账户也仅被配置为将一个工作职位自动标记为当前职位。
在一个实施方式中,在在线账户中反映的工作经历指示当前职位和多个过去职位。工作经历可以不指示多个职位的顺序。
可替选地,在线账户中的工作经历包括指示对应用户担任过去职位的顺序(如果存在多个过去职位)的顺序信息。例如,第一工作职位(对应于名片的一个或两个数字图像)可以与指示第一工作职位在第二工作职位(对应于另一张名片的一个或多个数字图像)之前的数据相关联。
在一个实施方式中,基于创建各种名片的数字图像的顺序来推测工作职位的顺序。例如,如果在对第二名片拍照之前对第一名片拍照,则从第一名片的数字图像提取的工作职位信息以有序数据的方式被存储,所述有序数据指示相应的工作职位出现在与从第二名片的数字图像提取的工作职位信息对应的工作职位之前。这样,不需要用户输入以指示哪个工作职位是用户先担任的。
在一个实施方式中,基于从多个数字图像提取的信息来推测工作职位的顺序。例如,多个名片可以指示用户已经担任过的工作头衔。不同的工作头衔指示不同的资历水平。如果(从数字图像提取的)第一工作头衔被认为是相对于(从另一个数字图像提取的)第二工作头衔的较高资历水平,则与第二工作头衔相对应的工作职位被认为是在与第一工作头衔相对应的工作职位之前用户已经担任的。
在一个实施方式中,在账户管理器132(或另一个过程)自动确定工作职位的顺序的情况下,可以提示客户端110的用户确认该顺序。例如,通过客户端110生成用户界面并将其显示给用户,其中用户界面显示工作职位的初始顺序(例如,针对每个工作职位指示工作头衔、雇主名称和/或雇主徽标),该顺序可以基于创建相应数字图像的顺序。用户界面可以允许用户将一个或多个图形元素(每个图形元素表示一个工作职位)相对于其他图形元素(每个图形元素表示一个工作职位)进行移动,以便按照适当的时间顺序放置工作职位。另外,用户界面可以允许用户为每个工作职位指明用户担任该工作职位的开始日期或时间段。
组织账户
如本文所示,名片可以包含大量的相关信息,不仅包含关于个人的相关信息,而且包含关于名片上识别的公司和其他组织的相关信息。
在一个实施方式中,账户数据库134包括诸如公司、独资企业、学术机构、慈善机构、非营利组织等组织的账户。在该实施方式中,服务器***130可以对允许用户(不管是否注册)查看关于多个组织的信息的社交联网服务进行托管。响应于来自客户端设备的查看简档或“公司页面”的请求,访问账户数据库以识别适当的账户,并且将账户中包含的信息的至少一部分发送到客户端设备以进行显示。
在一个实施方式中,服务器***130确定是否为组织创建新账户。在分析数字图像以提取信息时,识别组织名称。账户识别器132(或另一个过程)将该组织名称与存储在账户数据库134中的一个或多个组织名称进行比较。可以单独于个人简档对组织帐户进行存储(也可以选择单独于个人简档对组织账户进行索引)以加速对帐户数据库134的搜索。比较组织名称可以涉及对组织名称进行逐字符比较。在一个实施方式中,在执行比较之前,可以修改组织名称中的一个或两个。例如,可以从组织名称中删除以下词语和缩写:“Inc.”、“股份有限公司”、“Ltd.”、“LLP”、“LLC”、“集团”和“Corp.”。如果找不到匹配,则创建并填充新的组织帐户。
组织名称之间的每次比较可以产生匹配分数,匹配分数指示匹配强度或两个组织名称匹配的可能性。匹配分数越高,两个组织名称匹配的置信度就越高。如果匹配分数低于在0到1的范围内的某一阈值(例如0.3),则创建新的账户。
在一个实施方式中,使用组织名称以外的一个或多个数据项来确定特定组织是否存在账户。例如,将组织地址、组织网址、组织电话号码和/或组织徽标与帐户中的相应数据项进行比较,以确定数字图像中指示的组织的帐户是否已经存在。除了组织名称之外还可以使用这些数据项,或者可以独立于组织名称使用这些数据项。例如,如果组织网址与现有组织帐户中的网址匹配,则新帐户不用更新。又例如,如果组织电话号码和邮寄地址与现有组织账户中的相应数据项匹配,则不更新新账户。
不同类型的数据项之间的比较可以产生不同类型的比较分数(不管类型是关于个人的数据项还是关于组织的数据项)。例如,电话号码的比较分数可以是“匹配”或“不匹配”,而邮寄地址的比较分数可以在0与100之间的范围。不管是否使用不同类型的比较分数,都可以基于多个个体比较分数来生成综合分数。
在一个实施方式中,账户识别器132(或与服务器***130相关联的另一个过程)确定是否更新现有组织账户。该确定可以独立于确定是否创建新的组织帐户而作出,或者在确定不应创建新的组织帐户之后作出。在此更新实施方式中,账户识别器132首先确定(在账户数据库134中)关于由从数字图像提取的一个或多个数据项指示的组织是否存在组织账户。(可以使用在此描述的用于确定账户数据库134中是否已经存在组织账户的技术。)如果是这样,则将所提取的一个或多个数据项中的每一个数据项相对于组织账户中的数据项进行比较。如果任何比较得出确定为不匹配的结果,则使用所提取的相应数据项来更新组织账户,例如通过将所提取的数据项包括在组织账户中(如果组织账户还没有包括该信息),或者通过用所提取的数据项替换不匹配的数据项(如果存在不匹配的数据项)。例如,如果组织帐户中的电话号码与所提取的组织电话号码不匹配,则可以用所提取的电话号码替换现有的电话号码,或者可以将所提取的电话号码添加为该组织的可能电话号码之一。
徽标
账户数据库134可以存储一个或多个用户的不完整的账户信息。用户帐户中可能缺少的一条信息是徽标。徽标是商业企业、组织甚至个人通常用来帮助和促进即时公众辨认的图形标记、会徽或符号(例如耐克“旋风”)。徽标可以是纯粹的图形(符号/图标),或者可以由组织的名称构成。与用户简档或帐户相邻地显示徽标会使得此类用户简档比不包含徽标的简档更频繁地被选择和查看。
在一个实施方式中,从(例如名片的)数字图像提取的两个数据项为徽标和组织名称。账户管理器132(或服务器***130的另一个组件)访问徽标数据库,其中每个徽标与组织名称相关联,但是其中一些组织名称不与徽标相关联。账户管理器132使用所提取的组织名称来确定:所提取的组织名称是否用于确定徽标是否与该组织名称相关联。如果不是,则更新徽标数据库以包括“新”徽标。
在一个实施方式中,自动更新一个或多个在线账户以包括新徽标(即,已经从数字图像中识别和提取的徽标)。例如,识别和更新包括与新徽标相关联的组织名称的用户简档以包括新徽标(或以其他方式与新徽标相关联)。用户帐户(或简档)可以包括多个组织名称,其中至少一些组织名称是用户不再隶属于的。这些组织可以是用户的工作经历的一部分。因此,新徽标可以与用户账户中的组织名称相关联,在该组织名称下相应用户被雇佣或不再工作。
因此,响应于对单张名片拍照,即使名片没有识别与用户帐户相关联的任何用户,许多用户帐号也会被更新以包括从名片的数字图像提取的新徽标。
之后,当一个或多个用户请求查看用户账户时,服务器***130通过例如经由网络120将包含新徽标的帐户信息发送到一个或多个计算设备,使得新的徽标呈现/显示给这些用户。
在相关实施方式中,服务器***130存储向多个用户显示的工作招聘。响应于对于一个或多个工作招聘的明确用户请求,可以向用户呈现工作招聘。可替选地,工作招聘可以出现在用户的内容(例如新闻)馈送中,馈送中包含多个内容项,用户可以通过多个内容项滚动和查看。在该实施方式中,工作招聘会自动更新以包括负责工作招聘的组织的徽标。例如,公司X(或其代表)创建工作招聘并将其提交给服务器***130,这使得多个用户能够查看工作招聘。最初,工作招聘不包括组织的徽标。但是,基于从个人名片的数字图像中提取的徽标,工作招聘会自动更新以包括该徽标。之后,无论何时向用户显示工作招聘(无论是否响应于明确的用户请求),工作招聘都包括该徽标。带有组织徽标的工作招聘比没有组织徽标的工作招聘更可能被选中。
欺诈检测
在一个实施方式中,使用从(例如名片的)数字图像提取的信息来识别欺诈。这种欺诈可以是由于个人打印未经授权或伪造的名片而造成的。这样的名片可以例如识别不存在的组织或者可以识别合法的组织(例如“苹果”),但是在合法的组织(a)所识别的个人实际上没有在该组织工作或实际上没有为该组织工作,或者(b)所识别的个人在该组织工作,但没有担任名片上指示的工作头衔。例如,一个人可以拥有一张带有苹果徽标的名片,该名片表明这个人为首席财务官(CFO)。
图4是描绘在一个实施方式中的用于检测数字图像中的欺诈的过程400的流程图。过程400可以由账户管理器132实施或者由服务器***130的一个或多个其他组件实施。
在框410处,存储包括关于多个组织的或与多个组织相关联的信息的组织数据。该组织可以存储在账户数据库134和/或其他数据库(未示出)中。
在框420处,识别从(例如名片的)数字图像提取的组织名称。数字图像可以已经由客户端110生成并且通过网络120发送到服务器***130用于OCR分析。
在框430处,识别与组织名称相关联的组织帐户。框430可以涉及将该组织名称与存储在账户数据库134中的多个组织账户的组织名称进行比较的账户管理器132。如果该组织名称与多个组织帐户的名称匹配(或大致匹配),则框430可以涉及识别这些组织帐户中的每一个。
在框440处,从框430中识别的组织账户中识别关于该组织的特定数据。取决于正在检查的欺诈类型,特定数据可以有所不同。例如,特定数据可以是(a)与该组织相关联的常见或典型名片的格式化信息,(b)C级高管列表,(c)隶属于该组织的雇员和/或其他人员名录;和/或(d)一个或多个雇员/附属公司的图像目录。
在框450处,确定(来自框440的)特定数据与从可提取出组织名称的数字图像(或相关数字图像)提取的数据之间是否存在任何差异。因此,在框450处使用所提取的数据的与在框420处不同的部分。
所确定的差异的性质取决于欺诈如何持续下去有所不同,这可以有多种方式。例如,如果一个人创建与组织的实际名片不同的名片,则差异可以是将该名片的格式与实际(或典型)名片的格式进行比较(如下文更详细描述的)。又例如,如果一张名片指示一个人拥有C级职位,而另一个人拥有该C级职位时,则差异可以是他们各自的名字的不同。
如果框450得出的结果是肯定的,则过程400进行到框460。
在框460处,生成潜在欺诈指示符。潜在欺诈指示符可以与数字图像和/或组织账户相关联地存储。
之后,用户可以查看潜在欺诈指示(以及其他潜在欺诈指示)和数字图像,以手动确定名片是否合法。除了持续地存储潜在欺诈指示之外或可替选地,如果数字图像是由第一用户的计算设备创建的,而第一用户不同于在名片中识别的用户,则例如通过向第一用户的计算设备或在线账户发送指示名片是欺诈性的消息来通知第一用户。取决于欺诈的类型,具体消息可以有所不同。例如,消息可以表明(在名片上标识的)个人的工作头衔与声称担任该工作头衔的另一用户的工作头衔发生冲突。作为另一个示例,消息可以声明(在名片上标识的)个人不隶属于该组织或者没有被该组织雇佣。作为又一个示例,消息可以指示名片的格式不匹配与该组织相关联的任何名片(或典型或最常见的名片)的格式。
欺诈检测:C级高管
用名片进行欺诈的一种方式是:个人声称他/她在一个组织担任某个职位或头衔(例如CEO),而这个人并不隶属于该组织(例如,甚至不在该组织工作),或者这个人隶属于组织但其担任的职位或工作头衔要低得多。
在一个实施方式中,过程400涉及确定所提取的数据项中的一个数据项是否对应于工作头衔并指示C级职位,诸如CEO、CFO(首席财务官)、CIO(首席信息官)等。如果是,则确定C级职位是否由另一个用户担任。该确定可以涉及识别包括该组织名称的一个或多个用户账户,(并且可选地,该用户账户指示相应的一个或多个用户当前在该组织中工作),并且对于每个用户账户,确定该用户账户是否指示C级职位与从数字图像提取的职位相同。如果是,则生成潜在欺诈指示。
该确定还可以涉及(例如通过将一个或多个用户账户的名称与从数字图像提取的个人姓名进行比较)确定所识别的一个或多个用户账户是与在数字图像中识别的用户不同的用户的。这种冲突是合法的一种情况是,如果先前担任C级职位的人未能更新他/她的用户账户/简档。
可替选地,过程400涉及访问通过网络(例如网络120)检索的公共可用内容,例如识别C级高管的SEC文件或组织网页。在此情况下,在检索到的内容中识别适当的C级职位,从检索到的内容中提取相应C级高管的姓名,并将该姓名与从数字图像提取的姓名(例如名字和/或姓氏)进行比较。如果存在冲突,则生成潜在欺诈指示。
欺诈检测:图像比较
一些名片包括人的图片或照片,他们声称通过各自的名片来识别。在一种情况下,一张名片包含准确的信息,但是会被冒名顶替者或伪装成别人来欺骗他人特别是为了欺诈性收益的人分发出去。在此情况下,由于所有的文本信息都是准确的,因此不会检测到欺诈。但是,名片可以包括冒名顶替者的图像或图片。在一个实施方式中,从名片的数字图像(以及其他商业和/或个人信息)中辨别并提取图像或图片,并将其与在线账户的与通过名片识别的人员相关联的图像或图片进行比较(例如,在线账户包括名字和姓氏,可选地包括与从名片提取的信息相匹配的其它信息)。如果名片上描绘的人与在线账户相关联地存储的图片匹配的置信度相对较低,则存储潜在欺诈指示。
欺诈检测:格式比较
在一个实施方式中,将名片的格式(或“观感”)与同一组织的名片的格式进行比较以确定格式是否匹配。如果不是,则第一名片可能是欺诈的示例。例如,冒名顶替者可以创建一个具有流行的(或不太流行的)公司名称的名片。对于不熟悉该公司名片格式的普通人,名片看起来是合法的,甚至是专业的。但是,名片不能准确地反映出这个人在公司内部的职位(或与公司的关系)。
在该实施方式中,账户数据库134(或者服务器***130的另一个组件)包括多个名片的图像,其中一些可以是同一个组织例如特定的公司或大学的。名片的每个数字图像与特定组织(例如公司、大学等)相关联。与名片的数字图像相关联的每个组织与格式或特定名片相关联,该格式或特定名片代表与同一组织相关联(或识别同一组织)的许多、大多数或全部名片所共有的格式。
当(例如通过网络120从客户端110)接收到名片的新数字图像时,确定名片的一个或多个格式化特性。示例格式化特性包括字体类型、字体大小、字体颜色、徽标、边缘图形和位置信息。同一张名片上的不同数据项可以具有不同的字体类型、大小和/或颜色。例如,一个人的姓名的字体大小可以是10号,而工作头衔的字体大小可以是8号。
“位置信息”指示一个或多个数据项位于名片上的什么位置,或以绝对术语或以相对术语(例如,公司名称出现在商业地址上方)。数据项的绝对位置信息可以是一维坐标(例如,个人电话号码出现在距名片的底边一厘米处)或二维坐标(例如,个人电子邮件地址的中间字符出现在距底边两厘米且距左边两厘米处)。例如,相应公司的名片左上角可以出现公司徽标。名片上的个人姓名可以居于名片中间或在名片中间找到,并且个人的工作头衔紧接出现在个人姓名的下方。此外,单个水平绿色条纹出现在距名片顶部三毫米处,同时单个水平绿色条纹则出现在距名片底部三毫米处。
之后,当接收到识别同一组织的后续名片时,则确定后续名片的一个或多个格式化特性,并且将其与先前(或原始或最常见)名片的一个或多个格式化特性进行比较。如果有任何差异,则可能存在欺诈,存储潜在欺诈指示。例如,如果两张名片的公司地址的字体大小不一致,则可能存在欺诈。可替选地,格式化特性的阈值数量或百分比需要不同才能生成潜在欺诈指示符。例如,要求至少3个格式化特性或大于40%的格式化特性不同,才会生成潜在欺诈指示符和/或通知扫描用户(即,对质疑的名片拍照的人)。另外地或可替选地,生成欺诈分数,用于指示使用最近名片进行欺诈的相对可能性。格式不同的数量越多,分数越高。此外,可以对每个格式化特性进行加权,使得一些差异对欺诈分数的贡献小于其他格式化特性,例如字体大小。
如果存在欺诈,并且对名片拍照的人与名片上识别的人不同,则告知拍照的人存在欺诈的可能性。(例如通过网络120发送到客户端110的)通知可以包括标准名片、常见名片或预期名片的图像,并且可选地包括质疑的名片的图像。
欺诈检测:目录检查
在一些情况下,一个人可能会发出一张标识他/她隶属于特定组织(例如被特定组织雇佣)的名片,但这个人并不隶属于该特定组织。在一个实施方式中,通过将这个人的姓名与在名片上识别的组织的目录中的姓名进行比较来检测这样的欺诈。因此,在该实施方式中,从名片的一个数字图像(或两个数字图像)中提取两个数据项:个人姓名(例如名字和姓氏)、组织名称。账户管理器132使用从名片的数字图像提取的组织名称来识别该组织的(例如雇员)目录。该目录可以相对于服务器***130在本地存储或者例如通过第三方服务远程存储。在本地目录情况中,帐户管理器132(或者服务器***130的另一个组件)将从名片的数字图像提取的个人姓名与目录中的一个或多个姓名进行比较,该目录可以通过姓名索引。在远程目录情况中,要么从远程源检索目录,要么将个人姓名发送到远程源,这可以进行确定并提供结果。如果在目录中找不到该人员的姓名,则假定该人员不隶属于该组织(或者不在该组织工作)。因此,如前所述,生成并处理潜在欺诈指示。
多语言同源词
许多名片都具有关于以多种语言表示的个人和/或组织的信息。例如,名片可以具有以英文、印度文和中文表示的公司名称。同一张名片也可以具有以英文、印度文和中文表示的个人姓名和工作头衔。基于单一类型的数据项(例如公司名称),创建单个关联,其中所述关联将一种语言的数据项映射到其他一种或多种语言的一个或多个数据项。这样的关联在这里被称为“多语言同源词”(因为关联可以将不同语言的三个或更多个数据项彼此映射)。例如,同源词可以包括“Google”和“谷歌”(即中文形式的“Google”)。
在一个实施方式中,在从名片提取的信息中识别多种语言。除了确定所提取的数据项的类型(例如名字、姓氏、工作头衔、学位、商业地址、电话号码)之外,确定所提取的数据项的语言。因此,从同一名片中提取相同类型的多个数据项(例如公司名称)。
可以使用任何技术来确定数据项的语言。例如,例如响应于在客户端110上显示的提示,发起创建从中提取数据项的数字图像的用户手动指定数据项的语言。指定语言可以包括用户从与数据项(以及可选地多个数据项)相邻显示的下拉菜单中的语言列表中选择语言。服务器***130然后将标识用户所选语言的数据与数据项相关联地存储。
另外地或可替选地,服务器***130自动确定数据项的语言(即,没有识别语言的用户输入)。例如,服务器***130将数据项与已知语言(例如英语、西班牙语、法语、德语和中文)的文本语料库进行比较。如果数据项与特定语言文本语料库中的文本匹配,则服务器***130将识别特定语言的语言识别数据与数据项相关联地存储。文本语料库的一个示例是语言已知或已确定的一组用户简档,不管是自动确定的还是基于指定各自语言的用户输入确定的。
图5A至图5B是描绘在一个实施方式中的用于识别从一个或多个名片提取的多语言同源词的过程500的流程图。过程500可以由账户管理器132或服务器***130的多语言同源识别器(未示出)来执行。
在框510处,识别已经从与第一用户相关联的第一名片的第一数字图像提取的第一多个数据项。
在框520处,确定第一多个数据项的第一语言。
在框530处,识别已经从第一名片的第二数字图像提取的第二多个数据项。第二数字图像可以与第一数字图像不同或相同。例如,名片的一面可以包含多语言信息。又例如,名片的一面可以包含一种语言的信息,而名片的另一面可以包含不同语言的信息。
在框540处,确定第二多个数据项的第二语言。第二语言与第一语言不同。例如,第一语言可以是英文,第二语言可以是中文。
在框550处,从第一多个数据项中选择第一数据项。可以使用从多个数据项中选择数据项的任何技术。例如,该选择可以涉及从第一多个数据项中选择随机数据项。作为可替选的示例,该选择可以涉及从第一多个数据项中选择被辨别的(并且可选地被标记的)第一数据项。
在框560处,确定与第一数据项对应的第二多个数据项中的第二数据项。框560可以涉及在第一数字图像与第二数字图像相同的情况下从第二多个数据项中识别哪个数据项最接近第一数据项。因此,可以将空间邻近度作为确定数据项对应关系的(多个中的或唯一的)一个因素。
如果第一数字图像不同于第二数字图像(例如,指示数字图像是同一张名片的两面),则可以假定数据项的布局是相似的。例如,一个人的英文名字在第一数字图像的中间,而这个人的西班牙语名字在第二数字图像的中间。因此,可以将空间对应用作确定数据项对应关系的因素。
可替选地,框560可以涉及从第二多个数据项中识别与在框550中选择的第一数据项相同的信息类型(例如工作头衔)相关联的数据项。例如,可以使用这种信息类型对应关系,例如特别是假设对于用适当的信息类型标记数据项具有高置信度。
在框570处,创建并存储将第一数据项与每个第二数据项相关联的多语言同源词。框570可以涉及将多语言同源词与第一用户相关联地存储。因此,可以为第一用户识别多个多语言同源词并将其与第一用户相关联地存储。另外地或可替选地,可以将多语言同源词存储在一组多语言同源词中,其包括基于处理其他用户的名片而识别的同源词。
如果存在多于两种语言形式的多于两组数据项,则在框570中创建并存储的多语言同源词可以包括多于两个数据项,例如英文公司名称、中文公司名称和法文公司名称。
在框580处,确定在第一多个数据项中是否还有数据项要考虑。如果是,则过程500进行到框550,在框550处选择不同的数据项。否则,过程580结束。
在一个实施方式中,将多语言同源词用于随后的数据处理。后续数据处理的示例包括训练翻译模型、扩展查询、确定要显示给用户的相关内容、以及自动翻译诸如工作概述、工作招聘和用户简档信息之类的信息。
多语言同源词:训练翻译模型
作为关于训练的具体示例,基于从名片的多个数字图像中提取信息来识别英文公司名称与中文公司名称之间的多个同源词。将多个同源词用作训练数据来训练翻译模型。可以使用任何类型的翻译模型。实施方式不限于任何特定类型。类似地,可以使用任何技术来训练翻译模型。通过引用并入本文就像在此完全公开的申请号为14/820,466的美国专利申请描述了如何训练翻译模型。
翻译模型可以是用于以其他语言(例如德语)翻译信息或将信息翻译成其他语言(例如德语)的通用翻译模型。可替选地,翻译模型可以是特定于英文到中文的翻译(和/或中文到英文的翻译)。另外,翻译模型可以用于翻译诸如新闻文章、博客文章、新闻提示、社交联网消息之类的一般类型文本。可替选地,翻译模型可以被限于(如在该示例中)翻译公司名称。因此,如果同源词是工作头衔,则使用同源词来训练特定工作头衔翻译模型,并且(例如排他地)使用该翻译模型来翻译其他用户的工作头衔。
多语言同源词:扩展查询
在一些情况下,用户在不知道相关信息会以另一种语言提供的情况下,想要提交查询来识别某些信息。例如,用户可能对改变工作职位感兴趣,但关于候选工作职位的工作招聘采用的语言与用户提交的查询语言不同。在不翻译查询的情况下,用户可能永远不会发现多个工作机会。
在一个实施方式中,从多个用户的名片的多个数字图像中识别多语言同源词。因为不同的用户翻译同一词语或短语的方式不同,所以对于同一词语或短语可能存在多个同源词。例如,一个用户可能会将“软件工程师”翻译成西班牙语中的一个短语(例如“laingeniería de programas”),而另一个用户可能会将“软件工程师”翻译成另外的西班牙语短语。类似地,一个用户可以将“la ingeniería de programas”翻译成“软件工程师”,而另一个用户可以将“la ingeniería de programas”翻译成“程序员”。
多语言同源词可以与指示在例如名片和/或用户简档的数字图像的数据集中同源词出现次数的计数相关联。另外地或可替选地,多语言同源词可以与同源词的给定一个词语/短语、同源词的另一个词语/短语出现在数据集中的概率相关联。
每个多语言同源词也可以与指示同源词的信息类型的类型标签相关联,例如工作头衔、工作技能、雇主名称、雇主地址、学术机构、学位、地理名称和工作技能。可以将类型标签用于查询处理中以限制在翻译查询术语/短语时要考虑(或者识别翻译模型)的同源词的数量。一些同源词可以与一种信息类型相关联,而另一些同源词可以与另一种信息类型相关联。
随后,用户(可以不同于与被识别出同源词的任何名片相关联的用户)提交一个或多个词语的查询。一个或多个词语中的每一个可以与指示信息类型的具体上下文相关联。接受输入查询的查询引擎识别与一个或多个词语相关联的一个或多个同源词。每个同源词可以与信息类型相关联。如果查询文本与信息类型相关联,则可以只需要考虑所有同源词的严格子集来确定查询文本的翻译。
例如,用户提交查询“销售代表”时,即选择了工作头衔信息类型。查询引擎接受查询和所选择的信息类型,并且在与所选择的信息类型相关联且将“销售代表”作为配对之一的同源词中识别一个或多个可能的翻译。以此方式,使用所选择的信息类型来限制需要搜索的同源词的数量。如果识别出多个翻译,则每个翻译可以具有同一目标语言(例如中文)。可替选地,如果识别出多个翻译,则一个或多个翻译可以具有一种目标语言(例如中文),并且一个或多个翻译可以具有另一种目标语言(例如西班牙语)。
无论基于查询所识别的翻译数量如何,每个翻译都被用作搜索的一部分。例如,搜索可以涉及将查询翻译和与查询翻译具有相同语言的一个或多个工作招聘进行比较。具体地,比较可以将工作头衔的查询翻译和与查询翻译具有相同语言的工作招聘中的工作头衔进行比较。工作招聘可以由雇主提供给服务器***130。另外地或可替选地,工作招聘可以从服务器***130的远程源中检索(例如,使用网页信息采集过程),并存储在服务器***130处(或者至少可供服务器***130访问)。
作为具体示例,正在搜索工作的用户可以指定“程序员”作为查询的搜索术语。(例如由服务器***130实施的)搜索引擎使用多语言同源词,将“程序员”翻译成诸如中文之类的一种或多种其他语言。使用翻译后的文本来识别其中将翻译后的文本作为工作头衔的工作招聘。另外地或可替选地,首先翻译搜索语料库中的信息,然后将其与一个或多个搜索术语进行比较。例如,将中文工作招聘中的一个或多个工作头衔翻译成英文工作头衔(使用一个或多个多语言同源词),然后与搜索术语“程序员”进行比较。如果匹配,则向搜索用户提供相应的中文工作招聘(或其翻译版本)。
申请号为14/820,466的美国专利申请中描述了与使用多语言同源词进行查询扩展有关的其他技术,该专利申请通过引用并入本文。
多语言同源词:翻译用户简档
在在线社交网络中,用户通常能够彼此查看用户简档。有时,第二用户能够查看或访问的第一用户简档数据的量取决于:(a)第二用户是否连接到第一用户(直接地或间接地通过一个或多个其他用户或团体),(b)这种连接的强度测试(如果存在连接),(c)第一用户与第二用户的关系有多密切,或者(d)第二用户是否已经执行了某个被授予访问的行为(例如,支付了订阅)。无论第二用户如何能够查看第一用户的简档,第一用户的简档的语言可以不同于第二用户已知或熟悉的一种或多种语言。
在一个实施方式中,为不同的(查看)用户使用多语言同源词将用户的简档(或其一部分)自动地(或响应于用户输入)翻译成一种或多种语言。基于从名片的数字图像识别的多语言同源词(如本文所述)训练的翻译模型可用于翻译用户的简档。可替选地,可以直接使用多语言同源词来翻译用户的简档。因此,可以(a)直接从一张多语言名片中提取多语言简档;(b)通过基于多个多语言名片(即,多个用户)训练的翻译模型翻译多语言简档;或者(c)从其他现有用户的多语言简档推测多语言简档。例如,关于(c),如果两个简档具有与源语言相同的公司名称并且其中一个简档具有目标语言的公司名称的翻译,则可以使用该公司名称的翻译。
用户简档中的数据项可以响应于(例如来自相应用户或请求查看用户简档的另一用户的)最终用户输入而被翻译,或者可以在没有最终用户输入的情况下被翻译。例如,响应于确定讲西班牙语的用户已请求查看用户简档,翻译用户简档的英文工作头衔。作为另一个示例,为创建用户简档的用户提供了将中文工作头衔(和/或用户简档中的一个或多个其他数据项)翻译成一种或多种其他语言的选项,使得熟悉这些其他语言的用户可以查看各自语言的工作头衔。
在一个实施方式中,使用多个翻译模型来翻译用户简档的不同部分。每个翻译模型都与不同的信息类型相关联。例如,将基于与工作头衔相关联的同源词训练的一个翻译模型用于翻译用户简档中列出的工作头衔,而将基于与工作技能相关联的同源词训练的另一个翻译模型用于翻译用户简档中列出的一个或多个工作技能。
在一个实施方式中,使用特定用户的多语言同源词来翻译由特定用户提供的其他类型的信息,例如附随用户简档(或者是其一部分)的工作概述。在该实施方式中,在用户具有帐户的情况下,从用户的名片提取的多语言同源词链接到(或关联到)该用户自己的帐户。可以使用这种多语言同源词来翻译用户提供的自由形式文本。例如,用户提供他的工作经历的概述。用户简档中的工作技能用于识别概述中的工作头衔。使用包括该工作技能的工作技能同源词将工作技能翻译成目标语言。可以使用通用或传统的翻译模型翻译概述中的其他信息。由于基于工作技能同源词进行翻译的高置信度,周围部分更可能会被正确翻译(例如使用传统翻译模型)。
申请号为14/820,466的美国专利申请中描述了与翻译用户简档有关的其他技术,该专利申请通过引用并入本文。
多语言同源词:识别相关内容
具有全球会员资格的在线服务(例如社交网络服务)可以用许多不同的语言来处理数字内容。然而,全球在线服务可以基于用户的语言偏好为用户过滤内容,用户的语言偏好可以已经由用户明确提供,或者可以已经由在线服务基于关于用户的信息或基于与用户相关联的行为推测出。因此,社交网络服务可以确保仅向英文用户呈现英文内容,仅向中文用户呈现中文内容等。但是,这种方式可能会阻止一些潜在有用且有价值的内容呈现给在线服务的许多用户。
在一个实施方式中,(例如由服务器***130提供的)在线服务基于一个或多个标准来确定是否为与不同语言相关联的用户提供最初一种语言形式的内容的翻译版本。可翻译的内容项包括文本以及图形、音频、视频或其任何组合中的一个或多个。内容项的类型的示例包括博客帖子、教育课程列表、幻灯片共享(SlideShare)演示文稿、由第三方提供的新闻文章、来自在线服务(例如基于连接数)认为有影响力的用户的文章、对其他用户的内容的评论、广告和工作招聘。
在线服务可以使用多个规则或过程来确定将哪些内容项呈现给目标用户。例如,在线服务可以确定多个内容项的相关度并且仅呈现与最高(例如前10个)相关度相关联的那些内容项。相关度可以基于多个因素,例如内容项的源或发起者如何连接到目标用户(例如第一度连接或第二度连接)、内容项的源/发起者是否已经在过去(例如使用在线服务)与目标用户沟通过、目标用户是否在源/发起者的地址簿中和/或反之亦然、目标用户与源/发起者的相似度如何(例如,两者都在同一行业工作,既为同一雇主工作,又参加了同一学术机构)、内容项中有多少词语或关键词是在目标用户简档中找到的、以及目标用户简档中有多少词语或关键词是在内容项中找到的。
在一个实施方式中,使用从一个或多个名片的数字图像中识别的一个或多个多语言同源词,将用户的简档(或其一部分)翻译成目标语言。然后将已翻译部分与已呈现为目标语言的内容项进行比较,以确定内容项是否与用户有关。用户简档的翻译可以在确定是否呈现内容项之前或之后进行。
申请号为14/820,466的美国专利申请中描述了与翻译内容项有关的其他技术,该专利申请通过引用并入本文。
推荐连接
在一个实施方式中,使用对一个或多个其他用户的名片扫描的用户的身份来识别一个或多个用户,以作为在社交网络中要连接的人。服务器***130提供如下特征:***130为特定用户识别特定用户可能知道或至少可能希望连接到的一个或多个其他用户。这样的用户在这里被称为“你可能认识的人们”(PYMK)(或单数形式的“你可能认识的人”)。PYMK的候选人可以来自与特定用户具有诸如在同一家公司工作、参加同一学术机构、与同一个人连接之类的共同特点的用户。在该实施方式中,使用那些扫描了他人名片的用户的身份和/或其名片已被扫描的用户的身份来识别某些用户的PYMK。
例如,用户A扫描用户B的名片。用户B扫描用户C的名片。用户A被识别为用户C的候选PYMK。另外地或可替选地,用户C被识别为用户A的候选PYMK。
在相关实施方式中,一个或多个因素基于名片扫描来限制PYMK识别的程度。示例因素包括时间接近度和频率。给定先前的示例,(1)用户A扫描用户B的名片与(2)用户B扫描用户C的名片之间的时间间隔大于特定阈值(例如20天),则(1)和(2)将不被用作将用户C识别为用户A的PYMK的基础,反之亦然。在类似的示例中,如果用户A和用户B都没有扫描阈值数量的名片,则(1)和(2)将不被用作将用户C识别为用户A的PYMK的基础,反之亦然。
在一个相关实施方式中,将扫描人(例如前面示例中的用户A)的身份或被扫描人(例如,前面示例中的用户C)的身份用作许多因素中的一个来识别特定用户的PYMK。例如,一种PYMK技术是使用一个或多个相似性度量来识别用户之间的相似度,并且生成某一用户相对于特定用户的相关度分数。相关度分数用于对哪些用户作为PYMK呈现给特定用户进行排序和优先化。在所有条件相同的情况下,用户A扫描用户D的现有人脉的名片的事实增加了用户A的相关度分数,使得用户A的身份作为PYMK呈现给用户D。另外地或可替选地,在所有条件相同的情况下,用户E的名片被用户G的现有人脉扫描的事实增加了用户E的相关度分数,使得用户E的身份作为PYMK呈现给用户G。
附加实施方式
本文在不同部分中描述了多个实施方式。尽管在不同部分描述了多个实施方式,但是***100可以同时实施多个实施方式。例如,服务器***130能够自动创建用户账户和组织账户,更新用户账户和组织账户,识别并利用从名片提取的徽标,检测名片中的欺诈,以及/或者识别并利用多语言同源词。类似地,客户端110能够处理从服务器***130接收到的基于这些各种活动中任一活动的数据并显示这样的数据。
硬件概述
根据一个实施方式,本文描述的技术由一个或多个专用计算设备实施。专用计算设备可以是硬连线的以便执行这些技术,或可包括诸如被持续编程以执行这些技术的一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)的数字电子设备,或可包括被编程以按照固件、存储器、其他存储装置或组合中的程序指令执行这些技术的一个或多个通用硬件处理器。此类专用计算设备还可将定制的硬连线逻辑、ASIC或FPGA与定制的编程组合以实现这些技术。专用计算设备可以是台式计算机***、便携式计算机***、手持设备、联网设备或组合硬连线和/或程序逻辑以实施这些技术的任何其他设备。
例如,图6是示出可以在其上实施本发明的实施方式的计算机***600的框图。计算机***600包括总线602或用于传递信息的其他通信机构,和与总线602耦合用于处理信息的硬件处理器604。硬件处理器604可以是例如通用微处理器。
计算机***600还包括耦合到总线602用于存储信息和将由处理器604执行的指令的主存储器606,诸如随机存取存储器(RAM)或其他动态存储设备。在将由处理器604执行的指令的执行期间,主存储器606还可用于存储临时变量或其他中间信息。此类指令在被存储在处理器604可访问的非暂态存储介质中时使得计算机***600成为被定制以执行在指令中指定的操作的专用机器。
计算机***600还包括只读存储器(ROM)608或耦合到总线602以用于存储处理器604的静态信息和指令的其他静态存储设备。存储设备610(诸如磁盘或光盘)被提供并耦合到总线602以用于存储信息和指令。
计算机***600可以经由总线602耦合到显示器612,诸如阴极射线管(CRT),以用于将信息显示给计算机用户。包括数字字母混合和其他按键的输入设备614耦合到总线602用于向处理器604传递信息和命令选择。另一种用户输入设备是光标控件616,例如鼠标、轨迹球或光标方向键,用于向处理器604传递方向信息和命令选择以及在显示器612上控制光标移动。该输入设备通常具有在两个轴线(第一轴线(例如x)和第二轴线(例如y))上的两个自由度,这使得设备能够指定平面中的位置。
计算机***600可以使用定制的硬连线逻辑、一个或多个ASIC或FPGA、固件和/或与计算机***结合使得计算机***600成为或将其编程为专用机器的程序逻辑来实施本文所述的技术。根据一个实施方式,本文中的技术是由计算机***600响应于处理器604执行包含在主存储器606中的一个或多个指令的一个或多个序列而执行的。此类指令可以从另一个存储介质(例如存储设备610)被读入主存储器606。被包含在主存储器606中的指令的序列的执行使得处理器604执行本文所述的过程步骤。在替选的实施方式中,硬连线电路可以取代或结合软件指令使用。
如本文所用的术语“存储介质”是指存储数据和/或使得机器以具体的方式操作的指令的任何非暂态介质。此类存储介质可包括非易失性介质和/或易失性介质。非易失性介质包括例如光谱或磁盘,例如存储设备610。易失性介质包括动态存储器,例如主存储器606。存储介质的常见的形式包括,例如,软盘、软磁盘、硬盘、固态驱动器、磁带,或任何其他磁测数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔排列样式的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储器芯片或盒。
存储介质不同于传送介质但是可以结合传送介质使用。传送介质参与存储介质之间的信息传输。例如,传送介质包括同轴电缆、铜线和光纤,其包括具有总线602的电线。传送介质可以还可以采取声学或光波的形式,例如在无线电波和红外光数据通信期间产生的那些。
介质的各种形式可以涉及将一个或多个指令的一个或多个序列承载到处理器604以用于执行。例如,指令可以初始被承载在远程计算机的磁盘或固态驱动器上。远程计算机可将指令加载到其动态存储器中并且通过电话线使用调制解调器发送指令。相对于计算机***600本地的调制解调器可以通过电话线接收数据并且使用红外光发射器将数据转化为红外光信号。红外光检测器可以接收在红外光信号中承载的数据并且适当的电路可将数据置于在总线602上。总线602将数据承载到主存储器606,处理器604从其中检索并执行指令。由主存储器606接收的指令可在由处理器604执行之前或之后任选地存储在存储设备610上。
计算机***600还包括耦合到总线602的通信接口618。通信接口618提供耦合到网络链路620的双向数据通信,该网络链路被连接至本地网络622。例如,通信接口618可以是综合业务数字网(ISDN)卡、缆线调制解调器、卫星调制解调器或将数据通信连接提供给相应的类型的电话线的调制解调器。又如,通信接口618可以局域网(LAN)卡,以便向兼容LAN提供数据通信连接。无线链路也可被实施。在任何此类实施中,通信接口618发送并接收承载表示各种信息类型的数字数据流的电信号、电磁信号或光信号。
网络链路620通常通过一个或多个网络向其他数据设备提供数据通信。例如,网络链路620可以通过本地网络622提供到主机计算机624的连接或通过本地网络622提供到由互联网服务提供商(ISP)626运行的数据设备的连接。ISP 626继而通过现在通常称为“因特网”628的全球分组数据通信网络提供数据通信服务。本地网络622和因特网628都使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号和在网络链路620上并且通过通信接口618的信号(其承载数字数据往返于计算机***600)是传送介质的示例形式。
计算机***600可以通过一个或多个网络、网络链路620和通信接口618发送消息并接收包括程序代码的数据。在因特网示例中,服务器630可通过因特网628、ISP 626、本地网络622和通信接口618传送针对应用程序所请求的代码。
所接收的代码可以在被接收时由处理器604执行,和/或存储在存储设备610中,或存储在非易失性存储装置中用于稍后执行。
在前述说明书中,本发明的实施方式已经参考许多可以随着实施的不同而改变的具体细节进行描述。因此,说明书和附图应被视为是示例性的而非限制性的。本发明的范围的唯一和排他性的指示以及被发明人预期为本发明的范围的内容是从本专利申请发布的一套权利要求书的字面和等效的范围,其采用此权利要求书发布的具体形式,包括任何后续的更正。

Claims (6)

1.一种由一个或多个计算设备执行的方法,包括:
识别已经从第一名片的第一数字图像提取的第一多个数据项,所述第一名片与第一用户相关联;
确定所述第一多个数据项用的是第一语言;
识别已经从所述第一名片的第二数字图像提取的第二多个数据项,所述第一名片与所述第一用户相关联;
确定所述第二多个数据项用的是不同于所述第一语言的第二语言;
对于所述第一多个数据项中的每个数据项:
确定在所述第二多个数据项中与所述每个数据项对应的数据项;以及
存储所述数据项与所述每个数据项之间的关联;
存储所述第一多个数据项中的第一数据项与所述第二多个数据项中的第二数据项之间的特定关联;
识别与所述第一用户不同的第二用户的简档;
确定所述第一数据项与所述简档内的某个数据项匹配;以及
基于所述特定关联并且响应于确定所述第一数据项与所述简档内的某个数据项匹配,将所述第二数据项与所述简档相关联。
2.根据权利要求1所述的方法,其中,所述第一数字图像与所述第二数字图像相同。
3.根据权利要求1所述的方法,还包括基于所述第二多个数据项中的、用所述第二语言的数据项与所述第一多个数据项中的、用所述第一语言的数据项之间的关联来训练翻译模型。
4.根据权利要求1所述的方法,还包括:在将所述简档中的至少一部分呈现给与所述第二用户和所述第一用户不同的第三用户时,使所述第二数据项呈现给所述第三用户。
5.一种由一个或多个计算设备执行的方法,包括:
接收打印材料的数字图像;
响应于接收到所述数字图像,分析所述数字图像以识别在所述打印材料中反映的多个数据项;
其中,所述多个数据项包含个人的姓名;
存储将所述多个数据项中的每个数据项与信息类型相关联的用户数据;
其中,所述多个数据项中的第一数据项属于第一信息类型;
其中,所述多个数据项中的第二数据项属于不同于所述第一信息类型的第二信息类型;
使所述个人注册产品或服务,其中,使所述个人注册产品或服务包括创建账户并将已经从所述数字图像中识别出的所述多个数据项包含在所述账户中,而针对所述多个数据项中的每个数据项,不需要用于将所述每个数据项包含在所述账户中的用户输入。
6.一个或多个存储指令的存储介质,所述指令在由一个或多个处理器执行时使得执行权利要求1-5中任一项所列的方法。
CN201680039056.5A 2015-08-31 2016-07-28 在社交网络中利用用户信息的数字图像 Active CN108701291B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/841,538 US10127469B2 (en) 2015-08-31 2015-08-31 Leveraging digital images of user information in a social network
US14/841,538 2015-08-31
PCT/IB2016/001659 WO2017037546A2 (en) 2015-08-31 2016-07-28 Leveraging digital images of user information in a social network

Publications (2)

Publication Number Publication Date
CN108701291A CN108701291A (zh) 2018-10-23
CN108701291B true CN108701291B (zh) 2022-01-14

Family

ID=58096668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680039056.5A Active CN108701291B (zh) 2015-08-31 2016-07-28 在社交网络中利用用户信息的数字图像

Country Status (3)

Country Link
US (1) US10127469B2 (zh)
CN (1) CN108701291B (zh)
WO (1) WO2017037546A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10542010B2 (en) * 2016-05-27 2020-01-21 Microsoft Technology Licensing, Llc Account verification in deferred provisioning systems
US10992612B2 (en) * 2018-11-12 2021-04-27 Salesforce.Com, Inc. Contact information extraction and identification
CN109766089B (zh) * 2018-12-15 2023-05-30 平安科技(深圳)有限公司 基于动图的代码生成方法、装置、电子设备及存储介质
CN111625250B (zh) * 2020-04-22 2023-11-10 Oppo(重庆)智能科技有限公司 应用更新方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5818442A (en) * 1996-04-30 1998-10-06 Intel Corporation Method and apparatus for modeling business card exchanges in an international electronic conference
CN1612137A (zh) * 2003-10-29 2005-05-04 国际商业机器公司 用于存档和检索标记语言文档的方法和***
CN101282395A (zh) * 2007-04-06 2008-10-08 夏普株式会社 图像处理***及图像处理方法
WO2012079036A1 (en) * 2010-12-10 2012-06-14 Aoc Solutions, Inc. Systems and methods for automated prefunding of commercial payments
US20120232984A1 (en) * 2011-03-11 2012-09-13 Bank Of America Corporation Branded redemption portal
CN103020473A (zh) * 2012-12-28 2013-04-03 苏州群凯信息***有限公司 一种电子名片及其制作方法
CN104321220A (zh) * 2013-04-15 2015-01-28 弗莱克斯电子有限责任公司 作为模板存储的用户简档的访问和便携性
US20150134323A1 (en) * 2013-11-08 2015-05-14 Google Inc. Presenting translations of text depicted in images
CN104823212A (zh) * 2012-11-30 2015-08-05 谷歌公司 提供包括从社交网络得到的信息的内容的***和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883000B1 (en) * 1999-02-12 2005-04-19 Robert L. Gropper Business card and contact management system
JP4800686B2 (ja) * 2005-06-30 2011-10-26 マイクロソフト コーポレーション 電子名刺交換システム及び方法
JP5452926B2 (ja) 2005-10-20 2014-03-26 カータイム テクノロジーズ エー/エス 交通関係料金の自動支払いおよび/または記録
US20090248537A1 (en) 2005-12-01 2009-10-01 Shahriar Sarkeshik Commercial transaction facilitation system
US7490756B1 (en) * 2006-08-25 2009-02-17 Entertainment Printing Services, Lp Method for issuing an invitation to a show
US8195540B2 (en) 2008-07-25 2012-06-05 Mongonet Sponsored facsimile to e-mail transmission methods and apparatus
US20120205453A1 (en) 2009-11-05 2012-08-16 Rampersad Carlyle J International alpha-numeric demographic identity code
US20120271692A1 (en) 2011-04-23 2012-10-25 Xingang Huang Method and System for Smart Phone Based Virtual Card
JP5601533B2 (ja) * 2011-06-01 2014-10-08 日本電気株式会社 名刺管理装置及び方法
US8639930B2 (en) 2011-07-08 2014-01-28 Credibility Corp. Automated entity verification
WO2013040601A1 (en) 2011-09-16 2013-03-21 Tri-Force Consulting Services, Inc. Systems and methods for following-up on business leads
US20160012445A1 (en) 2011-11-10 2016-01-14 Antony-Euclid C. Villa-Real Customer-controlled instant-response anti-fraud/anti-identity theft devices (with true-personal identity verification), methods and systems for secured global applications in personal/business e-banking, e-commerce, e-medical/health insurance checker, e-education/research/invention, e-disaster advisor, e-immigration, e-airport/aircraft security, e-military/e-law enforcement, with or without nfc component and system, with cellular/satellite phone/internet/multi-media functions
JP5312701B1 (ja) * 2013-02-08 2013-10-09 三三株式会社 名刺管理サーバ、名刺画像取得装置、名刺管理方法、名刺画像取得方法、およびプログラム
US20140249898A1 (en) 2013-02-27 2014-09-04 Meredith Leigh Ostoich Sponsorship platform systems and methods
JP6259242B2 (ja) * 2013-10-04 2018-01-10 エヌ・ティ・ティ・コミュニケーションズ株式会社 名刺管理システム、名刺管理方法および名刺管理プログラム
US20160012465A1 (en) 2014-02-08 2016-01-14 Jeffrey A. Sharp System and method for distributing, receiving, and using funds or credits and apparatus thereof
US20150227761A1 (en) 2014-02-11 2015-08-13 Madison Connections Corporation Systems and methods for secure messaging

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5818442A (en) * 1996-04-30 1998-10-06 Intel Corporation Method and apparatus for modeling business card exchanges in an international electronic conference
CN1612137A (zh) * 2003-10-29 2005-05-04 国际商业机器公司 用于存档和检索标记语言文档的方法和***
CN101282395A (zh) * 2007-04-06 2008-10-08 夏普株式会社 图像处理***及图像处理方法
WO2012079036A1 (en) * 2010-12-10 2012-06-14 Aoc Solutions, Inc. Systems and methods for automated prefunding of commercial payments
US20120232984A1 (en) * 2011-03-11 2012-09-13 Bank Of America Corporation Branded redemption portal
CN104823212A (zh) * 2012-11-30 2015-08-05 谷歌公司 提供包括从社交网络得到的信息的内容的***和方法
CN103020473A (zh) * 2012-12-28 2013-04-03 苏州群凯信息***有限公司 一种电子名片及其制作方法
CN104321220A (zh) * 2013-04-15 2015-01-28 弗莱克斯电子有限责任公司 作为模板存储的用户简档的访问和便携性
US20150134323A1 (en) * 2013-11-08 2015-05-14 Google Inc. Presenting translations of text depicted in images

Also Published As

Publication number Publication date
WO2017037546A3 (en) 2017-06-22
US20170060851A1 (en) 2017-03-02
US10127469B2 (en) 2018-11-13
WO2017037546A2 (en) 2017-03-09
CN108701291A (zh) 2018-10-23

Similar Documents

Publication Publication Date Title
US10200336B2 (en) Generating a conversation in a social network based on mixed media object context
US9923991B2 (en) Automatic online registration based on data extracted from a digital image
US20190197119A1 (en) Language-agnostic understanding
US10733387B1 (en) Optimizing machine translations for user engagement
US10460040B2 (en) Language model using reverse translations
US9747281B2 (en) Generating multi-language social network user profiles by translation
US9779388B1 (en) Disambiguating organization names
US8468167B2 (en) Automatic data validation and correction
US11038862B1 (en) Systems and methods for enhanced security based on user vulnerability
US10268686B2 (en) Machine translation system employing classifier
US20170371865A1 (en) Target phrase classifier
US10114817B2 (en) Data mining multilingual and contextual cognates from user profiles
CN108701291B (zh) 在社交网络中利用用户信息的数字图像
US20170024701A1 (en) Providing recommendations based on job change indications
US10318640B2 (en) Identifying risky translations
US20180068028A1 (en) Methods and systems for identifying same users across multiple social networks
CN110999264B (zh) 用于将消息内容集成到目标数据处理设备中的***和方法
US20150213460A1 (en) Continuing-education certificate validation
CN110941811A (zh) 信息处理装置、存储介质、信息处理***及信息处理方法
CN115735206A (zh) 用于确定基于知识的认证问题的***和方法
US20210097119A1 (en) Expanding an online connection network based on digital images of printed media
US20130317805A1 (en) Systems and methods for detecting real names in different languages
JP2022144120A (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft technical authorization limited liability company

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant