CN107209771A - 文档的分类和存储 - Google Patents

文档的分类和存储 Download PDF

Info

Publication number
CN107209771A
CN107209771A CN201580073882.7A CN201580073882A CN107209771A CN 107209771 A CN107209771 A CN 107209771A CN 201580073882 A CN201580073882 A CN 201580073882A CN 107209771 A CN107209771 A CN 107209771A
Authority
CN
China
Prior art keywords
document
subject
user
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580073882.7A
Other languages
English (en)
Inventor
凯登·迈尔
乔尔·克里斯托弗·奥诺弗里奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN107209771A publication Critical patent/CN107209771A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种方法包括定义多个已知文档类型,获得先前分类的文档的集合,每个先前分类的文档都与已知文档类型中的一个已知文档类型相关联的,以及从来自先前分类的文档的集合中的每个文档提取特征以定义特征信息。该方法还包括获得与用户相关联的主题文档,从主题文档中提取一个或多个特征,将来自主题文档的一个或多个特征与特征信息进行比较,基于比较将主题文档与已知文档类型中的一个已知文档类型相关联,以及将文档传送到云存储***以存储在与用户相关联并且仅包含与主题文档相关联的相应已知文档类型的文档的专用存储位置中。

Description

文档的分类和存储
背景技术
计算设备的用户经常通过各种信道接收文档。例如,可以通过从互联网位置下载文档或通过使用相机捕获文档的图像来接收作为电子邮件消息的附件的文档。手动排序这些文档并将其传送到存储***的过程可以很耗时。因此,许多文档没有以逻辑或有用的方式存储,并且当需要时无法找到。
发明内容
本公开一般涉及文档的分类和存储。
所公开的实施例的一个方面包括方法,其包括定义多个已知的文档类型,获得先前分类的文档的集合,每个先前分类的文档与所述多个已知文档类型中的相应文档类型相关联,以及从所述先前分类的文档的集合中的每个文档提取特征以定义描述从先前分类的文档的集合中提取的特征的特征信息。该方法还包括获得与用户相关联的主题文档,从主题文档中提取一个或多个特征,将来自主题文档的一个或多个特征与特征信息进行比较,基于来自主题文档的一个或多个特征与特征信息的比较,将主题文档与已知文档类型中的一个已知文档类型相关联,以及将文档传送到云存储***以用于存储在专用存储位置中,所述专用存储位置与用户相关联并且仅包含与主题文档相关联的相应已知文档类型的文档。
所公开的实施例的另一方面是包括存储器和处理器的装置。处理器被配置为执行存储在存储器中的指令以定义多个已知文档类型,获得先前分类的文档的集合,每个先前分类的文档与所述多个已知文档类型中的相应文档类型相关联,以及从先前分类的文档的集合中的每个文档提取特征以定义描述从先前分类的文档的集合中提取的特征的特征信息。处理器还被配置为执行存储在存储器中的指令以获得与用户相关联的主题文档,从主题文档中提取一个或多个特征,将来自主题文档的一个或多个特征与特征信息进行比较,基于来自主题文档的一个或多个特征与特征信息的比较,将主题文档与已知文档类型中的一个已知文档类型相关联,以及将文档传送到云存储***以用于存储在专用存储位置中,所述专用存储位置与用户相关联并且仅包含与主题文档相关联的相应已知文档类型的文档。
所公开的实施例的另一方面是方法,其包括获得与用户相关联的文档以及从文档中提取一个或多个特征。该方法还包括将来自文档的一个或多个特征与描述从销售收据的集合中提取的特征的收据特征信息进行比较,并且基于来自文档的一个或多个特征与收据特征信息的比较来确定文档是销售收据。该方法还包括将所述文档传送到云存储***以用于存储在与用户相关联的专用收据存储位置中。
所公开的实施例的另一方面是包括存储器和处理器的装置。处理器被配置为执行存储在存储器中的指令以获得与用户相关联的文档,从文档中提取一个或多个特征,将来自文档的一个或多个特征与描述从销售收据集合中提取的特征的收据特征信息进行比较,基于来自文档的一个或多个特征与收据特征信息的比较来确定文档是销售收据,以及将文档传送到云存储***以用于存储在与用户相关联的专用收据存储位置中。
以下将更详细地讨论所公开的实施例的这些和其它方面的变型。
附图说明
本文描述参考附图,其中在几个视图中相同的附图标记表示相同的部分,并且其中:
图1是示出其中可以实现用于文档的分类和存储的***的环境的示例的框图;
图2是示出服务器计算机的硬件配置的示例的框图;
图3是示出使用先前分类的文档的集合来定义特征库的***的框图;
图4是示出使用特征库识别和存储未分类的文档的***的框图;
图5是示出用于定义特征库的处理的示例的流程图;和
图6是示出用于识别和存储未分类的文档的处理的示例的流程图。
具体实施方式
根据本文所讨论的方法、***、装置和计算机程序,文档基于文档中的特征被自动分类,并且基于它们被如何分类而被存储在专用存储位置中。本文的教导可以应用于与特定用户相关联的未分类的文档的集合,诸如附接到电子邮件消息的文档以及存储在与用户相关联的集合中的照片。
图1示出了其中可以实现用于文档的分类和存储的***的环境100的示例。环境100可以包括用户***110、一个或多个附加用户***120、和应用托管服务130。用户***110和附加用户***120每个表示可以包括在环境100中的大量(例如,数百万个)***,其中每个***能够利用由应用托管服务130提供的一个或多个应用。用户***110和附加用户***120每个都可以是任何方式的计算机或计算设备,诸如桌面型计算机、膝上型计算机、平板计算机、或智能电话(计算使能的移动电话)。可以使用一个或多个服务器计算机132来实现应用托管服务130。用户***110、附加用户***120、和应用托管服务130每个都可以实现为单个***、多个***、分布式***、或任何其它形式。
这里描述的***、服务、服务器和其它计算设备经由网络150进行通信。网络150可以是任何组合的任何合适类型的一个或多个通信网络,包括无线网、有线网、局域网、广域网、蜂窝数据网、和互联网。
应用托管服务130可以向定义的用户组(包括与用户***110和附加用户***120相关联的运营商)提供对一个或多个托管应用的访问。托管应用中的一个托管应用是允许用户访问、存储、组织和存储所有类型电子文档的云存储服务。云存储服务实现用户账户,使得用户存储在云存储服务处的文档与被认为是文档的所有者的用户相关联。云存储服务还实现特定于用户的访问控制,其允许用户授权其它用户访问文档(即,“共享”)。托管的应用还可以包括电子邮件***和照片存储***。对于任何托管的应用,应用托管服务能够操作用于向用户***110传送信息,所述信息当被用户***110解释时,使用户***110输出相应的托管应用的界面屏幕,以用于显示在与该用户***110相关联的显示设备上。
图2是图1的一个或多个服务器计算机132的硬件配置的示例的框图。可以使用相同的硬件配置或类似的硬件配置来实现用户***110和附加用户***120。每个服务器计算机132可以包括CPU 210。CPU210可以是常规的中央处理单元。替选地,CPU 210可以是能够操纵或处理现有或以后开发的信息的任何其它类型的设备或多个设备。虽然所公开的示例可以利用所示的单个处理器(例如CPU 210)来实现,但是可以使用多于一个处理器来实现速度和效率的优点。
每个服务器计算机132可以包括存储器220,诸如随机存取存储器件(RAM)。任何其它合适类型的存储设备也可以用作存储器220。存储器220可以包括可以由CPU 210使用总线230访问的代码和数据222。存储器220还可以包括一个或多个应用程序224和操作***。应用程序224可以包括导致CPU 210执行这里描述的操作和方法的计算机可执行程序指令形式的软件组件。
可以可选地以任何合适的计算机可读介质(诸如硬盘驱动器、存储器设备、闪存驱动器或光驱动器)的形式提供存储设备240。诸如键盘、鼠标或手势敏感输入设备的一个或多个输入设备250接收用户输入并且可以将指示用户输入的信号或数据输出到CPU 210。可以提供一个或多个输出设备,诸如显示器设备260。诸如液晶显示器(LCD)或阴极射线管(CRT)的显示器260允许例如响应于接收到视频信号而向用户呈现输出。
尽管图2描绘了每个服务器计算机132的CPU 210和存储器220集成到单个单元中,但是可以利用其它配置。CPU 210的操作可以分布在可以直接地或跨局域网或其它网络耦合的多个机器上(每个机器具有处理器中的一个或多个)。存储器220可以分布在多个机器上,诸如基于网络的存储器或在多台机器中的存储器。尽管这里描绘为单总线,但是每个服务器计算机132的总线230可以由多条总线组成。此外,存储设备240可以直接耦合到相应服务器计算机132的其它组件,或者可以经由网络访问,并且可以包括诸如存储卡的单个集成单元或诸如多个存储卡的多个单元。因此,一个或多个服务器计算机可以以各种各样的配置来实现。
图3是示出***300的框图,在***300中,文档的集合310被提供作为特征分类器320的输入,特征分类器320将特征库330定义为输出。在***300中,定义了多个已知文档类型。作为一个示例,已知文档类型中的一个已知文档类型可以对应于销售收据(即,肯定应答对商品或服务的支付的文字)。作为另一示例,另一已知文档类型可以对应于账单、***、或类似的文档。可以利用其它文档类型。
文档的集合310中的文档可以是许多不同类型的。来自文档的集合310的文档包括以编码字符或字符图像形式的文本和/或数字。作为一个示例,来自文档的集合310的文档可以以包含以表示包括字母和数字的字符的方案(诸如,ASCII字符编码方案)编码的文本的多个众所周知的字母数字电子文档格式中的任何格式存储。作为另一示例,来自文档的集合310的文档可以是包括字母数字字符的图像(例如,光栅图像或矢量图像)。
在提供给特征分类器320之前,来自文档的集合310的每个文档被分类。例如通过与来自多个已知文档类型的相应文档类型相关联来分类文档。例如,在将文档的集合310提供给特征分类器320作为输入的时间之前,用户可以将文档中的每个文档手动地与已知文档类型中的一个已知文档类型相关联。在一个实施方式中,可以向用户呈现包括来自多个文档类型中的两个或更多已知文档类型的列表的界面屏幕(例如,对话框),并且请求用户输入,所述用户输入是选择来自列表的文档类型中的一种文档类型的形式。作为另一示例,可以向用户呈现从多个文档类型中识别单个文档类型的界面屏幕,并且请求识别当前显示的文档是否对应于所识别的单个文档类型的用户输入。在将文档的集合310提供给特征分类器320的时间之前,可以使用分类文档的其它方法来将每个文档与已知文档类型中的一个已知文档类型相关联。
特征分类器320从多个文档中的每个文档提取一个或多个特征,并且将特征编码为描述来自文档的特征的特征信息。通过从来自文档的集合310的文档中识别特征,可以识别允许基于它们中的某些特征的存在和/或不存在对未分类文档进行分类的模式。
由特征分类器320识别和提取的文档的特征包括可以用作分类和识别文档的基础的文档或文档部分的实质特征、格式化特征以及其它方面或特征。例如,这些特征可以是包括以下至少一项的基于字母数字文本的特征:文本大小、文本字体、文本定位或实质文本内容。对于基于图像的文件格式的文档,可以利用光学字符识别来将基于图像的文本元素转换为编码字符以提取实质文本内容特征。
特征分类器320的输出是特征信息,其被存储在特征库330中供以后使用。特征信息包括识别特征并允许类似特征与其匹配的信息,以及识别在其中发现特征的文档分类的信息。因此,可以利用来自特征库的特征信息来将未分类的文档中的特征匹配到已知特征,并且这些匹配因此指示未分类的文档与已知文档类型中的一个或多个已知文档类型的相关性,如本文进一步解释的。
在一个实施方式中,特征分类器320可以采用机器学习技术作为提取和分类特征的基础。在另一实施方式中,特征分类器320可以采用机器学习和模板作为提取和分类特征的基础。
图4是示出其中由文档识别器识别器420使用特征库330(其也可作为输入对文档识别器420可用)分类和存储一个或多个未分类的文档410的***400的框图。
未分类的文档410被文档识别器420获得作为输入。未分类的文档410可以是许多不同类型的,如关于来自文档的集合310的文档所解释的。可以以多种不同的方式获得未分类的文档410。在一些实施方式中,未分类的文档410从与用户相关联的文档的集合获得,诸如被存储在用户拥有的设备上或者使用与用户相关联的账户(诸如电子邮件账户)存储在服务器处。
在一个示例中,未分类的文档410是电子邮件消息的附件。在该示例中,获得未分类的文档410可以包括访问存储在电子邮件服务器处的一个或多个电子邮件消息,并且与(例如,由用户拥有或由用户主要控制的)和用户相关联的电子邮件账户相关联。所访问的消息可以是经由诸如SMTP协议的协议在电子邮件服务器处接收的消息,其中用户被识别为消息的接收者。软件组件可以监视在电子邮件服务器处接收到的消息,并将电子邮件附件传送到可由文档识别器420访问的位置,以作为未分类的文档410存储,直到它们被文档识别器420获得和处理。在一些实施方式中,连同电子邮件附件传送电子邮件消息,使得消息本身的内容可以用于分类附件。因此,***400可以自动处理电子邮件消息和/或电子邮件附件,而不由用户启动分类过程。
在另一示例中,未分类的文档410是照片。在该示例中,获得未分类的文档410可以包括访问与用户相关联的照片。照片可以是存储在与用户相关联的设备处,或者存储在与用户相关联的位置中的基于云的存储***处的照片的集合的一部分。可以诸如通过软件组件来监视照片的集合,并且新添加的照片可以被传送到可由文档识别器420访问的位置,以作为未分类的文档410存储,直到它们被文档识别器420获得和处理。因此,***400可以自动处理新捕获或存储的图像,而不由用户启动分类过程。
文档识别器420从未分类的文档410中提取特征。这可以以关于特征分类器320所描述的方式来完成。文档识别器420然后利用特征库330通过将所提取的特征与特征信息进行比较来确定主题文档中的每个主题文档是否对应于已知文档类型中的一个已知文档类型。例如,文档识别器420可以从未分类的文档410中选择主题文档,从主题文档中提取一个或多个特征,并且将从主题文档提取的一个或多个提取的特征与存储在特征库330中的特征信息进行比较。可以使用诸如机器学习和/或模式匹配技术的已知技术来执行该比较。该比较的结果可以是与主题文档有关的已知文档类型中的一个或多个已知文档类型的识别。
在一个实施方式中,针对主题文档关于几个已知文档类型中的每一个确定分数,其中每个分数表示该主题文档对应于特定文档类型(即,属于相同类型的文档)的概率。可以基于该分数来选择已知文档类型中的一个已知文档类型。用于选择已知文档类型中的一个已知文档类型的算法的一个简单示例简单地选择最高排名的已知文档类型。可以使用其它算法来选择已知文档类型中的一个已知文档类型。
在一些实施方式中,作出关于结果是否被认为是有效的或无效的确定。这样的确定可以基于一个或多个单独的测试进行。一个这样的测试可以确定最高排名的文档类型的分数是否超过阈值值。如果最高排名的文档类型的分数不超过阈值值,则结果被确定为无效。另一这样的测试可以确定两个最高排名的文档类型是否相差小于阈值值(例如,误差余量)。如果两个最高排名的文档类型相差小于阈值值,则结果被确定为无效。如果过程产生有效结果,则主题文档与已知文档类型相关联。可以自动进行此关联,而无需选择已知文档类型的用户输入。文档识别器420然后使主题文档与已知文档类型相关联。如果该过程不产生有效的结果,则文档识别器420不会自动将主题文档与已知的文档类型相关联。在一些实施方式中,文档识别器420然后可以提示用户通过从列表中选择已知文档类型中的一个已知文档类型或通过创建新的文档类型来手动地对主题文档进行分类。
在主题文档与已知文档类型相关联之后,文档识别器420使主题文档与已知文档类型相关联地存储。在一个示例中,与已知文档相关联地存储主题文档包括将主题文档转移到文档存储***430以便以允许基于其文档类型来定位和检索主题文档的方式进行存储。在一个实施方式中,文档识别器420使在文档存储***430处自动存储主题文档被而无需用户输入。在另一实施方式中,文档识别器420使得向用户显示询问用户该文档是否应存储在文档存储***430处的界面。
与其文档类型相关联地存储主题文档的一个示例包括将主题文档存储在仅包含来自相同文档类型的文档的文档存储***430处的专用存储位置中。专用存储位置可以是仅存储来自单个文档类型的文档的分层存储结构的文件夹。也可以使用非分层存储***来将相同已知文档类型的文档存储在一起。例如,这样的***可以存储识别文档的文档类型的主题文档的元数据。文档存储***430可以利用该元数据来定义并且使显示仅包含来自单个指定文档类型的文档的基于文件夹的集合或基于标准的集合。
在一个实施方式中,文档存储***430是云存储***,其将每个已知文档类型的文档存储在与用户相关联并且仅包含与该主题文档相关联的相应已知文档类型的文档的专用存储位置中。专用存储位置可以通过给予用户至少部分地对专用存储位置的控制的用户账户与用户相关联。提供给用户的控制可以包括设置访问控制以拒绝或授权他人访问专用存储位置的能力。
***400可以应用于许多类型的文档。在一个实施方式中,已知文档类型中的一个已知文档类型对应于销售收据,并且特征库330包括对于确定主题文档是否为销售收据有用的来自销售收据的分类特征。
作为一个示例,用户可以在电子邮件消息本身中或者以诸如图像文件格式、文字处理文档文件格式或应用独立文档显示文件格式(诸如PDF文档格式)的格式作为附件接收包含销售收据的一个或多个电子邮件消息。这些文档由文档识别器420处理,并且诸如通过在文档存储***430处创建文档的副本,被识别为销售收据的任何文档被存储在文档存储***430处。尽管以前给出的示例全部关注文档中的特征指示文档本身是已知类型的情况,应当理解可以处理电子邮件消息中的特征以确定电子邮件消息的附件对应于已知的文档类型,在这种情况下基于电子邮件消息中的特征对附件进行分类,然后可以将附件存储在文档存储***430处。
作为另一示例,用户可以利用相机拍摄一个或多个销售收据的照片,并将这些照片存储在也包括其它类型的图像的图像的集合中。文档识别器420如前所述处理这些图像。为了特征分类的目的,可以利用光学字符识别来从图像中辨识和提取文本。文档识别器420在确定文档中的至少一些是销售收据时,使那些文档被存储在文档存储***430处。
图5是示出用于定义诸如特征库330的特征库的过程500的示例的流程图。结合过程500描述的操作可以在一个或多个计算机处执行,诸如在应用托管服务130的一个或多个服务器计算机132处或用户***110处执行。当操作被描述为由一个或多个计算机执行时,当由一个计算机单独工作或由多个计算机一起工作执行时完成该操作。结合过程500描述的操作可以被实现为非暂时计算机可读存储介质,其包括当被执行时使一个或多个处理器执行操作的可由一个或多个处理器执行的程序指令。例如,结合过程500描述的操作可以存储在服务器计算机132之一的存储器220处,以供由其CPU 210执行。
在操作510中,获得已知类型的文档。在操作510处获得的文档可以是诸如通过手动过程先前分类的文档。在操作520中,诸如通过将这些文档提供给关于特征分类器320描述的特征分类***,在操作510处获得的文档被分类。在操作530中,表示在操作520处提取和分类的特征的信息被存储。这可以例如如关于在特征库330处的特征信息的存储所描述的来执行。
图6是示出用于识别和存储未分类的文档的过程600的示例的流程图。结合过程600描述的操作可以在一个或多个计算机处,诸如应用托管服务130的一个或多个服务器计算机132处或用户***110处执行。当操作被描述为由一个或多个计算机执行时,当由一个计算机单独工作或由多个计算机一起工作执行时完成该操作。结合过程600描述的操作可以被实现为非暂时计算机可读存储介质,其包括当被执行时使一个或多个处理器执行操作的可由一个或多个处理器执行的程序指令。例如,结合过程600描述的操作可以存储在服务器计算机132之一的存储器220处,以供由其CPU 210执行。
在操作610中,获得未分类的文档。这可以以关于未分类文档410所描述的方式执行。在操作620中,将在操作610处获得的文档提供给特征提取***,其提取可以用作识别文档的基础的特征。在操作630处,对于文档中的每个文档,确定关于文档对应于已知文档类型的概率。如关于文档识别器420所描述的可以执行操作620和630。在操作640中,作出关于在操作630处的文档类型的确定是否有效的确定。这可以通过使用一个或多个规则来分析在操作630处计算的概率来执行,如前所述。如果确定无效,则在操作630处识别的文档类型不被用作存储文档的基础。此时,该过程结束,或者可替选地,可以提示用户输入可用于正确识别和存储文档的信息。如果操作640确定在操作630处识别的文档类型是有效的,则在操作650处与文档类型相关联地存储文档。这可以例如以关于文档存储***430所描述的方式来执行。
前面的描述仅描述所描述的技术的一些示例性实施方式。其它实施方式可用。例如,组件的特定命名、术语的大小写、属性、数据结构或任何其它编程或结构方面不是强制性的或重要的,并且实现本发明或其特征的机制可以具有不同的名称、格式或协议。此外,***可以经由如所描述的硬件和软件的组合来实现,或完全在硬件元件中实现。此外,本文所述的各种***组件之间的功能的特定划分仅仅是示例性的,而不是强制性的;由单个***组件执行的功能可以替代地由多个组件来执行,而由多个组件执行的功能可以替代地由单个组件执行。
词语“示例”或“示例性”在本文中用于表示用作示例、实例或说明。在本文中描述为“示例”或“示例性”的任何方面或设计不一定被解释为比其它方面或设计优选或有利。而是使用单词“示例”或“示例性”旨在以具体方式呈现概念。如在本申请中使用的术语“或”旨在表示包容性“或”而不是排他性“或”。即,除非另有说明或者从上下文中清楚的,“X包括A或B”旨在表示任何自然包容性排列。即,如果X包括A;X包括B;或X包括A和B二者,则在任何前述情况下,“X包括A或B”被满足。另外,在本申请和所附权利要求书中使用的冠词“一”和“一个”通常应被解释为“一个或多个”,除非另有说明或从上下文中清楚地指向单数形式。此外,整个全文中术语“实施例”或“一个实施例”或“实施方式”或“一个实施方式”的使用不旨在意味着相同的实施例或实施方式,除非如此描述。
本文描述的计算机设备(例如,客户端和服务器)的实施方式可以以硬件、软件或其任何组合来实现。硬件可以包括例如计算机、知识产权(IP)核心、专用集成电路(ASIC)、可编程逻辑阵列、光学处理器、可编程逻辑控制器、微代码、微控制器、服务器、微处理器、数字信号处理器或任何其它合适的电路。在权利要求中,术语“处理器”应被理解为单独地或组合地包含任何上述硬件。术语“信号”和“数据”可互换使用。此外,本文描述的每个客户端和每个服务器的部分不一定必须以相同的方式实现。
被描述为由单个处理器、计算机或设备执行的操作可以分布在多个不同的处理器、计算机或设备上。类似地,在一些情况下,描述为由不同处理器、计算机或设备执行的操作可以由单个处理器、计算机或设备执行。
虽然上述或要求作为特定组合来描述特征,但是在某些情况下组合的一个或多个特征可以从组合中被去除,并且该组合可以针对子组合或子组合的变化。
本文描述的***,诸如客户端计算机和服务器计算机,可以使用具有计算机程序的通用计算机/处理器来实现,该计算机程序在执行时执行本文所述的任何相应方法、算法和/或指令。另外或可替选地,例如,可以使用专用计算机/处理器,其可以包含用于执行本文所述的任何方法、算法或指令的专用硬件。
以上描述的一些部分包括根据关于信息的操作的算法和符号表示来呈现的公开内容。这些算法描述和表示是数据处理领域的技术人员用来最有效地将其工作的实质传达给本领域技术人员的手段。这些操作虽然在功能上或逻辑上被描述,但被理解为由计算机程序来实现。此外,有时也可以方便地将这些操作安排作为模块或功能名称,而不会失去一般性。应当注意,本公开的实施方式的处理步骤和指令可以实施在软件、固件或硬件中,并且当实施在软件中时,可以下载以驻留在实时网络操作***使用的不同平台上并且根据实时网络操作***使用的不同平台操作。
除非另有明确说明,否则从上述讨论中显而易见,应当理解,在整个描述中,利用诸如“处理”或“计算”或“算”或“确定”或“显示”等术语的讨论涉及在计算机***存储器或寄存器或其它这样的信息存储、传输或显示设备内操纵和变换表示为物理(电子)量的数据的计算机***或类似的电子计算设备的动作和过程。
本公开的至少一个实施方式涉及用于执行本文操作的装置。该装置可以被特别地构建用于所需目的,或者它可以包括由存储在可由计算机访问的计算机可读存储介质上的计算机程序选择性地激活或重新配置的通用计算机。
本公开的所有或一部分实施例可以采用可从例如非暂时计算机可用或计算机可读介质访问的计算机程序产品的形式。计算机程序当执行时可以执行本文所描述的各种技术、算法和/或指令中的任何一种。非暂时的计算机可用或计算机可读介质可以是可以例如有形地包含、存储、通信或传送程序以供任何处理器使用或与任何处理器结合使用的任何设备。非暂时介质可以是例如包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁性或光卡、专用集成电路(ASIC)的任何类型的盘,或适合于有形地包含、存储、通信或传送电子指令的任何类型的媒体。
应当理解,本公开不限于所公开的实施例,而是相反,旨在覆盖包括在所附权利要求的范围内的各种修改和等同布置。

Claims (20)

1.一种方法,包括:
定义多个已知文档类型;
获得先前分类的文档的集合,每个先前分类的文档与所述多个已知文档类型中的相应文档类型相关联;
从所述先前分类的文档的集合中的每个文档提取特征以定义描述从所述先前分类的文档的集合中提取的特征的特征信息;
获得与用户相关联的主题文档;
从所述主题文档中提取一个或多个特征;
将来自所述主题文档的所述一个或多个特征与所述特征信息进行比较;
基于来自所述主题文档的所述一个或多个特征与所述特征信息的所述比较,将所述主题文档与所述已知文档类型中的一个已知文档类型相关联;以及
将所述文档传送到云存储***以用于存储在专用存储位置中,所述专用存储位置与所述用户相关联并且仅包含与所述主题文档相关联的所述相应已知文档类型的文档。
2.根据权利要求1所述的方法,其中,所述主题文档是电子邮件消息的附件。
3.根据权利要求1所述的方法,其中,获得所述主题文档包括访问具有电子邮件附件的电子邮件消息并且存储所述电子邮件附件的副本作为所述主题文档。
4.根据权利要求1所述的方法,其中,所述主题文档是照片。
5.根据权利要求4所述的方法,其中,获得所述主题文档包括访问与所述用户相关联的照片集合并且存储来自所述照片集合的照片中的一个照片的副本作为所述主题文档。
6.一种装置,包括:
存储器;和
处理器,所述处理器被配置为执行存储在所述存储器中的指令以:
定义多个已知文档类型;
获得先前分类的文档的集合,每个先前分类的文档与所述多个已知文档类型中的相应文档类型相关联;
从所述先前分类的文档的集合中的每个文档提取特征以定义描述从所述先前分类的文档的集合中提取的特征的特征信息;
获得与用户相关联的主题文档;
从所述主题文档中提取一个或多个特征;
将来自所述主题文档的所述一个或多个特征与所述特征信息进行比较;
基于来自所述主题文档的所述一个或多个特征与所述特征信息的所述比较,将所述主题文档与所述已知文档类型中的一个已知文档类型相关联;以及
将所述文档传送到云存储***以用于存储在专用存储位置中,所述专用存储位置与所述用户相关联并且仅包含与所述主题文档相关联的所述相应已知文档类型的文档。
7.根据权利要求6所述的装置,其中,所述主题文档是电子邮件消息的附件。
8.根据权利要求6所述的装置,其中,获得所述主题文档包括访问具有电子邮件附件的电子邮件消息并且存储所述电子邮件附件的副本作为所述主题文档。
9.根据权利要求6所述的装置,其中,所述主题文档是照片。
10.根据权利要求9所述的装置,其中,获得所述主题文档包括访问与所述用户相关联的照片集合并且存储来自所述照片集合的照片中的一个照片的副本作为所述主题文档。
11.根据权利要求6所述的装置,其中,所述一个或多个特征是包括以下至少一项的基于字母数字文本的特征:文本大小、文本字体、文本定位、或实质文本内容。
12.一种方法,包括:
获得与用户相关联的文档;
从所述文档中提取一个或多个特征;
将来自所述文档的所述一个或多个特征与描述从销售收据的集合中提取的特征的收据特征信息进行比较;
基于来自所述文档的一个或多个特征与所述收据特征信息的所述比较来确定所述文档是销售收据;以及
将所述文档传送到云存储***以用于存储在与所述用户相关联的专用收据存储位置中。
13.根据权利要求12所述的方法,其中,所述文档是电子邮件消息的附件,并且获得所述文档包括访问一个或多个电子邮件消息,并且存储来自所述一个或多个电子邮件消息的一个或多个电子邮件附件的副本作为所述一个或多个文档。
14.根据权利要求12所述的方法,其中,所述一个或多个文档是照片,并且获得所述文档包括访问与所述用户相关联的照片的集合,并且存储来自所述照片的集合的一个或多个照片的副本作为所述一个或多个文档。
15.根据权利要求12所述的方法,其中,所述一个或多个特征是包括以下至少一项的基于字母数字文本的特征:文本大小、文本字体、文本定位、和实质文本内容。
16.一种装置,包括:
存储器;和
处理器,所述处理器被配置为执行存储在所述存储器中的指令以:
获得与用户相关联的文档,
从所述文档中提取一个或多个特征,
将来自所述文档的所述一个或多个特征与描述从销售收据的集合中提取的特征的收据特征信息进行比较,
基于来自所述文档的所述一个或多个特征与所述收据特征信息的所述比较来确定所述文档是销售收据,以及
将所述文档传送到云存储***以用于存储在与所述用户相关联的专用收据存储位置中。
17.根据权利要求16所述的装置,其中,所述文档是电子邮件消息的附件,并且所述一个或多个文档是照片。
18.根据权利要求17所述的装置,其中,获得所述文档包括访问一个或多个电子邮件消息,并且存储来自所述一个或多个电子邮件消息的一个或多个电子邮件附件的副本作为所述一个或多个文档。
19.根据权利要求17所述的装置,其中,获得所述文档包括访问与所述用户相关联的照片的集合,并且存储来自所述照片的集合的一个或多个照片的副本作为所述一个或多个文档。
20.根据权利要求16所述的装置,其中,所述一个或多个特征是包括以下至少一项的基于字母数字文本的特征:文本大小、文本字体、文本定位、或实质文本内容。
CN201580073882.7A 2015-01-19 2015-11-06 文档的分类和存储 Pending CN107209771A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/599,793 2015-01-19
US14/599,793 US9870420B2 (en) 2015-01-19 2015-01-19 Classification and storage of documents
PCT/US2015/059535 WO2016118215A1 (en) 2015-01-19 2015-11-06 Classification and storage of documents

Publications (1)

Publication Number Publication Date
CN107209771A true CN107209771A (zh) 2017-09-26

Family

ID=54705810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580073882.7A Pending CN107209771A (zh) 2015-01-19 2015-11-06 文档的分类和存储

Country Status (5)

Country Link
US (1) US9870420B2 (zh)
CN (1) CN107209771A (zh)
DE (2) DE202015009283U1 (zh)
GB (1) GB2550777B (zh)
WO (1) WO2016118215A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002483A (zh) * 2018-06-22 2018-12-14 平安科技(深圳)有限公司 文档管理方法、装置、计算机设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10389663B2 (en) * 2015-04-23 2019-08-20 Microsoft Technology Licensing, Llc Automatic uploading of attachments to group cloud storage at send time
US9594776B2 (en) * 2015-05-05 2017-03-14 Microsoft Technology Licensing, Llc Dynamic, parameterized image resource selection
US11379618B2 (en) * 2017-06-01 2022-07-05 International Business Machines Corporation Secure sensitive personal information dependent transactions
US20190384686A1 (en) * 2018-06-15 2019-12-19 Microsoft Technology Licensing, Llc System for Ranking Electronic Application User Actions
CN109542910B (zh) * 2018-12-03 2022-10-28 中国电波传播研究所(中国电子科技集团公司第二十二研究所) 一种海量海杂波数据分类存储方法
JP7409061B2 (ja) * 2019-12-13 2024-01-09 富士フイルムビジネスイノベーション株式会社 文書管理装置及び文書管理プログラム
US11516186B1 (en) * 2020-03-04 2022-11-29 Amazon Technologies, Inc. Offboard storage of non-sensitive objects for network-based hardware security modules
US11893031B2 (en) 2021-07-15 2024-02-06 Open Text Sa Ulc Systems and methods for intelligent automatic filing of documents in a content management system
EP4120097A1 (en) * 2021-07-15 2023-01-18 Open Text SA ULC Systems and methods for intelligent automatic filing of documents in a content management system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
US20090313194A1 (en) * 2008-06-12 2009-12-17 Anshul Amar Methods and apparatus for automated image classification
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤***及方法
CN103620587A (zh) * 2011-06-28 2014-03-05 微软公司 将电子内容自动分类到项目中
US20140279716A1 (en) * 2013-03-15 2014-09-18 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques

Family Cites Families (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1327407C (en) 1988-11-29 1994-03-01 Chander Kasiraj Method for providing an object activity history
US5579471A (en) 1992-11-09 1996-11-26 International Business Machines Corporation Image query system and method
US6006239A (en) 1996-03-15 1999-12-21 Microsoft Corporation Method and system for allowing multiple users to simultaneously edit a spreadsheet
DE69719269T2 (de) 1996-08-01 2003-10-30 International Business Machines Corp., Armonk Absicherung der Unteilbarkeit für eine Ansammlung von transaktionellen Arbeitsschritten in einem Arbeitsflussverwaltungssystem
US6453352B1 (en) 1997-07-14 2002-09-17 Electronic Data Systems Corporation Integrated electronic commerce system and method
US6119165A (en) 1997-11-17 2000-09-12 Trend Micro, Inc. Controlled distribution of application programs in a computer network
US6415373B1 (en) 1997-12-24 2002-07-02 Avid Technology, Inc. Computer system and process for transferring multiple high bandwidth streams of data between multiple storage units and multiple applications in a scalable and reliable manner
US8479122B2 (en) 2004-07-30 2013-07-02 Apple Inc. Gestures for touch sensitive input devices
US6314105B1 (en) 1998-05-19 2001-11-06 Cisco Technology, Inc. Method and apparatus for creating and dismantling a transit path in a subnetwork
FR2781582B1 (fr) 1998-07-21 2001-01-12 Technical Maintenance Corp Systeme de telechargement d'objets ou de fichiers pour mise a jour de logiciels
US20050131992A1 (en) 2003-12-11 2005-06-16 Eric Goldstein System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources
US6507845B1 (en) 1998-09-14 2003-01-14 International Business Machines Corporation Method and software for supporting improved awareness of and collaboration among users involved in a task
US6317722B1 (en) 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
WO2000051021A2 (en) 1999-02-11 2000-08-31 Signifile B.V. Electronic document storage and retrieval system and method
US6614804B1 (en) 1999-03-22 2003-09-02 Webtv Networks, Inc. Method and apparatus for remote update of clients by a server via broadcast satellite
FI109319B (fi) 1999-12-03 2002-06-28 Nokia Corp Päätelaitteelle välitettävän elektronisen informaation suodattaminen
WO2001047187A2 (en) 1999-12-23 2001-06-28 Accenture Llp A method for controlling data collection, manipulation and storage on a network with service assurance capabilities
US8701027B2 (en) 2000-03-16 2014-04-15 Microsoft Corporation Scope user interface for displaying the priorities and properties of multiple informational items
US6687735B1 (en) 2000-05-30 2004-02-03 Tranceive Technologies, Inc. Method and apparatus for balancing distributed applications
US7219302B1 (en) 2000-07-19 2007-05-15 Everez Systems Limited System and method for organizing, managing, and manipulating desktop objects with an activity-oriented user interface
US6711557B1 (en) 2000-08-14 2004-03-23 Adobe Systems Incorporated Client-based background update monitoring
US7047309B2 (en) 2000-08-23 2006-05-16 International Business Machines Corporation Load balancing and dynamic control of multiple data streams in a network
AU2002312508B2 (en) 2000-09-11 2008-01-17 Agami Systems, Inc. Storage system having partitioned migratable metadata
US20020112116A1 (en) 2000-11-17 2002-08-15 Nelson Mark Edward Methods, systems, and computer program products for storing data in collections of tagged data pieces
US7660902B2 (en) 2000-11-20 2010-02-09 Rsa Security, Inc. Dynamic file access control and management
US6590568B1 (en) 2000-11-20 2003-07-08 Nokia Corporation Touch screen drag and drop input technique
US7783972B2 (en) 2001-01-08 2010-08-24 Enfocus NV Ensured workflow system and method for editing a consolidated file
US7030861B1 (en) 2001-02-10 2006-04-18 Wayne Carl Westerman System and method for packing multi-touch gestures onto a hand
US20020167538A1 (en) 2001-05-11 2002-11-14 Bhetanabhotla Murthy N. Flexible organization of information using multiple hierarchical categories
US7945600B1 (en) 2001-05-18 2011-05-17 Stratify, Inc. Techniques for organizing data to support efficient review and analysis
US7711771B2 (en) 2001-05-25 2010-05-04 Oracle International Corporation Management and synchronization application for network file system
US20030208490A1 (en) 2001-06-15 2003-11-06 Jean-Jacques Larrea System and method for data storage, control and access
US8990712B2 (en) 2011-08-24 2015-03-24 Z124 Unified desktop triad control user interface for file manager
JP2003298991A (ja) 2002-03-29 2003-10-17 Fuji Photo Film Co Ltd 画像整理方法および装置並びにプログラム
EP1502197A4 (en) 2002-04-19 2006-03-29 Toshiba Tec Kk DOCUMENT MANAGEMENT SYSTEM
JP2004220569A (ja) 2002-12-25 2004-08-05 Casio Comput Co Ltd データファイル記憶装置、データファイル記憶プログラム及びデータファイル記憶方法
JP2004213129A (ja) 2002-12-27 2004-07-29 Fuji Photo Film Co Ltd 画像分類方法および装置並びにプログラム
US7627552B2 (en) 2003-03-27 2009-12-01 Microsoft Corporation System and method for filtering and organizing items based on common elements
US7536386B2 (en) 2003-03-27 2009-05-19 Microsoft Corporation System and method for sharing items in a computer system
US20050033777A1 (en) 2003-08-04 2005-02-10 Moraes Mark A. Tracking, recording and organizing changes to data in computer systems
US20080126476A1 (en) 2004-08-04 2008-05-29 Nicholas Frank C Method and System for the Creating, Managing, and Delivery of Enhanced Feed Formatted Content
US8346739B1 (en) * 2004-08-27 2013-01-01 Affiliated Computer Services, Inc. Segmenting documents among multiple data repositories
US8504565B2 (en) 2004-09-09 2013-08-06 William M. Pitts Full text search capabilities integrated into distributed file systems— incrementally indexing files
US20060059174A1 (en) 2004-09-16 2006-03-16 International Business Machines Corporation Apparatus, system, and method for locating an application compatible with a file
US7630400B2 (en) 2005-01-20 2009-12-08 International Business Machines Corporation Controlling software distribution or file transfer
US7323999B2 (en) 2005-03-11 2008-01-29 International Business Machines Corporation Automatic subscriptions to shared repositories with notifications reflecting accesses by important other users and keywords stored in a personal interest profile
US20060229932A1 (en) 2005-04-06 2006-10-12 Johnson & Johnson Services, Inc. Intelligent sales and marketing recommendation system
US20140236722A1 (en) 2005-04-08 2014-08-21 Marshall Feature Recognition Llc System And Method For Accessing Electronic Data Via An Image Search Engine
US7620902B2 (en) 2005-04-20 2009-11-17 Microsoft Corporation Collaboration spaces
EP1977348A4 (en) 2006-01-27 2010-08-04 El Fresko Technologies Ltd EVENT-STRUCTURED FILES SYSTEM
EP1847952A1 (en) 2006-04-21 2007-10-24 Yahoo!, Inc. Searching method and apparatus
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US8270490B2 (en) 2006-07-06 2012-09-18 Canon Kabushiki Kaisha Motion vector detection apparatus, motion vector detection method, image encoding apparatus, image encoding method, and computer program
US7756821B2 (en) 2006-11-02 2010-07-13 Microsoft Corporation Virtual deletion in merged file system directories
US7956847B2 (en) 2007-01-05 2011-06-07 Apple Inc. Gestures for controlling, manipulating, and editing of media files using touch sensitive devices
US20080177623A1 (en) 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8132111B2 (en) 2007-01-25 2012-03-06 Samuel Pierce Baron Virtual social interactions
WO2008097810A2 (en) 2007-02-02 2008-08-14 Veoh Networks, Inc. Indicator-based recommendation system
US20080270398A1 (en) 2007-04-30 2008-10-30 Landau Matthew J Product affinity engine and method
US8522258B1 (en) 2007-06-15 2013-08-27 At&T Mobility Ii Llc Event handling system
US7904303B2 (en) 2007-08-24 2011-03-08 Yahoo! Inc. Engagement-oriented recommendation principle
US8332375B2 (en) 2007-08-29 2012-12-11 Nirvanix, Inc. Method and system for moving requested files from one storage location to another
US8285700B2 (en) 2007-09-07 2012-10-09 Brand Affinity Technologies, Inc. Apparatus, system and method for a brand affinity engine using positive and negative mentions and indexing
US7827299B2 (en) 2007-09-11 2010-11-02 International Business Machines Corporation Transitioning between historical and real time data streams in the processing of data change messages
US9020913B2 (en) 2007-10-25 2015-04-28 International Business Machines Corporation Real-time interactive authorization for enterprise search
US8467955B2 (en) 2007-10-31 2013-06-18 Microsoft Corporation Map-centric service for social events
US8645827B2 (en) 2008-03-04 2014-02-04 Apple Inc. Touch event model
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US8418084B1 (en) 2008-05-30 2013-04-09 At&T Intellectual Property I, L.P. Single-touch media selection
KR100972104B1 (ko) 2008-06-27 2010-07-23 주식회사 켐트로닉스 이동 터치 감지 방법, 장치 및 그 방법을 실행하는프로그램이 기록된 기록매체
US20090327975A1 (en) 2008-06-27 2009-12-31 Stedman Roy W Multi-Touch Sorting Gesture
US8169414B2 (en) 2008-07-12 2012-05-01 Lim Seung E Control of electronic games via finger angle using a high dimensional touchpad (HDTP) touch user interface
US9251286B2 (en) 2008-07-15 2016-02-02 International Business Machines Corporation Form attachment metadata generation
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8644688B2 (en) 2008-08-26 2014-02-04 Opentv, Inc. Community-based recommendation engine
JP5329884B2 (ja) 2008-09-18 2013-10-30 株式会社東芝 携帯可能電子装置および携帯可能電子装置におけるデータ処理方法
JP5199003B2 (ja) 2008-09-25 2013-05-15 株式会社日立製作所 管理装置及び計算機システム
WO2010044868A1 (en) 2008-10-14 2010-04-22 Brand Affinity Technologies Inc. Apparatus, system and method for a brand affinity engine using positive and negative mentions and indexing
US8624836B1 (en) 2008-10-24 2014-01-07 Google Inc. Gesture-based small device input
KR20100052676A (ko) 2008-11-11 2010-05-20 삼성전자주식회사 컨텐츠 앨범화 장치 및 그 방법
US20100131523A1 (en) * 2008-11-25 2010-05-27 Leo Chi-Lok Yu Mechanism for associating document with email based on relevant context
US20100161441A1 (en) 2008-12-24 2010-06-24 Comcast Interactive Media, Llc Method and apparatus for advertising at the sub-asset level
US8298087B1 (en) 2009-01-02 2012-10-30 Nintendo Of America Inc. Recommendation engine for electronic game shopping channel
US8196047B2 (en) 2009-01-20 2012-06-05 Microsoft Corporation Flexible visualization for services
US9405752B2 (en) 2009-02-13 2016-08-02 T-Mobile Usa, Inc. System and method for automatically presenting a media file on a mobile device based on relevance to a user
US20100241971A1 (en) 2009-03-20 2010-09-23 Thomas Zuber System and method for interactively collaborating within a secure online social networking community
US9215423B2 (en) 2009-03-30 2015-12-15 Time Warner Cable Enterprises Llc Recommendation engine apparatus and methods
US20110052012A1 (en) 2009-03-31 2011-03-03 Myspace Inc. Security and Monetization Through Facial Recognition in Social Networking Websites
US10984397B2 (en) 2009-03-31 2021-04-20 Ebay Inc. Application recommendation engine
US20100257477A1 (en) 2009-04-03 2010-10-07 Certusview Technologies, Llc Methods, apparatus, and systems for documenting and reporting events via geo-referenced electronic drawings
US8396287B2 (en) 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
US8555173B2 (en) 2009-05-31 2013-10-08 Linkedin Corporation Recommendation engine
WO2010150277A2 (en) 2009-06-03 2010-12-29 The Information Company Private Limited A method and system for directory management
US8433993B2 (en) 2009-06-24 2013-04-30 Yahoo! Inc. Context aware image representation
BRPI1013794A8 (pt) 2009-06-26 2017-10-10 Simplivity Corp Método de adaptar um processo de indexação de acesso uniforme com uma memória de acesso não uniforme e sistema de computador
US8407190B2 (en) 2009-06-30 2013-03-26 Commvault Systems, Inc. Performing data storage operations with a cloud environment, including containerized deduplication, data pruning, and data transfer
US8407613B2 (en) 2009-07-13 2013-03-26 Apple Inc. Directory management on a portable multifunction device
US8670597B2 (en) 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
KR101484826B1 (ko) 2009-08-25 2015-01-20 구글 잉크. 직접적인 조작 제스처들
US8571331B2 (en) 2009-11-30 2013-10-29 Xerox Corporation Content based image selection for automatic photo album generation
US8189964B2 (en) 2009-12-07 2012-05-29 Google Inc. Matching an approximately located query image against a reference image set
US8238671B1 (en) 2009-12-07 2012-08-07 Google Inc. Scene classification for place recognition
US8719939B2 (en) * 2009-12-31 2014-05-06 Mcafee, Inc. Malware detection via reputation system
US8423046B2 (en) 2010-02-22 2013-04-16 Google Inc. Network performance server
KR20110128567A (ko) 2010-05-24 2011-11-30 삼성전자주식회사 사용자 인터페이스에 포함되는 오브젝트의 제어 방법 및 상기 방법이 채용된 장치
US8323048B2 (en) 2010-08-03 2012-12-04 Ideal Industries, Inc. Conduit connector with two housings for connection to flexible conduit
US20120072449A1 (en) 2010-09-17 2012-03-22 Microsoft Corporation Object instance versioning
US9323442B2 (en) 2010-09-30 2016-04-26 Apple Inc. Managing items in a user interface
US9031957B2 (en) 2010-10-08 2015-05-12 Salesforce.Com, Inc. Structured data in a business networking feed
US8903770B2 (en) 2010-10-15 2014-12-02 Salesforce.Com, Inc. Methods and apparatus for discontinuing the following of records in an on-demand database service environment
EP2458512A1 (en) 2010-11-29 2012-05-30 Deutsche Telekom AG Mobile data storage
US8464184B1 (en) 2010-11-30 2013-06-11 Symantec Corporation Systems and methods for gesture-based distribution of files
EP2458548A1 (en) 2010-11-30 2012-05-30 France Telecom System and method for implementing dynamic access control rules to personal cloud information
US20120233227A1 (en) 2010-12-09 2012-09-13 International Business Machines Corporation File attachment retrieval
US8412731B2 (en) 2010-12-09 2013-04-02 International Business Machines Corporation File management method and system
US9876827B2 (en) 2010-12-27 2018-01-23 Google Llc Social network collaboration space
WO2012099617A1 (en) 2011-01-20 2012-07-26 Box.Net, Inc. Real time notification of activities that occur in a web-based collaboration environment
AU2012211130B2 (en) 2011-01-27 2015-11-26 Google Llc Content access control in social network
US20120213404A1 (en) 2011-02-18 2012-08-23 Google Inc. Automatic event recognition and cross-user photo clustering
US8468164B1 (en) 2011-03-09 2013-06-18 Amazon Technologies, Inc. Personalized recommendations based on related users
US20140067702A1 (en) 2011-03-29 2014-03-06 Yogesh Chunilal Rathod Method and System for Dynamically Publishing, Sharing, Communication and Subscribing
CA2772903A1 (en) 2011-03-31 2012-09-30 Wideorbit Inc. Systems and methods for importing media file email attachments
US20120290947A1 (en) 2011-04-12 2012-11-15 Arcode Corporation Methods and systems to filter and display electronic messages
US9646291B2 (en) * 2011-05-11 2017-05-09 Visa International Service Association Electronic receipt manager apparatuses, methods and systems
US20120290926A1 (en) 2011-05-12 2012-11-15 Infinote Corporation Efficient document management and search
US8332424B2 (en) 2011-05-13 2012-12-11 Google Inc. Method and apparatus for enabling virtual tags
US9058612B2 (en) 2011-05-27 2015-06-16 AVG Netherlands B.V. Systems and methods for recommending software applications
WO2012164648A1 (ja) 2011-05-27 2012-12-06 株式会社日立製作所 ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法
US8788947B2 (en) 2011-06-14 2014-07-22 LogMeln, Inc. Object transfer method using gesture-based computing device
GB2503625A (en) 2011-07-08 2014-01-01 Box Inc Collaboration sessions in a workspace on cloud-based content management system
US20130024464A1 (en) 2011-07-20 2013-01-24 Ness Computing, Inc. Recommendation engine that processes data including user data to provide recommendations and explanations for the recommendations to a user
US8458174B1 (en) 2011-09-02 2013-06-04 Google Inc. Semantic image label synthesis
US8887035B2 (en) 2011-09-21 2014-11-11 Facebook, Inc. Capturing structured data about previous events from users of a social networking system
US9286641B2 (en) 2011-10-19 2016-03-15 Facebook, Inc. Automatic photo capture based on social components and identity recognition
KR101812657B1 (ko) 2011-11-22 2018-01-31 삼성전자주식회사 컨텍스트 정보에 기초한 애플리케이션 추천 시스템 및 방법
KR20130065802A (ko) 2011-11-30 2013-06-20 삼성전자주식회사 키워드를 이용한 애플리케이션 추천 시스템 및 방법
US8891907B2 (en) 2011-12-06 2014-11-18 Google Inc. System and method of identifying visual objects
US8417000B1 (en) 2011-12-12 2013-04-09 Google Inc. Determining the location at which a photograph was captured
KR101895536B1 (ko) 2011-12-29 2018-10-25 삼성전자주식회사 어플리케이션 사용에 따른 어플리케이션 추천 서버 및 단말, 그리고 어플리케이션 추천 방법
WO2013130588A1 (en) * 2012-02-29 2013-09-06 Construcs, Inc. Synchronizing local clients with a cloud-based data storage system
US8950009B2 (en) 2012-03-30 2015-02-03 Commvault Systems, Inc. Information management of data associated with multiple cloud services
US20140019317A1 (en) 2012-04-05 2014-01-16 Lemon, Inc. Transaction managing system
US9626381B2 (en) 2012-06-19 2017-04-18 International Business Machines Corporation Photo album creation based on social media content
KR101984154B1 (ko) 2012-07-16 2019-05-30 삼성전자 주식회사 터치 및 제스처 입력을 이용한 단말의 제어 방법 및 그 단말
US20140068443A1 (en) 2012-08-28 2014-03-06 Private Group Networks, Inc. Method and system for creating mnemonics for locations-of-interests
US9002962B2 (en) 2012-12-10 2015-04-07 Dropbox, Inc. Saving message attachments to an online content management system
US8612470B1 (en) 2012-12-28 2013-12-17 Dropbox, Inc. Application recommendation using stored files
US9934241B2 (en) * 2013-03-05 2018-04-03 Hightail, Inc. System and method for cloud-based read-only folder synchronization
US20140317552A1 (en) 2013-04-23 2014-10-23 Lexmark International Technology Sa Metadata Templates for Electronic Healthcare Documents
US20150032480A1 (en) * 2013-07-26 2015-01-29 Bank Of America Corporation Use of e-receipts to determine insurance valuation
JP6265644B2 (ja) * 2013-07-31 2018-01-24 キヤノン株式会社 文書管理プログラム、情報処理装置
US9628507B2 (en) * 2013-09-30 2017-04-18 Fireeye, Inc. Advanced persistent threat (APT) detection center
US20150193521A1 (en) 2014-01-09 2015-07-09 Google Inc. Methods for Generating an Activity Stream
US9507791B2 (en) * 2014-06-12 2016-11-29 Google Inc. Storage system user interface with floating file collection
US10078781B2 (en) 2014-06-13 2018-09-18 Google Llc Automatically organizing images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458580A (zh) * 2002-03-01 2003-11-26 惠普开发有限公司 文档分类方法和设备
US20090313194A1 (en) * 2008-06-12 2009-12-17 Anshul Amar Methods and apparatus for automated image classification
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN103620587A (zh) * 2011-06-28 2014-03-05 微软公司 将电子内容自动分类到项目中
US20140279716A1 (en) * 2013-03-15 2014-09-18 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊子牛: "大学信息技术基础 计算机思维与情境实践", 《大学信息技术基础 计算机思维与情境实践 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002483A (zh) * 2018-06-22 2018-12-14 平安科技(深圳)有限公司 文档管理方法、装置、计算机设备及存储介质
WO2019242164A1 (zh) * 2018-06-22 2019-12-26 平安科技(深圳)有限公司 文档管理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
DE112015005985T5 (de) 2017-10-05
US9870420B2 (en) 2018-01-16
DE202015009283U1 (de) 2017-01-19
WO2016118215A1 (en) 2016-07-28
GB201713183D0 (en) 2017-10-04
GB2550777B (en) 2021-09-01
US20160210347A1 (en) 2016-07-21
GB2550777A (en) 2017-11-29

Similar Documents

Publication Publication Date Title
CN107209771A (zh) 文档的分类和存储
KR102351947B1 (ko) 이미지 검증의 자동화 기법
US20200004815A1 (en) Text entity detection and recognition from images
US10810494B2 (en) Systems, methods, and computer program products for extending, augmenting and enhancing searching and sorting capabilities by learning and adding concepts on the fly
CN106940692A (zh) 以对话方式引导与电子表单的交互的交互式电子表单工作流助手
US20150242761A1 (en) Interactive visualization of machine-learning performance
JP2017224184A (ja) 機械学習装置
CN109101469A (zh) 从数字化文档提取可搜索的信息
CN110276406A (zh) 表情分类方法、装置、计算机设备及存储介质
CN106471490A (zh) 基于分类的集群通信
CN109240625A (zh) 一种适用于打印的文档生成方法、装置和计算机存储介质
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
US20200257762A1 (en) Text classification and sentimentization with visualization
US11973910B2 (en) System, apparatus, method and computer program product to set up a request for, generate, receive and send official communications
WO2022026135A1 (en) Automated document tagging in a digital management platform
JP2019133303A (ja) 情報処理装置、情報処理プログラム及び情報処理方法
CN110399334A (zh) 对纸质文档进行排序的方法和***
CN105959403A (zh) 一种壁纸的推荐方法、服务器及移动终端
US11429556B2 (en) Document management apparatus and non-transitory computer readable medium
US20160196248A1 (en) System, apparatus, method and computer program product to set up a request for, generate, receive and send official communications
US8918419B2 (en) Object comparison via real time metadata calculation
US20160260178A1 (en) Commodity management system, information processing apparatus and terminal device for managing commodity
CN102572167B (zh) 图像形成装置及在该图像形成装置中执行操作的方法
JP6445645B1 (ja) 帳票情報認識装置および帳票情報認識方法
US11320964B2 (en) Information processing apparatus and non-transitory computer readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: California, USA

Applicant after: Google Inc.

Address before: California, USA

Applicant before: Google Inc.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926