CN104462083B - 用于内容比较的方法、装置和信息处理*** - Google Patents

用于内容比较的方法、装置和信息处理*** Download PDF

Info

Publication number
CN104462083B
CN104462083B CN201310416233.5A CN201310416233A CN104462083B CN 104462083 B CN104462083 B CN 104462083B CN 201310416233 A CN201310416233 A CN 201310416233A CN 104462083 B CN104462083 B CN 104462083B
Authority
CN
China
Prior art keywords
project
candidate
centering
compared
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310416233.5A
Other languages
English (en)
Other versions
CN104462083A (zh
Inventor
黄耀海
胡钦谙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310416233.5A priority Critical patent/CN104462083B/zh
Publication of CN104462083A publication Critical patent/CN104462083A/zh
Application granted granted Critical
Publication of CN104462083B publication Critical patent/CN104462083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开内容涉及用于内容比较的方法、装置和信息处理***。该方法包括:识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选项目对中的每一个候选项目对的特征;以及基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目。通过上述方案,能够自动且有效地识别出比较对象中的可比项目。

Description

用于内容比较的方法、装置和信息处理***
技术领域
本发明涉及数据处理领域,并且更具体地,涉及数据处理领域中用于内容比较的方法、装置和信息处理***。
背景技术
有时需要将出现在不同对象中的内容进行比较,以有助于用户从其中选择他更偏好的对象。这样的内容比较通常需要借助于人们根据对象中记录的文字、图片等手动找出可比项目,例如可比的短语、句子、段落、表格、图片等。
在相关技术中,为了确定可比项目以进行内容比较,通常需要人工的参与和引导。例如,当婚礼策划师通过使用记录有婚礼计划的诸如传单、宣传画之类的纸张来向一对伴侣介绍婚礼计划时,婚礼策划师将在这些不同的纸张之间对其中所记录的内容进行比较,以告诉这对伴侣不同婚礼计划之间的区别。这样的比较常常是人工完成的。具体而言,这对伴侣将询问婚礼策划师他们所感兴趣的特定内容(例如,成本、花费时间、舞台布置等),然后婚礼策划师通过在不同传单上用笔强调相应内容来解释之间的区别。上述过程将重复多次以对不同传单上的内容进行较详细的比较。
但是,通过上述人工的一问一答方式或启发式比较方式来进行内容比较,常常容易遗漏掉需要比较的重要内容,使得找出的待比较内容并不全面,并且可能还缺少对比较内容的总结或概览。
由此可见,由于需要大量人力的参与才能找出可以进行比较的内容,因此花费时间较长,并且由于人力的有限性,可能并不能找出全面的可比项目。因此,在相关技术中并不能够有效地进行内容比较。
发明内容
本发明实施例提供了一种用于内容比较的方法、装置和信息处理***,能够自动识别出可以进行比较的项目,从而能够有效地进行内容比较。
根据本发明的一方面,提供了一种用于内容比较的方法,该方法包括:识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选项目对中的每一个候选项目对的特征;以及基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目。
进一步地,根据本发明的实施例,所述识别至少两个待比较对象中包含的项目包括:响应于检测到预定用户行为,识别所述至少两个待比较对象中包含的项目;或者响应于确定所述至少两个待比较对象的相对位置关系满足预定关系,识别所述至少两个待比较对象中包含的项目。
进一步地,根据本发明的实施例,所述预定用户行为包括如下至少一项:用于表示用户希望进行内容比较的用户语音、对多个选项中的进行内容比较操作的选项的选择、将待比较对象拖动到用于比较的特定区域的动作、将待比较对象放置在用于比较的特定区域中的动作、将待比较对象中的一个放置在另一个上的动作、将待比较对象对齐放置的动作、将待比较对象部分重叠放置的动作。另外,所述预定关系包括如下至少一项:待比较对象处于用于比较的特定区域中、待比较对象对齐、待比较对象部分重叠。
进一步地,根据本发明的实施例,所述识别至少两个待比较对象中包含的项目包括:通过如下方式中的至少一项对待比较对象的内容进行识别:通过光学字符识别技术对待比较对象的内容进行识别,通过扫描待比较对象对待比较对象的内容进行识别,读取待比较对象中包含的存储有该待比较对象相关信息的条形码,并根据读取的条形码信息获取存储在数据库中的与该待比较对象相关联的内容;以及从所识别的内容中提取所述短语、句子、段落、表格和图像中的至少一项作为所述项目。
进一步地,根据本发明的实施例,基于第一预定义规则,确定所产生的候选项目对中的每一个候选项目对的特征包括:通过判断候选项目对中包含的项目在数据库中是否被定义为可比项目,确定该候选项目对的特征值;和/或通过判断候选项目对中包含的项目在其各自的待比较对象中是否具有相似布局,确定该候选项目对的特征值。
进一步地,根据本发明的实施例,基于第一用户历史行为,确定所产生的候选项目对中的每一个候选项目对的特征包括:基于通过语音识别技术确定的用户的话语是否包含符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数;和/或基于是否检测到用户眼睛在候选项目对中包含的项目之间交替移动,计算该候选项目对中包含的项目的共现次数;和/或基于是否检测到指示部件在候选项目对中包含的项目之间交替进行指示,计算该候选项目对中包含的项目的共现次数;和/或基于是否检测到候选项目对中包含的项目被并列放置,计算该候选项目对中包含的项目的共现次数。
进一步地,根据本发明的实施例,基于待比较对象的文本内容,确定所产生的候选项目对中的每一个候选项目对的特征包括:基于候选项目对中包含的项目在其各自的待比较对象中是否符合可比句法或语用模板,计算该候选项目对中包含的项目的共现次数;和/或基于检索结果中是否存在符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数,其中所述检索结果通过该候选项目对中包含的项目在数据库中进行检索获得。
进一步地,根据本发明的实施例,基于所确定的特征将所产生的候选项目对中的至少一个候选项目对确定为可比项目对包括:对于每一个候选项目对,基于所确定的该候选项目对的特征计算该候选项目对的总分;以及将总分大于预定阈值的候选项目对确定为可比项目对。
进一步地,根据本发明的实施例,基于所确定的特征将所产生的候选项目对中的至少一个候选项目对确定为可比项目对包括:对于每一个候选项目对,基于所确定的该候选项目对的特征,根据可比项目对模型,判断该候选项目对是否为可比项目对,其中,所述可比项目对模型是通过使用机器学习算法利用大量已知的可比项目对和它们在所述第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
进一步地,根据本发明的实施例,用于内容比较的方法还包括:基于第二预定义规则,对所产生的候选项目对进行过滤;其中,基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定过滤后的候选项目对中的每一个候选项目对的特征。
进一步地,根据本发明的实施例,基于第二预定义规则,对所产生的候选项目对进行过滤包括:将包含有长度超过预定长度的项目的候选项目对去除;和/或将其每个项目包含另一候选项目对中的相应一个项目的候选项目对去除;和/或将包含待比较范围之外的项目的候选项目对去除,其中,所述待比较范围是通过待比较对象中的用户选择行为确定的和/或通过待比较对象的相对位置关系满足预定关系确定的。
进一步地,根据本发明的实施例,所述用户选择行为包括如下至少一项:用于指示待比较范围的用户语音的输入、通过指示部件指定待比较范围的动作。另外,所述预定关系包括如下至少一项:待比较对象对齐的部分为待比较范围、待比较对象重叠的部分为待比较范围。
进一步地,根据本发明的实施例,用于内容比较的方法还包括:对所确定的可比项目对进行排序,以根据排序后的顺序显示给用户。
进一步地,根据本发明的实施例,根据如下至少一项对所确定的可比项目对进行排序:基于可比项目对的特征的总分、混合现实***设置、基于用户简档或用户社交网络信息的用户偏好、可比项目对中的项目在待比较对象中的出现顺序、可比项目对中的项目之间的相似性、可比项目对间的工作流先后顺序和可比项目对间的时间顺序。
进一步地,根据本发明的实施例,用于内容比较的方法还包括:将所确定的可比项目对以表格的形式进行显示,其中,每个可比项目对中的项目在第一方向上排列,不同可比项目对在第二方向上排列,第一方向是行方向和列方向中的一个,第二方向是行方向和列方向中的另一个。
进一步地,根据本发明的实施例,将所确定的可比项目对以表格的形式进行显示包括:将基于特征的总分最高的可比项目对中的项目确定为第一方向上的表项名称。
进一步地,根据本发明的实施例,将所确定的可比项目对以表格的形式进行显示包括:通过将基于特征的总分最高的可比项目对中的项目作为查询项进行意图挖掘,确定第二方向上的表项的候选名称;将候选名称与可比项目对进行配对以形成候选名称项目对,每一个候选名称项目对包括一个候选名称和一个可比项目对;基于第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选名称项目对中的每一个候选名称项目对的特征;以及基于所确定的特征,将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联,从而确定第二方向上的表项名称。
进一步地,根据本发明的实施例,基于第三预定义规则,确定所产生的候选名称项目对中的每一个候选名称项目对的特征包括:通过判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中是否被定义为相互关联的名称和项目,确定该候选名称项目对的特征值。
进一步地,根据本发明的实施例,基于第二用户历史行为,确定所产生的候选名称项目对中的每一个候选名称项目对的特征包括:基于通过语音识别技术确定的用户的话语在预定时间窗口内是否相继出现候选名称项目对中包含的候选名称和可比项目对中的至少一个项目,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或基于是否检测到用户眼睛在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继移动,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或基于是否检测到指示部件在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继进行指示,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。
进一步地,根据本发明的实施例,基于待比较对象的文本内容,确定所产生的候选名称项目对中的每一个候选名称项目对的特征包括:基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在待比较对象中的一个的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在检索结果中包含的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数,其中所述检索结果通过该候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中进行检索获得。
进一步地,根据本发明的实施例,基于所确定的特征将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联包括:对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征计算该候选名称项目对的总分;以及将总分大于预定阈值的候选名称项目对中的候选名称与该候选名称项目对中的可比项目对相关联,从而将该候选名称作为与该可比项目对相应的表项名称。
进一步地,根据本发明的实施例,基于所确定的特征将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联包括:对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征,根据名称项目对模型,判断该候选名称项目对中的候选名称是否与该候选名称项目对中的可比项目对相关联,其中,所述名称项目对模型是通过使用机器学习算法利用大量已知的名称项目对和它们在所述第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
根据本发明的另一方面,提供了一种用于内容比较的装置,包括:识别单元,被配置为识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;配对单元,被配置为将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;特征确定单元,被配置为基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选项目对中的每一个候选项目对的特征;以及可比项目确定单元,被配置为基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目。
根据本发明的再一方面,提供了一种信息处理***,包括:如上所述的用于内容比较的装置;以及显示装置,被配置为显示由所述用于内容比较的装置确定的可比项目。
根据上述技术方案,通过基于第一预定规则、第一用户历史行为和待比较对象的文本内容中的至少一项来确定将所识别的项目配对产生的候选项目对的特征,可以根据特征确定某个或某些候选项目对各自包含的配对项目为可比项目,从而能够自动地识别出比较对象中的可比项目。由于自动对可比项目的识别,可以避免人工识别可比项目造成的内容遗漏和大量时间的消耗,无需如相关技术那样的人工一问一答方式或启发式方式,从而能够有效地进行内容比较。
附图说明
并入说明书并且构成说明书的一部分的附图图示了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1示出了能够实施本发明的实施例的计算机***的示例性硬件配置的框图。
图2示出了根据本发明的实施例的用于内容比较的方法的流程图。
图3示出了根据本发明的实施例的用于基于特征确定可比项目对的方法的流程图。
图4示出了根据本发明的实施例的用于内容比较的另一方法的流程图。
图5示出了根据本发明的实施例的利用图2所示的方法对示例待比较对象进行处理得到的中间结果的例子。
图6示出了将图5中得到的可比项目对以表格形式显示的例子。
图7示出了对于图6中的表格确定表项名称的例子。
图8示出了根据本发明的实施例的用于确定第二方向上的表项名称的方法的流程图。
图9示出了根据本发明的实施例的利用图8的方法对图5得到的可比项目对进行处理得到的中间结果的例子。
图10示出了根据本发明的实施例的用于基于特征确定第二方向上的表项名称的方法的流程图。
图11示出了根据本发明的实施例的用于内容比较的装置的结构框图。
图12示出了根据本发明的实施例的用于内容比较的另一装置的结构框图。
图13示出了根据本发明的实施例的信息处理***的结构框图。
具体实施方式
以下将参照附图详细描述本发明的实施例。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。在本公开中,术语“第一”和“第二”等仅用于区分要素或步骤,但是不意图表示时间次序、优选性或重要性。
图1是示出能够实施本发明的实施例的计算机***1000的硬件配置的框图。
如图1中所示,计算机***包括计算机1110。计算机1110包括经由***总线1121连接的处理单元1120、***存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出***接口1195。
***存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出***)1133驻留在ROM1131中。操作***1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作***1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被***到软盘驱动器1151中,以及CD(光盘)1156可以被***到CD-ROM驱动器1155中。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出***接口1195连接到打印机1196和扬声器1197。
图1所示的计算机***仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图1所示的计算机***可以被实施于任何实施例,可作为独立计算机,或者也可作为装置中的处理***,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
接下来,参照图2描述根据本发明实施例的用于内容比较的方法200。
如图2所示,方法200包括:在S210中,识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;在S220中,将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;在S230中,基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选项目对中的每一个候选项目对的特征;在S240中,基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目。
方法200可以由用户终端实现,也可以由用户终端和网络侧处理设备共同实现,还可以由网络侧处理设备实现。方法200通过基于第一预定规则、第一用户历史行为和/或待比较对象的文本内容,可以提取每个候选项目对的特征,并借此确定部分候选项目对中包含了可作为可比项目的项目对,由此自动识别出待比较对象中的可比项目,避免大量人力的参与和可比项目的遗漏,由此提高可比项目的识别精度和识别效率。
具体而言,在S210中,可以通过多种方式识别待比较对象中的项目。例如,可以首先对每个待比较对象的内容进行识别,然后从所识别的内容中提取短语、句子、段落、表格和图像中的至少一项作为该待比较对象中的项目。
对每个待比较对象的内容进行识别可以采用如下方式。例如,可以通过现有的光学字符识别技术对待比较对象的内容进行识别。再例如,可以通过扫描待比较对象将待比较对象从现实世界中的印刷形式转变为电子形式,再通过对电子形式的数据进行识别来对待比较对象的内容进行识别。根据本发明的一个实施例,可以读取待比较对象中包含的存储有该待比较对象相关信息的条形码,并根据读取的条形码信息获取存储在数据库中的与该待比较对象相关联的内容。具体而言,可以事先将对象内容存储在数据库中,并将指向数据库中存储该对象内容的位置的诸如地址、标识符之类的寻址信息记录在条形码中作为对象相关信息,并将该条形码包含在该对象中。这样,当读取条形码信息时,可以检索出存储在数据库中的对象内容,从而识别出对象中包含的内容。
对待比较对象的内容进行识别之后,可以从所识别的内容中提取短语、句子、段落、表格和/或图像作为该待比较对象中可能与其它待比较对象中的内容进行比较的项目。具体而言,可以根据现有的语义识别方法从所识别的内容中提取出具有特定含义的短语、句子等。还可以根据预先存储在数据库中的已知短语、句子等,从所识别的内容中提取出短语、句子等。还可以根据段落、表格、图像等所具有的特定格式,从所识别的内容中抓取出段落、表格和图像等。
通过下文中具体描述的步骤,可以确定这些识别出的项目中哪些项目之间是可以进行比较的。注意,这里使用的术语“项目”可以表示具有能被大众理解的特定含义并在语义上能够彼此区分的内容。这里使用的术语“短语”可以表示单个词、多个词构成的词组等。这里使用的“句子”可以表示在对象中出现在相邻两个标点符号之间的部分,这两个相邻标点符号可以是相同符号(例如都为句号),也可以是不同符号(例如一个为句号,另一个为逗号)。这里使用的术语“段落”可以表示相邻两个换行键(例如回车键)之间的部分。这里使用的术语“表格”可以是具有表格样式的内容。这里使用的术语“图像”可以是静态或动态图像,并且可以是完整图像的一部分或全部。
在至少两个对象需要进行内容比较的情况下,如果检测到预定用户行为,则认为这些对象需要进行比较,于是识别这些待比较对象中的每一个中包含的项目。所述预定用户行为可以包括如下至少一项:用于表示用户希望进行内容比较的用户语音、对多个选项中的进行内容比较操作的选项的选择、将待比较对象拖动到用于比较的特定区域的动作、将待比较对象放置在用于比较的特定区域中的动作、将待比较对象中的一个放置在另一个上的动作、将待比较对象对齐放置的动作、将待比较对象部分重叠放置的动作。
具体而言,例如,如果通过语音识别技术确定用户说出“内容比较”这四个字,则确定用户具有内容比较的意图,并开始对待比较对象中包含的项目进行识别。再例如,如果用户在诸如移动电话、平板计算机之类的用户终端上用手指在触摸屏上选择或者用光标选择“内容比较”,则确定用户具有内容比较的意图,并开始对项目进行识别。又例如,如果用户将待比较对象倒入虚拟现实***中指定的比较区域中,或者将待比较对象对齐放置在摄像机或扫描仪可以拍摄的区域,则确定用户具有内容比较的意图,并开始对项目进行识别。除了上述列出的方式,本领域技术人员还可以想到其它用户动作、手势等来表明用户期望进行内容比较的意图,并在检测到这样意图存在的情况下,开始对待比较对象的内容进行识别。
可替代地,除了使用用户预定行为来判断用户是否有比较内容的意图之外,还可以根据待比较对象的相对位置关系来判断用户是否有比较内容的意图。根据本发明的一个实施例,如果确定至少两个待比较对象的相对位置关系满足预定关系,则识别所述至少两个待比较对象中的每一个包含的项目。所述预定关系可以包括如下至少一项:待比较对象处于用于比较的特定区域中、待比较对象对齐、待比较对象部分重叠。
具体而言,例如,如果在用于进行比较的特定区域(比如,摄像机能够拍摄的区域、将内容扫描到电子信息***中的区域、预先指定的区域等)检测到出现至少两个待比较对象,则确定用户具有内容比较的意图,并开始对项目进行识别。再例如,如果检测到待比较对象之间相互基本上对齐(允许一定范围内的误差,比如10%等)或者具有重叠区域,则确定用户具有内容比较的意图,并开始对项目进行识别。
当然,触发对待比较对象中的项目进行识别的条件不限于预定用户行为和/或对象相对位置关系。本领域技术人员可以容易地想到可以通过其他方式来触发项目的识别,比如,用户按下用于指示用户希望进行内容比较的开关、在设备本身专用于进行内容比较的情况下该设备处于工作状态时等。
在识别出每个待比较对象中包含的项目之后,在S220中,可以对项目进行配对以产生候选项目对。例如,假设有两个待比较对象A和B,在对象A中识别出多个项目A1至An,在对象B中识别出多个项目B1至Bm。那么,将对象A中的一个项目与对象B中的一个项目进行配对,可以产生一个候选项目对。因此,对于待比较对象A和B,共可以产生{A1,B1}、{A1,B2}、{A1,B3}、......{An,Bm-1}和{An,Bm}的n×m个候选项目对。这里示出的每个“{}”对应一个候选项目对。同理,对于多于两个的待比较对象,每个候选项目对中包含分别来自不同的对象中的一个项目。例如,对于四个待比较对象,每个候选项目对中包含四个项目,这四个项目分别来自这四个待比较对象。需要注意的是,在进行配对的时候,可以对于对象A中的每个项目分别与对象B中的每个项目进行配对,也可以对于对象A中的部分项目分别与对象B中的每个项目进行配对,还可以对于对象A中的部分项目仅仅分别与对象B中的部分项目进行配对。配对的具体方式本发明不做限制,只要每个候选项目对中包含的项目分别来自不同的待比较对象并且来自不同的待比较对象的项目的个数为一个即可。
接着,经过S230和S240的处理,可以确定S220中产生的候选项目对中有部分候选项目对包含了可比项目,所确定的这部分候选项目对中的每一个可被称为可比项目对,其中包含的项目为可比项目。例如,当在上述n×m个候选项目对中经过S230和S240的处理确定{A2,B6}和{An,B1}为可比项目对时,则A2和B6为可比项目,An和B1为可比项目。
本文中使用的术语“可比项目”可以表示能够在语义上进行比较的至少两个项目。所谓的“能够在语义上进行比较”表示在人们的认知中是能够相比的,它们可能具有相同的性质或者对应于具有相同属性的事物描述方面等。例如,“有趣”和“枯燥”是可比项目,因为它们都与人的感知有关。“600至1000美元”和“600至800欧元”是可比项目,因为它们都与价格有关。有些项目虽然从数学角度看能够进行比较,但它们并不是本文中所说的“可比项目”。例如,虽然“600至1000美元”和“365天”这两个项目中都含有可以进行比较的数字,但是由于它们的语义并不相同,因此这两个对象并不是本文中所说的“可比项目”。
接下来,具体描述如何确定候选项目对的特征以及如何根据特征确定可比项目对。
在S230中,可以基于第一预定义规则、第一用户历史行为和/或待比较对象的文本内容来确定候选项目对的特征。候选项目对的特征可以表征候选项目对中包含的项目之间能够进行比较的可能性大小。候选项目对的特征可以由向量表示,向量中的各分量可以指示在不同情况下(例如,基于第一预定义规则、基于第一用户历史行为或基于待比较对象的文本内容确定特征的情况)得到的值。举例来说,在基于第一预定义规则确定特征的情况下,可以将表示候选项目对中的项目是否可比的特征值(例如,特征值为1表示项目可比,特征值为0表示项目不可比)包括在候选项目对的特征中。在基于第一用户历史行为或待比较对象的文本内容确定特征的情况下,可以将候选项目对中的项目的共现次数(the numberof co-occurrences)(也可以被称为共现频率)包括在该候选项目对的特征中。
根据本发明的实施例,在基于第一预定义规则确定候选项目对的特征时,可以将基于第一预定义规则确定的特征值作为候选项目对在第一预定义规则下的特征。
具体而言,可以通过判断候选项目对中包含的项目在数据库中是否被定义为可比项目,确定该候选项目对的特征值。例如,可以在数据库中事先存储已知的可比项目,比如,由管理人员手工输入的可比项目、预先在大量内容中进行机器学习等得到的可比项目等。当判断候选项目对中包含的项目在数据库中被定义为可比项目时,将该候选项目对的特征值设为第一值(例如1),反之设为第二值(例如0)。举例来说,对于候选项目对{A1,B1}(A1和B1分别来自待比较对象A和B),如果能够在数据库中找到以可比项目形式存储的A1和B1(例如,可比项目可以被存储在数据库中的表格中的同一行,那么,如果能够在数据库中的某一行同时找到A1和B1,则认为A1和B1为可比项目),那么将候选项目对{A1,B1}的特征值设为第一值。反之,如果在数据库中不能找到以可比项目形式存储的A1和B1,那么将候选项目对{A1,B1}的特征值设为第二值。
另外,可以通过判断候选项目对中包含的项目在其各自的待比较对象中是否具有相似布局,确定该候选项目对的特征值。相似布局可以通过项目所在上下文的语言结构、项目的格式特点等确定。当来自不同对象的项目在各自对象中具有相似布局时,可以确定由这些项目构成的候选项目对的特征值为第一值,反之为第二值,其中第一值与第二值不同并且可以大于第二值。例如,候选项目对{A1,B1}中的A1在对象A中为加黑加粗的文字并且B1在对象B中也为加黑加粗的文字,则可以认为A1和B1在它们各自的对象中具有相似布局,于是将候选项目对{A1,B1}的特征值设为第一值。反之,当A1和B1没有同时加黑加粗时,可以将{A1,B1}的特征值设为第二值。再例如,如果A1在对象A中出现在表格中,B1在对象B中也出现在表格中,那么可以确定候选项目对{A1,B1}的特征值为第一值。反之,当只有A1和B1中的一者出现在表格中时,可以确定候选项目对{A1,B1}的特征值为第二值。
根据本发明的实施例,在基于第一用户历史行为确定候选项目对的特征时,可以将基于第一用户历史行为确定的项目共现次数作为候选项目对在第一用户历史行为下的特征。第一用户历史行为可以包括用户现在和/或过去采取的用户语音、手势、眼睛移动、操作行为等。通过对用户行为的识别,可以确定是否改变项目的共现次数。
在许多文献中介绍了对用户行为的识别。用户行为作为一种信息输入方式已经越来越多地引起了关注。例如,在混合现实技术(Mixed Reality)中,通过利用摄像机捕捉用户行为,可以获取各种形态的输入信息,进而采取相适应的操作。比如,在标题为“MakeStatic Printed Contents to be Dynamic Using Virtual Data”的美国专利申请公开号US2013147836A1中,通过利用混合现实技术基于用户的物理输入行为可以识别用户选择的内容,并将选择的内容作为虚拟数据投影到用户用手指向的地方。此外,在标题为“Methodand system of scoring documents based on attributes obtained from a digitaldocument by eye-tracking data analysis”的美国公开号20130054622A1中,通过跟踪用户眼睛的移动来进行内容查找。但是,在现有采用用户行为的技术中,并没有实现和教导通过用户行为来进行内容比较。用户行为作为有助于内容比较的新颖输入方式,不仅可以提供有价值和针对性的信息输入,并且还可以赋予现实中存在的用户行为新的意义,作为有助于内容比较的输入信息,从而使得用户行为可被高效地利用,节省在确定可比项目时额外的信息输入。
具体而言,可以基于通过语音识别技术确定的用户的话语是否包含符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数。例如,当通过现有的语音识别技术识别出用户说出“现在我们来看一下A1和B1的区别”时,由于用户这句话符合“......和......的区别”这样的可比句法或语用模板,因此可以增加这句话中包含的A1和B1所构成的候选项目对{A1,B1}相对应的共现次数。如果在用户的话语中没有检测到符合可比句法或语用模版的项目,则所有的候选项目对的相应特征可以不发生改变。
另外,可以基于是否检测到用户眼睛在候选项目对中包含的项目之间交替移动,计算该候选项目对中包含的项目的共现次数。例如,当用户注视对象A中的A1之后又接着注视对象B中的B1或者反之时,可以增加候选项目对{A1,B1}对应的共现次数。如果用户的眼睛反复在对象A中的A1和对象B中的B1之间交替移动,那么交替的次数越多,增加的共现次数可以越大。也可以在眼睛在A1和B1之间交替移动的次数达到预定次数(例如3次),才增加共现次数。如果没有检测到用户眼睛交替关注于不同对象的项目,则所有的候选项目对的相应特征可以不发生改变。
另外,可以基于是否检测到指示部件在候选项目对中包含的项目之间交替进行指示,计算该候选项目对中包含的项目的共现次数。这里,指示部件可以是诸如鼠标、触摸笔之类的用户输入工具,也可以是用户手指,还可以是其它可以指向对象中的项目以表示用户选择相应项目的其它指示部件。例如,当用户用手(或者触摸笔等)指向对象A中的A1之后又接着用手(或者触摸笔等)指向对象B中的B1或者反之时,可以增加候选项目对{A1,B1}对应的共现次数。如果用户用手(或者触摸笔等)反复在对象A中的A1和对象B中的B1之间交替指示,那么交替的次数越多,增加的共现次数可以越大。也可以在用手(或者触摸笔等)在A1和B1之间交替指示的次数达到预定次数(例如3次),才增加共现次数。再例如,用户可以使用鼠标用高亮方式选择A1、然后用高亮方式选择B1,在这种情况下,可以增加候选项目对{A1,B1}对应的共现次数。如果指示部件没有在不同对象之间交替指示项目,则所有的候选项目对的相应特征可以不发生改变。
另外,可以基于是否检测到候选项目对中包含的项目被并列放置,计算该候选项目对中包含的项目的共现次数。例如,如果对象A中的A1和对象B中的B1被用户并列放置在一行,那么可以认为A1和B1需要被比较,于是增加候选项目对{A1,B1}对应的共现次数。如果没有检测到有内容被并列放置或者并列放置的内容并不对应任何候选项目对,则所有的候选项目对的相应特征可以不发生改变。
根据本发明的实施例,在基于待比较对象的文本内容确定候选项目对的特征时,可以将基于待比较对象的文本内容确定的项目共现次数作为候选项目对在待比较对象的文本内容下的特征。
具体而言,可以基于候选项目对中包含的项目在其各自的待比较对象中是否符合可比句法或语用模板,计算该候选项目对中包含的项目的共现次数。例如,当候选项目对{A1,B1}中的A1出现在对象A中的符合“......比......大”结构的内容中、并且B1出现在对象B中的符合“......比......小”结构的内容中时,可以增加候选项目对{A1,B1}对应的共现次数。反之,如果A1和B1所在的内容并不符合可比句法或语用模版,则{A1,B1}的相应特征可以不改变。
另外,可以基于检索结果中是否存在符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数,其中所述检索结果通过该候选项目对中包含的项目在数据库中进行检索获得。例如,对于候选项目对{A1,B1},如果在将A1和B1作为检索关键字从数据库中检索得到的内容指示A1和B1可比(例如A1和B1同时出现在检索结果中且符合可比句法或语用模板),则认为A1和B1为可比项目,于是增加候选项目对{A1,B1}对应的共现次数。反之,如果A1和B1作为检索关键字返回的结果并不涉及可比句法或语用模板,则{A1,B1}的相应特征可以不改变。
这里,可比句法或语用模板可以是用于指示其中涉及的内容可比的结构。例如,当以表格形式示出多项记录时,每个记录的相应条目下的内容可比,此时,这样的表格形式是可比句法或语用模板。再例如,包含“......比......”、“与......相比,......”、“大于”、“小于”、“优于”、“劣于”等之类的表示比较性质的文字结构可以是可比句法或语用模板。
上面描述的确定特征值和项目共现次数的方式中的一种或多种可以同时被计算,并共同构成候选项目对的特征。例如,在确定候选项目对的特征时,可以将基于第一预定规则确定的特征值包含在特征的第一和第二分量中,将基于第一用户历史行为确定的共现次数包含在特征的第三至第六分量中,将基于待比较对象的文本内容确定的共现次数包含在特征的第七和第八分量中,从而共同构成项目候选对的特征。上述确定特征的方式只是一个例子,本领域技术人员还可以想到其他方式来确定候选项目对的特征以用于指示其中的项目是否可比的可能性。
确定了每个候选项目对的特征之后,在S240中,可以根据无监督(unsupervised)的算法或者有监督(supervised)的算法基于特征从候选项目对中确定可比项目对。
根据本发明的实施例,可以采用图3所示的方法300来执行用于确定可比项目对的无监督的算法。
在S310中,对于每一个候选项目对,基于所确定的该候选项目对的特征计算该候选项目对的总分。
计算总分的方式可以采取多种形式。例如,可以将针对某候选项目对在不同判断条件下确定的共现次数和/或特征值进行加权求和作为该候选项目对的总分。例如,可以为基于第一预定义规则确定的特征值设置最高的权重、为基于第一用户行为确定的共现次数设置次高的权重、为基于待比较对象的文本内容设置最低的权重。在涉及第一用户行为的各判断条件下,还可以为基于用户眼睛移动的情况、指示部件指示的情况和识别用户语音的情况等设置不同的权重。当然,本领域技术人员还可以容易地想到,可以将不同判断条件下确定的共现次数和/或特征值代入已知的求取总分的表达式来计算总分。本发明对确定总分的具体形式并不做特别限制,只要总分可以反映候选项目对中的项目可比的可能性大小即可。
在S320中,将总分大于预定阈值的候选项目对确定为可比项目对。
所设置的预定阈值可以根据不同情况来具体设置。如果希望找到的可比项目尽可能准确,可以将预定阈值设置为较高的值。如果希望尽可能全面的找到所有的可比项目,可以将预定阈值设置为较低的值。
根据本发明的实施例,可以采用图4所示的方法400来执行有监督的算法。有监督的算法可以通过提前用大量训练样本进行学习来实现。
图4中的S410至S440与图2中的S210至S240基本相同。特别地,S440的执行需要借助于可比项目对模型。
可比项目对模型是通过使用机器学习算法利用大量已知的可比项目对和它们在所述第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征训练得到的。在图4中,通过将大量的已知可比项目对和它们各自在第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征一起对应输入用于执行机器学习算法的机器学习模块,可以产生可比项目对模型。可比项目对模型的生成方法可以采用现有的机器学习或训练方法,例如朴素贝叶斯(Naive Bayesian)算法、支持向量机(Support Vector Machine,SVM)算法等。通过机器学习,可以根据输入的特征来判断与该特征对应的项目是否可比。那么,当S430中确定的某候选项目对的特征被输入学习得到的可比项目对模型时,可以根据模型的输出结果确定该候选项目对是否为可比项目对,即其中的项目是否可比。
在S440中,如果在S430中确定的特征经过可比项目对模型处理之后输出可比结果,那么与该特征对应的候选项目对被确定为可比项目对。这里,如其它机器学习方法一样,建立可比项目对模型采用的特征提取方式与在S430中采用的特征提取方式相同。
这样,无论通过无监督的算法还是有监督的算法,都可以根据特征从候选项目对中确定可比项目对,从而能够自动识别可比项目,避免大量人力的参与和内容遗漏,提高内容比较的精度和效率。
接下来,参考图5中的例子具体描述图2中的方法的实现过程。
在图5中示出了作为待比较对象的硬拷贝A和硬拷贝B,它们分别示出了水下婚礼计划和化妆婚礼计划。可以通过将硬拷贝A和硬拷贝B并列或重叠放置,开始其中包含的项目的识别。
在S210的执行过程中,可以从硬拷贝A中识别出项目“水下婚礼”、“5000-7000美元”和“一周行程”,从硬拷贝B中识别出项目“化妆婚礼”、“2000-4000美元”、“一天行程”和“低风险”。
在S220的执行过程中,可以将硬拷贝A中的每个项目与硬拷贝B中的每个项目进行配对以形成多个候选项目对。在图5的框220中示出了步骤S220的执行结果。
在S230的执行过程中,在这里基于用户历史行为来确定每个候选项目对的特征。更具体地,在本例子中,通过检测用户眼睛在每个候选项目对中的项目之间的交替移动次数和用户手指在每个候选项目对中的项目之间的交替指示次数,来确定对应的候选项目对中的项目的共现次数,作为在眼睛移动条件下和在手指指示条件下对应的特征。在图5的框230中示出了步骤S230的执行结果,其中每个数字代表检测到的交替次数作为对应项目的共现次数。
在S240的执行过程中,在该例子中,根据眼睛移动得到的共现次数和手指指示得到的共现次数,通过预定的加权方式或反映可比可能性大小的其他计算方式,计算每个候选项目对的总分。然后,将总分大于预定阈值(例如0.90)的候选项目对确定为可比项目对,从而找出可比项目。在图5的框240中示出了步骤S240的执行结果。可以看到通过S210至S240的处理,“水下婚礼”和“化妆婚礼”、“5000-7000美元”和“2000-4000美元”、以及“一周行程”和“一天行程”分别被确定为可比项目,从而实现自动且有效的内容比较。
虽然在图5的例子中示出了将两个硬拷贝进行比较,但是本发明不限于此。在本发明的实施例中,待比较对象不仅可以是现实生活中存在的硬拷贝、食品包装纸以及其他印有内容的纸张、印刷制品等,还可以是以电子形式存在的包含有内容的文本资料、多媒体资料等。
例如,在一个例子中,可以将一个硬拷贝与手机中存储的文件内容进行比较。在该例子中,用户可以将硬拷贝通过手机的照相机拍照成图片,并在用户选择进行内容比较的功能按键之后实现硬拷贝与所存储的文件内容的比较。待比较的硬拷贝的图片和手机中存储的文件内容可以被发送到服务器,由服务器通过执行图2的方法来找出其中的可比项目,并将找到的可比项目发送回手机中进行显示。
在另一例子中,可以将用户终端(例如计算机、手机、个人数字助理、平板电脑等)中的两个文件的内容进行比较。可以通过图2的方法识别出可比项目,该识别过程可以在用户终端中执行,也可以如上述例子那样将待比较对象发送到服务器以由服务器执行,并由服务器将找出的可比项目发送回用户终端显示。另外,在一些例子中,可以允许所显示的所有可比项目对中的某些可比项目对中的一个项目为空。
在又一例子中,服务器返回的可比项目对或者用户终端确定的可比项目对可以以表格、曲线图、柱状图之类的表现形式进行显示,或者在混合现实***中被投影显示。并且,当一个可比项目对中的所有或部分项目相同时,可以将这些项目进行合并显示,以表明相应待比较对象在这方面的内容是相同的。
此外,待比较对象还可以是商品的产品说明、不同病人的诊断报告、同一份文件中的不同部分等。无论待比较对象最初的形态怎样,通过使得待比较对象为电子形式的图片、文字、文件等,可以通过图2的方法实现自动的内容比较。
根据本发明的实施例,可以基于第二预定义规则,对所产生的候选项目对进行过滤。在这种情况下,可以只针对过滤后剩下的每个候选项目对确定特征。通过过滤去除一部分候选项目对,可以减少需要确定特征的候选项目对的数量,从而增加内容比较速度,节省***资源开销。
可以将包含有长度超过预定长度的项目的候选项目对去除。例如,如果规定可比项目不能超过10个汉字或20个字符,那么当一个候选项目对中的某一个项目超过规定的最大长度时,将该候选项目对去除,不针对它在S230中确定特征。
还可以将其每个项目包含另一候选项目对中的相应一个项目的候选项目对去除。例如,如果存在候选项目对1{A1,B1}、候选项目对2{在A1的情况下实现A2,在B1的情况下实现B2}和候选项目对3{A2,B2},由于候选项目对2同时包含了候选项目对1和3的内容,因此可以将候选项目对2去除。
另外,还可以将包含待比较范围之外的项目的候选项目对去除,其中,所述待比较范围是通过待比较对象中的用户选择行为确定的和/或通过待比较对象的相对位置关系满足预定关系确定的。例如,所述用户选择行为可以包括如下至少一项:用于指示待比较范围的用户语音的输入、通过指示部件指定待比较范围的动作。所述预定关系可以包括如下至少一项:待比较对象对齐的部分为待比较范围、待比较对象重叠的部分为待比较范围。具体而言,例如,当用户用指示部件在每个待比较对象中选定一部分内容时,这部分内容就是待比较范围。如果某候选项目对至少包含一个位于该待比较范围之外的项目,则该候选项目对被去除。
根据本发明的实施例,还可以在确定可比项目对之后,对所确定的可比项目对进行排序,以根据排序后的顺序显示给用户。这样,有助于根据用户偏好或者可比项目对的重要程度向用户提供更有价值的信息。例如,可以根据如下至少一项对所确定的可比项目对进行排序:基于可比项目对的特征的总分、混合现实***设置、基于用户简档或用户社交网络信息的用户偏好、可比项目对中的项目在待比较对象中的出现顺序、可比项目对中的项目之间的相似性、可比项目对间的工作流先后顺序和可比项目对间的时间顺序。具体而言,基于特征的总分可以根据上文中描述的方式被计算。通过混合现实***设置,可以将可比项目对按照预定顺序(例如字母顺序)进行排列。此外,越相似的可比项目可以被显示在越靠前的位置。另外,如果一个可比项目对发生在另一个可比项目对之前,则将先发生的可比项目对排在后发生的可比项目对之前。另外,如果多个可比项目对之间具有绝对的时间关系(例如春夏秋冬),则可以按照它们的绝对时间先后顺序进行排序。
根据本发明的实施例,可以将所确定的可比项目对以表格的形式进行显示,其中,每个可比项目对中的项目在第一方向上排列,不同可比项目对在第二方向上排列,第一方向是行方向和列方向中的一个,第二方向是行方向和列方向中的另一个。例如,图5中确定的三个可比项目对“水下婚礼”和“化妆婚礼”、“5000-7000美元”和“2000-4000美元”、以及“一周行程”和“一天行程”可以以图6中的表格形式进行显示。在图6中,第一方向对应于行方向,第二方向对应于列方向。当然,也可以将图6中的表格逆时针旋转90度进行显示,此时第一方向对应于列方向,第二方向对应于行方向。
当可比项目对以表格的形式显示时,可以为该表格确定行方向和/或列方向的表项名称,以便于用户更好地理解可比项目,增强用户体验。以下的例子以图6中显示可比项目对的方式为例进行如何确定表项名称的描述。本领域技术人员在阅读本说明书中可以容易地想到当将图6中的显示形式逆时针旋转90度的情况下如何确定表项名称。
在图6那样的表格的形式中,可以将如上所述的基于特征的总分最高的可比项目对中的项目确定为第一方向(图6中的行方向,这里的行方向对应于水平方向)上的表项名称。具体而言,如图5所示,可比项目对“水下婚礼”和“化妆婚礼”具有最高的总分,因此可以将“水下婚礼”和“化妆婚礼”作为行方向上的表项名称,分别指示相应列的概述,如图7所示。在图7中,第一行的各内容分别指示对应列的概述。
此外,为了确定图6中的第二方向(图6中的列方向,这里的列方向对应于垂直方向)上的表项名称,可以采用图8中所示的方法800。
在S810中,通过将基于特征的总分最高的可比项目对中的项目作为查询项进行意图挖掘(intent mining),确定第二方向上的表项的候选名称。
在许多领域已经开始使用意图挖掘技术,例如针对消费者的精准营销、搜索时自动出现的匹配项等。本发明的实施例相比于相关技术而言,将意图挖掘用于确定表项名称。具体而言,在图5所示的例子中,可以将“水下婚礼”和“化妆婚礼”中的至少一个作为搜索关键字输入诸如百度、谷歌网页上的搜索框中,此时可能会在搜索框的下拉显示中出现多个额外字段,这些额外字段可以表示通过对大量用户数据分析得到的与输入的搜索关键字最为相关的内容。这些额外字段可以作为第二方向上的表项的候选名称。当然,本领域技术人员还可以想到其他通过意图挖掘的方式找到与基于特征的总分最高的可比项目对中的项目最为相关的内容,并将这些内容作为候选名称。候选名称在本文中也可以被称为方面(facet),用于表征可比项目对的属性。
例如,在图5所示的例子中,当将“水下婚礼”输入上搜索框之后,在下拉显示中自动出现额外的“成本”、“持续期”和“风险”,于是将这三个额外的内容作为第二方向上的表项的候选名称。
在S820中,将候选名称与可比项目对进行配对以形成候选名称项目对,每一个候选名称项目对包括一个候选名称和一个可比项目对。
例如,对于图5中找出的除了作为表项名称的可比项目对之外的另两个可比项目对以及上述的候选名称“成本”、“持续期”和“风险”,可以得到如图9中的框920所示的6个候选名称项目对,其中每个候选名称项目对包含的元素被表示在同一行中。当然,如果可比项目对{水下婚礼,化妆婚礼}不作为表项名称,那么该可比项目对也参与构成候选名称项目对,此时共可得到9个候选名称项目对。
在S830中,基于第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选名称项目对中的每一个候选名称项目对的特征。
候选名称项目对的特征可以表征候选名称项目对中包含的候选名称与可比项目对之间相关联的可能性大小(换句话说,候选名称能够正确反映可比项目对的属性的可能性大小)。与上述的候选项目对的特征相似,候选名称项目对的特征也可以由向量表示,向量中的各分量可以指示在不同情况下(例如,基于第三预定义规则、基于第二用户历史行为或基于待比较对象的文本内容确定特征的情况)得到的值。举例来说,在基于第三预定义规则确定特征的情况下,可以将表示候选名称项目对中的候选名称与可比项目对是否关联的特征值(例如,特征值为1表示两者相互关联,特征值为0表示两者不相互关联)包括在候选名称项目对的特征中。在基于第二用户历史行为或待比较对象的文本内容确定特征的情况下,可以将候选名称项目对中的候选名称与可比项目对的共现次数包括在该候选名称项目对的特征中。
根据本发明的实施例,在基于第三预定义规则确定候选名称项目对的特征时,可以将基于第三预定义规则确定的特征值作为候选名称项目对在第三预定义规则下的特征。
具体而言,可以通过判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中是否被定义为相互关联的名称和项目,确定该候选名称项目对的特征值。例如,可以在数据库中事先存储已知的相互关联的名称和项目(该名称表征该项目具有属性或者所属的分类),比如,由管理人员手工输入相关联的名称和项目、预先在大量内容中进行机器学习等得到的相关联的名称和项目等。当判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中被定义为是相互关联的时,将该候选名称项目对的特征值设为第一值(例如1),反之设为第二值(例如0)。注意,本文中在不同部分提到的多个第一值不代表一定为相同的值并且多个第二值也不代表一定为相同的值,只是为了区分特征值在不同情况下是不同的。
举例来说,对于候选名称项目对{名称1,可比项目对{A1,B1}},如果能够在数据库中确定名称1与A1是相互关联的、或者名称1与B1是相互关联的、或者名称1与A1和B1同时相互关联,则可以将该候选名称项目对的特征值设为第一值。反之,如果在数据库中不能确定名称1与A1和B1中的任一个相互关联,那么将该候选名称项目对的特征值设为第二值。
根据本发明的实施例,在基于第二用户历史确定候选名称项目对的特征时,可以将基于第二用户历史行为确定的候选名称与可比项目对的共现次数作为候选名称项目对在第二用户历史行为下的特征。第二用户历史行为可以包括用户现在和/或过去采取的用户语音、手势、眼睛移动、操作行为等。通过对用户行为的识别,可以确定是否改变候选名称与可比项目对的共现次数。
具体而言,可以基于通过语音识别技术确定的用户的话语在预定时间窗口内是否相继出现候选名称项目对中包含的候选名称和可比项目对中的至少一个项目,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。这里,预定时间窗口可以是提前设置的一个时间段(例如10秒、20秒等),用于反映接连出现的某些项目可能是相互关联的。例如,当通过语音识别技术识别出用户说出“这个计划的成本大概需要300美元”时,由于识别出的内容“成本”和“300美元”分别作为候选名称和可比项目对中的一个项目被包括在同一个候选名称项目对中,并且“成本”和“300美元”相继出现的时间间隔不超过预定时间窗口的长度,因此可以增加“成本”和“300美元”所在的候选名称项目相对应的共现次数。如果在用户的话语中没有检测到相继出现时间间隔较短并且包含在同一个候选名称项目对中的内容,则所有的候选名称项目对的相应特征可以不发生改变。
另外,可以基于是否检测到用户眼睛在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继移动,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。例如,对于候选名称项目对{名称1,可比项目对{A1,B1}},如果检测到用户的眼睛注视名称1之后又接着注视A1和B1中的任一个,那么可以增加该候选名称项目对对应的共现次数。如果用户的眼睛反复相继注视名称1和A1(或B1),那么反复的次数越多,增加的共现次数可以越大。也可以在眼睛反复相继注视名称1和A1(或B1)的次数达到预定次数(例如3次),才增加共现次数。如果没有检测到用户眼睛相继注视候选名称和项目,则所有的候选名称项目对的相应特征可以不发生改变。
另外,可以基于是否检测到指示部件在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继进行指示,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。指示部件如上所述,包括用户工具、手指等。例如,对于候选名称项目对{名称1,可比项目对{A1,B1}},当用户用指示部件强调(指向、加下划线、选中等)名称1之后又接着强调A1和B1中的任一个时,可以增加候选项目对{名称1,可比项目对{A1,B1}}对应的共现次数。如果用户反复相继指示名称1和A1(或B1),那么反复的次数越多,增加的共现次数可以越大。也可以反复相继指示名称1和A1(或B1)的次数达到预定次数(例如3次),才增加共现次数。如果指示部件没有相继指示候选名称和项目,则所有的候选项目对的相应特征可以不发生改变。
根据本发明的实施例,在基于待比较对象的文本内容确定候选名称项目对的特征时,可以将基于待比较对象的文本内容确定的候选名称和可比项目对的共现次数作为候选名称项目对在待比较对象的文本内容下的特征。
具体而言,可以基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在待比较对象中的一个的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。预定空间窗口可以是提前设置的一段距离(例如20或30个字符长度等),用于反映接连出现的某些项目可能是相互关联的。例如,对于候选名称项目对{名称1,可比项目对{A1,B1}},当名称1和A1同时出现在A1所在的对象中并且名称1和A1之间间隔的字符数为16个时,可以认为名称1和A1可能是相互关联的,于是增加候选名称项目对{名称1,可比项目对{A1,B1}}对应的共现次数。如果在待比较对象中没有发现候选名称和项目同时出现在一个文本的相近范围内,则所有的候选名称项目对的特征可以不改变。
另外,可以基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在检索结果中包含的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数,其中所述检索结果通过该候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中进行检索获得。例如,对于候选名称项目对{名称1,可比项目对{A1,B1}},如果将名称1与A1和B1中的至少一个作为检索关键字从数据库中检测得到的内容指示名称1与A1和B1中的至少一个是相互关联的(例如,名称1与A1和B1中的至少一个同时存在于检索结果的同一文本内容中并且相距较近),则可以增加该候选名称项目对对应的共现次数。反之,则不改变该候选名称项目对对应的共现次数。
上面描述的确定特征值和共现次数的方式中的一种或多种可以同时被计算,并共同构成候选名称项目对的特征。构成特征的方式与上述构成候选项目对的特征的方式可以类似,这里不再赘述。
继续图9的例子,在该例子中,通过检测用户眼睛在每个候选名称项目对中相继注视候选名称和项目的次数以及用户手指在每个候选名称项目对中相继指示候选名称和项目的次数,来确定对应的候选名称项目对中的候选名称和可比项目对的共现次数,作为在眼睛移动条件下和在手指指示条件下对应的特征。在图9中的框930中示出了在该例子中步骤S830的执行结果,其中每个数字代表检测到的共现次数。
在S840中,基于所确定的特征,将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联,从而确定第二方向上的表项名称。
根据本发明的实施例,可以根据无监督的算法或者有监督的算法基于S830中确定的特征从候选名称项目对中确定包含有能够相互关联的候选名称与可比项目对的候选名称项目对,从而确定第二方向(图6中的列方向)上的表项名称。
例如,可以采用图10所述的方法1000来执行用于确定第二方向上的表项名称的无监督的算法。
在S1010中,对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征计算该候选名称项目对的总分。
计算总分的方式与上述结合S310描述的计算方式类似,例如利用加权求和或者采用预先定义好的求取总分的方式。本发明对确定总分的具体形式并不做特别限制,只要总分可以反映候选名称项目对中的候选名称与可比项目对正确关联的可能性大小即可。
在S1020中,将总分大于预定阈值的候选名称项目对中的候选名称与该候选名称项目对中的可比项目对相关联,从而将该候选名称作为与该可比项目对相应的表项名称。
这里,所设置的预定阈值可以为较大的值,以使得能够尽可能准确地找到与可比项目对相关联的候选名称。
根据本发明的实施例,可以通过提前用大量训练样本进行学习来实现用于确定第二方向上的表项名称的有监督的算法。
具体而言,在上述步骤S840中需要借助于名称项目对模型来判断每个候选名称项目对中的候选名称与可比项目对是否是相关联的。名称项目对模型是通过使用机器学习算法利用大量已知的名称项目对和它们在第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。名称项目对模型的生成方法可以采用现有的机器学习或训练方法,这里不再赘述。通过机器学习,可以根据输入的特征来判断与该特征对应的候选名称和可比项目对之间是否相关联。那么,当S830中确定的某候选名称项目对的特征被输入学习得到的名称项目对模型时,可以根据模型的输出结果确定该候选名称项目对中的候选名称和可比项目对是否相关联。
如果在S830中确定的特征经过名称项目对模型处理之后输出相关联的结果,那么与该特征对应的候选名称项目对中的候选名称和可比项目对相关联。这里,如其它机器学习方法一样,建立名称项目对模型采用的特征提取方式与在S830中采用的特征提取方式相同。
这样,无论通过无监督的算法还是有监督的算法,都可以根据特征从候选名称项目对中确定相关联的候选名称和可比项目对,从而能够自动识别第二方向上的表项名称,由此能够将可比项目对更有效地呈现给用户,提高用户体验。
继续图9的例子,在该例子中,根据眼睛移动得到的共现次数和手指指示得到的共现次数,通过预定的加权方式或反映关联可能性大小的其他计算方式,计算每个候选名称项目对的总分。然后,将总分大于预定阈值(例如0.85)的候选名称项目对中的候选名称和可比项目对确定为是相互关联的,从而找出第二方向上的表项名称。在图9的框940中示出了在该例子中步骤S840的执行结果。
可以看到通过S810至S840的处理,“5000-7000美元”和“2000-4000美元”对应的表项名称为“成本”,“一周行程”和“一天行程”对应的表项名称为“持续期”,从而实现自动且有效的表项名称的确定。此外,由于“水下婚礼”和“化妆婚礼”如上所述被确定为行方向上的表项名称,因此在本例子中不需要为第一行的“水下婚礼”和“化妆婚礼”设置特定的列方向上的表项名称。当然,也可以为作为表项名称的“水下婚礼”和“化妆婚礼”设置诸如“对比对象”之类的相应名称。还可以如图9中的例子那样,缺省为第一行的表项名称设置“方面”这样的名称,以表明第一列示出的是可比项目对所属的性质或分类。
在图9中确定的列方向上的表项名称被自动生成在图7中的表格中。这样,在行方向和列方向上具有表项名称的可比项目对以表格的形式被呈现给用户,从而以更加形象直观的方式便于用户进行内容比较。
上面描述了根据本发明实施例的用于内容比较的方法,接下来,将结合图11至图13描述根据本发明的用于内容比较的装置和***。
如图11所示,用于内容比较的装置1100包括识别单元1110、配对单元1120、特征确定单元1130和可比项目确定单元1140。识别单元1110可被配置为识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项。配对单元1120可被配置为将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象。特征确定单元1130可被配置为基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选项目对中的每一个候选项目对的特征。可比项目确定单元1140可被配置为基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目。
识别单元1110、配对单元1120、特征确定单元1130和可比项目确定单元1140的上述和/或其它操作和功能可以参考上述结合步骤S210至S240进行的描述,为了避免重复,在此不再赘述。
本发明实施例提供的用于内容比较的装置通过基于第一预定规则、第一用户历史行为和/或待比较对象的文本内容,可以提取每个候选项目对的特征,并借此确定部分候选项目对中包含有可比项目。因此,能够自动识别出待比较对象中的可比项目,避免大量人力的参与和可比项目的遗漏,由此提高可比项目的识别效率。
图12示出了根据本发明实施例的用于内容比较的另一装置1200的结构框图。装置1200中的识别单元1210、配对单元1220、特征确定单元1230和可比项目确定单元1240分别与装置1100中的识别单元1110、配对单元1120、特征确定单元1130和可比项目确定单元1140基本相同。
根据本发明的实施例,识别单元1210可以具体被配置为响应于检测到预定用户行为,识别所述至少两个待比较对象中包含的项目,或者响应于确定所述至少两个待比较对象的相对位置关系满足预定关系,识别所述至少两个待比较对象中包含的项目。
根据本发明的实施例,所述预定用户行为可以包括如下至少一项:用于表示用户希望进行内容比较的用户语音、对多个选项中的进行内容比较操作的选项的选择、将待比较对象拖动到用于比较的特定区域的动作、将待比较对象放置在用于比较的特定区域中的动作、将待比较对象中的一个放置在另一个上的动作、将待比较对象对齐放置的动作、将待比较对象部分重叠放置的动作。所述预定关系可以包括如下至少一项:待比较对象处于用于比较的特定区域中、待比较对象对齐、待比较对象部分重叠。
根据本发明的实施例,识别单元1210可以包括内容识别子单元1212和提取子单元1214。内容识别子单元1212可被配置为通过如下方式中的至少一项对待比较对象的内容进行识别:通过光学字符识别技术对待比较对象的内容进行识别,通过扫描待比较对象对待比较对象的内容进行识别,读取待比较对象中包含的存储有该待比较对象相关信息的条形码,并根据读取的条形码信息获取存储在数据库中的与该待比较对象相关联的内容。提取子单元1214可被配置为从所识别的内容中提取所述短语、句子、段落、表格和图像中的至少一项作为所述项目。
根据本发明的实施例,特征确定单元1230可以包括第一子单元1231至第八子单元1238中的至少一个。具体而言,第一子单元1231可被配置为通过判断候选项目对中包含的项目在数据库中是否被定义为可比项目,确定该候选项目对的特征值。第二子单元1232可被配置为通过判断候选项目对中包含的项目在其各自的待比较对象中是否具有相似布局,确定该候选项目对的特征值。第三子单元1233可被配置为基于通过语音识别技术确定的用户的话语是否包含符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数。第四子单元1234可被配置为基于是否检测到用户眼睛在候选项目对中包含的项目之间交替移动,计算该候选项目对中包含的项目的共现次数。第五子单元1235可被配置为基于是否检测到指示部件在候选项目对中包含的项目之间交替进行指示,计算该候选项目对中包含的项目的共现次数。第六子单元1236可被配置为基于是否检测到候选项目对中包含的项目被并列放置,计算该候选项目对中包含的项目的共现次数。第七子单元1237可被配置为基于候选项目对中包含的项目在其各自的待比较对象中是否符合可比句法或语用模板,计算该候选项目对中包含的项目的共现次数。第八子单元1238可被配置为基于检索结果中是否存在符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数,其中所述检索结果通过该候选项目对中包含的项目在数据库中进行检索获得。
根据本发明的实施例,可比项目确定单元1240可以包括计算子单元1242和确定子单元1244。计算子单元1242可被配置为对于每一个候选项目对,基于所确定的该候选项目对的特征计算该候选项目对的总分。确定子单元1244可被配置为将总分大于预定阈值的候选项目对确定为可比项目对。
根据本发明的实施例,可比项目确定单元1240可以具体被配置为对于每一个候选项目对,基于所确定的该候选项目对的特征,根据可比项目对模型,判断该候选项目对是否为可比项目对。其中,所述可比项目对模型是通过使用机器学习算法利用大量已知的可比项目对和它们在所述第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
根据本发明的实施例,装置1200还可以包括过滤单元1250。过滤单元1250可以被配置为基于第二预定义规则,对所产生的候选项目对进行过滤。在这种情况下,特征确定单元1230可以被配置为基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定过滤后的候选项目对中的每一个候选项目对的特征。
根据本发明的实施例,过滤单元1250可以包括第一去除子单元1252、第二去除子单元1254和第三去除子单元1256中的至少一个。具体而言,第一去除子单元1252可以被配置为将包含有长度超过预定长度的项目的候选项目对去除。第二去除子单元1254可以被配置为将其每个项目包含另一候选项目对中的相应一个项目的候选项目对去除。第三去除子单元1256可以被配置为将包含待比较范围之外的项目的候选项目对去除,其中,所述待比较范围是通过待比较对象中的用户选择行为确定的和/或通过待比较对象的相对位置关系满足预定关系确定的。
根据本发明的实施例,所述用户选择行为可以包括如下至少一项:用于指示待比较范围的用户语音的输入、通过指示部件指定待比较范围的动作。所述预定关系可以包括如下至少一项:待比较对象对齐的部分为待比较范围、待比较对象重叠的部分为待比较范围。
根据本发明的实施例,装置1200还可以包括排序单元1260。排序单元1260可以被配置为对所确定的可比项目对进行排序,以根据排序后的顺序显示给用户。
根据本发明的实施例,排序单元1260可以具体被配置为根据如下至少一项对所确定的可比项目对进行排序:基于可比项目对的特征的总分、混合现实***设置、基于用户简档或用户社交网络信息的用户偏好、可比项目对中的项目在待比较对象中的出现顺序、可比项目对中的项目之间的相似性、可比项目对间的工作流先后顺序和可比项目对间的时间顺序。
根据本发明的实施例,装置1200还可以包括显示单元1270。显示单元可以被配置为将所确定的可比项目对以表格的形式进行显示,其中,每个可比项目对中的项目在第一方向上排列,不同可比项目对在第二方向上排列,第一方向是行方向和列方向中的一个,第二方向是行方向和列方向中的另一个。
根据本发明的实施例,显示单元1270具体可以被配置为将基于特征的总分最高的可比项目对中的项目确定为第一方向上的表项名称。
根据本发明的实施例,显示单元1270可以包括候选名称确定子单元1272、配对子单元1274、特征确定子单元1276和表现名称确定子单元1278。候选名称确定子单元1272可以被配置为通过将基于特征的总分最高的可比项目对中的项目作为查询项进行意图挖掘,确定第二方向上的表项的候选名称。配对子单元1274可以被配置为将候选名称与可比项目对进行配对以形成候选名称项目对,每一个候选名称项目对包括一个候选名称和一个可比项目对。特征确定子单元1276可以被配置为基于第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项,确定所产生的候选名称项目对中的每一个候选名称项目对的特征。表项名称确定子单元1278可以被配置为基于所确定的特征,将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联,从而确定第二方向上的表项名称。
根据本发明的实施例,特征确定子单元1276可以包括第一部件1281至第六部件1286。具体而言,第一部件1281可以被配置为通过判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中是否被定义为相互关联的名称和项目,确定该候选名称项目对的特征值。第二部件1282可以被配置为基于通过语音识别技术确定的用户的话语在预定时间窗口内是否相继出现候选名称项目对中包含的候选名称和可比项目对中的至少一个项目,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。第三部件1283可以被配置为基于是否检测到用户眼睛在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继移动,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。第四部件1284可以被配置为基于是否检测到指示部件在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继进行指示,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。第五部件1285可以被配置为基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在待比较对象中的一个的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。第六部件1286可以被配置为基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在检索结果中包含的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数,其中所述检索结果通过该候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中进行检索获得。
根据本发明的实施例,表项名称确定子单元1278可以包括计算部件1292和表项名称确定部件1294。计算部件1292可以被配置为对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征计算该候选名称项目对的总分。表项名称确定部件1294可以被配置为将总分大于预定阈值的候选名称项目对中的候选名称与该候选名称项目对中的可比项目对相关联,从而将该候选名称作为与该可比项目对相应的表项名称。
根据本发明的实施例,表项名称确定子单元1278可以具体被配置为对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征,根据名称项目对模型,判断该候选名称项目对中的候选名称是否与该候选名称项目对中的可比项目对相关联。其中,所述名称项目对模型是通过使用机器学习算法利用大量已知的名称项目对和它们在所述第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
上述各单元、子单元和部件的上述和/或其它操作和功能可以参考结合图2至图10进行的具体描述,为了避免重复,在此不再赘述。
在图13中示出了根据本发明实施例的信息处理***1300的结构框图。该信息处理***1300包括用于内容比较的装置1310。装置1310可以是上述的装置1100或1200。该信息处理***1300还包括显示装置1320,显示装置1320可以被配置为显示由所述用于内容比较的装置1310确定的可比项目。显示装置1320可以是与装置1310耦接的任何类型的显示器、投影设备等,可以将装置1310确定的可比项目显示给用户。例如,显示装置1320可以将可比项目以表格的形式呈现出来,或者通过混合现实***将可比项目投影到显示区域。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims (43)

1.一种用于内容比较的装置,包括:
识别单元,被配置为识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;
配对单元,被配置为将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;
特征确定单元,被配置为通过确定以下各项值中的至少一项值来确定所产生的候选项目对中的每一个候选项目对的特征;其中,所述各项值包括:基于第一预定义规则确定的特征值、基于第一用户历史行为确定的项目共现次数、基于待比较对象的文本内容确定的项目共现次数;以及
可比项目确定单元,被配置为基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目;
其中,在基于所述第一预定义规则确定所述特征值的情况下,所述特征确定单元包括:
第一子单元,被配置为通过判断候选项目对中包含的项目在数据库中是否被定义为可比项目,确定该候选项目对的特征值;和/或
第二子单元,被配置为通过判断候选项目对中包含的项目在其各自的待比较对象中是否具有相似布局,确定该候选项目对的特征值。
2.根据权利要求1所述的装置,其中,所述识别单元被配置为响应于检测到预定用户行为,识别所述至少两个待比较对象中包含的项目,或者响应于确定所述至少两个待比较对象的相对位置关系满足预定关系,识别所述至少两个待比较对象中包含的项目。
3.根据权利要求2所述的装置,其中,
所述预定用户行为包括如下至少一项:用于表示用户希望进行内容比较的用户语音、对多个选项中的进行内容比较操作的选项的选择、将待比较对象拖动到用于比较的特定区域的动作、将待比较对象放置在用于比较的特定区域中的动作、将待比较对象中的一个放置在另一个上的动作、将待比较对象对齐放置的动作、将待比较对象部分重叠放置的动作,
所述预定关系包括如下至少一项:待比较对象处于用于比较的特定区域中、待比较对象对齐、待比较对象部分重叠。
4.根据权利要求1至3中的任一项所述的装置,其中,所述识别单元包括:
内容识别子单元,被配置为通过如下方式中的至少一项对待比较对象的内容进行识别:
通过光学字符识别技术对待比较对象的内容进行识别,
通过扫描待比较对象对待比较对象的内容进行识别,
读取待比较对象中包含的存储有该待比较对象相关信息的条形码,并根据读取的条形码信息获取存储在数据库中的与该待比较对象相关联的内容;以及
提取子单元,被配置为从所识别的内容中提取所述短语、句子、段落、表格和图像中的至少一项作为所述项目。
5.根据权利要求1所述的装置,其中,在基于所述第一用户历史行为确定所述项目共现次数的情况下,所述特征确定单元进一步包括:
第三子单元,被配置为基于通过语音识别技术确定的用户的话语是否包含符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数;和/或
第四子单元,被配置为基于是否检测到用户眼睛在候选项目对中包含的项目之间交替移动,计算该候选项目对中包含的项目的共现次数;和/或
第五子单元,被配置为基于是否检测到指示部件在候选项目对中包含的项目之间交替进行指示,计算该候选项目对中包含的项目的共现次数;和/或
第六子单元,被配置为基于是否检测到候选项目对中包含的项目被并列放置,计算该候选项目对中包含的项目的共现次数。
6.根据权利要求1所述的装置,其中,在基于所述待比较对象的文本内容确定所述项目共现次数的情况下,所述特征确定单元进一步包括:
第七子单元,被配置为基于候选项目对中包含的项目在其各自的待比较对象中是否符合可比句法或语用模板,计算该候选项目对中包含的项目的共现次数;和/或
第八子单元,被配置为基于检索结果中是否存在符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数,其中所述检索结果通过该候选项目对中包含的项目在数据库中进行检索获得。
7.根据权利要求1所述的装置,其中,所述可比项目确定单元包括:
计算子单元,被配置为对于每一个候选项目对,基于所确定的该候选项目对的特征计算该候选项目对的总分;以及
确定子单元,被配置为将总分大于预定阈值的候选项目对确定为可比项目对。
8.根据权利要求1所述的装置,其中,所述可比项目确定单元被配置为对于每一个候选项目对,基于所确定的该候选项目对的特征,根据可比项目对模型,判断该候选项目对是否为可比项目对,
其中,所述可比项目对模型是通过使用机器学习算法利用大量已知的可比项目对和它们在所述第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
9.根据权利要求1所述的装置,还包括:
过滤单元,被配置为基于第二预定义规则,对所产生的候选项目对进行过滤;
其中,所述特征确定单元被配置为基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定过滤后的候选项目对中的每一个候选项目对的特征。
10.根据权利要求9所述的装置,其中,所述过滤单元包括:
第一去除子单元,被配置为将包含有长度超过预定长度的项目的候选项目对去除;和/或
第二去除子单元,被配置为将其每个项目包含另一候选项目对中的相应一个项目的候选项目对去除;和/或
第三去除子单元,被配置为将包含待比较范围之外的项目的候选项目对去除,其中,所述待比较范围是通过待比较对象中的用户选择行为确定的和/或通过待比较对象的相对位置关系满足预定关系确定的。
11.根据权利要求10所述的装置,其中,
所述用户选择行为包括如下至少一项:用于指示待比较范围的用户语音的输入、通过指示部件指定待比较范围的动作,
所述预定关系包括如下至少一项:待比较对象对齐的部分为待比较范围、待比较对象重叠的部分为待比较范围。
12.根据权利要求1所述的装置,还包括:
排序单元,被配置为对所确定的可比项目对进行排序,以根据排序后的顺序显示给用户。
13.根据权利要求12所述的装置,其中,所述排序单元被配置为根据如下至少一项对所确定的可比项目对进行排序:基于可比项目对的特征的总分、混合现实***设置、基于用户简档或用户社交网络信息的用户偏好、可比项目对中的项目在待比较对象中的出现顺序、可比项目对中的项目之间的相似性、可比项目对间的工作流先后顺序和可比项目对间的时间顺序。
14.根据权利要求1所述的装置,还包括:
显示单元,被配置为将所确定的可比项目对以表格的形式进行显示,其中,每个可比项目对中的项目在第一方向上排列,不同可比项目对在第二方向上排列,第一方向是行方向和列方向中的一个,第二方向是行方向和列方向中的另一个。
15.根据权利要求14所述的装置,其中,所述显示单元被配置为将基于特征的总分最高的可比项目对中的项目确定为第一方向上的表项名称。
16.根据权利要求14或15所述的装置,其中,所述显示单元包括:
候选名称确定子单元,被配置为通过将基于特征的总分最高的可比项目对中的项目作为查询项进行意图挖掘,确定第二方向上的表项的候选名称;
配对子单元,被配置为将候选名称与可比项目对进行配对以形成候选名称项目对,每一个候选名称项目对包括一个候选名称和一个可比项目对;
特征确定子单元,被配置为通过确定以下各项值中的至少一项值来确定所产生的候选名称项目对中的每一个候选名称项目对的特征;其中,所述各项值包括:基于第三预定义规则确定的特征值、基于第二用户历史行为确定的候选名称与可比项目对的共现次数、基于待比较对象的文本内容确定的候选名称与可比项目对的共现次数;以及
表项名称确定子单元,被配置为基于所确定的特征,将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联,从而确定第二方向上的表项名称。
17.根据权利要求16所述的装置,其中,在基于所述第三预定义规则确定所述特征值的情况下,所述特征确定子单元包括:
第一部件,被配置为通过判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中是否被定义为相互关联的名称和项目,确定该候选名称项目对的特征值。
18.根据权利要求16所述的装置,其中,在基于所述第二用户历史行为确定所述共现次数的情况下,所述特征确定子单元包括:
第二部件,被配置为基于通过语音识别技术确定的用户的话语在预定时间窗口内是否相继出现候选名称项目对中包含的候选名称和可比项目对中的至少一个项目,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
第三部件,被配置为基于是否检测到用户眼睛在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继移动,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
第四部件,被配置为基于是否检测到指示部件在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继进行指示,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。
19.根据权利要求16所述的装置,其中,在基于所述待比较对象的文本内容确定所述共现次数的情况下,所述特征确定子单元包括:
第五部件,被配置为基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在待比较对象中的一个的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
第六部件,被配置为基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在检索结果中包含的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数,其中所述检索结果通过该候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中进行检索获得。
20.根据权利要求16所述的装置,其中,所述表项名称确定子单元包括:
计算部件,被配置为对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征计算该候选名称项目对的总分;以及
表项名称确定部件,被配置为将总分大于预定阈值的候选名称项目对中的候选名称与该候选名称项目对中的可比项目对相关联,从而将该候选名称作为与该可比项目对相应的表项名称。
21.根据权利要求16所述的装置,其中,所述表项名称确定子单元被配置为对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征,根据名称项目对模型,判断该候选名称项目对中的候选名称是否与该候选名称项目对中的可比项目对相关联,
其中,所述名称项目对模型是通过使用机器学习算法利用大量已知的名称项目对和它们在所述第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
22.一种用于内容比较的方法,包括:
识别至少两个待比较对象中包含的项目,所述项目包括短语、句子、段落、表格和图像中的至少一项;
将所识别的项目进行配对以产生候选项目对,每个候选项目对包括至少两个项目,所述至少两个项目分别来自不同的待比较对象;
通过确定以下各项值中的至少一项值来确定所产生的候选项目对中的每一个候选项目对的特征;其中,所述各项值包括:基于第一预定义规则确定的特征值、基于第一用户历史行为确定的项目共现次数、基于待比较对象的文本内容确定的项目共现次数;以及
基于所确定的特征,将所产生的候选项目对中的至少一个候选项目对确定为可比项目对,其中每个可比项目对中包含的项目为可比项目;
其中,基于所述第一预定义规则确定所述特征值包括:
通过判断候选项目对中包含的项目在数据库中是否被定义为可比项目,确定该候选项目对的特征值;和/或
通过判断候选项目对中包含的项目在其各自的待比较对象中是否具有相似布局,确定该候选项目对的特征值。
23.根据权利要求22所述的方法,其中,所述识别至少两个待比较对象中包含的项目包括:
响应于检测到预定用户行为,识别所述至少两个待比较对象中包含的项目;或者
响应于确定所述至少两个待比较对象的相对位置关系满足预定关系,识别所述至少两个待比较对象中包含的项目。
24.根据权利要求23所述的方法,其中,
所述预定用户行为包括如下至少一项:用于表示用户希望进行内容比较的用户语音、对多个选项中的进行内容比较操作的选项的选择、将待比较对象拖动到用于比较的特定区域的动作、将待比较对象放置在用于比较的特定区域中的动作、将待比较对象中的一个放置在另一个上的动作、将待比较对象对齐放置的动作、将待比较对象部分重叠放置的动作,
所述预定关系包括如下至少一项:待比较对象处于用于比较的特定区域中、待比较对象对齐、待比较对象部分重叠。
25.根据权利要求22至24中的任一项所述的方法,其中,所述识别至少两个待比较对象中包含的项目包括:
通过如下方式中的至少一项对待比较对象的内容进行识别:
通过光学字符识别技术对待比较对象的内容进行识别,
通过扫描待比较对象对待比较对象的内容进行识别,
读取待比较对象中包含的存储有该待比较对象相关信息的条形码,并根据读取的条形码信息获取存储在数据库中的与该待比较对象相关联的内容;以及
从所识别的内容中提取所述短语、句子、段落、表格和图像中的至少一项作为所述项目。
26.根据权利要求22所述的方法,其中,基于所述第一用户历史行为确定所述项目共现次数包括:
基于通过语音识别技术确定的用户的话语是否包含符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数;和/或
基于是否检测到用户眼睛在候选项目对中包含的项目之间交替移动,计算该候选项目对中包含的项目的共现次数;和/或
基于是否检测到指示部件在候选项目对中包含的项目之间交替进行指示,计算该候选项目对中包含的项目的共现次数;和/或
基于是否检测到候选项目对中包含的项目被并列放置,计算该候选项目对中包含的项目的共现次数。
27.根据权利要求22所述的方法,其中,基于所述待比较对象的文本内容确定所述项目共现次数包括:
基于候选项目对中包含的项目在其各自的待比较对象中是否符合可比句法或语用模板,计算该候选项目对中包含的项目的共现次数;和/或
基于检索结果中是否存在符合可比句法或语用模板的项目,计算由这些项目组成的候选项目对中的项目的共现次数,其中所述检索结果通过该候选项目对中包含的项目在数据库中进行检索获得。
28.根据权利要求22所述的方法,其中,基于所确定的特征将所产生的候选项目对中的至少一个候选项目对确定为可比项目对包括:
对于每一个候选项目对,基于所确定的该候选项目对的特征计算该候选项目对的总分;以及
将总分大于预定阈值的候选项目对确定为可比项目对。
29.根据权利要求22所述的方法,其中,基于所确定的特征将所产生的候选项目对中的至少一个候选项目对确定为可比项目对包括:
对于每一个候选项目对,基于所确定的该候选项目对的特征,根据可比项目对模型,判断该候选项目对是否为可比项目对,
其中,所述可比项目对模型是通过使用机器学习算法利用大量已知的可比项目对和它们在所述第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
30.根据权利要求22所述的方法,还包括:
基于第二预定义规则,对所产生的候选项目对进行过滤;
其中,基于第一预定义规则、第一用户历史行为和待比较对象的文本内容中的至少一项,确定过滤后的候选项目对中的每一个候选项目对的特征。
31.根据权利要求30所述的方法,其中,基于第二预定义规则,对所产生的候选项目对进行过滤包括:
将包含有长度超过预定长度的项目的候选项目对去除;和/或
将其每个项目包含另一候选项目对中的相应一个项目的候选项目对去除;和/或
将包含待比较范围之外的项目的候选项目对去除,其中,所述待比较范围是通过待比较对象中的用户选择行为确定的和/或通过待比较对象的相对位置关系满足预定关系确定的。
32.根据权利要求31所述的方法,其中,
所述用户选择行为包括如下至少一项:用于指示待比较范围的用户语音的输入、通过指示部件指定待比较范围的动作,
所述预定关系包括如下至少一项:待比较对象对齐的部分为待比较范围、待比较对象重叠的部分为待比较范围。
33.根据权利要求22所述的方法,还包括:
对所确定的可比项目对进行排序,以根据排序后的顺序显示给用户。
34.根据权利要求33所述的方法,其中,根据如下至少一项对所确定的可比项目对进行排序:基于可比项目对的特征的总分、混合现实***设置、基于用户简档或用户社交网络信息的用户偏好、可比项目对中的项目在待比较对象中的出现顺序、可比项目对中的项目之间的相似性、可比项目对间的工作流先后顺序和可比项目对间的时间顺序。
35.根据权利要求22所述的方法,还包括:
将所确定的可比项目对以表格的形式进行显示,其中,每个可比项目对中的项目在第一方向上排列,不同可比项目对在第二方向上排列,第一方向是行方向和列方向中的一个,第二方向是行方向和列方向中的另一个。
36.根据权利要求35所述的方法,其中,将所确定的可比项目对以表格的形式进行显示包括:
将基于特征的总分最高的可比项目对中的项目确定为第一方向上的表项名称。
37.根据权利要求35或36所述的方法,其中,将所确定的可比项目对以表格的形式进行显示包括:
通过将基于特征的总分最高的可比项目对中的项目作为查询项进行意图挖掘,确定第二方向上的表项的候选名称;
将候选名称与可比项目对进行配对以形成候选名称项目对,每一个候选名称项目对包括一个候选名称和一个可比项目对;
通过确定以下各项值中的至少一项值来确定所产生的候选名称项目对中的每一个候选名称项目对的特征;其中,所述各项值包括:基于第三预定义规则确定的特征值、基于第二用户历史行为确定的候选名称与可比项目对的共现次数、基于待比较对象的文本内容确定的候选名称与可比项目对的共现次数;以及
基于所确定的特征,将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联,从而确定第二方向上的表项名称。
38.根据权利要求37所述的方法,其中,基于所述第三预定义规则确定所述特征值包括:
通过判断候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中是否被定义为相互关联的名称和项目,确定该候选名称项目对的特征值。
39.根据权利要求37所述的方法,其中,基于所述第二用户历史行为确定所述共现次数包括:
基于通过语音识别技术确定的用户的话语在预定时间窗口内是否相继出现候选名称项目对中包含的候选名称和可比项目对中的至少一个项目,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
基于是否检测到用户眼睛在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继移动,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
基于是否检测到指示部件在候选名称项目对中包含的候选名称和可比项目对中的至少一个项目之间相继进行指示,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数。
40.根据权利要求37所述的方法,其中,基于所述待比较对象的文本内容确定所述共现次数包括:
基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在待比较对象中的一个的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数;和/或
基于候选名称项目对中包含的候选名称和可比项目对中的至少一个项目是否相继出现在检索结果中包含的文本内容中的预定空间窗口内,计算该候选名称项目对中包含的候选名称和可比项目对的共现次数,其中所述检索结果通过该候选名称项目对中包含的候选名称和可比项目对中的至少一个项目在数据库中进行检索获得。
41.根据权利要求37所述的方法,其中,基于所确定的特征将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联包括:
对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征计算该候选名称项目对的总分;以及
将总分大于预定阈值的候选名称项目对中的候选名称与该候选名称项目对中的可比项目对相关联,从而将该候选名称作为与该可比项目对相应的表项名称。
42.根据权利要求37所述的方法,其中,基于所确定的特征将所产生的候选名称项目对中的至少一个候选名称项目对中的每一个中的候选名称与可比项目对相关联包括:
对于每一个候选名称项目对,基于所确定的该候选名称项目对的特征,根据名称项目对模型,判断该候选名称项目对中的候选名称是否与该候选名称项目对中的可比项目对相关联,
其中,所述名称项目对模型是通过使用机器学习算法利用大量已知的名称项目对和它们在所述第三预定义规则、第二用户历史行为和待比较对象的文本内容中的至少一项下的特征学习得到的。
43.一种信息处理***,包括:
根据权利要求1-21任一项所述的用于内容比较的装置;以及
显示装置,被配置为显示由所述用于内容比较的装置确定的可比项目。
CN201310416233.5A 2013-09-13 2013-09-13 用于内容比较的方法、装置和信息处理*** Active CN104462083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310416233.5A CN104462083B (zh) 2013-09-13 2013-09-13 用于内容比较的方法、装置和信息处理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310416233.5A CN104462083B (zh) 2013-09-13 2013-09-13 用于内容比较的方法、装置和信息处理***

Publications (2)

Publication Number Publication Date
CN104462083A CN104462083A (zh) 2015-03-25
CN104462083B true CN104462083B (zh) 2018-11-02

Family

ID=52908149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310416233.5A Active CN104462083B (zh) 2013-09-13 2013-09-13 用于内容比较的方法、装置和信息处理***

Country Status (1)

Country Link
CN (1) CN104462083B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500282A (zh) * 2013-09-30 2014-01-08 北京智谷睿拓技术服务有限公司 辅助观察方法及辅助观察装置
US10628505B2 (en) * 2016-03-30 2020-04-21 Microsoft Technology Licensing, Llc Using gesture selection to obtain contextually relevant information
TWI621952B (zh) * 2016-12-02 2018-04-21 財團法人資訊工業策進會 比較表格自動產生方法、裝置及其電腦程式產品
CN108846081B (zh) * 2018-06-08 2020-10-30 四川科库科技有限公司 一种商品追溯信息查询方法与***
CN110716681A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 一种用于展示界面的展示对对象的对比方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581170A (zh) * 2003-08-15 2005-02-16 国际商业机器公司 用来比较两个计算机文件的方法及***
CN101517572A (zh) * 2006-07-18 2009-08-26 甲骨文国际公司 Xml文档的语义感知处理
CN101533346A (zh) * 2008-03-13 2009-09-16 中兴通讯股份有限公司 源文件的比较装置及方法
CN101765857A (zh) * 2007-06-20 2010-06-30 阿玛得斯两合公司 用于集成和显示从多个可靠来源收集的旅行忠告的***和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
CN102193764B (zh) * 2010-03-11 2016-04-20 英华达(上海)电子有限公司 显示和处理多个文档的电子***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581170A (zh) * 2003-08-15 2005-02-16 国际商业机器公司 用来比较两个计算机文件的方法及***
CN101517572A (zh) * 2006-07-18 2009-08-26 甲骨文国际公司 Xml文档的语义感知处理
CN101765857A (zh) * 2007-06-20 2010-06-30 阿玛得斯两合公司 用于集成和显示从多个可靠来源收集的旅行忠告的***和方法
CN101533346A (zh) * 2008-03-13 2009-09-16 中兴通讯股份有限公司 源文件的比较装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征向量的中文文档比较方法;王琳等;《情报杂志》;20051130(第11期);全文 *

Also Published As

Publication number Publication date
CN104462083A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
US11409777B2 (en) Entity-centric knowledge discovery
Cappallo et al. New modality: Emoji challenges in prediction, anticipation, and retrieval
Kim et al. A hierarchical aspect-sentiment model for online reviews
US7739304B2 (en) Context-based community-driven suggestions for media annotation
CN102760153B (zh) 将词典知识合并入svm学习以改进情感分类
Felix et al. The exploratory labeling assistant: Mixed-initiative label curation with large document collections
CN104462083B (zh) 用于内容比较的方法、装置和信息处理***
WO2017088245A1 (zh) 参考文档的推荐方法及装置
US9645987B2 (en) Topic extraction and video association
US10789284B2 (en) System and method for associating textual summaries with content media
CN109766412A (zh) 一种基于图像识别的学习内容获取方法及电子设备
Benitez-Quiroz et al. Discriminant features and temporal structure of nonmanuals in American Sign Language
US20190034455A1 (en) Dynamic Glyph-Based Search
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
US8881007B2 (en) Method and system for visual cues to facilitate navigation through an ordered set of documents
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
EP3255566A1 (en) Text retrieval method and apparatus
JP2014078082A (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
JP5794001B2 (ja) 情報検索方法、情報検索装置および情報検索プログラム
JP6862331B2 (ja) 思考・議論支援システムおよび思考・議論支援装置
CN105096667B (zh) 汉字学习辅助装置以及汉字学习辅助装置的显示方法
Kulkarni et al. Flowchart Generation and Mind Map Creation using Extracted Summarized Text
Fu et al. Learning personalized expectation-oriented photo selection models for personal photo collections

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant