CN1637744A - 为在大量电子文档中搜索而确定文档相关性的机器学习方法 - Google Patents

为在大量电子文档中搜索而确定文档相关性的机器学习方法 Download PDF

Info

Publication number
CN1637744A
CN1637744A CNA2005100040669A CN200510004066A CN1637744A CN 1637744 A CN1637744 A CN 1637744A CN A2005100040669 A CNA2005100040669 A CN A2005100040669A CN 200510004066 A CN200510004066 A CN 200510004066A CN 1637744 A CN1637744 A CN 1637744A
Authority
CN
China
Prior art keywords
document
training
data
information
subclauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100040669A
Other languages
English (en)
Inventor
H·陈
R·钱德拉西卡
S·H·科斯顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1637744A publication Critical patent/CN1637744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及应用自动化学习过程用于确定文档相关性并帮助信息检索的***和方法。提供了一种促进确定文档相关性的机器学习方法的***。所述***包括一个接收人工选定条目集以便用作高相关性文档的正面测试案例的存储组件。一培训组件用人工选定条目作为正面测试案例、用一个或多个其它条目作为负面测试案例来培训至少一个分类器以便提供查询无关模型,其中其它条目可由例如统计搜索选定。另外,受训后的分类器可用于协助人们标识和选择新的正面案例、或用来过滤或重新排序根据基于统计的搜索所得到的结果。

Description

为在大量电子文档中搜索而确定文档相关性的机器学习方法
技术领域
本发明一般涉及计算机***,尤其涉及采用自动化分类技术来帮助寻找信息的用户和/或管理这些信息的管理员进行有效的信息检索。
背景技术
搜索***或信息检索***是使用户能够找出与主题相关的所需信息的通用工具。为了找到所需信息,搜索引擎或其它搜索***常被用来使用户能指引用户设计的查询。不幸地是,当因为用户可能对如何创作或设计特定查询并无把握、或者因为查询可能是含糊不清的而有许多不相关文件被检索到时,常常会给用户造成挫折感。这常常致使用户连续不断地修改查询,以便把检索到的搜索结果限定到适当数量的文件。
作为此左右为难窘境的一个示例,在搜索***输入查询字段中键入字或短语而检索出数以千计的文件-在因特网情形中则可能为数百万个网站-作为可能的候选文件也不是什么不同寻常之事。为了搞清检索到的大量候选文件,用户常常会用其它字的组合进行试验以进一步减少清单长度,因为尽管许多检索结果可能共享相同元素、词语或短语但在主题上却几乎没有或根本没有上下文相似性。这种方法对执行搜索的用户和***而言都是不准确和浪费时间的。不准确性体现在检索出成千上万的(如果不是数以百万的)用户不感兴趣的无关文件/网站。在大规模数据库中搜索可能的却无关的文件时,被浪费的还有时间及***处理资源。
在信息检索(IR)领域中有一个共识:确保显示给用户的文档是根据相关性排序的,最相关的排列在最前面。在涉及搜索大量文档的一些应用中,诸如在一家公司的全公司域(corporate domain)内搜索时,编辑人员检查最常用的搜索词,并选择未来响应于这些查询词应当被显示的文档。例如,编辑人员可选择对用户常见问题的解答。可以理解,对数百或数千词语做人工处理是浪费时间、低效的。
发明内容
为了提供对本发明一些方面的基本理解,以下给出了本发明的简单内容。本部分并非是本发明的广泛总览。它并非旨在确定本发明的关键/重要元素或描绘本发明的范围。其唯一目的是以简化形式揭示本发明的一些概念,作为后面的更详细说明的序幕。
本发明涉及通过一种或多种学习方法促进信息检索和管理的***和方法,该学习方法根据正面和负面的测试数据进行培训,以便诸如根据文档或提示其它有用信息网站的链接来确定条目的相关性。在一个方面,本发明采用了一个人工选定的文档集或条目集(称为“最佳方案(best bets)”)来培训机器学习文本分类器。该分类器可处理人工选定或机器选定的最佳方案(即正面案例)和由常规统计搜索选定的其它文档(即负面案例),来建立标识最佳方案文档的模型。在训练之后,分类器(或多个分类器)和模型可被应用到新的查询词上,以标识最佳方案文档。这包括在各种培训迭代(iteration)中对新模型进行自举(bootstrapping),以帮助建立可被用来作更准确信息检索的学习表达(learned expression)的成长型模型。
在一个示例方面,分类器可在若干应用之一中使用。这包括例如在离线场景中帮助编辑人员选择最佳方案的工具。在在线示例中,可在常规统计搜索的输出之上运行-过滤器,其中“最佳方案”被放置、显示、或排列在被确定具较低重要性的非最佳方案或条目之前。可选地,所有文档可根据它们成为最佳方案的几率进行排列。这些场景和其它因素的任何一种的效果是增加排列在最前的文档的精确度(即相关性)。
本发明可根据有助于信息管理和检索的各种不同方法来实现。例如,搜索分析员或管理员可以用分类工具进行文本搜索,然后接收最佳方案或相关性排列的建议,并选择相关联最佳方案的网站或链接。在在线情形中,搜索网站的最终终端用户可被提供以最佳或经排列的结果列表。因而,用查询无关(query-independent)的分类来确定在给定上下文中的最佳/最相关网站。
关于自举过程,在起始时向***提供人工选定的最佳方案。通过使用在每次培训迭代中从新模型导出的机器建议并经人工校验的最佳方案,培训数据随着每次迭代而增加。最佳方案可由编辑人员仔细检查所有相应内容而以人工方式选定,或者可由***通过例如观察用户往往选择的是哪些文档而推断哪些条目可能是最佳的。在后一情形中,本发明提供了最佳的可能性来显示用户可能会认为对其有足够的兴趣以至于希望查阅或检索这些文档或条目类型。
为了达到前述及相关目标,本发明的某些说明性方面在此结合以下说明及附图来描述。但这些方面仅仅指示了本发明可在其中实践的各种方式,且本发明旨在包括所有这些方式。结合附图参阅本发明的以下具体说明,本发明的其它优点和新颖特征会变得清楚。
附图说明
图1是根据本发明一个方面的查询无关模型和***的示意块图。
图2是根据本发明一个方面的示例文档排序过程的示图。
图3是根据本发明一方面的示例建模过程的流程图。
图4是根据本发明一方面的示例培训和测试过程的示图。
图5是根据本发明一方面的用于网站排序的示例性用户界面的示图。
图6是根据本发明一方面的用于在线排序的示例性用户界面的示图。
图7是根据本发明一方面的示例应用的示图。
图8是根据本发明一个方面的适当操作环境的示意块图。
图9是本发明可与之交互的采样计算环境的示意块图。
具体实施方式
本发明涉及应用自动学习过程用来确定文档相关性并帮助信息检索活动的***和方法。在一方面中,提供了一种促进机器学习方法以确定文档相关性的***。该***包括接收用作正面测试案例的人工选定条目集和/或机器选定条目集的存储组件。用人工选定条目(或机器选定条目)作正面测试案例并用一个或多个其它条目作负面测试案例,培训组件培训至少一个分类器以便提供查询独立模型,其中其它条目可通过统计搜索来选定。还有,受训分类器可用于协助人们来选择新的正面案例,或用来过滤基于统计的搜索。如果指示相关性或重要性的期望或显式标记能加到返回的结果上,过滤器的输出就可排列成使得正面案例被排列在负面案例之前。如果需要,输出也可根据其为正面案例的几率进行排序。
当在本申请中使用时,术语“组件”、“分类器”、“模型”、“***”等等都意指计算机相关实体,即硬件、硬件和软件的组合、软件、或执行中的软件。例如,组件可以是但不限于是:运行于处理器上的进程、处理器、对象、可执行程序、执行线程、程序和/或计算机。作为说明,运行于服务器上的应用和服务器都是组件。一个或多个组件可驻留于执行的进程和/或线程中,且组件可位于一台计算机上和/或分布在两台或多台计算机之间。还有,这些组件可从存储有各种数据结构的各种计算机可读介质执行。组件可经由本地和/或远程的进程进行通信,比如根据有一个或多个数据分组的信号进行通信(例如,来自一个与本地***中的、分布式***中的另一组件交互的组件、和/或一个通过该信号跨越诸如因特网的网络与其它***交互的组件的数据)。
先参阅图1,根据本发明的一方面示出了与查询无关的模型和***100。***100包括分析存储在数据存储器120中的数据以提供一查询无关模型的一个或多个分类器110。这些数据可包括用户感兴趣的相关网站、文档、其它数据项等等的记录(随着时间的流逝而聚集的数据)。数据存储器120可包括用于集中存储(例如公司.com)的信息或来自分散源的信息,诸如各种网站、文档收藏、百科全书等等。分类器110被用来自动分析存储器中的数据以便帮助与用户界面140交互的一个或多个工具。
在一示例中,工具130可包括帮助管理员选择用户在搜索信息时选择向他们显示的相关网站的编辑工具。这些网站可包括以最可能上下文或重要性(即最佳方案)向用户显示的排序列表,其中可能性可从分类器110确定。另一工具130可包括帮助在线用户或终端用户基于分类器110所确定的信息排序或分类来确定条目重要性的排序工具。
一般而言,分类器根据正面和负面测试数据进行培训,以便诸如从文档或建议其它有用信息网站的链接来确定条目的相关性。在一方面,这包括一组人工选定的文档或条目(称为“最佳方案”)用来培训机器信息文本分类器110(或多个分类器)。分类器110可处理存储在数据存储器120中的人工或机器选定最佳方案(即正面案例)以及由常规的统计搜索选定的其它文档(即负面案例)。在培训之后,分类器110能应用于新查询词,以标识最佳方案或相关文档。这包括在各种培训迭代中自举新模型,以推动建立可用来进行更准确的信息检索的学习表达的成长模型,详述如下。
在一示例中,分类器110可在若干应用之一中利用。例如,这包括帮助编辑人员或机器在离线场景中选择最佳方案的工具130。在在线示例或用户查询示例中,过滤器(未示出)可运行于常规统计搜索的输出之上,其中“最佳方案”置于、显示、或排序在确定为较不重要的非最佳方案或条目之前。可选地,所有文档或者一个文档子集可根据它们成为最佳方案的几率进行排序。这些和其它场景的任何一种的效果是提高排列在最前面的文档的精确度(即相关性)。
如果需要,用户界面140也可用来更新、改变或更改数据存储器120,并分析、处理和接收分类的结果。界面140可包括具有一个或多个显示对象(未示出)的显示(未示出)以有助于对***100的操作,其中显示对象可包括有多种可配置尺寸、形状、色彩、文本、数据和声音的诸如可配置图标、按钮、滑块、输入框、选项、菜单、制表键(tab)等等。此外,可提供包括多个其它输入或控制的一个或多个用户输入(未示出)用来调节和配置本发明的一个或多个方面。这可包括从鼠标、键盘、语音输入、网站、浏览器、远程web服务和/或其它诸如话筒、照相机或视频输入的装置接收用户命令来影响或改变***100的操作。
分类器110可根据多种技术实现。根据本发明的一方面,所熟知的支撑向量机器(Support Vector Machines,SVM)被用作分类器。可以理解其它分类器方法也可采用,诸如朴素贝叶斯(
Figure A20051000406600091
Bayes)方法贝叶斯网络(Bayes Net)方法、决策树方法、基于相似性的方法、基于向量的方法、隐藏马尔可夫(Markov)模型方法、和/或其它学习方法。SVM方法通过学习或训练阶段进行配置。分类器是把输入属性向量x=(x1,x2,x3,x4,xn)映射到“输入属于一个类”的置信的函数-即f(x)=confidence(class)(置信(类))。在主题分类情形中,属性是查询中的字或其它源自查询中字的域专用属性(例如词性、关键词语的存在),而类是感兴趣的类别或领域。SVM和其它学习方法的一个重要方面是采用一个经标注的实例的培训集以自动地学习分类函数。
培训集可包括指示用来询问特定主题的可能和/或真实的元素或元素组合(例如字或短语)的词1到N的子集。每个词可与一个或多个主题相关联(例如(Q1,T2,T3,T9)、(Q7,T2,T6)、(Q2,T5))。在学习期间,学习了把输入特征映射到类的置信的函数。因而,在学习了模型之后,主题分别被表示为输入特征的加权向量。注意,词、查询和/或主题的其它实现是可能的。例如,可采用另一种归纳法来不但培训主题和副主题的查询,而且培训关联于目标内容和/或文档的原始文本。换言之,***可用几个查询做种子,但却向其提供多个原始文本,而且在后来还可添加查询和原始文本来增强该***。
对于主题分类,常采用二元特征值(例如,字在主题中出现或未曾出现)、或实值特征(例如带有重要性权重r的字出现)。由于主题集合会包含大量唯一的词语,当把机器学习技术应用到主题分类时一般采用特征选择。为了减少特征数量,特征可基于频率总计数被移除,并基于对类别的拟合根据少量特征进行选择。对类别的拟合可通过交互信息、信息增益(information gain)、卡方(Chi-square)检验法和/或任何其它统计选择技术来确定。这些较小的描述则可作为SVM的输入。注意,线性SVM提供了适当的归纳准确率并提供快速学习。其它类非线性SVM包括多项式分类器和径向基函数,并也可利用在本发明中。
对于包括SVM的多种学习方法而言,每个类别的模型都可表示为属性权重的向量w(例如w1,w2,...,wv)。因而,每一类别都有带权重的学习向量。当得悉权重后,通过计算x和w的点积对新查询进行分类,其中w是相应类学习权重的向量,而x是表示新查询的向量。S型函数(sigmoid function)也可被提供用来把SVM的输出变换为几率。几率提供跨类别或类的可比得分。
SVM是参数化函数,其函数形式在培训前定义。培训SVM一般需要一个经标记的培训集,因为SVM将从示例集拟合(fit)函数。培训集包括E个示例,E为整数。每个示例包括输入向量x、以及类别标记y,其描述输入向量是否在类别中。对于每个类别,在用E个示例培训的SVM中有E个自由参数。为了得出这些参数,要求解二次规划问题(QP),这是众所周知的。有多种众所周知解决QP问题的技术。这些技术可包括顺序最小优化技术(Sequential Minimal Optimization),以及诸如多级组块(chunking)的其它技术。
现在参阅图2,示例文档重新排列过程200根据本发明的一方面被示出。这可包括信息的后处理,用来确定文档或网站对用户或管理员的相关性。在该方面中,诸如条目、文档、记录、词语等的数据在210接收并根据如上所述的分类技术在220自动排序。在230,成为相关条目的几率高的条目在具较低排序的条目之前被呈现给用户(240)。这种排序可根据预定几率阈值获取,其中成为相关条目的几率校高的条目呈现在较低几率的条目之前。然而,可以理解,与根据几率的隐式排序不同,可在所显示的条目上加显式标记用来指示文档或网站的相关性或重要性(例如采用指示文档相关性的色彩、数字、符号)。
图3和4是根据本发明的一方面示出建模和培训过程的流程图。为便于解释,方法论被显示和描述成一系列动作。可以理解和明白的是,本发明并不限于所述动作和/或动作之顺序,例如动作能以各种顺序和/或同时发生,并与未在此显示和描述的其它动作一起发生。例如,本领域技术人员将理解和明白,这些方法论可另外通过状态图表示为一系列相互关连的状态或事件。此外,要实现根据本发明的方法论,并不是所有的图示动作都是必需的。
参阅图3,示例建模过程300根据本发明的一方面示出。在310,至少一个被用来提取或确定最佳方案文档或网站本质的文本分类器被构建。在320,要分析的测试数据存储器被选中。例如,这可包括有各种主题或词语的适当域,或包括分布在各个本地或远程数据库的多个域。在330,一个或多个类别从区域内选中(例如,团体、下载、合伙人、产品信息、支持、技术、培训、公司信息等等)。在340,至少一个分类器被分别分配给类别以便学习类别中最佳方案的特征。在350,已知培训数据集被用来培训和测试类别分类器,在下面参照图4更详细地描述。
图4根据本发明的一方面示出了示例培训和测试过程400。进行到410,数据库中的词语(term)被拆分为培训数据集和测试数据集(例如,80%的词语用来培训,20%的词语用来测试分类器)。在420,每类的和每个词语的最佳结果文档被提取出来(例如,提取最佳的10个文档)。在430,相应类别分类器在420的提取结果之上进行培训(例如,通过采用字特征)。在440,以上所述的培训数据由受训分类器分析,以确定分类器的准确率。例如,这包括由分类器确定的类别准确性与基线估计之间的比较,如下表所示:
类别(#特征) 类别准确性  类别基线
团体(1K) 97.81  88.86
下载(1K) 92.06  76.02
合伙人(1K) 96.86  91.11
产品信息(1K) 89.25  75.22
支持(1K) 96.09  79.28
技术(1K) 93.36  86.33
培训(1K) 89.8  88.78
公司信息(10K) 96.93  92.40
图5根据本发明的一方面示出了用于网站排序的示例用户界面500。在该方面中,示例搜索词语(例如,blaster worm(胚胞虫))在510根据本发明被提交给适合的数据网站。该网站被拆分成各种类别520和530。在每个类别中的结果540、541等可包括到提供与所需词语相关的更多信息的网站的最佳方案链接(best bet link)。图6根据本发明的一个方面描绘了在线排序的示例性用户界面600。在该方面中,界面600根据用户提交的查询词语620排序类别610中的文档。如上所述,这可包括界面600上的隐式排序,其中相关性强的文档呈现在其它文档之前。
图7根据本方面的一方面描述了示例应用700。应用700包括一个或多个可能使用场景,尽管可以理解的是还可采用其它应用。在710,一个案例应用到查询和与这些查询相关的文档,其中的文档是先前根据最佳方案分析时没有进行过处理的。在720,离线处理可包括处理来自记录的最前面的n个查询(n为整数)、获取这些查询的搜索结果、从结果中标识最佳候选结果、以及将该分析转送给确定一则信息对于给定查询或主题是否值得显示的编辑人员。在730,在线过程可包括从可能文档或网站列表中提取最佳方案,并自动把最佳方案置于其它诸如统计处理的技术所处理的可能条目之前。在740,在线技术还可包括按条目成为最佳方案的几率来重新排序结果。
参照图8,实现本发明各方面的示例性环境810具有计算机812。计算机812具有处理单元814、***存储器816、及***总线818。***总线818耦合***组件包括,但不限于将***存储器816耦合到处理单元814。处理单元814可以是各种可用处理器的任一种。双微处理器和其它多处理器架构也可被用作处理单元814。
***总线818可以是若干类总线结构的任一种,包括存储器总线或存储器控制器、***总线或外部总线、和/或使用各种可用总线架构任一种的本地总线,这些总线架构包括,但不限于,16位总线、工业标准架构(ISA)、微信道架构(MSA)、扩展ISA(EISA)、智能磁盘设备(IDE)、VESA局部总线(VLB)、***部件互连(PCI)、通用串行总线(USB)、加速图形接口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)、和小型计算机***接口(SCSI)。
***存储器816具有易失存储器820和非易失存储器822。包含在计算机812硬件间传送如起动时信息的基本例程的基本输入/输出***(BIOS),存储在非易失存储器822上。作为说明且无限制,非易失存储器822可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除ROM(EEPROM)或闪存。易失存储器820具有作为外部高速缓存的随机存取存储器(RAM)。作为说明且无限制,RAM有多种形式可用,诸如同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SRAM)、双数率SDRAM(DDR SDRAM)、增强DSRAM(ESDRAM)、同步链接DRAM(SLDRAM)、和直接Rambus RAM(DRRAM)。
计算机812还具有可移动/不可移动、易失/非易失计算机存储介质。图8示出了例如磁盘存储器824。磁盘存储器包括,但不限于,象磁盘、软盘、磁带、Jaz盘、Zip盘、LS-100盘、闪存卡、或存储棒。另外,磁盘存储器824可具有单独存储介质或结合其它存储介质包括,但不限于,诸如光盘ROM设备(CD-ROM)、可记录光盘驱动器(CD-R盘)、可重写光盘驱动器(CD-RW盘)、或数字化视频ROM盘(DVD-ROM)的光盘。为便于磁盘存储器824与***总线818的连接,通常可使用诸如接口826的可移动或不可移动接口。
应当理解,图8描述了作为用户和在适当操作环境800中描述的基本计算机资源间中间体的软件。这种软件具有操作***828。可存储在磁盘存储器824中的操作***828,其作用是控制和分配计算机***812的资源。***应用830得益于操作***828通过存储在或***存储器816或磁盘存储器824中的程序模块832和程序数据834对资源的管理。可以理解本发明可用各种操作***或操作***组合来实现。
用户通过输入设备836将命令或信息输入到计算机812中。输入设备836包括,但不限于,诸如鼠标、跟踪球、铁笔、触板、键盘、麦克风、操纵杆、游戏垫、***、扫描仪、电视调谐器卡、数字相机、数字录像照相机、网络相机等定点设备。这些和其它输入设备经***总线818通过接口端口838与处理单元814相连。接口端口838包括例如串行端口、并行端口、游戏端口、和通用串行总线(USB)。输出设备840使用象输入设备836的某些相同类型端口。因此,例如USB端口可用来为计算机812提供输入,并将信息从计算机812输出到输出设备840。输出适配器842被提供用来说明某些输出设备象监视器、扬声器、和打印机,与其它输出设备840之间,需要特殊适配器。输出适配器842包括,作为说明且无限制,视频卡和声卡在输出设备840和相同总线818间提供了连接方法。应该注意的是诸如远程计算机844的其它设备和/或设备***提供输入和输出功能。
计算机812使用与一台或多台远程计算机如远程计算机844的逻辑连接在网络化环境中操作。远程计算机844可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器设备、同等设备或其它相同网络节点等等,而且通常包括所述与计算机812相关的许多或全部元件。为简化起见,仅存储器存储装置846与远程计算机844一起图示。远程计算机844经网络接口848与计算机812逻辑连接,然后通过网络连接850进行物理连接。网络接口848包括诸如局域网(LAN)和广域网(WAN)的有线和/或无线通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜线分布式数据接口(CDDI)、以太网/IEEE1102.3、令牌环/IEEE1102.5等等。WAN技术包括,但不限于,点对点链接、象综合服务数字网(ISDN)及其后变种的电路切换网络、报文分组交换网络、和数字用户线路(DSL)。
通信连接850指向被用来将网络接口848连接到总线818的硬件/软件。尽管为了清晰地说明,通信连接850被示为位于计算机812内,但它也可在计算机812之外。与网络接口848连接所必需的硬件/软件具有,仅作为示例,诸如包括常用电话级调制解调器、电缆调制解调器和DSL调制解调器的调制解调器、ISDN适配器、和以太网卡等内部和外部技术。
图9是本发明可与之交互的采样计算环境900的示意块图。***900包括一台或多台客户机910。客户机910可以是硬件和/或软件(例如线程、过程、计算装置)。***900还可包括一台或多台服务器930。服务器930也可以是硬件和/或软件(例如线程、过程、计算装置)。服务器930可采用本发明覆盖线程来执行变换。在客户机910和服务器930间的一可能通信可能是以适于在两个或多个计算机过程间传送的数据包形式进行。***900包括可用来便于客户机910和服务器930间通信的通信框架950。客户机910可与用来存储客户机910本地信息的一个或多个客户数据存储960作可操作连接。类似地,服务器930可与用来存储服务器930本地信息的一个或多个客户数据存储940作可操作连接。
以上所述包括本发明的诸多示例。当然,为描述本发明而对每一能想到的组件或方法论组合进行描述是不可能的,但本领域普通技术人员明白本发明的更多排列和组合是可能的。因此,本发明意欲包含所有这样的在所附权利要求书精神和范围内的变更、修改、和变化。此外,就用于具体实施方式或权利要求书的术语“具有”而言,这种术语意在以类似于术语“包括”在权利要求书中作连接词的方式作包含意义解。

Claims (31)

1.一种便于机器学习方法确定文档相关性的***,其特征在于,包括:
一存储组件,其接收人工或机器选定条目集并用作正面测试案例;以及
一培训组件,其用所述人工或机器选定条目作为正面测试案例、用一个或多个其它条目作为负面测试案来培训至少一个分类器,以便提供一查询无关模型。
2.如权利要求1所述的***,其特征在于,所述负面测试案例通过一统计搜索选定。
3.如权利要求1所述的***,其特征在于,所述受训分类器被用来帮助人们选择新的正面案例。
4.如权利要求1所述的***,其特征在于,所述受训分类器被用来过滤基于统计搜索所获得的文档。
5.如权利要求3所述的***,其特征在于,所述过滤器的输出被排序,使得正面案例被排列在负面案例之前。
6.如权利要求4所述的***,其特征在于,所述输出根据它们是正面案例的几率进行排序。
7.如权利要求1所述的***,其特征在于,所述存储组件包括用户感兴趣的相关网站、文档或数据条目的记录。
8.如权利要求7所述的***,其特征在于,所述存储组件包括集中存储信息或来自分散源的信息,诸如各种网站、文档收藏、百科全书、本地数据源和远程数据源等。
9.如权利要求1所述的***,其特征在于,所述分类器被用来自动分析所述存储组件中的数据,以便协助与用户界面交互的一个或多个工具。
10.如权利要求9所述的***,其特征在于,所述工具包括管理工具、编辑工具、和排列工具中的至少一个。
11.如权利要求9所述的***,其特征在于,所述工具以在线方式和离线方式中的至少一种被采用。
12.如权利要求1所述的***,其特征在于,所述分类器根据正面和负面测试数据进行培训,以便根据诸如文档或建议其它有用信息网站的链接确定条目的相关性。
13.如权利要求12所述的***,其特征在于,还包括一人工选定文档或条目集以培训机器学习分类器。
14.如权利要求12所述的***,其特征在于,所述分类器应用于新词语,以标识最佳方案或相关文档。
15.如权利要求12所述的***,其特征在于,还包括在各种培训迭代中对新模型加以自举,以促进建立用于更准确地进行信息检索活动的学习表达的成长模型。
16.如权利要求15所述的***,其特征在于,还包括由编辑人员人工选定的最佳方案。
17.如权利要求16所述的***,其特征在于,还包括一组件,以最佳的可能性显示用户可能认为会感兴趣到查看或检索的文档或条目类型。
18.如权利要求1所述的***,其特征在于,所述分类器包括以下学习技术的至少一种:支撑向量机器(SVM)技术、朴素贝叶斯技术、贝叶斯网络技术、决策树技术、基于相似性的技术、基于向量的技术、隐藏马尔可夫模型技术、和/或其它学习技术。
19.如权利要求1所述的***,其特征在于,还包括一组件,以执行信息的后处理以确定一文档或一网站与用户或管理员的相关性。
20.如权利要求19所述的***,其特征在于,所述后处理包括根据预定几率阈值进行排序,其中相关几率较高的条目显示在几率较低的条目之前。
21.如权利要求19所述的***,其特征在于,还包括加到所显示的条目上以指示文档或网站的相关性或重要性的显式标注。
22.一种带有存储于其上的计算机可读指令的计算机可读介质,其特征在于,所述指令用于实现权利要求1所述培训组件和所述存储组件。
23.一种基于计算机的信息检索***,其特征在于,它包括:
用来确定数据项的培训集的装置;
用来自动对所述培训集分类的装置;
用来从所述已分类培训集确定新条目的装置;以及
用来根据信息检索请求呈现所述新条目的装置。
24.如权利要求23所述的***,其特征在于,还包括用来测试所述已分类培训集的装置。
25.一种促进自动化信息检索的方法,其特征在于,包括:
处理来自数据记录的n个查询,n为整数;
从所述n个查询标识相关的候选信息;以及
培训所述分类器用来为随后的搜索标识其它相关的候选信息。
26.如权利要求25所述的方法,其特征在于,还包括把一分析转送给确定一则信息对于给定查询或主题是否值得呈现给编辑人员。
27.如权利要求25所述的方法,其特征在于,还包括从可能文档或网站的列表中提取相关候选信息、并自动把所述最佳方案置于其它统计排序信息之前。
28.如权利要求25所述的方法,其特征在于,还包括按照一文档成为文档的几率对结果重新排序,其中相应文档被下载、且提取词语并在其中查寻出现在文档中词语。
29.如权利要求25所述的方法,其特征在于,还包括确定至少一个要分类的类别。
30.如权利要求29所述的方法,其特征在于,还包括采用培训数据集的一子集来测试所述分类类别。
31.一种具有存储于其上的一数据结构的计算机可读介质,其特征在于,所述数据结构包括:
一第一数据域,其涉及一相关性类别的培训数据集;
一第二数据域,其涉及关于所述相关性类别的一新数据项集;以及
一第三数据域,其涉及所述新数据项集的几率排序。
CNA2005100040669A 2004-01-09 2005-01-07 为在大量电子文档中搜索而确定文档相关性的机器学习方法 Pending CN1637744A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/754,159 US7287012B2 (en) 2004-01-09 2004-01-09 Machine-learned approach to determining document relevance for search over large electronic collections of documents
US10/754,159 2004-01-09

Publications (1)

Publication Number Publication Date
CN1637744A true CN1637744A (zh) 2005-07-13

Family

ID=34739321

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005100040669A Pending CN1637744A (zh) 2004-01-09 2005-01-07 为在大量电子文档中搜索而确定文档相关性的机器学习方法

Country Status (5)

Country Link
US (1) US7287012B2 (zh)
EP (1) EP1574972A3 (zh)
JP (2) JP2005222532A (zh)
KR (1) KR101027864B1 (zh)
CN (1) CN1637744A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314453A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及***
CN102436505A (zh) * 2010-12-16 2012-05-02 微软公司 导出文档相似性索引
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与***
CN101283356B (zh) * 2005-10-14 2012-10-10 微软公司 注入到客户机应用程序的搜索结果
CN103198217A (zh) * 2013-03-26 2013-07-10 X·Q·李 一种故障检测方法及***
CN105144164A (zh) * 2013-03-13 2015-12-09 谷歌公司 使用深度网络对概念术语评分
CN105210064A (zh) * 2013-03-13 2015-12-30 谷歌公司 使用深度网络将资源分类
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN110023962A (zh) * 2016-12-22 2019-07-16 英特尔公司 人类体验到机器人和其他自主机器的高效传递
CN110532376A (zh) * 2018-04-13 2019-12-03 国际商业机器公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN111539756A (zh) * 2019-02-07 2020-08-14 卡巴斯基实验室股份制公司 基于搜索要求识别用户并将用户选为目标的***和方法
CN113127642A (zh) * 2021-04-29 2021-07-16 广盟数据科技(上海)有限公司 文档可控式自动分类方法、装置、设备及存储介质

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271316B2 (en) * 1999-12-17 2012-09-18 Buzzmetrics Ltd Consumer to business data capturing system
US7197470B1 (en) 2000-10-11 2007-03-27 Buzzmetrics, Ltd. System and method for collection analysis of electronic discussion methods
US7725414B2 (en) 2004-03-16 2010-05-25 Buzzmetrics, Ltd An Israel Corporation Method for developing a classifier for classifying communications
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US7296021B2 (en) * 2004-05-21 2007-11-13 International Business Machines Corporation Method, system, and article to specify compound query, displaying visual indication includes a series of graphical bars specify weight relevance, ordered segments of unique colors where each segment length indicative of the extent of match of each object with one of search parameters
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US20180146879A9 (en) * 2004-08-30 2018-05-31 Kalford C. Fadem Biopotential Waveform Data Fusion Analysis and Classification Method
US20060053156A1 (en) * 2004-09-03 2006-03-09 Howard Kaushansky Systems and methods for developing intelligence from information existing on a network
US7801887B2 (en) * 2004-10-27 2010-09-21 Harris Corporation Method for re-ranking documents retrieved from a document database
US7778850B2 (en) 2005-02-17 2010-08-17 E-Scan Data Systems, Inc. Health care patient benefits eligibility research system and methods
US7797165B1 (en) * 2005-02-17 2010-09-14 E-Scan Data Systems, Inc. Lossless account compression for health care patient benefits eligibility research system and methods
US9158855B2 (en) 2005-06-16 2015-10-13 Buzzmetrics, Ltd Extracting structured data from weblogs
US20060288001A1 (en) * 2005-06-20 2006-12-21 Costa Rafael Rego P R System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant
US8195654B1 (en) * 2005-07-13 2012-06-05 Google Inc. Prediction of human ratings or rankings of information retrieval quality
US20070100779A1 (en) * 2005-08-05 2007-05-03 Ori Levy Method and system for extracting web data
GB0521552D0 (en) * 2005-10-22 2005-11-30 Ibm Method and system for constructing a classifier
US8726144B2 (en) * 2005-12-23 2014-05-13 Xerox Corporation Interactive learning-based document annotation
US7644373B2 (en) * 2006-01-23 2010-01-05 Microsoft Corporation User interface for viewing clusters of images
US7836050B2 (en) * 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US9529903B2 (en) 2006-04-26 2016-12-27 The Bureau Of National Affairs, Inc. System and method for topical document searching
US7860818B2 (en) * 2006-06-29 2010-12-28 Siemens Corporation System and method for case-based multilabel classification and ranking
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data
US7707208B2 (en) * 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
US20080201634A1 (en) * 2007-02-20 2008-08-21 Gibb Erik W System and method for customizing a user interface
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US20090037401A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Information Retrieval and Ranking
US8122015B2 (en) * 2007-09-21 2012-02-21 Microsoft Corporation Multi-ranker for search
US20090150387A1 (en) * 2007-11-08 2009-06-11 Marchewitz Jodi L Guided research tool
US8347326B2 (en) 2007-12-18 2013-01-01 The Nielsen Company (US) Identifying key media events and modeling causal relationships between key events and reported feelings
US20090240549A1 (en) * 2008-03-21 2009-09-24 Microsoft Corporation Recommendation system for a task brokerage system
US20090240539A1 (en) * 2008-03-21 2009-09-24 Microsoft Corporation Machine learning system for a task brokerage system
US8171007B2 (en) 2008-04-18 2012-05-01 Microsoft Corporation Creating business value by embedding domain tuned search on web-sites
KR100921892B1 (ko) * 2008-04-25 2009-10-13 엔에이치엔(주) 가중치 정규화를 이용한 랭크 학습 모델 생성 방법 및시스템
US8290946B2 (en) * 2008-06-24 2012-10-16 Microsoft Corporation Consistent phrase relevance measures
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
US20100082639A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Processing maximum likelihood for listwise rankings
US8849790B2 (en) * 2008-12-24 2014-09-30 Yahoo! Inc. Rapid iterative development of classifiers
US7958137B2 (en) * 2009-02-03 2011-06-07 Honeywell International Inc. Method to assist user in creation of highly inter-related models in complex databases
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US20100257167A1 (en) * 2009-04-01 2010-10-07 Microsoft Corporation Learning to rank using query-dependent loss functions
US8527523B1 (en) * 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
KR101067376B1 (ko) * 2009-04-29 2011-09-23 서울대학교산학협력단 멀티셋을 이용한 연상 정보 처리 방법 및 그 메모리 장치
US8935258B2 (en) * 2009-06-15 2015-01-13 Microsoft Corporation Identification of sample data items for re-judging
US10353967B2 (en) 2009-06-22 2019-07-16 Microsoft Technology Licensing, Llc Assigning relevance weights based on temporal dynamics
EP2369504A1 (en) 2010-03-26 2011-09-28 British Telecommunications public limited company System
US10235679B2 (en) 2010-04-22 2019-03-19 Microsoft Technology Licensing, Llc Learning a ranker to rank entities with automatically derived domain-specific preferences
CN101937445B (zh) * 2010-05-24 2011-12-07 中国科学技术信息研究所 一种文件自动分类***
US8874727B2 (en) 2010-05-31 2014-10-28 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to rank users in an online social network
CN102419755B (zh) * 2010-09-28 2013-04-24 阿里巴巴集团控股有限公司 一种搜索结果的排序方法和装置
WO2012075221A1 (en) * 2010-12-01 2012-06-07 Data Engines Corporation Method for inferring attributes of a data set and recognizers used thereon
WO2013123182A1 (en) * 2012-02-17 2013-08-22 The Trustees Of Columbia University In The City Of New York Computer-implemented systems and methods of performing contract review
WO2014107193A1 (en) * 2013-01-03 2014-07-10 Board Of Regents, The University Of Texas System Efficiently identifying images, videos, songs or documents most relevant to the user based on attribute feedback
WO2014107194A1 (en) 2013-01-03 2014-07-10 Board Of Regents, The University Of Texas System Identifying relevant user content
US9275291B2 (en) 2013-06-17 2016-03-01 Texifter, LLC System and method of classifier ranking for incorporation into enhanced machine learning
RU2583739C2 (ru) 2013-10-16 2016-05-10 Общество С Ограниченной Ответственностью "Яндекс" Сервер для определения поисковой выдачи на поисковый запрос и электронное устройство
JP5576544B1 (ja) * 2013-10-17 2014-08-20 株式会社プリファードインフラストラクチャー 情報処理装置
US10417568B2 (en) * 2014-05-22 2019-09-17 International Business Machines Corporation Discovering cognition bias toward data presentation styles through file system analysis
CN104077412B (zh) * 2014-07-14 2018-04-13 福州大学 一种基于多Markov链的微博用户兴趣预测方法
US10733520B2 (en) 2015-05-13 2020-08-04 Microsoft Technology Licensing, Llc Making a prediction regarding development of a software product
RU2632133C2 (ru) 2015-09-29 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
US9876699B2 (en) * 2015-10-21 2018-01-23 Wipro Limited System and method for generating a report in real-time from a resource management system
RU2692048C2 (ru) 2017-11-24 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для преобразования значения категориального фактора в его числовое представление и для создания разделяющего значения категориального фактора
RU2693324C2 (ru) 2017-11-24 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер преобразования значения категориального фактора в его числовое представление
KR102069621B1 (ko) * 2018-05-28 2020-01-23 인천대학교 산학협력단 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
DE112019006203T5 (de) 2018-12-13 2021-09-02 Semiconductor Energy Laboratory Co., Ltd. Verfahren zur Klassifizierung von Inhalten und Verfahren zur Erzeugung eines Klassifizierungsmodells
KR20210126033A (ko) 2019-02-15 2021-10-19 가부시키가이샤 한도오따이 에네루기 켄큐쇼 파라미터 탐색 방법
KR102046748B1 (ko) 2019-04-25 2019-11-19 숭실대학교산학협력단 트리 부스팅 기반 애플리케이션의 위험도 평가 방법, 이를 수행하기 위한 기록 매체 및 장치
US11455346B2 (en) 2020-03-31 2022-09-27 International Business Machines Corporation Advanced search and document retrieval for development and verification system prototypes
EP3951614A1 (en) * 2020-08-07 2022-02-09 Basf Se Practical supervised classification of data sets
KR102442300B1 (ko) * 2020-10-12 2022-09-13 주식회사 어반데이터랩 은닉 마르코프 모델을 이용한 온라인 쇼핑몰 판매 전략 예측 시스템
US11449516B2 (en) 2020-11-04 2022-09-20 International Business Machines Corporation Ranking of documents belonging to different domains based on comparison of descriptors thereof

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341142A (en) * 1987-07-24 1994-08-23 Northrop Grumman Corporation Target acquisition and tracking system
US5875108A (en) * 1991-12-23 1999-02-23 Hoffberg; Steven M. Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US5640409A (en) * 1993-07-02 1997-06-17 Sony Corporation Semiconductor laser
US5671333A (en) * 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5768417A (en) * 1994-09-09 1998-06-16 Motorola, Inc. Method and system for velocity-based handwriting recognition
US5854855A (en) * 1994-09-09 1998-12-29 Motorola, Inc. Method and system using meta-classes and polynomial discriminant functions for handwriting recognition
US5802205A (en) * 1994-09-09 1998-09-01 Motorola, Inc. Method and system for lexical processing
US5978497A (en) * 1994-09-20 1999-11-02 Neopath, Inc. Apparatus for the identification of free-lying cells
US5701400A (en) * 1995-03-08 1997-12-23 Amado; Carlos Armando Method and apparatus for applying if-then-else rules to data sets in a relational data base and generating from the results of application of said rules a database of diagnostics linked to said data sets to aid executive analysis of financial data
US5729452A (en) * 1995-03-31 1998-03-17 Envirotest Acquisition Co. Method and system for diagnosing and reporting failure of a vehicle emission test
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
JPH09231238A (ja) * 1996-02-20 1997-09-05 Omron Corp テキスト検索結果表示方法及び装置
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US5920852A (en) * 1996-04-30 1999-07-06 Grannet Corporation Large memory storage and retrieval (LAMSTAR) network
JP2940501B2 (ja) * 1996-12-25 1999-08-25 日本電気株式会社 ドキュメント分類装置及び方法
US6373483B1 (en) * 1997-01-13 2002-04-16 Silicon Graphics, Inc. Method, system and computer program product for visually approximating scattered data using color to represent values of a categorical variable
US6278464B1 (en) * 1997-03-07 2001-08-21 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a decision-tree classifier
US6137499A (en) * 1997-03-07 2000-10-24 Silicon Graphics, Inc. Method, system, and computer program product for visualizing data using partial hierarchies
US5884294A (en) * 1997-04-18 1999-03-16 Northrop Grumman Corporation System and method for functional recognition of emitters
US5902477A (en) * 1997-04-30 1999-05-11 John Vena Combined sewer overflow and storm water diverter screen
US5930803A (en) * 1997-04-30 1999-07-27 Silicon Graphics, Inc. Method, system, and computer program product for visualizing an evidence classifier
EP0981806A4 (en) * 1997-05-07 2001-01-03 Cummins Allison Corp INTELLIGENT MONEY PROCESSING SYSTEM
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6278961B1 (en) * 1997-07-02 2001-08-21 Nonlinear Solutions, Inc. Signal and pattern detection or classification by estimation of continuous dynamical models
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP3178406B2 (ja) * 1998-02-27 2001-06-18 日本電気株式会社 階層型文章分類装置およびプログラムを記録した機械読み取り可能な記録媒体
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6301579B1 (en) * 1998-10-20 2001-10-09 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a data structure
EP1006458A1 (en) * 1998-12-01 2000-06-07 BRITISH TELECOMMUNICATIONS public limited company Methods and apparatus for information retrieval
US6460049B1 (en) * 1998-12-22 2002-10-01 Silicon Graphics, Inc. Method system and computer program product for visualizing an evidence classifier
US6697799B1 (en) * 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
CA2307404A1 (en) * 2000-05-02 2001-11-02 Provenance Systems Inc. Computer readable electronic records automated classification system
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
US7136845B2 (en) * 2001-07-12 2006-11-14 Microsoft Corporation System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
US6978264B2 (en) * 2002-01-03 2005-12-20 Microsoft Corporation System and method for performing a search and a browse on a query
US7043468B2 (en) * 2002-01-31 2006-05-09 Hewlett-Packard Development Company, L.P. Method and system for measuring the quality of a hierarchy
JP3873135B2 (ja) * 2002-03-08 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、これを用いた情報処理システム及びプログラム
US20030225763A1 (en) * 2002-04-15 2003-12-04 Microsoft Corporation Self-improving system and method for classifying pages on the world wide web
US7158957B2 (en) 2002-11-21 2007-01-02 Honeywell International Inc. Supervised self organizing maps with fuzzy error correction
US7020593B2 (en) * 2002-12-04 2006-03-28 International Business Machines Corporation Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model)
JP3939264B2 (ja) * 2003-03-24 2007-07-04 沖電気工業株式会社 形態素解析装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101283356B (zh) * 2005-10-14 2012-10-10 微软公司 注入到客户机应用程序的搜索结果
CN102314453A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及***
CN102314453B (zh) * 2010-06-30 2015-11-25 百度在线网络技术(北京)有限公司 高质量版本的筛选方法及***
CN102436505B (zh) * 2010-12-16 2014-08-20 微软公司 导出文档相似性索引
US8793242B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Deriving document similarity indices
CN102436505A (zh) * 2010-12-16 2012-05-02 微软公司 导出文档相似性索引
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与***
CN105210064B (zh) * 2013-03-13 2020-08-04 谷歌有限责任公司 使用深度网络将资源分类
CN105144164A (zh) * 2013-03-13 2015-12-09 谷歌公司 使用深度网络对概念术语评分
CN105210064A (zh) * 2013-03-13 2015-12-30 谷歌公司 使用深度网络将资源分类
CN105144164B (zh) * 2013-03-13 2020-10-27 谷歌有限责任公司 使用深度网络对概念术语评分
CN103198217A (zh) * 2013-03-26 2013-07-10 X·Q·李 一种故障检测方法及***
CN103198217B (zh) * 2013-03-26 2016-06-22 X·Q·李 一种故障检测方法及***
CN105260482A (zh) * 2015-11-16 2016-01-20 金陵科技学院 基于众包技术的网络新词发现装置以及方法
CN110023962A (zh) * 2016-12-22 2019-07-16 英特尔公司 人类体验到机器人和其他自主机器的高效传递
CN110023962B (zh) * 2016-12-22 2024-03-12 英特尔公司 人类体验到机器人和其他自主机器的高效传递
CN110532376A (zh) * 2018-04-13 2019-12-03 国际商业机器公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN110532376B (zh) * 2018-04-13 2024-03-19 玛雷迪夫美国公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN111539756A (zh) * 2019-02-07 2020-08-14 卡巴斯基实验室股份制公司 基于搜索要求识别用户并将用户选为目标的***和方法
CN111539756B (zh) * 2019-02-07 2023-08-22 卡巴斯基实验室股份制公司 基于搜索要求识别用户并将用户选为目标的***和方法
CN113127642A (zh) * 2021-04-29 2021-07-16 广盟数据科技(上海)有限公司 文档可控式自动分类方法、装置、设备及存储介质
CN113127642B (zh) * 2021-04-29 2022-12-23 广盟数据科技(上海)有限公司 文档可控式自动分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20050073429A (ko) 2005-07-13
US7287012B2 (en) 2007-10-23
JP2005222532A (ja) 2005-08-18
EP1574972A2 (en) 2005-09-14
JP2009104630A (ja) 2009-05-14
US20050154686A1 (en) 2005-07-14
EP1574972A3 (en) 2006-05-24
KR101027864B1 (ko) 2011-04-07

Similar Documents

Publication Publication Date Title
CN1637744A (zh) 为在大量电子文档中搜索而确定文档相关性的机器学习方法
US20210173817A1 (en) Method and system for large scale data curation
CN1758248B (zh) 用于提供个性化搜索和信息访问的***、方法和接口
CN1841380B (zh) 用于改进搜索引擎相关性的数据挖掘技术
US9678992B2 (en) Text to image translation
US8126826B2 (en) Method and system for active learning screening process with dynamic information modeling
US20040199546A1 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及***
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
WO2021139274A1 (zh) 基于深度学习模型的文献分类方法、装置和计算机设备
US20200175052A1 (en) Classification of electronic documents
CN110046264A (zh) 一种面向手机文档的自动分类方法
CN112052317A (zh) 一种基于深度学习的医学知识库智能检索***及其方法
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析***及其方法
WO2023098971A1 (en) Method and apparatus for self-supervised extractive question answering
CN116049376A (zh) 一种信创知识检索回复的方法、装置和***
US20090006347A1 (en) Method and apparatus for conditional search operators
CN116414940A (zh) 标准问题的确定方法、装置及相关设备
Niranjan et al. Question answering system for agriculture domain using machine learning techniques: literature survey and challenges
Tacioli et al. An architecture for animal sound identification based on multiple feature extraction and classification algorithms
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN111382247A (zh) 一种内容推送优化方法、内容推送优化装置及电子设备
CN117891929B (zh) 改进型深度学习算法的知识图谱智能问答信息识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication