CN110709828A - 使用条件随机域模型确定文本属性的***及方法 - Google Patents
使用条件随机域模型确定文本属性的***及方法 Download PDFInfo
- Publication number
- CN110709828A CN110709828A CN201780091643.3A CN201780091643A CN110709828A CN 110709828 A CN110709828 A CN 110709828A CN 201780091643 A CN201780091643 A CN 201780091643A CN 110709828 A CN110709828 A CN 110709828A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- features
- attributes
- current word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 126
- 238000012549 training Methods 0.000 claims description 67
- 230000008569 process Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 39
- 230000015654 memory Effects 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 description 70
- 238000004422 calculation algorithm Methods 0.000 description 44
- 230000011218 segmentation Effects 0.000 description 25
- 238000002372 labelling Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000029305 taxis Effects 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010238 partial least squares regression Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- -1 commodities Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于确定文本的一个或多个子集中的每一个子集的属性的***及方法。该方法包括:接收来自终端设备的查询(505);从查询中提取文本(510);确定文本的一个或多个子集(520)获取条件随机场(CRF)模型(530);基于CRF模型和文本的一个或多个子集中的每一个子集确定文本的一个或多个子集中的每一个子集的属性(540)。
Description
技术领域
本申请一般涉及在线按需服务的***及方法,尤其涉及使用条件随机域模型确定文本属性的***及方法。
背景技术
基于因特网的按需服务,例如搜索服务之类的按需服务,由于其便利性而变得愈来愈流行。当用户请求搜索服务(例如,地图搜索服务)时,用户输入的查询的文本可以通常以“where”和“what”的形式出现。查询的文本通常基于字典或手动标注。但是,对大规模查询进行手动标注是不切实际的。需要一种高效的文本标注技术来确定文本的属性。
发明内容
本申请的一方面提供了一种***。该***可以包括至少一个计算机可读存储介质,其包括用于管理服务供应的一组指令。该***可以包括与至少一个存储介质通信的至少一个处理器。该至少一个处理器可以通过网络接收来自终端装置的查询。该至少一个处理器可以确定该文本的一个或多个子集。该至少一个处理器还可以获取经训练的条件随机域(Conditional Random Field,CRF)模型。该至少一个处理器可以进一步基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。
本申请的另一方面提供了一种方法。该方法可以在至少一个装置上实施,每个装置具有至少一个处理器、存储器和通信平台以连接到网络。该至少一个装置可以通过网络接收来自终端装置的查询。该至少一个装置还可以确定文本的一个或多个子集。该至少一个装置还可以获取经训练的条件随机域(CRF)模型。该至少一个装置还可以基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。
本申请的另一方面披露了一种非暂时性机器可读存储介质可以包括指令。当来自请求者终端的在线按需服务平台的至少一个处理器存取非暂时性机器可读存储介质时,所述指令可以使得至少一个处理器执行以下一个或多个操作。所述指令可以使得至少一个处理器从终端装置接收查询。所述指令可以使至少一个处理器从查询中提取文本。所述指令还可以使至少一个处理器确定文本的一个或多个子集。所述指令还可以使至少一个处理器获取经训练的条件随机域(CRF)模型。所述指令还可以使得至少一个处理器基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
在一些实施例中,所述文本的一个或多个子集中的每一个子集的属性可以包括空间属性或实体属性中的至少一个。
在一些实施例中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
在一些实施例中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
在一些实施例中,至少一个处理器可以进一步确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
在一些实施例中,所述经训练的CRF模型可以根据用于产生CRF模型的流程来产生。该流程可包括获取初始CRF模型。该流程可包括获取多个训练样本。该流程可包括确定特征模板。该流程可包括基于所述多个训练样本和特征模板,确定一个或多个特征函数。该流程可包括基于所述一个或多个特征函数来训练所述初始CRF模型以产生所述经训练的CRF模型。
在一些实施例中,所述多个训练样本可包括历史样本。所述历史样本可以根据用于产生历史样本的流程来产生。该流程可包括获取历史查询。该流程可包括从所述历史查询中提取文本。该流程可包括确定所述历史查询的文本的至少一个子集。该流程可包括获取与所述历史查询相关联的兴趣点(Point of Interest,POI)。该流程可包括根据与所述历史查询相关联的POI来确定所述历史查询的文本的至少一个子集的属性。该流程可包括根据所确定的属性和所述历史查询的文本的至少一个子集来产生历史样本。
在一些实施例中,所述特征模板可包括精细化特征、泛化特征或个性化特征中的至少一个。
在一些实施例中,所述精细化特征可包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
在一些实施例中,所述泛化特征可包括数字、字母、字符大小、前缀或后缀中的至少一个。
在一些实施例中,所述个性化特征可包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
附图说明
本申请将结合示例性实施例进一步进行描述。这些示例性的实施例将结合参考附图进行详细描述。这些实施例是非限制性的示例性实施例,在附图的多种视图下的实施例中,相似的组件符号表示相似的结构,并且其中:
图1是根据本申请的一些实施例所示的一种示例性按需服务***的示意图;
图2是被配置为实施本申请中揭露的特定***的示例性移动装置的模块图;
图3是根据本申请的一些实施例所示的一种示例性计算装置的模块图;
图4是根据本申请的一些实施例所示的一种示例性处理引擎的模块图;
图5是根据本申请的一些实施例所示的一种用于确定查询的文本的一个或多个子集的属性的示例性流程的流程图;
图6是根据本申请的一些实施例所示的一种用于确定条件随机域(CRF)模型的示例性流程的流程图;以及
图7是根据本申请的一些实施例所示的一种用于确定训练样本的示例性流程的流程图。
具体实施方式
以下描述是为了使本领域具有通常知识者能够实施和利用本申请,并在特定应用及其要求的背景下提供的。对于本领域具有通常知识者来讲,对本申请揭露的实施例进行的各种修改是显而易见的,并且在不背离本申请的精神及范围的情况下,本申请定义的普遍原则可以适用于其他实施例及应用。因此,本申请不限于所示的实施例,而是符合与申请专利范围一致的最广泛范围。
本文中所使用的术语仅用于描述特定示例性实施例,并不限制本申请的范围。如本文使用的单数形式“一”、“一个”及“该”、“所述”可以同样包括复数形式,除非上下文明确提示例外情形。应当被进一步理解的是,当在本申请中使用时,术语“包括”和/或“包含”指明所述特征、整体、步骤、操作、元素和/或组件,但并不排除可以存在和添加一个或多个其他特征、整体、步骤、操作、元素、组件和/或其组合。
根据以下对附图的描述,本申请所述的和其他的特征、特色,以及相关结构元素的功能和操作方法,以及制造的经济和部件组合更加显而易见,这些都构成说明书的一部分。然而,应当理解,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当理解的是,附图并不是按比例的。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是,流程图的操作不一定按照顺序来精确地执行。相反地,可以按照倒序执行或同时处理各种步骤。此外,可以将一个或多个其他操作添加到这些流程中,或从这些流程中移除一个或多个操作。
此外,虽然本申请中的***和方法主要是关于处理查德询的,但应当理解的是,这仅仅是一个示例性实施例。本申请的***或方法可以应用于任何其他类型的搜索服务。例如,本申请的***或方法可以应用于不同环境的运输***,包括陆地、海洋、航空航天或类似物或其任意组合。运输***的车辆可以包括出租车、私家车、顺风车、公共汽车、列车、动车、高铁、地铁、船舶、飞机、宇宙飞船、热气球、无人驾驶车辆或类似物或其任意组合。运输***还可以包括用于管理和/或分配的任何运输***,例如用于发送和/或接收快递的***。本申请的***或方法的应用可以包括网页、浏览器插件、客户终端、定制***、内部分析***、人工智能机器人或类似物或其任意组合。
本申请中的术语“乘客”、“请求者”、“服务请求者”和“客户”可互换地用于指代可以请求或订购服务的个体、实体。而且,本申请中的术语“司机”、“提供者”、“服务提供者”和“供应者”可互换地用于指代可提供服务或促进提供服务的个人、实体或工具。本申请中的术语“用户”可以指代可请求服务、订购服务、提供服务或促进提供服务的个人、实体。例如,用户可以是乘客、司机、操作员或类似物或其任意组合。在本申请中,“乘客”、“用户装置”、“用户终端”和“乘客终端”可以互换使用,并且“司机”和“司机终端”可以互换使用。
术语“服务请求”是指可以由用户(例如,乘客、请求者、运营商、服务请求者、客户、司机、提供者、服务提供商、供货商)启动的请求。服务请求可以涉及用户可能想要去的兴趣点(POI)。
本***可以被应用在许多领域,例如,出租车运输服务、驾驶应用程序、分发应用程序、地图应用程序或导航应用程序等。
根据本申请的一些实施例,搜索服务可以使用一个或多个机器学***滑等。排序算法可以包括***排序、选择排序、合并排序、堆排序、冒泡排序、外壳排序、梳理排序、计数排序、桶排序、基数排序或类似物或其任意组合。基于实例的算法可以包括k-最近邻居(KNN)、学***均单依赖估计器(AODE)或贝叶斯置信网络(BBN)等。基于树的算法可以包括支持向量机(SVM)、径向基函数(RBF)或线性鉴别分析(LDA)等。分群算法可以包括k均值分群算法、模糊c均值分群算法、分层分群算法、高斯分群算法、基于MST的分群算法、核k-均值分群算法、基于密度的分群算法等。关联规则算法可以包括Apriori算法或Eclat算法等。深度学习算法可以包括受限玻尔兹曼机(RBN)、深度置信网络(DBN)、卷积网络、堆栈自编码器等。三维算法可以包括主成分分析(PCA)、偏最小二乘回归(PLS)、Sammon映射、多维缩放(MDS)、投影追踪等。
本申请一方面揭露了用于确定针对按需服务(例如,搜索服务)的查询的文本的一个或多个子集的属性的***和方法。所述***可以从查询中提取文本并确定查询的文本的一个或多个子集。***可以进一步获取经训练的CRF模型并为查询的文本的一个或多个子集中的每一个子集确定属性。通过为查询的一个或多个子集中的每一个子集确定属性,提高了搜索服务平台的效率。
应该注意的是,例如在线呼叫车辆服务的在线按需运输服务是一种起源于网际网络时代的新型服务。它为用户和服务提供方提供了只在后因特网时代才可能实现的技术方案。在因特网时代之前,当用户在街道上呼叫一辆出租车时,出租车预定请求和接受只能在乘客和一个看见该乘客的出租车司机之间发生。如果乘客通过电话招呼一辆出租车,出租车预定请求和接受只能在该乘客和服务提供方(例如,出租车公司或代理人)之间发生。然而,在线出租车允许一个用户实时地和自动地向与该用户相距一段距离的大量的个别服务提供方(例如,出租车)分配服务请求。它同时允许多个服务提供方同时地和实时地对该服务请求进行响应。因此,通过因特网,所述在线随选运输***可以为用户和服务提供方提供一个更加高效的交易平台,这在传统的因特网时代之前的运输服务***中是无法达到的。分配预约订单可以为请求者和服务提供商提供高效的服务。
图1是根据本申请的一些实施例所示的一种示例性按需服务***100的示意图。例如,按需服务***100可以是用于运输服务的在线搜索服务平台,例如,通过搜索位置的出租车呼叫服务、驾驶服务、快运包裹车服务,拼车服务、公交车服务、司机租用和穿梭车服务。按需服务***100可以是包括服务器110、网络120、一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)和存储器150的在线平台。服务器110可以包括处理引擎112。应该注意的是,图1中所示的按需服务***100包括处理引擎112。图1仅仅是一个例子,并不意在限制。在一些实施例中,按需服务***100可以包括乘客终端130或司机终端140。例如,在导航***中,用户可以使用安装在他/她的终端中的导航应用程序以搜索位置,并且按需服务***100可以通过输入用户的查询来确定与该位置相关联的一个或多个搜索结果。在线搜索服务平台使用“乘客”和“服务提供者/司机/司机终端”。当使用“服务请求者”、“用户”、“用户终端”、“终端”或“用户装置”时,将其视为包括在线搜索服务和导航服务的所有基于位置的服务(Location-based Service,LBS)。在一些实施例中,服务器110可以是单个服务器或服务器组。服务器组可以是集中的或分布式的(例如,服务器110可以是分布式***)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以经由网络120存取存储在一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)和/或存储器150中的信息和/或数据。又例如,服务器110可以直接连接到一个或多个用户终端(例如,一个或多个乘客终端130、司机140)和/或存储器150以存取存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现。仅作为示例,云平台可以包括私有云、公共云、混合云、小区云、分布式云、中间云、多重云或类似物或其任意组合。在一些实施例中,服务器110可以在具有图3中所示的一个或多个组件的计算装置300上实施。
在一些实施例中,服务器110可以包括处理引擎112。处理引擎112可以处理信息和/或数据。信息和/或数据可能与查询有关。查询可以由乘客终端或司机终端输入。例如,处理引擎112可以确定文本的属性或确定查询的文本的一个或多个子集的属性。处理引擎112可以进一步基于从乘客终端或司机终端获取的查询来确定一个或多个搜索结果。乘客终端或司机终端可以从一个或多个搜索结果中选择兴趣点(POI)。POI可以是乘客或司机可能想要去的地点。在一些实施例中,处理引擎112可以包括一个或多个处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为示例,处理引擎112可以包括中央处理单元(CPU)、特定应用集成电路(ASIC)、特定应用指令集处理器(ASIP)、图形处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器或类似物或其任意组合。
网络120可以促进信息和/或数据的交换。在一些实施例中,按需服务***100(例如,服务器110、一个或多个乘客终端130、一个或多个司机终端140或存储器150)中的一个或多个组件可以发送信息和/或数据。例如,服务器110可以经由网络120从请求者终端130获得/获取服务请求。又例如,服务器110可以经由网络120从存储器150接收训练样本。在一些实施例中,网络120可以是任意形式的有线或者无线网络,或其任意组合。仅作为范例,网络120可以是一电缆网络、缆线网络、光纤网络、电信网络、内部网络、因特网、局域网络(LAN)、广域网(WAN)、无线局域网络(WLAN)、都会局域网络(MAN)、公用电话交换网(PSTN)、蓝牙网络,紫蜂(ZigBee)网络、近场通讯(NFC)或类似物或其任意组合。在一些实施例中,网络120可包括一个或者多个网络进接点。例如,网络120可包括有线或无线网络进接点比如基站和/或因特网交换点120-1、120-2...。通过该网络进接点,按需服务***100的一个或多个组件可以连接至网络120以交换信息和/或数据。
在一些实施例中,乘客可以是乘客终端130的用户。在一些实施例中,乘客终端130的用户可以是乘客以外的人。例如,乘客终端130的用户A可以使用乘客终端130来为乘客发送搜索请求。在一些实施例中,司机可以是司机终端130的用户。在一些实施例中,司机终端140的用户可以是不同于司机的人。例如,司机终端140的用户B可以使用司机终端140为司机发送搜索服务请求。在一些实施例中,“乘客”和“乘客终端”可以互换使用,并且“司机”和“司机终端”可以互换使用。
在一些实施例中,乘客终端130可以包括移动装置130-1、平板电脑130-2、笔记本电脑130-3、在机动车辆中的内置装置130-4或类似物或其任意组合。在一些实施例中,移动装置130-1可包括智能家居装置,可穿戴设备、智能移动装置、虚拟现实装置、扩增实境装置或类似物或其任意组合。在一些实施例中,智能家居装置可包括智能照明装置、智能电器控制装置、智能监测装置、智能电视、智能视讯摄影机、对讲机或类似物或其任意组合。在一些实施例中,该可穿戴设备可包括智慧手镯、智慧鞋袜、智慧眼镜、智慧头盔、智慧手表、智慧衣服、智能背包、智能附件或类似物或其任意组合。在一些实施例中,该智能移动装置可包括智能电话、个人数字助理(PDA)、游戏设备、导航装置、销售点(POS)装置或类似物或其任意组合。在一些实施例中,该虚拟现实装置和/或扩增实境装置可包括一虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、扩增实境头盔、扩增实境眼镜、扩增实境补丁或类似物或其任意组合。例如,该虚拟现实装置和/或扩增实境装置可包括Google Glass、Oculus Rift、HoloLens或Gear VR等。在一些实施例中,在机动车辆中的内置装置130-4可包括车载计算机或车载电视等。在一些实施例中,乘客终端130可以是具有用来确定请求者和/或乘客终端130位置的定位技术的装置。
在一些实施例中,司机终端140可以是与乘客终端130类似或相同的装置。在一些实施例中,司机终端140可以是用于定位司机的位置和/或司机终端140的具有定位技术的装置。在一些实施例中,乘客终端130和/或司机终端140可以与其他定位装置通信以确定服务请求者、乘客终端130、司机和/或司机终端140的位置。在一些实施例中,乘客终端130和/或司机终端140可以将位置信息发送到服务器110。
存储器150可以存储数据和/或指令。例如,数据可以是训练模型、一个或多个训练样本、历史订单或类似物或其任意组合。在一些实施例中,存储器150可以存储从一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)获取的资料。在一些实施例中,存储器150可以存储服务器110可以执行或用于执行本申请中描述的示例性方法的数据和/或指令。在一些实施例中,存储器150可以包括大容量存储器、抽取式存储器、挥发性读写内存、只读存储器(ROM)或类似物或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态硬盘等。示例性抽取式存储器可包括一快闪驱动器、软盘、光盘、记忆卡、压缩碟、磁带等。示例性的挥发性读写内存可包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可包括屏蔽ROM(MROM)、可程序ROM(PROM)、可抹除可程序ROM(PEROM)、电子可抹除可程序ROM(EEPROM)、光盘ROM(CD-ROM)或数字通用磁盘ROM等。在一些实施例中,存储器150可在云端平台上执行。仅仅作为示例,该云端平台可以包括私有云、公共云、混合云、小区云、分布式云、内部云、多层云或类似物或其任意组合。
在一些实施例中,存储器150可连接到网络120以与按需服务***100中的一个或多个组件(例如,服务器110、一个或多个用户终端等)进行通信。按需服务***100中的一个或多个组件可以经由网络120存取存储在存储器150中的数据和/或指令。在一些实施例中,存储器150可以直接连接到或与一个或多个按需服务***100(例如,服务器110、一个或多个用户终端等)。在一些实施例中,存储器150可以是服务器110的一部分。
在一些实施例中,按需服务***100(例如,服务器110、一个或多个用户终端等)中的一个或多个组件可以具有存取存储装置150的许可。在一些实施例中,在满足一个或多个条件时,按需服务***100中的一个或多个组件可以读取和/或修改与服务请求者、司机和/或公众有关的信息。例如,服务器110可以在服务之后读取和/或修改一个或多个用户的信息。
在一些实施例中,按需服务***100的一个或多个组件之间的信息交换可以通过请求一个服务来实现。服务请求的对象可以是任何产品。在一些实施例中,该产品可以是有形产品或无形产品。该有形产品可以包括食物、药物、日用品、化学产物、电器用品、衣服、汽车、住宅、奢侈品或类似物或其任意组合。该无形产品可以包括服务产品、金融产品、知识产品、因特网产品或类似物或其任意组合。因特网产品可以包括个人主机产品、Web产品、移动网络产品、商用主机产品、嵌入式产品或类似物或其任意组合。移动网络产品可以是应用在可移动终端上的软件、程序、***或类似物或其任意组合。可移动终端可以包括平板电脑、笔记本电脑、移动电话、个人数字助理(PDA)、智能手表、销售点(POS)装置、车载计算机、车载电视、可穿戴设备或类似物或其任意组合。例如,产品可以是在计算机或移动电话上使用的任一软件和/或应用程序。该软件和/或应用程序可以与社交、购物、运输、娱乐、学习、投资或类似物或其任意组合相关联。在一些实施例中,与运输相关联的软件和/或应用程序可以包括旅游软件和/或应用程序、载具排程软件和/或应用程序、地图软件和/或应用程序等。对于车辆安排软件和/或应用程序,车辆可以是马、马车、人力车(例如,独轮手推车、脚踏车、三轮车等)、汽车(例如,出租车、公交车、私人汽车或类似物)、列车、地铁、船只、航空器(例如,飞机、直升机、航天飞机、火箭、热气球等)或类似物或其任意组合。
本领域具有通常知识者将理解,当按需服务***100的组件执行时,该组件可以通过电信号和/或电磁信号来执行。例如,当服务请求者终端130处理例如作出确定、识别或选择目标的任务时,请求者终端130可以操作其处理器中的逻辑电路来处理这样的任务。当服务请求者终端130向服务器110发出服务请求时,服务请求者终端130的处理器可以产生编码该请求的电信号。服务请求者终端130的处理器然后可以将电信号发送到输出端口。如果服务请求者终端130经由有线网络与服务器110通信,则输出端口可以物理地连接到缆线,缆线进一步将电信号传输到服务器110的输入端口。如果服务请求者终端130与服务器110经由无线网络,服务请求者终端130的输出端口可以是将电信号转换为电磁信号的一个或多个天线。类似地,服务提供商终端130可以通过其处理器中的逻辑电路的操作来处理任务,并且经由电信号或电磁信号从服务器110接收指令和/或服务请求。在例如服务请求者终端130、服务提供商终端140和/或服务器110的电子装置内,当其处理器处理指令,发出指令和/或执行动作时,通过电信号进行指令和/或动作。例如,当处理器从存储介质中检索或保存数据时,它可以将电信号发送到存储介质的读/写装置,存储介质可以读取或写入存储介质中的结构化数据。结构化数据可以经由电子装置的总线以电信号的形式传输到处理器。这里,电信号可以指一个电信号、一系列电信号和/或多个离散电信号。
图2是被配置为实现本申请中揭露的特定***的示例性移动装置的模块图。在一些实施例中,被配置为显示和传送与位置相关的信息的用户终端装置可以是移动装置200。移动装置可以包括但不限于智慧手机、平板计算机、音乐播放器、可携式游戏控制台、GPS接收器、可穿戴计算装置(例如,眼镜、手表等)等。移动装置200可以包括一个或多个中央处理单元(CPU)240、一个或多个图形处理单元(GPU)230、显示器220、内存260、通信单元210、存储器290以及一个或多个输入/输出(I/O)装置250。此外,移动装置200也可以是包括但不限于***总线或控制器(图2中未示出)的任何其他合适的组件。如图所示。如图2所示,操作***270(例如,IOS、Android、Windows Phone等)和一个或多个应用程序280可以从存储器290加载到内存260并由CPU 240实现。应用程序280可以包括浏览器或其他移动应用程序,其被配置为接收和处理与用户在移动装置200中输入的查询(例如,位置的名称)有关的信息。乘客/司机可以通过***I/O装置250获取与一个或多个搜索结果有关的信息,并将该信息提供给服务器110和/或按需服务***100的其他模块或单元(例如,网络120)。
为了实现上述各种模块、单元及其功能、计算机硬件平台可以用作一个或多个组件的硬件平台(例如,服务器110和/或按需服务***的其他部分100在图1至图7中描述)。由于这些硬件组件、操作***和程序语言是共同的,因此可以认为,本领域具有通常知识者可以熟悉这些技术,并且他们可以能够根据本申请描述的技术来提供按需服务中所需的信息。带有用户接口,用户接口的计算机可以用作个人计算机(PC)或其他类型的工作站或终端装置。经过正确程序设计后,可以将带有用户接口,用户接口的计算机用作服务器。可以认为,本领域具有通常知识者也可以熟悉这种类型的计算机装置的结构、程序或一般操作。因此,图中没有描述额外的解释。
图3是根据本申请的一些实施例所示的可以在其上实现服务器110、一个或多个用户终端(例如,一个或多个乘客终端130、司机终端140)的计算装置300的示例性硬件和软件组件的模块图。计算装置300可以被配置为执行本申请中披露的服务器110、乘客终端130和司机终端140的一个或多个功能。例如,处理引擎112可以在计算装置300上实现并且被配置为执行本申请中披露的处理引擎112的功能。
计算装置300可以是通用计算机或专用计算机,两者都可以用于实施本申请的按需服务***100。如本文所述,计算装置300可以用于实现按需服务***100的任何组件。例如,处理引擎112可以通过其硬件、软件程序、固件或其组合在计算装置300上实现。尽管仅示出了一个这样的计算机,但是为了方便起见,与在此描述的搜索服务有关的计算机功能可以以分布式的方式在多个类似平台上实现以分配处理负载。
计算装置300,例如可以包括连接到与其连接的网络并从中连接的通讯端口250,以促进数据通信。计算装置300还可以包括处理器320,其以一个或多个处理器的形式用于执行程序指令。示例性计算机平台可以包括内部通信总线310、不同形式的程序内存和数据存储器,例如,硬盘370,只读存储器(ROM)330或随机存取内存(RAM)340,用于各种要由计算机处理和/或传输的数据文件。示例性计算机平台还可以包括存储在ROM 330、RAM340和/或其他类型的非暂时性存储介质中的程序指令,所述程序指令由处理器320执行。本申请的方法和/或流程可以作为程序指令得以实现。计算装置300还可以包括I/O组件360,其支持计算机与其中的其他组件之间的输入/输出。计算装置300也可以通过网络通信接收程序和数据。
计算装置300还可以包括与硬盘通信的硬盘控制器、与按键/键盘通信的按键/键盘控制器、与串行***装置通信的串行接口控制器、与控制器通信的并行接口控制器、并行***装置、与显示器通信的显示控制器或类似物或其任意组合。
仅仅为了说明,在计算装置300中仅描述了一个CPU和/或处理器。然而,应该注意的是,本申请中的计算装置300还可以包括多个CPU和/或处理器,因此操作和/或由本申请中描述的一个CPU和/或处理器执行的方法步骤也可以由多个CPU和/或处理器共同或单独执行。例如,如果在本申请中,计算装置300的CPU和/或处理器执行步骤A和步骤B两者,则应该理解,步骤A和步骤B也可以由两个不同的CPU和/或处理器联合执行或单独存储在计算装置200中(例如,第一处理器执行步骤A并且第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图4是根据本申请的一些实施例所示的一种示例性处理引擎112的模块图。处理引擎112可以与计算机可读取存储器(例如,存储器150、乘客终端130或司机终端140)通信并且可以执行存储在计算机可读存储介质中的指令。处理引擎112可以包括获取模块410、分割模块420、标注模块430、训练模块440和确定模块450。
获取模块410可以被配置为获取查询。查询可以是历史查询或在线查询。在一些实施例中,获取模块410可以经由网络120获取由与终端装置(例如,乘客终端130)相关联的用户输入的历史查询。在一些实施例中,获取模块410可以获取由与终端装置相关联的用户通过网络120输入的在线查询。
获取模块410还可以被配置为从查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术等中的一种多种组合。例如,可以使用语音识别技术来分析文件“*.amr”并产生文本(例如,“海/淀/清/华/大/学”)。
获取模块410还可以被配置为经由网络120获取与终端装置(例如,乘客终端130)相关联的用户的搜索记录。搜索记录可以包括历史查询的文本、与终端装置关联的用户选择的POI、与终端装置关联的用户的识别号码信息、查询时间、终端装置的位置信息或类似物或其任意组合。
获取模块410可以被配置为获取训练样本。在一些实施例中,训练样本可以基于标注模块430来产生。在一些实施例中,训练样本可以基于词典或手动操作来产生。
分割模块420可以被配置为基于文本分割将查询中的文本分割成一个或多个子集。查询可以是历史查询或在线查询。文本分割可以使用多种技术,例如,基于模型的技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐藏马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
标注模块430可以被配置以对查询的文本的一个或多个子集中的每一个子集标注属性。训练样本可以基于标注操作来产生。查询可以是历史查询。标注模块430可以分析历史查询与由与用户终端相关联的用户选择的POI的关系。标注模块430可以基于历史查询与POI的关系将标签“where”或标签“what”指定给历史查询的文本的一个或多个子集中的每一个子集。标注模块430可以使用标签“where”或标签“what”来标注历史查询的文本的一个或多个子集中的每一个子集的属性。标注模块430可以自动标注用于该历史查询的文本的一个或多个子集的每一个子集的属性。
训练模块440可以被配置为训练模型。该模型可以是一个CRF模型。训练模块440可以基于一个或多个训练样本来确定CRF模型的参数。训练模块440可以基于不同的样本来训练CRF模型。在一些实施例中,可以从不同地区(例如,北京的样本、纽约市的样本)获取不同的样本。
确定模块450可以被配置为基于CRF模型确定查询的文本的一个或多个子集中的每一个子集的属性。该属性可以是实体属性或空间属性或类似物或其任意组合。该属性有一个标签。例如,空间属性可以具有标签“where”,以及实体属性可以具有标签“what”。在一些实施例中,确定模块450还可以被配置为确定文本的属性序列(其可以包括一个或多个子集)。文本的属性序列可以包括文本的一个或多个子集的部分或全部属性。在一些实施例中,确定模块450可以确定文本的两个或多个属性序列(例如,第一属性序列、第二属性序列)。在一些实施例中,确定模块450可以进一步确定文本拥有所确定的属性序列的概率。
应该注意的是,上面关于处理引擎112的描述是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。例如,训练模块440可以包括校正单元(图中未示出)以校正训练的CRF模型。又例如,确定模块450被用于分割文本。类似的修改应该落入本申请的范围内。
图5是根据本申请的一些实施例所示的一种用于确定查询的文本的一个或多个子集中的每一个子集的属性的示例性流程500的流程图。在一些实施例中,用于确定查询的文本的一个或多个子集中的每一个子集的属性的流程500可以在如图1所示的***100中实施。例如,流程500可以在用户终端(例如,乘客终端130、司机终端140)和/或服务器110中实施。流程500还可以由存储在存储器150中的一个或多个指令实施,并且由处理引擎112调用和/或执行。
在505中,处理引擎112(例如,获取模块410)可以通过网络接收来自终端装置的查询。终端装置可以是乘客终端130或司机终端140。查询可以是在线查询。如本文所述,在线查询可以是用户通过终端装置(例如,乘客终端130、司机终端140)输入的查询,其可以经由网络120发送到服务器110。查询可以是文本、音频内容、图形、图像、视频内容或类似物或其任意组合的格式。例如,用户可以通过终端装置(例如,乘客终端130、司机终端140)内置输入法(例如,SougouTM输入法)来输入文本。查询可以是由与乘客终端130相关联的用户(经由,例如乘客终端130的麦克风)输入的指示用户想要去的位置的语音。该语音可以是“*.amr”形式。服务器110(或乘客终端130)可以基于音讯文件确定内容并相应地产生文本。
在510中,处理引擎112(例如,获取模块410)可以从查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术或类似物或其任意组合。例如,可以使用语音识别技术来分析“*.amr”文档并产生文本(例如,“海/淀/清/华/大/学”)。
在520中,处理引擎112(例如,分割模块420)可以确定文本的一个或多个子集。可以使用多种技术来确定文本的一个或多个子集,包括例如,基于模型技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
在530中,处理引擎112(例如,获取模块410)可以获取条件随机域(CRF)模型。CRF模型可以是一个经训练的CRF模型。也就是说,CRF模型的参数已经确定。
CRF模型可以与区域(例如,地理区域、地区、城市)、时间段(例如,高峰时间)或类似物或其任意组合相关联。例如,CRF模型可以与北京有关,该CRF模型为基于与北京有关的训练样本进行训练获得的。如果查询由服务器110确定为与北京相关联(例如,该查询与搜索北京的POI有关),则可以获得与北京相关联的CRF模型。在一些实施例中,CRF模型可以基于图6中所示的示例性流程600训练获取。
在540中,处理引擎112(例如,确定模块450)可以基于CRF模型和文本的一个或多个子集中的每一个子集来确定文本的一个或多个子集中的每一个子集的属性。文本的一个或多个子集中的每一个子集的属性可以包括空间属性和/或实体属性。这里使用的术语“空间属性”通常是指特定的空间范围(例如,住宅小区、道路)。这里使用的术语“实体属性”通常是指特定地点(例如,商店的名称、建筑物的名称或大学的名称)。处理引擎112可以使用标签“where”来标注空间属性。处理引擎112可以使用标签“what”来标注实体属性。例如,处理引擎112可以接收包括文本“海淀区清华大学”的查询。文本可以分为子集“海淀区”和子集“清华大学”。子集“海淀区”为空间属性(可以标注为“where”)。子集“清华大学”为实体属性(可以标注为“what”)。
在一些实施例中,处理引擎112(例如,确定模块450)还可以确定文本(其包括一个或多个子集)的属性序列。文本的属性序列可以包括文本的一个或多个子集的部分或全部属性。在一些实施例中,处理引擎112可以为文本确定两个或多个属性序列(例如,第一属性序列、第二属性序列)。例如,对于文本“海淀区清华大学”,处理引擎112可以确定空间属性为“海淀区”(标注为“where”),实体属性为“清华大学”(标注为“what”)。“where+what”为文本“海淀区清华大学”的第一个属性序列。又例如,对于同一文本“海淀区清华大学”,处理引擎112还可以确定空间属性为“海淀区”(标注为“where”)和空间属性为“清华大学”(标注为“where”)。“where+where”可以是文本“海淀区清华大学”的第二属性序列。因此,对于同一文本,处理引擎112可以确定两个属性序列,即“where+what”和“where+where”。
在一些实施例中,处理引擎112(例如,确定模块450)可以进一步确定文本的属性序列的概率。例如,处理引擎可以确定第一属性序列“where+what”的概率为0.8,并且第二属性序列“where+where”的概率为0.2。在一些实施例中,处理引擎112可以基于训练样本(例如,与用户选择的POI相关联的文本的属性序列的百分比)来确定属性序列的概率。
应该注意的是,上述处理引擎112是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,可以减少或增加一些步骤。例如,510可以被省略。查询可以是文本形式,并且可以在没有文本提取的情况下获取文本。又例如,520可以被省略。在一些实施例中,文本可以不需要被分割(例如,“中国”或“北京”)。类似的修改应该落入本申请的范围内。
图6是根据本申请的一些实施例所示的一种用于确定为查询的文本的一个或多个子集中的每一个子集的确定属性的CRF模型的示例性流程600的流程图。流程600可以用于训练在上述流程500中使用的CRF模型。在一些实施例中,用于确定CRF模型的流程600可以在如图1所示的***100中实施。例如,流程600可以在用户终端(例如,乘客终端130,司机终端140)和/或服务器110中实现。流程600可以由存储在存储器150中的一个或多个指令实现,并且可以由处理引擎112调用和/或执行。
在610中,处理引擎112可以获取初始CRF模型。训练模块440可以首先通过初始化该初始CRF模型的参数来初始化所获取的该初始CRF模型。例如,训练模块440可以将多个值指定给该初始CRF模型的参数。
CRF模型可以将T个标签指定给输入查询的文本的一个或多个子集中的每一个子集。标注的属性变量可以表示为:
其中,y(i)指查询的文本的属性序列,i指属性序列的序号,yt是查询的文本的特定子集的标签(例如,属性的标签)。
通常,每个属性变量可以假定为从一组分类值中选择的分类值。CRF模型的条件概率p(y|x)表示给定特定输入序列为给定属性序列y的概率,表示为:
其中,x(i)表示查询的文本,i表示查询的序列号,xt表示输入查询文本的特定子集。条件概率可以表示为:
其中,fk(yt,yt-1,xt)指特征函数,λk指权重参数,K是指特征函数的个数。Z(x)指将上述表达式的指数形式归一化以对应于概率分布的分割函数,其可以被表示为:
在620中,处理引擎112可以获取多个训练样本。训练样本可以包括基于历史服务订单产生的一个或多个样本。在一些实施例中,可以基于特定区域(例如,地理区域、地区、城市)中的历史服务订单、特定时间段(例如,高峰时间)或类似物或其任意组合来产生训练样本。例如,一个或多个历史样本可以基于北京过去两个月的高峰时段的历史服务订单产生。在一些实施例中,训练样本可以包括至少一个历史样本(例如,下文的表1)。在一些实施例中,历史样本可以基于图7中所示的示例性流程700产生。
在630中,处理引擎112可以确定特征模板。特征模板可以被配置为描述查询的文本的特征。查询的文本的特征可以包括精细化特征、泛化特征、个性化特征或类似物或其任意组合。
在一些实施例中,特征模板可以是unigram模板或bigram模板。例如,特征模板可以是如下描述的unigram模板:
#Unigram
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]
U03:%x[-1,0]/%x[0,0]
U04:%x[0,0]/%x[1,0]
U05:%x[-1,0]/%x[1,0]
U10:%x[-1,1]
U11:%x[0,1]
U12:%x[1,1]
U13:%x[-1,1]/%x[0,1]
U14:%x[0,1]/%x[1,1]
U15:%x[-1,1]/%x[1,1].
“U00:%x[-1,0]”可以表示当前词的前一个词。“U01:%x[0,0]”可以表示当前词。“U02:%x[1,0]”可以表示当前词的后一个词。“U03:%x[-1,0]/%x[0,0]”可以表示当前词与当前词的前一个词的关系。“U04:%x[0,0]/%x[1,0]”可以表示当前词与当前词的后一个词的关系。“U05:%x[-1,0]/%x[1,0]”可以表示当前词的前一个词与当前词的后一个词的关系。“U10:%x[-1,1]”可以表示当前词的前一个词的特征。当前词的前一个词的特征可以是数字、字母、字符大小、前缀、后缀等。“U11:%x[0,1]”可以表示当前词的特征。当前词的特征可以是数字、字母、字符大小、前缀、后缀等。“U12:%x[1,1]”可以表示当前词的后一个词的特征。当前词的后一个词的特征可以是数字、字母、字符大小、前缀、后缀等。“U13:%x[-1,1]/%x[0,1]”可以表示当前词的前一个词的特征与当前词的特征的关系。“U14:%x[0,1]/%x[1,1]”可以表示当前词的特征与当前词的后一个词的特征的关系。“U15:%x[-1,1]/%x[1,1]”可以表示当前词的前一个词的特征与当前词的后一个词的特征的关系。
精细化特征包括当前词的特征、当前词的前一个词的特征、当前词的后一个词的特征、当前词和当前词的前一个词的关系、当前词与当前词的后一个词的关系,当前词的前一个词与当前词的后一个词的关系,当前词的特征与当前词的前一个词的特征的关系、当前词的特征与当前词的后一词的特征的关系或当前词的前一个词的特征与当前词的后一个词的特征的关系或类似物或其任意组合。
精细化特征可以包括用于标注查询的详细信息。例如,训练样本可以包括许多大学名称。训练样本中的大学名称可以包括“北京大学”、“北京交通大学”、“北京科技大学”等。对于包括“北京大学”文本的查询,如果CRF模型仅依赖当前词的特征,却忽略当前词与当前词的后一个词的关系,则CRF模型可以确定“北京”为空间属性,因为“北京”是一个城市,“大学”是一个实体属性。但是,如果CRF模型应用了精细化特征,则CRF模型可以确定“北京”与“大学”的关系,并且确定“北京大学”不应该被分割,并且CRF模型可以确定“北京大学”是一个实体属性。因此,包括精细化特征的CRF模型可以更准确地为查询的文本的一个或多个子集中的每一个子集确定属性。
泛化特征可以包括词性、数字、字母、字符大小、前缀、后缀或类似物或其任意组合。泛化特征可以包括在CRF模型上的查询的足够多的特征以增强CRF模型的泛化能力。CRF模型的泛化能力指CRF模型能够识别不在训练样本中的一些新查询或新文本的特征的能力。
例如,训练样本可以包括大学的许多建筑物名称。训练样本中大学的建筑物名称可以包括“清华大学1号楼”、“清华大学2号楼”和“清华大学3号楼”。用户可以输入包括文本“清华大学4号楼”的查询。由于CRF没有定义数字“4”的特征或“清华大学4号楼”的特征,CRF模型可能无法正确确定“清华大学4号楼”的属性。但是,如果CRF模型最初定义了数字特征,CRF模型可以确定“清华大学4号楼”类似于“清华大学1号楼”、“清华大学2号楼”和“清华大学3号楼”,并确定“清华大学4号楼”属于实体属性。又例如,训练样本可以包含许多大厦名称。训练样本中的大厦名称可以只包括“国际贸易大厦A”、“国际贸易大厦B”和“国际贸易大厦C”。用户输入包括文本“国际贸易大厦D”的查询,由于CRF没有定义大写字母的特征,CRF模型可能无法正确确定“国际贸易大厦D”的属性。但是,如果CRF模型最初定义了大写字母的特征,则CRF模型可以确定“国际贸易大厦D”类似于“国际贸易大厦A”、“国际贸易大厦B”和“国际贸易大厦C”,并且正确地确定“国际贸易大厦D”的属性。因此,包括广义特征的CRF模型可以确定新查询的文本的一个或多个子集的属性。
个性化特征可以包括与终端装置相关联的用户有关的识别号码信息、查询时间、查询频率、终端装置的位置信息或类似物或其任意组合。例如,用户在一段时间(例如,上午11点30分下午12点30分)内输入的查询的文本的一个或多个子集(例如,餐馆的名称或商店的名称)可以为实体属性。包括个性化特征的CRF模型可以将时间信息确定为个性化特征。
又例如,用户A可以输入包括文本“中关村”的查询。用户A可能频繁地选择POI“中关村地铁”,但可能偶尔选择POI“中关村大厦”。对于用户A,由于用户A选择POI“中关村地铁”比选择其他POI更频繁,CRF模型可以确定“中关村”更可能为空间属性。用户B可以输入包括相同文本“中关村”的查询。然而,用户B可能经常选择POI“中关村大厦”,但可能偶尔选择POI“中关村地铁”。对于用户B,由于用户B选择POI“中关村大厦”比选择其他POI更频繁,CRF模型可以确定“中关村”更可能为实体属性。因此,包括个性化特征的CRF模型可以更准确地确定由不同用户输入的不同查询的相同文本的一个或多个子集中的每一个子集的属性。
在640中,处理引擎112可以基于多个训练样本和特征模板来确定一个或多个特征函数。特征函数可以以函数形式表示多个训练样本的特征。特征函数可以是转换特征函数(transition Feature Function)和释放特征函数(Emission Feature Function)(也称为状态特征函数)。转换特征函数可以是表示是否发生转换(yt-1=i,yt=j)的二元函数。例如,转换函数可以被表示为:
其中,ψ是特定函数或值(例如,1),i指标签(例如,“where”或“what”),以及j指标签(例如,“where”或“what”)。
释放特征函数可以是二元函数,其表示依赖于观察的特征是否与状态i同时发生。例如,释放特征函数可以被描述为:
在650中,处理引擎112(例如,训练模块440)可以基于一个或多个特征函数训练初始CRF模型以产生经训练的CRF模型。
在一些实施例中,可以基于多个训练样本的训练操作来训练初始CRF模型。例如,所述多个样本可由表示,其中,N表示该多个训练样本的数量。多个训练样本可以作为初始CRF模型的输入以确定初始CRF模型的参数。经训练的CRF模型可以基于确定的CRF模型参数来确定。
在一些实施例中,处理引擎112可以应用最大可能性估计来获取CRF模型参数。该可能性函数可以表示为:
其中,Λ={λk}指权重参数,i指训练样本的序号,N指多个训练样本的数量,y(i)指训练样本的属性序列,以及x(i)是指训练样本的文本。
最大可能性估计可以使用可能性函数来排列Λ={λk}的可能值。具体而言,最大可能性估计可以确定Λ={λk}的哪个值应该是确定可能性函数的最大值。可能性函数的最大值可以表示为:
Λmax=argmaxΛL(Λ) (8).
因此,可能性函数的最大值的参数Λ={λk}可以确定尽可能接近经验分布的模型。
在一些实施例中,训练模块440可以应用一个或多个算法通过迭代来训练CRF模型。算法可以包括随机梯度下降算法、最大化(Maximization,EM)算法、维特比算法、改进的迭代缩放(Improved Iterative Scaling,IIS)算法、通用迭代缩放(GeneralizedIterative Scaling,GIS)或类似物或其任意组合。
应该注意的是,上述流程600是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,CRF模型的数量可以不受限制。例如,按需服务***100可以提供两个或更多个CRF模型,其被专门用于确定基于不同的城市进行查询的文本的一个或多个子集中的每一个子集的属性。用户可以输入与北京有关的查询。按需服务***100可以调用与北京有关的第一类型CRF模型。用户可以输入与上海有关的查询。按需服务***100可以调用与上海相关联的第二类型的CRF模型。又例如,在650之后可以存在CRF模型的修正操作。类似的修改应该落入本申请的范围内。
图7是根据本申请的一些实施例所示的一种用于确定训练样本的示例性流程700的流程图。在一些实施例中,流程600中训练初始CRF模型使用的训练样本可以包括至少一个根据图7所示的历史训练样本的示例性流程700产生的历史训练样本。在一些实施例中,用于确定样本的流程700可以在***100(例如,服务器110)中实现。在一些实施例中,流程700可以由存储在存储器150中的一个或多个指令实现,并且由处理引擎112调用和/或执行的。在一些实施例中,流程700可以在用户终端和/或服务器中实现,并且确定的或产生的训练样本可以被传输到处理引擎112或***100的另一合适组件以进行进一步处理。
训练样本可以包括一个或多个历史样本。训练样本可以基于相同的方法或不同的方法来确定。例如,历史样本可以基于字典和一些手动操作来确定。可选地或另外地,历史样本可以通过图7中所示的示例性流程自动标注。
在710中,处理引擎112(例如,获取模块410)可以获取历史查询。处理引擎112可以通过网络120从与终端装置相关联的用户的搜索记录中获取历史查询。查询可以包括通过终端装置从用户接收的信息,例如,文本(例如“海淀区”)、声音、图像或类似物或其任意组合。查询还可以包括地理位置信息(例如,终端装置的位置信息、查询的请求者的出发地点、与历史查询相关联的POI)。查询还可以包括时间信息(例如,与查询相关的出发时间是上午7:00、查询传输到处理引擎112的时间)。查询还可以包括用户信息(例如,查询的请求者的年龄为50岁)或类似物或其任意组合。
在一些实施例中,历史查询可以存储在数据库(例如,存储器150中的数据库)中或从另一个装置取回。在一些实施例中,处理引擎112可以在710中获取多个历史查询。多个历史查询可以是在特定时间段(例如,在过去一个月、过去一周)的历史查询或与特定的位置或区域(例如,北京、上海、纽约)相关联的查询。
在720中,处理引擎112(例如,获取模块410)可以从历史查询中提取文本。文本提取可以使用多种技术,例如,自然语言处理技术、语音识别技术、图像识别技术、数据库技术或类似物或其任意组合。例如,用户可以向处理引擎112输入语音,并且基于用户终端内建语音识别技术的语音搜索功能(例如,Google VoiceTM)可以将语音转换为文本。
文本可以包括任何语言的文字、数字、字符或其组合,例如中文、日文、英文或类似物或其任意组合。在一些实施例中,文本可以是汉字和字母的组合,例如,“海/淀/区/爱/迪/生/路/3/号”(即海淀区爱迪生路No.3)。“海”是一个字,“海/淀”是一个词。文本可能有或没有词边界标记,如空格。例如,“海/淀”和“区”这两个词在中文文本“海/淀/区/爱/迪/生/路/3/号”中没有边界标记。又如,英文文本中“No.3Edison Road Haidian District”中的单词“Haidian”和单词“District”之间存在空格。
在一些实施例中,历史查询可以是来自请求者的语音记录,并且语音识别技术(例如,隐马尔可夫算法)可以用于将记录转换为文本。
在730中,处理引擎112(例如,分段模块420)可以确定历史查询的文本的至少一个子集。文本分割可以使用多种技术,例如,基于模型的技术、分词技术、句子分割技术、自然语言处理技术、神经网络技术(例如,误差反向传播(BP)算法)、词汇衔接技术、词汇链技术、词汇衔接分析技术、潜在语义分析、局部上下文分析、隐藏马尔可夫模型、概率潜在语义分析或类似物或其任意组合。
在一些实施例中,文本分割可以基于CRF分割模型。例如,可以在CRF分割模型中使用4标签。4标签可以是B(即,开始)、E(即,结束)、M(即,中间)、S(即,单个)。4标签可以用来标注文本的字符,例如,
根据CRF分割模型,可以获得“海/淀/”、“区/”、“爱/迪/生/路/”和“3/号/”四个子集。
在740中,处理引擎112(例如,获取模块410)可以获取与历史查询相关联的POI。用户可以输入查询,该查询可以通过网络120由处理引擎112接收。处理引擎112可以产生包含一个或多个POI的搜索结果并发送到终端装置。终端装置可以将搜索结果显示给用户。用户可以从终端装置处的一个或多个POI中选择一个POI。所选择的POI可以被递送给处理引擎112,处理引擎112可以进一步将所选择的POI与历史查询相关联。处理引擎112(例如,获取模块410)可以获取与历史查询相关联的POI。
POI可以包括地址信息、地理位置信息、周围信息、属性信息(例如,空间属性信息、实体属性信息)或类似物或其任意组合。例如,北京的POI可能是一所大学,例如“清华大学”。POI“清华大学”可以包括大学的全部地址、地址的空间属性以及地址的实体属性。例如,POI“清华大学”的地址信息可以是“北京市海淀区清华大学”,地址的空间属性可以包括“北京市”和“海淀区”。地址的实体属性可以包括“清华大学”。POI的信息可以被存储在存储器150中或从可以被处理引擎112存取的其他存储器(例如,终端装置130)中检索。
在一些实施例中,POI的文本可以被分割成至少一个子集。例如,POI为“北京市海淀区清华大学”,POI可以分为子集1“北京市”,子集2“海淀区”和子集3“清华大学”。分割技术可以与上述730中使用的分割技术相同。
在750中,处理引擎112(例如,标注模块430)可以根据与历史查询相关联的POI确定历史查询的文本的至少一个子集的属性。该属性可以是空间属性(例如,标注为“where”)、实体属性(例如,标注为“what”)或类似物或其任意组合。在一些实施例中,标注模块430可以使用标注空间属性的“where”和实体属性的“what”来标注文本的至少一个子集的属性。
例如,POI可以是“清华大学”。POI“清华大学”的地址可以是“北/京/市/海/淀/区/清/华/大/学”(或译成英文“Beijing City Haidian District Tsinghua University”)。POI文本的分割可以是“北/京/市//海/淀/区//清/华/大/学”,词边界标签为“//”。详细的空间属性地址可以是“北京市”即,北/京/市)和“海淀区(即,海/淀/区)”。地址的实体属性可以是“清华大学”(即,清/华/大/学)。在一些实施例中,用户可以输入查询,其文本可以是“海淀区清华大学”。用户可以从包括一个或多个POI的搜索结果中选择POI“清华大学”。
分割模块420可以在730中将文本“海淀区清华大学”划分为一个或多个子集。例如,在730中,分割模块420可以将文本“北京市海淀区清华大学”划分为子集1“北京市”,子集2“海淀区”和子集3“清华大学”。由于空间属性为“北京市”和“海淀区”,实体属性为“清华大学”,在740中可以获取与历史查询相关联的POI(例如,“北京市海淀区清华大学”)。子集1“海淀区”可以是“北京市”和/或“海淀区”的空间属性的一部分,标注模块430可以将子集1“海淀区”标注为“where”。子集2“清华大学”可以是“清华大学”的实体属性的一部分,并且标注模块430可以将子集2“清华大学”标注为“what”。又例如,分割模块420可以将文本“海淀区清华大学”划分为子集1“海淀”和子集2“区清华大学”。子集1“海淀”在“北京市海淀区清华大学”的空间属性内,标注模块430可以使用标签“where”标注子集1“海淀”。子集2“区清华大学”不属于“北京市海淀区清华大学”的实体属性部分,标注模块430可能不会对子集2进行标注。也就是说,标注模块430可以使用标签“where”以标注“海淀”,“海淀”为一个标注的样本。标注模块430可以确定文本的至少一个子集的属性。因此,标注模块430可以使用标签“where”和/或标签“what”来自动标注文本的至少一个子集的属性。
又例如,POI可以是“回龙观地铁站”。POI“回龙观地铁站”的完整地址可以是“北/京/市/海/淀/区//回/龙/观/地/铁/站”(或翻译成英文“Beijing City Haidian DistrictHuilongguan Subway Station”)。标有“where”的地址的空间属性可以是740中获取的“北京市”、“海淀区”和“回龙观”。标有“what”的地址的实体属性可以是740中获取的“地铁站”。在一些实施例中,用户可以输入查询,其文本可以是“回龙观”。用户可以从包括一个或多个POI的搜索结果中选择POI为“回龙观地铁站”。分割模块420可以在730中将文本“回龙观”分成仅一个子集“回龙观”。唯一的一个子集“回龙观”可以是“北京市”、“海淀区”和“回龙观”的空间属性的一部分,并且标注模块430可以使用标签“where”来标注唯一的一个子集“回龙观”。
又例如,POI“回龙观大厦”的完整地址可以是“北京市海淀区回龙观大厦”。“北京市海淀区回龙观大厦”中用“where”标注的空间属性可以是在740中获取的“北京市”、“海淀区”。“北京市海淀区回龙观大厦”中用“what”标注的实体属性可以是740中获取的“回龙观大厦”。在一些实施例中,用户可以输入查询,其中的文本也可以是在710中的“回龙观”。分割模块420可以在730中将查询“回龙观”的文本分段为仅一个子集“回龙观”。唯一的一个子集“回龙观”可以是“北京市海淀区回龙观大厦”的实体属性的一部分。在这种情况下,即使相同的查询文本“回龙观”,标注模块430可以使用标签“what”而不是标签“where”来标注唯一的一个子集“回龙观”。因此,对于同一个查询的文本,不同的用户可以选择不同的POI,使得文本的一个或多个子集中的每一个自己可以使用不同的标签来标注。
在760中,处理引擎112(例如,标注模块430)可以根据所确定的历史查询的文本的至少一个子集的属性来产生历史训练样本。例如,历史查询的文本可以是“北京市海淀区清华大学”。
历史训练样本可包括在720中提取的文本,在730中确定的文本的至少一个子集,在750中确定的文本的至少一个子集的对应属性(例如,标签“where”或标签“what”)或类似物或其任意组合。以“北京市海淀区清华大学”为例,可以确定历史查询文本的三个子集和相应的属性,如表1所示。
表1:示例性的历史样本
文本的子集 | 子集的属性 | 标签 |
北京市 | 空间属性 | where |
海淀区 | 空间属性 | where |
清华大学 | 实体属性 | what |
历史训练样本可以被存储在按需服务***100中的存储器150或其他存储器(例如,乘客终端130或司机终端140)中。训练模块440可以基于图6描述的历史训练样本来训练初始CRF模型。
应该注意的是,上述处理引擎112是为了说明的目的而提供的,并且不旨在限制本申请的范围。显然,对于本领域具有通常知识者来说,在本申请的教示下可以有许多变化和修改。然而,这些变化和修改不脱离本申请的保护范围。在一些实施例中,可以减少或增加一些步骤。例如,可以省略720。查询可以是文本形式,并且可以在没有文本提取的情况下获取文本。又例如,可以省略730。在一些实施例中,文本可能不需要被分割(例如,“中国”)。在其他一些实施例中,文本可以用已被分割的形式来获得。类似的修改应该落入本申请的范围内。
为了实现本申请中描述的各种模块、单元及其功能,可以将计算机硬件平台用作这里描述的一个或多个组件的硬件平台。具有用户接口,用户接口元素的计算机可用于实现个人计算机(PC)或任何其他类型的工作站或终端装置。如果适当程序设计,计算机也可以充当服务器。
上文已对基本概念做了描述,显然,对于本领域具有通常知识者来讲,上述申请揭露仅作为示例,而并不构成对本申请的限制。虽然此处并没有明确说明,本领域具有通常知识者可能会对本申请进行各种变更、改良和修改。该类变更、改良和修改在本申请中被建议,并且该类变更、改良、修改仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特性。因此,应强调并注意的是,本说明书中在不同位置两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特性可以进行适当的组合。
此外,本领域具有通常知识者可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改良。相应地,本申请的各个态样可以完全由硬件执行、可以完全由软件(包括韧体、常驻软件、微代码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“单元”、“模块”或“***”。此外,本申请的各方面可能表现为位于一个或多个计算机可读取媒体中的计算机产品,该产品包括计算机可读取程序编码。
计算机可读取讯号媒体可包括一个内含有计算机程序编码的传播数据讯号,例如在基带上或作为载波的一部分。所述传播讯号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读取讯号媒体可以是除计算机可读存储介质之外的任何计算机可读取媒体,该媒体可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读取讯号媒体上的程序编码可以通过任何合适的介质进行传播,包括无线电、缆线、光纤电缆、RF、或类似介质、或任何上述介质的合适组合。
本申请各部分操作所需的计算机程序码可以用任意一种或多种程序语言编写,包括面向对象程序设计语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化程序设计语言如C语言、Visual Basic、Fortran2003、Peri、COBOL 2002、PHP、ABAP,动态程序设计语言如Python、Ruby和Groovy,或其他程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机上运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,例如,局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云端计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述揭露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于揭露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的***组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动载具上安装所描述的***。
同理,应当注意的是,为了简化本申请揭示的表述,从而帮助对一个或多个申请实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种揭示方法并不意味着本申请对象所需要的特征比权利要求中涉及的特征多。实际上,实施例的特征要少于上述揭露的单个实施例的全部特征。
Claims (23)
1.一种***,包括:
至少一个计算机可读存储介质,包括一组用于管理服务供应的指令;以及
与所述至少一个存储介质通信的至少一个处理器,其中,当执行所述指令时,所述至少一个处理器用于:
通过网络接收来自终端装置的查询;
运行所述至少一个处理器中的逻辑电路以从所述查询中提取文本;
运行所述至少一个处理器中的所述逻辑电路以确定所述文本的一个或多个子集;
运行所述至少一个处理器中的所述逻辑电路以获取经训练的条件随机域(CRF)模型;以及
运行所述至少一个处理器中的所述逻辑电路以基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
2.如权利要求1所述的***,其中,所述文本的一个或多个子集中的每一个子集的属性包括空间属性或实体属性中的至少一个。
3.如权利要求2所述的***,其中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
4.如权利要求3所述的***,其中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
5.如权利要求1所述的***,其中,所述至少一个处理器进一步用于确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
6.如权利要求1所述的***,其中,所述经训练的CRF模型根据用于产生CRF模型的流程来产生,所述流程包括:
获取初始CRF模型;
获取多个训练样本;
确定特征模板;
基于所述多个训练样本和所述特征模板,确定一个或多个特征函数;以及
基于所述一个或多个特征函数训练所述初始CRF模型以产生所述经训练的CRF模型。
7.如权利要求6所述的***,其中,所述多个训练样本包括历史样本,所述历史样本根据用于产生所述历史样本的流程来产生,所述流程包括:
获取历史查询;
从所述历史查询中提取文本;
确定所述历史查询的文本的至少一个子集;
获取与所述历史查询相关联的兴趣点;
根据与所述历史查询相关联的兴趣点来确定所述历史查询的文本的至少一个子集的属性;以及
根据所确定的属性和所述历史查询的文本的至少一个子集来产生所述历史样本。
8.如权利要求6所述的***,其中,所述特征模板包括精细化特征、泛化特征或个性化特征中的至少一个。
9.如权利要求8所述的***,其中,所述精细化特征包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
10.如权利要求8所述的***,其中,所述泛化特征包括数字、字母、字符大小、前缀或后缀中的至少一个。
11.如权利要求8所述的***,其中,所述个性化特征包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
12.一种在至少一个装置上实施的方法,每个装置具有至少一个处理器、存储器和连接到网络的通信平台,所述方法包括:
通过所述网络接收来自终端装置的查询;
从所述查询中提取文本;
确定所述文本的一个或多个子集;
获取经训练的条件随机域(CRF)模型;以及
基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
13.如权利要求12所述的方法,其中,所述文本的一个或多个子集中的每一个子集的属性包括空间属性或实体属性中的至少一个。
14.如权利要求13所述的方法,其中,所述文本的一个或多个子集的属性包括具有第一标签的至少一个空间属性。
15.如权利要求13所述的方法,其中,所述文本的一个或多个子集的属性进一步包括具有第二标签的至少一个实体属性。
16.如权利要求12所述的方法,进一步包括确定所述文本的一个或多个子集中的每一个子集拥有所确定的属性的概率。
17.如权利要求12所述的方法,其中,所述经训练的CRF模型根据用于产生CRF模型的流程来产生,所述流程包括:
获取初始CRF模型;
获取多个训练样本;
确定特征模板;
基于所述多个训练样本和所述特征模板,确定一个或多个特征函数;以及
基于所述一个或多个特征函数训练所述初始CRF模型以产生所述经训练的CRF模型。
18.如权利要求17所述的方法,其中,所述多个训练样本包括历史样本,所述历史样本根据用于产生所述历史样本的流程来产生,所述流程包括:
获取历史查询;
从所述历史查询中提取文本;
确定所述历史查询的文本的至少一个子集;
获取与所述历史查询相关联的POI;
根据与所述历史查询相关联的POI来确定所述历史查询的文本的至少一个子集的属性;以及
根据所确定的属性和所述历史查询的文本的至少一个子集来产生所述历史样本。
19.如权利要求17所述的方法,其中,所述特征模板包括精细化特征、泛化特征或个性化特征中的至少一个。
20.如权利要求19所述的方法,其中,所述精细化特征包括当前词的特征、所述当前词的前一个词的特征、所述当前词的后一个词的特征、所述当前词和所述当前词的前一个词的关系、所述当前词与所述当前词的后一个词的关系、所述当前词的前一个词与所述当前词的后一个词的关系、所述当前词的特征与所述当前词的前一个词的特征的关系、所述当前词的特征与所述当前词的后一词的特征的关系或所述当前词的前一个词的特征与所述当前词的后一个词的特征的关系中的至少一个。
21.如权利要求19所述的方法,其中,所述泛化特征包括数字、字母、字符大小、前缀或后缀中的至少一个。
22.如权利要求19所述的方法,其中,所述个性化特征包括与所述终端装置相关联的用户相关的识别号码信息、查询时间或所述终端装置的位置信息中的至少一个。
23.一种非暂时性计算机可读存储介质,包括用于提供按需服务的至少一组指令,其中,当由处理器执行时,所述至少一组指令指示所述处理器执行以下动作:
通过网络接收来自终端装置的查询;
从所述查询中提取文本;
确定所述文本的一个或多个子集;
获取经训练的条件随机域(CRF)模型;以及
基于所述CRF模型和所述文本的一个或多个子集中的每一个子集来确定所述文本的一个或多个子集中的每一个子集的属性。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2017/087572 WO2018223331A1 (en) | 2017-06-08 | 2017-06-08 | Systems and methods for text attribute determination using conditional random field model |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110709828A true CN110709828A (zh) | 2020-01-17 |
Family
ID=64566283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780091643.3A Pending CN110709828A (zh) | 2017-06-08 | 2017-06-08 | 使用条件随机域模型确定文本属性的***及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190362266A1 (zh) |
CN (1) | CN110709828A (zh) |
WO (1) | WO2018223331A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033200A (zh) * | 2021-05-27 | 2021-06-25 | 北京世纪好未来教育科技有限公司 | 数据处理方法、文本识别模型的生成方法和文本识别方法 |
CN115660424A (zh) * | 2022-10-28 | 2023-01-31 | 国网四川省电力公司 | 一种基于gis的灾害要素分析预警*** |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191107B (zh) * | 2018-10-25 | 2023-06-30 | 北京嘀嘀无限科技发展有限公司 | 使用标注模型召回兴趣点的***和方法 |
CN109857864A (zh) * | 2019-01-07 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本情感分类方法、装置、计算机设备及存储介质 |
CN111858921B (zh) * | 2019-09-24 | 2024-05-03 | 北京嘀嘀无限科技发展有限公司 | 兴趣点查询方法、装置以及电子设备 |
KR102529987B1 (ko) * | 2020-01-30 | 2023-05-09 | (주)나라지식정보 | Crf 기반 한자 문헌의 문장 및 어구 식별 장치 및 방법 |
CN112925995B (zh) | 2021-02-22 | 2022-01-28 | 北京百度网讯科技有限公司 | 获取poi状态信息的方法及装置 |
CN113569950B (zh) * | 2021-07-28 | 2024-05-28 | 大唐环境产业集团股份有限公司 | 电站设备故障监测模型生成方法、***及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149732A (zh) * | 2006-09-19 | 2008-03-26 | 阿尔卡特朗讯公司 | 由计算机使用的从自然语言文本开发本体的方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20120254143A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Ltd. | Natural language querying with cascaded conditional random fields |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
CN103064945A (zh) * | 2012-12-26 | 2013-04-24 | 吉林大学 | 基于本体的情境搜索方法 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751218B2 (en) * | 2010-02-09 | 2014-06-10 | Siemens Aktiengesellschaft | Indexing content at semantic level |
CN104978356B (zh) * | 2014-04-10 | 2019-09-06 | 阿里巴巴集团控股有限公司 | 一种同义词的识别方法及装置 |
CN106528863B (zh) * | 2016-11-29 | 2019-07-02 | 中国国防科技信息中心 | 一种crf识别器的训练及技术及其属性名关系对抽取方法 |
-
2017
- 2017-06-08 CN CN201780091643.3A patent/CN110709828A/zh active Pending
- 2017-06-08 WO PCT/CN2017/087572 patent/WO2018223331A1/en active Application Filing
-
2019
- 2019-08-09 US US16/536,343 patent/US20190362266A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149732A (zh) * | 2006-09-19 | 2008-03-26 | 阿尔卡特朗讯公司 | 由计算机使用的从自然语言文本开发本体的方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20120254143A1 (en) * | 2011-03-31 | 2012-10-04 | Infosys Technologies Ltd. | Natural language querying with cascaded conditional random fields |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
CN103064945A (zh) * | 2012-12-26 | 2013-04-24 | 吉林大学 | 基于本体的情境搜索方法 |
CN104636466A (zh) * | 2015-02-11 | 2015-05-20 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033200A (zh) * | 2021-05-27 | 2021-06-25 | 北京世纪好未来教育科技有限公司 | 数据处理方法、文本识别模型的生成方法和文本识别方法 |
CN115660424A (zh) * | 2022-10-28 | 2023-01-31 | 国网四川省电力公司 | 一种基于gis的灾害要素分析预警*** |
CN115660424B (zh) * | 2022-10-28 | 2024-02-13 | 国网四川省电力公司 | 一种基于gis的灾害要素分析预警*** |
Also Published As
Publication number | Publication date |
---|---|
US20190362266A1 (en) | 2019-11-28 |
WO2018223331A1 (en) | 2018-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110709828A (zh) | 使用条件随机域模型确定文本属性的***及方法 | |
CN108934181B (zh) | 用于路径搜索的***和方法 | |
TWI676783B (zh) | 用於預估到達時間之方法及系統 | |
AU2017253916B2 (en) | Systems and methods for recommending an estimated time of arrival | |
CN111460248B (zh) | 用于线上到线下服务的***和方法 | |
WO2019020002A1 (en) | METHODS AND SYSTEMS FOR PREVENTING LOSS OF USERS | |
CN112236787B (zh) | 用于生成个性化目的地推荐的***和方法 | |
TWI704508B (zh) | 用於線上到線下服務的系統、方法和電腦可讀取媒體 | |
WO2018171531A1 (en) | System and method for predicting classification for object | |
US20200151390A1 (en) | System and method for providing information for an on-demand service | |
WO2021087663A1 (en) | Systems and methods for determining name for boarding point | |
WO2021121206A1 (zh) | 一种用于判定服务事故的责任的方法和*** | |
CN111859174A (zh) | 一种确定推荐上车点的方法和*** | |
US11093531B2 (en) | Systems and methods for recalling points of interest using a tagging model | |
US11120091B2 (en) | Systems and methods for on-demand services | |
CN110598122A (zh) | 社交群体挖掘方法、装置、设备及存储介质 | |
CN110651266B (zh) | 为按需服务提供信息的***及方法 | |
US20220248170A1 (en) | Methods and systems for recommending pick-up points | |
US20210064669A1 (en) | Systems and methods for determining correlative points of interest associated with an address query | |
CN110633352A (zh) | 一种语义检索的方法及装置 | |
TWI705338B (zh) | 使用條件隨機域模型確定文本屬性的系統及方法 | |
CN111797620B (zh) | 识别专有名词的***和方法 | |
CN111859168A (zh) | 一种兴趣点确定方法及*** | |
CN111858921B (zh) | 兴趣点查询方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |
|
RJ01 | Rejection of invention patent application after publication |