CN110633352A - 一种语义检索的方法及装置 - Google Patents

一种语义检索的方法及装置 Download PDF

Info

Publication number
CN110633352A
CN110633352A CN201810554080.3A CN201810554080A CN110633352A CN 110633352 A CN110633352 A CN 110633352A CN 201810554080 A CN201810554080 A CN 201810554080A CN 110633352 A CN110633352 A CN 110633352A
Authority
CN
China
Prior art keywords
word
segmentation
words
word segmentation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810554080.3A
Other languages
English (en)
Inventor
胡娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201810554080.3A priority Critical patent/CN110633352A/zh
Priority to PCT/CN2019/081444 priority patent/WO2019228065A1/en
Publication of CN110633352A publication Critical patent/CN110633352A/zh
Priority to US17/093,664 priority patent/US20210089531A1/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语义检索的方法及装置,该方法包括:获取分词词表以及用户输入的文本。根据分词词表对所述文本进行分词,确定第一分词结果。根据第一分词结果,对所述文本进行搜索。该方法提高了***的语义检索能力,能够有效对文本进行搜索。

Description

一种语义检索的方法及装置
【技术领域】
本申请涉及一种语义检索方法及装置,特别涉及一种移动出行领域的语义 检索方法及装置。
【背景技术】
在地址搜索的过程中,可能会出现搜索结果不准确的情况,这会直接影响 用户的搜索体验。目前通用的做法是利用通用词表对用户输入的文本进行分词, 根据分词结果搜索用户感兴趣的内容。该种方法因通用词表缺乏针对性,导致 搜索结果准确度较低,用户体验不佳。
【发明内容】
针对搜索结果不准确的问题,本发明的目的在于提供一种更加准确、有效 的语义检索的方法。
为达到上述发明目的,本发明提供的技术方案如下:
一种语义检索的方法,包括获取分词词表;获取用户输入的文本;根据分 词词表对所述文本进行分词,确定第一分词结果;以及根据所述第一分词结果, 对所述文本进行搜索。
在本发明中,所述第一分词结果包括细粒度分词结果和粗粒度分词结果。
在本发明中,所述第一分词结果进一步包括同时出现的概率大于设定阈值 的多个词语的组合。
在本发明中,分词词表的生成方法,包括获取词表模型;获取训练语料; 根据词表模型对训练语料进行分词,获得第二分词结果;根据第二分词结果, 确定分词词表。
在本发明中,所述根据第二分词结果,确定分词词表进一步包括:通过多 轮迭代的方式确定分词词表。
在本发明中,所述多轮迭代的每一轮迭代进一步包括根据所述词表模型和 训练语料进行初步分词,确定初步词语;获取预设规则;判断所述初步词语是 否符合预设规则;响应于所述初步词语符合预设规则时,设置所述初步词语加 入所述词表模型,生成新的词表模型,进行下一轮分词。
在本发明中,所述分词词表的生成方法进一步包括获取用户日志,所述用 户日志包括用户输入的检索词或用户选择的检索结果;根据所述用户日志,确 定新词。
在本发明中,所述根据词表模型和训练语料,确定分词词表进一步包括获 取词语特性,所述词语特性包括词语的凝聚度、词语的自由度和/或用户用词 的习惯特性;根据所述词语特性,确定新词;将所述新词加入所述分词词表。
在本发明中,所述分词词表可以是兴趣点分词词表。
一种语义检索装置,包括第一获取模块,用于获取分词词表以及用户输入 的文本;第一分词模块,用于根据分词词表对所述文本进行分词,确定分词结 果的第一分词模块,和搜索模块,用于根据所述分词结果,对所述文本进行搜 索。
在本发明中,还包括分词词表生成模块,其进一步包括第二获取模块,用 于获取词表模型以及获取训练语料;第二分词模块,用于根据词表模型对训练 语料进行分词,确定分词结果,以及确定模块,用于根据分词结果确定分词词 表。
与现有技术相比,本发明的有益效果表现如下:
一、由于针对用户某一兴趣点生成分词词表,再根据分词词表进行分词, 因此提高搜索产品的准确度;
二、由于分词模型根据分词词表对用户输入的文本进行分词,因此人工操 作少、花费时间短。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需 要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的 一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易 见或另做说明,图中相同标号代表相同结构和操作。
图1是根据本申请一些实施例的语义检索***的网络环境示意图。
图2显示的是一个计算机的结构,该计算机可以实施本申请披露的特定系 统;
图3显示的是一个移动设备的结构,该移动设备可以实施本申请中披露的 特定***;
图4是根据本申请一些实施例的语义检索方法的示例性流程图;
图5是根据本申请一些实施例的语义检索装置的模块示意图;
图6是根据本申请一些实施例的获取分词词表方法的示例性流程图,和
图7是根据本申请一些实施例的分词词表装置的模块示意图。
【具体实施方式】
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图和 实施例对本发明的具体实施方式做详细的说明。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一 个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术 语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元 素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的***中的某些模块做出了各种引用, 然而,任何数量的不同模块可以被使用并运行在客户端和/或服务器上。所述 模块仅是说明性的,并且所述***和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操 作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可 以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中, 或从这些过程移除某一步或数步操作。
本申请的实施例可以应用于不同的运输***,不同的运输***包括但不限 于陆地、海洋、航空、航天等中的一种或几种的组合。例如,出租车、专车、 顺风车、巴士、火车、动车、高铁、地铁、船舶、飞机、飞船、热气球、无人 驾驶的交通工具、收/送快递等应用了管理和/或分配的运输***。本申请的不 同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制***、企业 内部分析***、人工智能机器人等中的一种或几种的组合。应当理解的是,本 申请的***及方法的应用场景仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将 本申请应用于其他类似情景。例如,其他类似的服务接单***。
本申请描述的“乘客”、“顾客”、“需求者”、“服务请求者”、“服务请求方”、 “消费者”、“消费方”、“使用需求者”等是可以互换的,是指需要或者订购服 务的一方,可以是个人,也可以是工具。同样地,本申请描述的“司机”、“提 供者”、“供应者”、“服务提供者”、“服务提供方”、“服务者”、“服务方”等也 是可以互换的,是指提供服务或者协助提供服务的个人、工具或者其他实体等。 另外,本申请描述的“用户”可以是需要或者订购服务的一方,也可以是提供 服务或者协助提供服务的一方。
根据本申请的一些实施例,图1所示的是一个网络环境100的示意图。该 网络环境100可以包括一个分词词表装置105、一个或多个乘客端设备120、 一个或多个数据库130、一个或多个司机端设备140、一个或多个网络150、 一个或多个信息源160。该分词词表装置105可以包含一个兴趣点(POI)引 擎110。在一些实施例中,POI引擎110可以是对收集的信息进行分析加工以 生成分析结果的***,例如,POI引擎可以收集训练语料以及词表模型,建立 适用于移动出行领域的兴趣点分词词表。POI引擎110可以是一个服务器,也 可以是一个服务器群组,群组内的各个服务器通过有线的或无线的网络进行连 接。一个服务器群组可以是集中式的,例如数据中心;一个服务器群组也可以 是分布式的,例如一个分布式***。POI引擎110可以是集中式的,也可以是 分布式的。
乘客端120和司机端140可以统称为用户,它可以是直接与服务订单相关 联的个人、工具或者其他实体,例如服务订单的请求者与提供服务者。乘客可 以是服务需求方。在本文中,“乘客”、“乘客端”和“乘客端设备”可以互换使用。 乘客还可以包括乘客端设备120的使用者。在一些实施例中,该使用者可以不 是乘客本人。例如,乘客端设备120的使用者A可以使用乘客端设备120为乘 客B请求移动出行,或接受移动出行或分词词表装置105发送的其他信息或指 令。为简便起见,在本文中该乘客端设备120的使用者也可以简称为乘客。司 机可以是服务提供方。在本文中,“司机”、“司机端”和“司机端设备”可以互换 使用。司机还可以包括司机端设备140的使用者。在一些实施例中,该使用者 可以不是司机本人。例如,司机端设备140的使用者C可以使用司机端设备 140为司机D接受移动出行或分词词表装置105发送的其他信息或指令。为简 便起见,在本文中该司机端设备120的使用者也可以简称为司机。在一些实施 例中,乘客端120可以包括台式电脑120-1、笔记本电脑120-2、机动车的内置 设备120-3、移动设备120-4等中的一种或几种的组合。进一步地,机动车的 内置设备120-3,可以为车载电脑(carputer)等;移动设备120-4,可以为智 能手机、个人数码助理(personal digital assistance(PDA))、平板电脑、掌上 游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如 Google Glass、Oculus Rift、Hololens、Gear VR)等中的一种或多种。司机端 140也可以包括类似的设备中的一种或多种。
POI引擎110可以直接访问和/或存取储存在数据库130的数据信息,也可 以直接通过网络150访问和/或存取用户端120/140的信息。在一些实施例中, 数据库130可以泛指具有存储功能的设备。数据库130主要用于存储从乘客 120和/或司机140收集的数据和POI引擎110工作中所利用、产生和输出的各 种数据。数据库130可以是本地的,也可以是远程的。数据库130与分词词表 装置105或其一部分(例如,POI引擎110)的连接或通信可以是有线的,也 可以是无线的。
网络150可以是单个网络,也可以是多个不同网络的组合。例如,网络 150可能是一个局域网(local area network(LAN))、广域网(wide area network (WAN))、公用网络、私人网络、专有网络、公共交换电话网(public switched telephone network(PSTN))、互联网、无线网络、虚拟网络或者上述网络的任 何组合。网络150也可以包括多个网络接入点,例如,如基站150-1、基站150-2、 互联网交换点等在内的有线或无线接入点,通过这些接入点,任何数据源可以 接入网络150并通过网络150发送信息。为理解方便,现以交通服务中的司机 端140为例说明,但本申请并不局限于此实施例范围内。例如司机端设备140可以是手机或平板电脑,司机端设备140的网络环境100可以分为无线网络(蓝 牙、wireless local area network(WLAN)、Wi-Fi等)、移动网络(2G、3G、4G 信号等)、或其他连接方式(virtual private network(VPN))、共享网络、near field communication(NFC)、ZigBee等)。
信息源160是为***提供其他信息的一个源。信息源160可以用于为*** 提供与服务相关的信息,例如,词表模型、语料和/或用户输入的文本等。信 息源160可以是以一个单独的中央服务器的形式存在,也可以是以多个通过网 络连接的服务器形式存在,还可以是以大量的个人设备形式存在。当信息源以 大量个人设备形式存在时,这些设备可以通过一种用户生成内容 (user-generated contents)的方式,例如向云端服务器上传文字、声音、图像、 视频等,从而使云端服务器连同与其连接的众多个人设备一起组成信息源。
在一些实施例中,该分词词表装置105及所处网络环境100内不同部分之 间的信息交流可以通过订单方式进行。订单的客体可以是任一产品。在一些实 施例中,产品可以是有形产品或无形产品。一个有形产品可以是任何有形状大 小或的实物,例如食品、药品、日用品、化工产品、电器、衣物、汽车、房产、 奢侈品等中的一种或几种的组合。一个无形产品可以包括服务性产品、金融性 产品、知识性产品、互联网产品等中的一种或几种的组合。一个互联网产品可 以是任一满足人们对信息、娱乐、沟通或商务需要的产品。有很多分类方法。 以其承载平台分类为例,互联网产品可以包括个人主机产品、Web产品、移动 互联网产品、商用主机平台产品、嵌入式产品等中的一种或几种的组合。移动 互联网产品可以是用在移动终端的软件、程序或***。其中的移动终端包括但 不限于笔记本、平板电脑、手机、个人数码助理(PDA)、电子手表、POS机、 车载电脑、电视机等中的一种或几种的组合。例如,在电脑或手机上使用的各 类社交、购物、出行、娱乐、学习、投资等软件或应用。其中的出行软件或应 用又可以是旅行软件、交通工具预定、地图等软件或应用等。其中的交通预定 软件或应用是指可以用来预约马匹、马车、人力车(例如,两轮自行车、三轮 车等)、汽车(例如,出租车、公交车等)、火车、地铁、船只、飞行器(例如, 飞机、直升机、航天飞机、火箭、热气球等)等中的一种或几种的组合。
图2描述了一种计算机设备的架构,这种计算机设备能够被用于实现实施 本申请中披露的特定***。本实施例中的特定***利用功能框图描述了一个包 含用户界面的硬件平台。这种计算机可以是一个通用目的的计算机,也可以是 一个有特定目的的计算机。两种计算机都可以被用于实现本实施例中的特定系 统。计算机200可以用于实施当前描述地提供移动出行所需要的信息的任何组 件。例如:POI引擎110能够被如计算机200的计算机通过其硬件设备、软件 程序、固件以及他们的组合所实现。为了方便起见,图2中只绘制了一台计算 机,但是本实施例所描述的提供移动出行所需要的信息的相关计算机功能是可 以以分布的方式、由一组相似的平台所实施的,分散***的处理负荷。
计算机200包括通信端口250,与之相连的是实现数据通信的网络。计算 机200还包括一个中央处理***(CPU)单元用于执行程序指令,由一个或多 个处理器组成。示例的计算机平台包括一个内部通信总线210,不同形式的程 序储存单元以及数据储存单元,例如硬盘270,只读存储器(ROM)230,随 机存取存储器(RAM)240,能够用于计算机处理和/或通信使用的各种数据文 件,以及CPU所执行的可能的程序指令。计算机200还包括一个输入/输出组 件260,支持计算机与其他组件(如用户界面280)之间的输入/输出数据流。 计算机200也可以通过通信网络接受程序及数据。
以上概述了提供移动出行所需要的信息的方法的不同方面和/或通过程序 实现其他步骤的方法。技术中的程序部分可以被认为是以可执行的代码和/或 相关数据的形式而存在的“产品”或“制品”,是通过计算机可读的介质所参 与或实现的。有形的、永久的储存介质包括任何计算机、处理器、或类似设备 或相关的模块所用到的内存或存储器。例如各种半导体存储器、磁带驱动器、 磁盘驱动器或者类似任何时间能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他 通信网络。此类通信能够将软件从一个计算机设备或处理器加载到另一个。例 如:从移动出行***的一个管理服务器或主机计算机加载至一个计算机环境的 硬件平台,或其他实现***的计算机环境,或与提供移动出行所需要的信息相 关的类似功能的***。因此,另一种能够传递软件元素的介质也可以被用作局 部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空 气实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可 以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质, 其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过 程中参与的介质。
因此,一个计算机可读的介质可能有多种形式,包括但不限于,有形的存 储介质,载波介质或物理传输介质。稳定的储存介质包括:光盘或磁盘,以及 其他计算机或类似设备中使用的,能够实现图中所描述的***组件的存储***。 不稳定的存储介质包括动态内存,例如计算机平台的主内存。有形的传输介质 包括同轴电缆、铜电缆以及光纤,包括计算机***内部形成总线的线路。载波 传输介质可以传递电信号、电磁信号,声波信号或光波信号,这些信号可以由 无线电频率或红外数据通信的方法所产生的。通常的计算机可读介质包括硬盘、 软盘、磁带、任何其他磁性介质;CD-ROM、DVD、DVD-ROM、任何其他光 学介质;穿孔卡、任何其他包含小孔模式的物理存储介质;RAM、PROM、 EPROM、FLASH-EPROM,任何其他存储器片或磁带;传输数据或指令的载 波、电缆或传输载波的连接装置、任何其他可以利用计算机读取的程序代码和 /或数据。这些计算机可读介质的形式中,会有很多种出现在处理器在执行指 令、传递一个或更多结果的过程之中。
图3描述了一种移动设备的结构,该移动设备能够用于实现实施本申请中 披露的特定***。在本例中,用于显示和交互位置相关信息的用户设备是一个 移动设备300,包括但不限于,智能手机、平板电脑、音乐播放器、便携游戏 机、全球定位***(GPS)接收器、可穿戴计算设备(如眼镜、手表等),或 者其他形式。本例中的移动设备300包括一个或多个中央处理器(CPUs)340, 一个或多个图形处理器(graphical processing units(GPUs))330,一个显示320, 一个内存360,一个天线310,例如一个无线通信单元,存储单元390,以及 一个或多个输入/输出(input output(I/O))设备350。任何其他合适的组件, 包括但不限于***总线或控制器(图上未显示),也可能被包括在移动设备300 中。如图3所示,一个移动操作***370,如IOS、Android、Windows Phone 等,以及一个或多个应用380可以从存储单元390加载进内存360中,并被中 央处理器340所执行。应用380可能包括一个浏览器或其他适合在移动设备 300上接收并处理位置相关信息的移动应用。用户输入的文本可以通过输入/ 输出***设备350获得并提供给POI引擎110,以及/或***100的其他组件, 例如:通过网络150。
为了实现不同的模块、单元以及在之前的披露中所描述的他们的功能,计 算机硬件平台可以被用作以上描述的一个或多个元素的硬件平台(例如:POI 引擎110,和/或图1-7中描述的***100的其他组件)。这类计算机的硬件元 素、操作***和程序语言在自然界中是常见的,可以假定本领域技术人员对这 些技术都足够熟悉,能够利用这里描述的技术提供移动出行所需要的信息。一 台包含用户界面元素的计算机能够被用作个人计算机(personal computer(PC)) 或其他类型的工作站或终端设备,被适当程序化后也可以作为服务器使用。可 以认为本领域技术人员对这样的结构、程序以及这类计算机设备的一般操作都 是熟悉的,因此所有附图也都不需要额外的解释。
图4是根据本申请一些实施例的语义检索方法的示例性流程图。
在步骤410中,可以获取分词词表。在一些实施例中,可以从分词词表装 置105、存储设备130、网络150、信息源160获取分词词表。在一个具体实 施例中,所述分词词表可以是与一个或多个特定领域相关的分词词语组成的集 合。例如,所述特定领域可以是交通、餐饮、旅游、医疗、购物等领域。在一 个具体实施例中,所述分词词表可以是兴趣点分词词表。所述兴趣点分词词表 可以与用户的移动出行相关。在一些实施例中,兴趣点分词词表包含最小语义 单元和/或最大语义单元。
在步骤420中,可以获取用户输入的文本。在一些实施例中,用户可以通 过输入/输出组件260输入文本。例如,用户可以通过网页或应用软件输入文 本。又例如,用户可以通过物理界面输入信息。用户输入文本的方式可以是手 写操作、鼠标操作、触屏操作、按键操作、声控操作、手势操作、眼神操作、 语音操作等。所述输入的内容可以是数字、文本、声音、图像、视频、震动等 的一种或几种的组合。所述文本可以是一句或多句话、一个或多个短语、一个 或多个词语、一个或多个字等。在一些实施例中,所述文本可以与一个或多个产品相关。
在一些实施例中,可以通过图像识别和/或语音识别获取用户输入的文本。 例如,通过用户手机摄像头获取文本图像,通过文本识别获取输入文本。又例 如,通过用户手机麦克风获取用户的语音输入,并通过语音识别识别为文本。
在步骤430中,可以对用户输入的文本分词,获得第一分词结果。在一些 实施例中,可以根据兴趣点分词词表对输入的文本进行分词。所述分词的方式 可以包含粗粒度分词、细粒度分词、或其中任意方式的组合。所述细粒度分词 是指将原始语句切分成最基本的词语。所述粗粒度分词是指将原始语句中的多 个基本词组合起来切成一个词,进而组合成语义相对确定的实体。在一些实施 例中,可以根据最小语义单元对用户输入的文本进行细粒度分词,获得细粒度 分词结果。在一些实施例中,可以根据最大语义单元合并一个或多个细粒度分 词结果,获得粗粒度分词结果。例如,对原始串“浙江大学坐落在西湖旁边”进 行细粒度分词,获得细粒度分词结果“浙江/大学/坐落/在/西湖/旁边”,进而合 并细粒度分词结果,获得粗粒度分词结果“浙江大学/坐落/在/西湖/旁边”。
在一些实施例中,所述第一分词结果还可以包括同时出现的概率大于设定 阈值的多个词语的组合。例如,在一定的时间范围内(例如,3h),搜集包括“数 字”和/或“占卜”的一个或多个用户输入的文本,计算同时包含“数字”和“占卜” 的用户输入的文本数量与所述一定的时间范围内用户输入的文本总数的比例, 得到“数字”和“占卜”同时出现的概率。当“数字”和“占卜”同时出现的概率 高于70%时,“数字”和“占卜”的组合即为一个分词结果“数字占卜”。在一些实 施例中,当两个或多个词语同时存在于用户日志以及兴趣点分词词表中时,所 述两个或多个词语即为分词结果。在不同的应用场景下,可以采用不同的分词 方式。例如,用户选择精确搜索的场景下,可以采用粗粒度分词的方式进行分 词。
在步骤440中,可以根据第一分词结果,对所述文本进行搜索。在一些实 施例中,用户是否对搜索的数字商品感兴趣受到分词方式的影响。例如,当细 粒度分词时,会影响文本的语义表达,会搜索很多字面上相似但是语义上不上 很相关的结果,因此用户对搜索的产品的感兴趣程度降低。在一些实施例中, 产品可以是有形产品或无形产品。一个有形产品可以是任何有形状大小或的实 物,例如食品、药品、日用品、化工产品、电器、衣物、汽车、房产、奢侈品 等中的一种或几种的组合。一个无形产品可以包括服务性产品、金融性产品、 知识性产品、互联网产品等中的一种或几种的组合。一个互联网产品可以是任 一满足人们对信息、娱乐、沟通或商务需要的产品。有很多分类方法。以其承 载平台分类为例,互联网产品可以包括个人主机产品、Web产品、移动互联网 产品、商用主机平台产品、嵌入式产品等中的一种或几种的组合。移动互联网 产品可以是用在移动终端的软件、程序或***。在一些实施例中,所述产品还 可以是数字商品。所述数字商品可以指以数字化格式存储的商品。例如数据库、 软件、音频制品、股票指数、电子期刊等。
本发明还提供了一种与前述方法步骤一一对应的装置。
图5是根据本申请一些实施例的语义检索装置的模块示意图。该装置中的 全部或部分功能模块可运行在终端处理设备上。
语义检索装置可以包括一个第一获取模块510、第一分词模块520、搜索 模块530。各模块之间的连接形式可以是有线的、无线的、或两者的结合。任 何一个模块都可以是本地的、远程的、或两者的结合。模块间的对应关系可以 是一对一的,或一对多的。
第一获取模块510可以获取数据。在一些实施例中,第一获取模块410可 以从乘客端设备120和/或司机端设备140获取数据。在一些实施例中,第一 获取模块510可以从分词词表装置105、存储设备130、网络150、信息源160 获取数据。第一获取模块510获得的数据可以包括兴趣点分词词表以及用户输 入的文本等。在一些实施例中,第一获取模块510获取的数据可以被发送至第 一分词模块520和/或搜索模块530。例如,第一获取模块510获取兴趣点分词 词表,第一分词模块520根据兴趣点分词词表对文本进行分词,获得分词结果。
第一分词模块520可以获得分词结果。在一些实施例中,第一分词模块可 以切分文本,获得分词。在一些实施例中,所述文本可以是用户输入的文本。 第一分词模块可以根据隐马尔科夫模型、概率语言模型、汉语分词消歧模型或 其组合实现分词。在一些实施例中,所述隐马尔科夫模型可以包括带权重图模 型和序列标注模型。
在一些实施例中,第一分词模块520根据兴趣点分词词表对输入的文本进 行分词,获得第一分词结果。在一些实施例中,第一分词模块520获取的第一 分词结果可以发送至搜索模块530,用于搜索感兴趣的产品。
搜索模块530可以根据所述第一分词结果,对所述输入的文本进行搜索。 所述分词的方式会影响用户对搜索的产品的感兴趣程度。例如,当细粒度分词 时,第一分词结果会影响输入的文本的语义表达,会搜索很多字面上相似但是 语义上不相关的结果,因此用户对搜索的产品的感兴趣程度降低。在一些实施 例中,搜索模块530搜索的产品可以通过输入/输出组件260输出。输入/输出 组件260输出的信息可以是数字、文本、声音、图像、视频、震动等的一种或 几种的组合。
图6是根据本申请一些实施例的获取分词词表的方法的示例性流程图。
在步骤610中,可以获取词表模型。所述词表模型(也称为“分词词典”) 是未限制应用领域的分词词语的集合。所述词表模型可以来源并应用于搜索引 擎、购物网站、移动出行等多种不同领域。在一些具体的实施例中,词表模型 可以由多个与特定领域相关的子集组成,例如当感兴趣的领域为打车领域时, 所述子集可以是与打车领域相关的分词词表(也称为“兴趣点分词词表”)。在 一些具体的实施例中,分词词语可以由一个分词模型切分语料而产生。在一些 实施例中,还可以统计分词词语的使用频率。所述使用频率越高,代表分词词 语的重要性越高。当所述使用频率大于或等于一个过滤阈值时,所述分词词语 可以被归入分词词典。
在步骤620中,可以获取训练语料。在一些实施例中,所述训练语料可以 是用户的历史输入的文本。例如,用户输入的文本“乘坐顺风车到浙江大学”。 所述训练语料可以基于数据平滑模型和/或语料扩展模型实现。所述数据平滑 模型可以包括Laplace算法、Good-Turing算法、绝对折扣和线性折扣算法、 Witten-Bell算法等。所述语料扩展模型可以包括同义词扩展和/或词类扩展。
在步骤630中,可以对训练语料进行分词,获得第二分词结果。在一些实 施例中,可以根据分词词典对训练语料进行初步的分词,确定初步词语,即第 二分词结果。
在步骤640中,可以根据第二分词结果,确定分词词表。在一个具体实施 例中,所述分词词表可以是兴趣点分词词表。即分词词表是与一个或多个特定 领域相关的分词词语组成的集合。例如,兴趣点分词词表可以与用户的移动出 行相关。所述兴趣点分词词表还可进一步包括最小语义单元和/或最大语义单 元。在一些实施例中,可以通过多轮迭代的方式确定兴趣点分词词表。在多轮 迭代中,当所述第二分词结果符合预设规则时,所述第二分词结果作为新一轮 分词的词表模型,进行下一轮分词。迭代结束后的结果即为兴趣点分词词表。 所述预设规则可以包括词语的使用频率、词语与移动出行领域的相关度等高于 一定阈值。
所述词语的使用频率与词语的重要程度有关。一般来说,使用频率越高, 代表词语的重要性越高。当所述词语的使用频率大于或等于一个过滤阈值时, 即符合预设规则,所述词语可以被归入兴趣点分词词表。在一些实施例中,所 述使用频率可以指词语在一定的时间窗口内(例如,3个小时内)出现的次数。 在一些实施例中,所述使用频率也可以指一个词语在切分后得到的所有分词中 出现的次数。例如,统计“打车”在所有分词中出现的次数。所述过滤阈值可以 预先设定。例如,过滤阈值被设置为10,在24h内词语“打车”出现的次数为 12时,“打车”被归入兴趣点分词词表。再例如,过滤阈值被设置为10,在24h 内分词词语“叫车”出现的次数为9时,“叫车”不会被归入兴趣点分词词表。
在一些实施例中,还可以在所述兴趣点分词词表中加入新词。所述新词基 于用户日志和/或词语特性产生。
所述用户日志可以是信息源160收集的乘客或司机的相关信息。例如,用 户日志可以包括用户输入的检索词和/或点击的数字商品。
所述词语特性可以包括词语的凝聚度、词语的自由度和/或用户用词的习 惯特性。其中,所述词语的凝聚度是指如果两个或多个字能够组成词语,则所 述两个字可以以词语形式同时出现在语料中。所述词语的自由度是指如果两个 或多个字不能够组成词语,则所述两个或多个字可以以独立形式出现在不同的 上下文中。在一些实施例中,通过判断用户输入的文本中两个或多个字能否组 成词语,进而判断词语的凝聚度和/或自由度。例如,在一定的时间范围内(例 如,3h),搜集包括所述两个或多个字的用户输入的文本,计算其中包含所述 两个或多个字组成的词语文本数量与所述一定的时间范围内用户输入的文本 总数的比例得到所述两个字或多个字以词语形式出现的概率,当所述概率大于 或等于一定阈值时(例如,60%),判断所述两个或多个字具有词语的凝聚度。 当所述概率小于或等于一定阈值时(例如,40%),判断所述两个或多个字具 有词语的自由度。所述用户用词的习惯特性是指词语在用户输入的文本和用户 选择的检索结果中共同出现。
需要注意的是,以上关于语义检索的方法的描述,仅为描述方便,并不能 把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说, 在了解本申请的基本原理后,可以在不背离这一原理的情况下,对语义检索的 方法作出改变。例如,可以增加、减少、合并或拆分一些步骤。在一些实施例 中,还以先执行步骤620,后执行步骤610。诸如此类的变形,均在本申请的 保护范围之内。
本发明还提供了一种与前述方法步骤一一对应的装置。
图7是根据本申请一些实施例的分词词表装置105的模块示意图。该装置 中的全部或部分功能模块可运行在服务端处理设备上。
分词词表装置105可以包括一个第二获取模块710、第二分词模块720、 确定模块730。各模块之间的连接形式可以是有线的、无线的、或两者的结合。 任何一个模块都可以是本地的、远程的、或两者的结合。模块间的对应关系可 以是一对一的,或一对多的。
第二获取模块710可以获取数据。第二获取模块710可以从乘客端设备 120、司机端设备140、存储设备130、网络150、信息源160获取数据。第二 获取模块710获得的数据可以包括词表模型和/或训练语料等。在一些实施例 中,第二获取模块710获取的数据可以被发送至第二分词模块720。例如,第 二获取模块710获取的词表模型和/或训练语料可以发送至第二分词模块720, 所述第二分词模块720根据词表模型对训练语料进行分词,获得第二分词结果。
第二分词模块720可以确定第二分词结果。第二分词模块520可以根据词 表模型对训练语料进行分词。在一些实施例中,第二分词模块520获取的第二 分词结果可以发送至确定模块730,用于确定兴趣点分词词表。
确定模块730可以确定信息。所述信息可以包括兴趣点分词词表。在一些 实施例中,所述兴趣点分词词表可以与用户的移动出行相关。在一些实施例中, 确定模块730确定的信息可以发送至第一获取模块710,用于对用户输入的文 本进行分词。
需要注意的是,以上对处理模块的描述仅仅是具体的示例,不应被视为是 唯一可行的实施方案。上述每个模块或单元并不是必须的,每一个模块或单元 均可通过一个或多个部件实现,每个模块或单元的功能也并不局限于此。上述 各个模块或单元可以根据具体实施场景或需要选择添加或删除。显然,对于本 领域的专业人员来说,在了解语义检索的基本原理后,可能在不背离这一原理 的情况下,对处理模块的具体实施方式与步骤进行形式和细节上的各种修正和 改变,还可以做出若干简单推演或替换,在不付出创造性劳动的前提下,对各 模块或单元的顺序作出一定调整、组合或拆分,但是这些修正和改变仍在以上 描述的范围之内。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专 利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品 或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方 面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执 行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、 “模块”、“引擎”、“单元”、“组件”或“***”。此外,本申请的各方面可能 表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可 读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信 号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包 括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除 计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个 指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算 机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、 电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。

Claims (12)

1.一种语义检索的方法,其特征在于,所述方法包括:
获取分词词表;
获取用户输入的文本;
根据分词词表对所述文本进行分词,确定第一分词结果;
根据所述第一分词结果,对所述文本进行搜索。
2.权利要求1所述的语义检索的方法,其特征在于,所述第一分词结果包括细粒度分词结果和粗粒度分词结果。
3.权利要求1所述的语义检索的方法,其特征在于,所述第一分词结果包括同时出现的概率大于设定阈值的多个词语的组合。
4.权利要求1所述的语义检索的方法,其特征在于,所述分词词表的生成方法包括:
获取词表模型;
获取训练语料;
根据词表模型对训练语料进行分词,获得第二分词结果;
根据第二分词结果,确定分词词表。
5.权利要求4所述的获取分词词表的方法,其特征在于,所述根据第二分词结果,确定分词词表进一步包括:通过多轮迭代的方式确定分词词表。
6.权利要求4所述的获取分词词表的方法,其特征在于,所述多轮迭代的每一轮迭代进一步包括:
根据所述词表模型对训练语料进行初步分词,确定初步词语;
获取预设规则;
判断所述初步词语是否符合预设规则;
响应于所述初步词语符合预设规则时,将所述初步词语加入所述词表模型,生成新的词表模型,进行下一轮分词。
7.权利要求1所述的获取分词词表的方法,其特征在于,所述分词词表的生成方法包括:
获取用户日志,所述用户日志包括用户输入的检索词或用户选择的检索结果;
根据所述用户日志,确定新词;
将所述新词加入所述分词词表。
8.权利要求1所述的获取分词词表的方法,其特征在于,所述分词词表的生成方法包括:
获取词语特性,所述词语特性包括词语的凝聚度、词语的自由度和/或用户用词的习惯特性;
根据所述词语特性,确定新词;
将所述新词加入所述分词词表。
9.权利要求1所述的分词词表为兴趣点分词词表。
10.一种语义检索装置,包括:
第一获取模块,用于获取分词词表以及用户输入的文本;
第一分词模块,用于根据分词词表对所述文本进行分词,确定分词结果的第一分词模块,和
搜索模块,用于根据所述分词结果,对所述文本进行搜索。
11.权利要求10所述的语义检索装置,其特征在于,还包括分词词表生成模块,其包括:
第二获取模块,用于获取词表模型以及获取训练语料;
第二分词模块,用于根据词表模型对训练语料进行分词,确定分词结果,和
确定模块,用于根据分词结果确定分词词表。
12.一种计算机可读存储介质,其特征在于所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机运行如权1-9中任意一项所述的方法。
CN201810554080.3A 2018-06-01 2018-06-01 一种语义检索的方法及装置 Pending CN110633352A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810554080.3A CN110633352A (zh) 2018-06-01 2018-06-01 一种语义检索的方法及装置
PCT/CN2019/081444 WO2019228065A1 (en) 2018-06-01 2019-04-04 Systems and methods for processing queries
US17/093,664 US20210089531A1 (en) 2018-06-01 2020-11-10 Systems and methods for processing queries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810554080.3A CN110633352A (zh) 2018-06-01 2018-06-01 一种语义检索的方法及装置

Publications (1)

Publication Number Publication Date
CN110633352A true CN110633352A (zh) 2019-12-31

Family

ID=68966189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810554080.3A Pending CN110633352A (zh) 2018-06-01 2018-06-01 一种语义检索的方法及装置

Country Status (1)

Country Link
CN (1) CN110633352A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN111611450A (zh) * 2020-05-12 2020-09-01 深圳力维智联技术有限公司 跨媒介数据融合方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942188A (zh) * 2013-01-22 2014-07-23 腾讯科技(深圳)有限公司 一种识别语料语言的方法和装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN106874492A (zh) * 2017-02-23 2017-06-20 北京京东尚科信息技术有限公司 搜索方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942188A (zh) * 2013-01-22 2014-07-23 腾讯科技(深圳)有限公司 一种识别语料语言的方法和装置
CN105389349A (zh) * 2015-10-27 2016-03-09 上海智臻智能网络科技股份有限公司 词典更新方法及装置
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN106874492A (zh) * 2017-02-23 2017-06-20 北京京东尚科信息技术有限公司 搜索方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN111611450A (zh) * 2020-05-12 2020-09-01 深圳力维智联技术有限公司 跨媒介数据融合方法、装置及存储介质
CN111611450B (zh) * 2020-05-12 2023-06-13 深圳力维智联技术有限公司 跨媒介数据融合方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107291828B (zh) 基于人工智能的口语查询解析方法、装置及存储介质
CN109074803B (zh) 语音信息处理***和方法
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN109947919B (zh) 用于生成文本匹配模型的方法和装置
CN112106056A (zh) 构造虚构的话语树来提高回答聚敛性问题的能力
JP2018511121A (ja) オーダーペアリングのシステム及び方法
CN111753551B (zh) 基于词向量生成模型的信息生成方法和装置
CN111460248B (zh) 用于线上到线下服务的***和方法
CN110832478B (zh) 用于按需服务的***和方法
CN110709828A (zh) 使用条件随机域模型确定文本属性的***及方法
CN111414561B (zh) 用于呈现信息的方法和装置
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
Nawa et al. Cyber physical system for vehicle application
CN110569335A (zh) 基于人工智能的三元组校验方法、装置及存储介质
US11532333B1 (en) Smart summarization, indexing, and post-processing for recorded document presentation
CN112307774B (zh) 对话理解方法、装置、可读介质及电子设备
CN113806588A (zh) 搜索视频的方法和装置
CN111414471B (zh) 用于输出信息的方法和装置
CN111201421A (zh) 用于确定在线上到线下服务中的最优运输服务类型的***和方法
CN110633352A (zh) 一种语义检索的方法及装置
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
CN111444335A (zh) 中心词的提取方法及装置
CN117171328A (zh) 文本问答处理方法、装置、电子设备及存储介质
CN111191107A (zh) 使用标注模型召回兴趣点的***和方法
CN111859168A (zh) 一种兴趣点确定方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191231

RJ01 Rejection of invention patent application after publication