CN106933797B

CN106933797B - 目标信息的生成方法及装置

Info

Publication number: CN106933797B
Application number: CN201511017033.8A
Authority: CN
Inventors: 郭勇刚; 何伟平
Original assignee: Beijing Qu Na Information Technology Co Ltd
Current assignee: Beijing Yunxing Software Technology Co.,Ltd.
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2021-01-26
Anticipated expiration: 2035-12-29
Also published as: CN106933797A

Abstract

本发明公开了一种目标信息的生成方法及装置。其中，该方法包括：获取初始文本内容；按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；通过预设抽取算法对多个信息点进行抽取，生成目标信息。本发明解决了现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的技术问题，实现了从已有的产品信息中自动抽取出产品的重要信息，减少了人工录入的时间以及降低人工录入的错误率，从而提高了用户获取旅游产品信息的体验。

Description

目标信息的生成方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种目标信息的生成方法及装置。

背景技术

现有技术中生成旅游度假产品信息需要工作人员在后台手动录入，即从大量的文本内容中筛选出旅游度假的信息，将筛选后的信息手动录入到客户端后台，用户才可以通过客户端前台或者搜索引擎来浏览上述旅游度假产品信息。

这里需要说明的是，人工录入信息是一件相应繁琐且容易出错的事情，特别是当产品数量较多时，录入的工作量就显得非常大，旅游信息录入的效率较低。

针对上述现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标信息的生成方法及装置，以至少解决现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种目标信息的生成方法，包括：获取初始文本内容；按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；通过预设抽取算法对多个信息点进行抽取，生成目标信息。

根据本发明实施例的另一方面，还提供了一种目标信息的生成装置，包括：获取单元，用于获取初始文本内容；处理单元，用于按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；抽取单元，用于通过预设抽取算法对多个信息点进行抽取，生成目标信息。

在本发明实施例中，采用获取初始文本内容；按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；通过预设抽取算法对多个信息点进行抽取，生成目标信息，解决了现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的技术问题，实现了从已有的产品信息中自动抽取出产品的重要信息，减少了人工录入的时间以及降低人工录入的错误率，从而提高了用户获取旅游产品信息的体验

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种目标信息的生成方法的流程图；

图2是根据本发明实施例的一种目标信息的生成装置的示意图；以及

图3是根据本发明实施例的一种服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

根据本发明实施例，提供了一种目标信息的生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种目标信息的生成方法的流程图，如图1所示，该方法包括如下步骤：

步骤S12，获取初始文本内容。

具体地，在本方案中，可以通过采集终端来获取初始文本内容，该初始文本内容可以是对旅游度假产品的基本描述信息，该基本描述信息可以包括：产品标题、特色以及行程的描述等信息，需要说明的是，在该基本描述信息中包含了大量无用的信息。

步骤S14，按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点。

具体地，在本方案中，可以通过处理终端按照预设的分词字典来对上述基本描述信息进行提取处理，该提取包括分词提取以及特征值提取，以生成多个信息点，需要说明的是，该信息点的构成为：分词以及分词的特征值。

步骤S16，通过预设抽取算法对多个信息点进行抽取，生成目标信息。

具体地，在本方案中，上述处理终端可以通过预设的算法对上述多个信息点进行抽取，生成旅游产品信息即上述目标信息，需要说明的是，上述目标信息可以为目的地、酒店，购物以及交通信息等。

本实施例通过获取初始文本内容；按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；通过预设算法对多个信息点进行抽取，生成目标信息。容易注意到，在本实施例中，只需要获取到基本描述信息，处理终端可以自动对基本描述信息进行抽取，以生成旅游度假产品信息，大大的节省了录入的时间，也可以避免因为工作量大导致的错误录入，因此，本实施例解决了现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的技术问题。实现了从已有的产品信息中自动抽取出产品的重要信息，减少了人工录入的时间以及降低人工录入的错误率，从而提高了用户获取旅游产品信息的体验。

可选地，在步骤S12，获取初始文本内容之前，本实施例提供的方法还可以包括：

步骤S10，根据旅游词汇数据库创建分词字典，其中，分词字典中包含多个旅游产品词汇以及旅游产品词汇的特征。

具体地，在本方案中，上述旅游词汇数据库可以为通过现有的旅游行业的信息以及相应的产品信息构建的信息知识库，本方案可以利用分词工具根据上述信息知识库构建上述分词字典。

可选地，步骤S14，按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点的步骤可以包括：

步骤S141，对初始文本内容进行分割处理，生成多个子初始文本内容。

具体地，在本方案中，可以对上述基本描述信息进行分割处理，例如，对基本描述信息进行分段或分句，生成上述多个子初始文本内容(例如多个分段或者多个分句)。

步骤S142，使用多个旅游产品词汇依次对每个子初始文本内容进行分词处理以及特征提取处理，生成多个信息点，其中，每个信息点至少包括：分词以及分词的特征值。

具体地，在本方案中，可以通过分词字典中的多个旅游产品词汇对产品的基本信息的文本数据进行分词处理与特征提取，从而得到多个信息点。

需要说明的是，本方案可以通过KMP算法对上述每个子初始文本内容进行分词，以获取产品中的全部提到的信息以及产品的特征。

可选地，上述预设抽取算法可以为面积算法，通过面积算法

步骤S16，通过预设抽取算法对多个信息点进行抽取，生成目标信息的步骤可以包括如下：

步骤S1601，分别统计多个信息点中的第一信息点在每个子初始文本内容的出现频次。

具体地，本方案可以先随机一个信息点即上述信息点，然后统计在各个段落和句子当中的信息点出现的频次。

步骤S1602，根据第一信息点在每个子初始文本内容的出现频次计算第一信息点的出现频次的下降速率。

步骤S1603，在下降速率不超过第一阈值的情况下，确定第一信息点为目标信息。

具体地，在本方案中，可以计算上述第一信息点在各个段落和句子中的下降速率，当下降速率不超过第一阈值的情况下，则说明第一信息点为旅游产品的主要信息，本方案则将上述第一信息点确定为目标信息。

在一种优选地实施例中，本方案可以通过面积算法来抽取旅游产品相关的信息点，即，将所有描述信息中的句子和段落作为面积，用于衡量所描述的产品信息的篇幅，如果一个信息点的在第一个面积内出现的频次为a,在第二个面积内出现的频次为b，则面积下降速率为q＝(a-b)/b，面积下降速率可以用于寻找信息点的区域边界，上述面积主要算法可以将所有信息点的面积按降序排序，然后按面积从大至小寻找边界，在寻找的过程中根据信息的特征累积面积，计算相应的面积下降速度，当下降速率及累积面积大于设定的阈值时，停止查找，则所累积的面积为相应的产品主要信息即上述目标信息。

可选地，步骤S16，通过预设抽取算法对多个信息点进行抽取，生成目标信息的步骤可以包括如下：

步骤S1604，在多个信息点中的第一信息点的特征值超过第二阈值和/或在初始文本内容中包含与第一信息点相关联的文本内容的情况下，确定第一信息点为目标信息。

具体地，在本方案中，可以通过明文规则算法过滤孤立且偶尔提到的信息点：当上述第一信息点的特征值超过第二阈值，则说明该第一信息点为特征值小且自身为孤立的，而且如果在初始文本内容的上下文有相应文字描述第一信息点的相关信息，则认为第一信息点为无意中提到的，并不属于旅游产品的主要信息即上述目标信息。

步骤S1605，按照预设的标准信息点数据库对初始文本内容中的多个信息点进行过滤，将包含于标准信息点数据库的多个信息点确定为目标信息。

具体地，在本方案中，可以通过预设的标准信息点库来实现不可靠信息点的过滤，即将将包含于标准信息点数据库的多个信息点确定为目标信息。

需要说明的是，在本方案中，可以通过语义标注算法过滤类比或者非真实的信息点：语义标注算法为采用人工知识，对大量已有的产品线路进行标注以及最终的结果进行记录，利用这类数据当训练数据进行机器学习模型训练，使用训练的模型对目前的产品数据进行数据处理，过滤类似标注不可靠的信息点。

步骤S1606，获取多个信息点中的第一信息点与其它多个信息点的距离。

步骤S1607，当距离不超过第二阈值的情况下，确定第一信息点为目标信息。

具体地，在本方案中，可以通过信息点间的距离来过滤多个信息点中不可靠的信息点，如果某一个信息点的距离与其它所有信息点的距离相差超过一定的阈值即上述第一阈值，则这个信息点属于这个产品信息。

需要说明的是，本方案也可以通过区域计算方法来过滤多个信息点中不可靠的信息点，所有信息点的特征都在同一个区域里而只有少数信息点不在这一区域且这些少数信息点也不在同一个区域，则排除这些少数信息点。

步骤S1608，计算多个信息点中的第一信息点与其它多个信息点息共同出现在预设文本内容中的概率。

步骤S1609，在概率超过第三阈值的情况下，确定第一信息点为目标信息。

具体地，在本方案中，可以通过共现关系算法过滤对信息产品共现概率较小的信息点，将共现概率较大(即超过第三阈值)的信息点确定为目标信息。需要说明的是，共现关系算法为通过现的有产品信息，通过统计手法，计算不同信息点相互共同出现在同一个产品中的概率大小，利用这些概率来指导对于一个产品中的信息点是否可取，例如，如果信息点A与信息点B和C共现的概率比较大，则产品中如果同时出现A,B,C则认为合理。如果A与B、C共现的概率很小，则如果产品中同时出现A,B,C则认为不合理，此时需要过滤A，以达到产品信息合理的效果。

可选地，在步骤S16，通过预设抽取算法对多个信息点进行抽取，生成目标信息之后，本实施例提供的方法还可以包括：

在步骤S17，将目标信息发送至搜索引擎，其中，目标信息至少包括：目的地、酒店，购物以及交通信息。

具体地，本方案可以将抽取出来的信息点数据(目标信息)提供给搜索引擎，为用户提供搜索依据。

优选地，本方案也可以将上述产品的信息点数据直接显示在上述处理终端，为用户提供参考。

综上，本实施例通过获取产品的基本信息，通过积累的信息知识库对产品的基本信息进行分词与特征提取，获取产品的所有信息点以及特征值，通过分析产品并利用抽取算法(信息面积算法，明文规则算法，语义标注算法，距离计算算法，区域范围算法，共现关系算法)，抽取出产品相关的信息点，以方便用户参考与搜索，提升用户体验，减少供应商的录入成本。

实施例二

本申请还提供了一种目标信息的生成装置，该装置可以用于执行上述目标信息的生成方法，如图2所示，该装置可以包括：获取单元20，用于获取初始文本内容；处理单元22，用于按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；抽取单元24，用于通过预设抽取算法对多个信息点进行抽取，生成目标信息。

本实施例通过获取初始文本内容；按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点；通过预设算法对多个信息点进行抽取，生成目标信息。容易注意到，在本实施例中，只需要获取到基本描述信息，处理终端可以自动对基本描述信息进行抽取，以生成旅游度假产品信息，大大的节省了录入的时间，也可以避免因为工作量大导致的错误录入，因此，本实施例解决了现有的旅游产品信息需要人工针对大量的文本内容进行筛选生成，导致旅游产品信息生成的效率低的技术问题。

可选地，该装置还可以包括：创建单元，用于根据旅游词汇数据库创建分词字典，其中，分词字典中包含多个旅游产品词汇。

可选地，处理单元可以包括：第一处理模块，用于对初始文本内容进行分割处理，生成多个子初始文本内容；第二处理模块，用于使用多个旅游产品词汇依次对每个子初始文本内容进行分词处理以及特征提取处理，生成多个信息点，其中，每个信息点至少包括：分词以及分词的特征值。

可选地，抽取单元可以包括：统计模块，用于分别统计多个信息点中的第一信息点在每个子初始文本内容的出现频次；第一计算模块，用于根据第一信息点在每个子初始文本内容的出现频次计算第一信息点的出现频次的下降速率；第一确定模块，用于在下降速率不超过第一阈值的情况下，确定第一信息点为目标信息。

可选地，抽取单元可以包括：第二确定模块，用于在多个信息点中的第一信息点的特征值超过第二阈值和/或在初始文本内容中包含与第一信息点相关联的文本内容的情况下，确定第一信息点为目标信息。

可选地，抽取单元可以包括：过滤模块，用于按照预设的标准信息点数据库对初始文本内容中的多个信息点进行过滤，将包含于标准信息点数据库的多个信息点确定为目标信息。

可选地，抽取单元还可以包括：获取模块，用于获取多个信息点中的第一信息点与其它多个信息点的距离；第三确定模块，用于当距离不超过第二阈值的情况下，确定第一信息点为目标信息。

可选地，抽取单元还可以包括：第二计算模块，用于计算多个信息点中的第一信息点与其它多个信息点息共同出现在预设文本内容中的概率；第四确定模块，用于在概率超过第三阈值的情况下，确定第一信息点为目标信息。

可选地，该装置还可以包括：发送单元，用于将目标信息发送至搜索引擎，其中，目标信息至少包括：目的地、酒店，购物以及交通信息。

实施例三

本申请还提供了一种服务器，如图3，该服务器可以包括：

接收端30，用于接收初始文本内容；处理器32，用于按照预设的分词字典对初始文本内容进行信息点提取处理，生成多个信息点，以及通过预设抽取算法对多个信息点进行抽取，生成目标信息；发送端34，用于将目标信息发送至用户终端。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标信息的生成方法，其特征在于，包括：

获取初始文本内容；

按照预设的分词字典对所述初始文本内容进行信息点提取处理，生成多个信息点；

通过预设抽取算法对所述多个信息点进行抽取，生成目标信息；

其中，在获取初始文本内容之前，所述方法还包括：根据旅游词汇数据库创建所述分词字典，其中，所述分词字典中包含多个旅游产品词汇以及所述旅游产品词汇的特征；

按照预设的分词字典对所述初始文本内容进行提取处理，生成多个信息点的步骤包括：对所述初始文本内容进行分割处理，生成多个子初始文本内容；使用所述多个旅游产品词汇依次对每个所述子初始文本内容进行分词处理以及特征提取处理，生成所述多个信息点，其中，每个所述信息点至少包括：分词以及所述分词的特征值；

通过预设算法对所述多个信息点进行抽取，生成目标信息的步骤包括：

分别统计所述多个信息点中的第一信息点在每个所述子初始文本内容的出现频次；根据所述第一信息点在每个所述子初始文本内容的所述出现频次计算所述第一信息点的所述出现频次的下降速率；在所述下降速率不超过第一阈值的情况下，确定所述第一信息点为所述目标信息。

2.根据权利要求1所述的方法，其特征在于，通过预设抽取算法对所述多个信息点进行抽取，生成目标信息的步骤包括：

在所述多个信息点中的第一信息点的特征值超过第二阈值；和/或

在所述初始文本内容中包含与所述第一信息点相关联的文本内容的情况下，确定所述第一信息点为所述目标信息。

3.根据权利要求1所述的方法，其特征在于，通过预设抽取算法对所述多个信息点进行抽取，生成目标信息的步骤包括：

按照预设的标准信息点数据库对所述初始文本内容中的所述多个信息点进行过滤，将包含于所述标准信息点数据库的所述多个信息点确定为所述目标信息。

4.根据权利要求1所述的方法，其特征在于，通过预设抽取算法对所述多个信息点进行抽取，生成目标信息的步骤包括：

获取所述多个信息点中的第一信息点与其它所述多个信息点的距离；

当所述距离不超过第二阈值的情况下，确定所述第一信息点为目标信息。

5.根据权利要求1所述的方法，其特征在于，通过预设抽取算法对所述多个信息点进行抽取，生成目标信息的步骤包括：

计算所述多个信息点中的第一信息点与其它所述多个信息点息共同出现在预设文本内容中的概率；

在所述概率超过第三阈值的情况下，确定所述第一信息点为目标信息。

6.根据权利要求1至5任意一项所述的方法，其特征在于，在通过预设抽取算法对所述多个信息点进行抽取，生成目标信息之后，所述方法还包括：

将所述目标信息发送至搜索引擎，其中，所述目标信息至少包括：目的地、酒店，购物以及交通信息。

7.一种目标信息的生成装置，其特征在于，包括：

获取单元，用于获取初始文本内容；

处理单元，用于按照预设的分词字典对所述初始文本内容进行信息点提取处理，生成多个信息点；

抽取单元，用于通过预设抽取算法对所述多个信息点进行抽取，生成目标信息；

创建单元，用于根据旅游词汇数据库创建所述分词字典，其中，所述分词字典中包含多个旅游产品词汇以及所述旅游产品词汇的特征；

所述处理单元包括：第一处理模块，用于对所述初始文本内容进行分割处理，生成多个子初始文本内容；第二处理模块，用于使用所述多个旅游产品词汇依次对每个所述子初始文本内容进行分词处理以及特征提取处理，生成所述多个信息点，其中，每个所述信息点至少包括：分词以及所述分词的特征值；

所述抽取单元包括：

统计模块，用于分别统计所述多个信息点中的第一信息点在每个所述子初始文本内容的出现频次；

第一计算模块，用于根据所述第一信息点在每个所述子初始文本内容的所述出现频次计算所述第一信息点的所述出现频次的下降速率；

第一确定模块，用于在所述下降速率不超过第一阈值的情况下，确定所述第一信息点为所述目标信息。

8.根据权利要求7所述的装置，其特征在于，所述抽取单元包括：

第二确定模块，用于在所述多个信息点中的第一信息点的特征值超过第二阈值和/或在所述初始文本内容中包含与所述第一信息点相关联的文本内容的情况下，确定所述第一信息点为所述目标信息。

9.根据权利要求7所述的装置，其特征在于，所述抽取单元包括：

过滤模块，用于按照预设的标准信息点数据库对所述初始文本内容中的所述多个信息点进行过滤，将包含于所述标准信息点数据库的所述多个信息点确定为所述目标信息。

10.根据权利要求7所述的装置，其特征在于，所述抽取单元包括：

获取模块，用于获取所述多个信息点中的第一信息点与其它所述多个信息点的距离；

第三确定模块，用于当所述距离不超过第二阈值的情况下，确定所述第一信息点为目标信息。

11.根据权利要求7所述的装置，其特征在于，所述抽取单元包括：

第二计算模块，用于计算所述多个信息点中的第一信息点与其它所述多个信息点息共同出现在预设文本内容中的概率；

第四确定模块，用于在所述概率超过第三阈值的情况下，确定所述第一信息点为目标信息。

12.根据权利要求7至11任意一项所述的装置，其特征在于，所述装置还包括：

发送单元，用于将所述目标信息发送至搜索引擎，其中，所述目标信息至少包括：目的地、酒店、购物以及交通信息。

13.一种服务器，其特征在于，包括：

接收端，用于接收初始文本内容；

处理器，用于按照预设的分词字典对所述初始文本内容进行信息点提取处理，生成多个信息点，以及通过预设抽取算法对所述多个信息点进行抽取，生成目标信息；

发送端，用于将所述目标信息发送至用户终端；

其中，所述服务器还用于：在接收初始文本内容之前，根据旅游词汇数据库创建所述分词字典，其中，所述分词字典中包含多个旅游产品词汇以及所述旅游产品词汇的特征；

所述处理器用于通过如下步骤实现按照预设的分词字典对所述初始文本内容进行提取处理，生成多个信息点：对所述初始文本内容进行分割处理，生成多个子初始文本内容；使用所述多个旅游产品词汇依次对每个所述子初始文本内容进行分词处理以及特征提取处理，生成所述多个信息点，其中，每个所述信息点至少包括：分词以及所述分词的特征值；

所述处理器通过预设算法对所述多个信息点进行抽取，生成目标信息的步骤包括：