CN115827881A

CN115827881A - 一种基于旅游知识图谱的多模态旅游信息定位式检索方法

Info

Publication number: CN115827881A
Application number: CN202111088382.4A
Authority: CN
Inventors: 任桐炜; 黄蕾; 于凡; 赵志翔
Original assignee: Nanjing Research Institute Of Nanjing University; Nanjing University
Current assignee: Nanjing Research Institute Of Nanjing University; Nanjing University
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-03-21

Abstract

一种基于旅游知识图谱的多模态旅游信息定位式检索方法，根据图文游记和旅游视频混合数据库中的多模态数据构建带有权值的旅游知识图谱，并在构建和更新过程中保存实体和实体间关系对数据源的语义位置索引，用户进行文本搜索时对文本抽取搜索实体和搜索实体间的关系，映射到知识图谱的一个子图，对该子图增强扩展后根据对应索引返回检索结果。本发明对检索文本返回的结果同样是多模态的，并且指向语义对应的位置。对于数据库中的游记数据，返回增强后子图对应的文本和图片及所在游记；对于数据库中的旅游视频数据，返回增强后子图对应的视频片段和整个视频。本发明解决了多模态数据难以有效管理，且旅游数据检索难以定位到目标语义单位的问题。

Description

一种基于旅游知识图谱的多模态旅游信息定位式检索方法

技术领域

本发明属于多媒体计算领域，涉及文本、图片和视频的语义分析，具体为一种基于旅游知识图谱的多模态旅游信息定位式检索方法。

背景技术

知识图谱可以描述客观世界的概念、实体、事件及其之间的关系，从而支持信息检索、智能问答等应用。旅游大数据来源复杂，体量巨大，模态多样，难以有效获取和管理，因此多模态的旅游数据难以准确检索。利用多模态的旅游大数据构建多模态知识图谱可以有效增强对旅游数据的管理和利用能力。

如今的旅游信息检索应用大多依赖于文本查找和标签匹配，当检索要求复杂时难以给出准确的检索结果。旅游知识图谱可以支持更复杂的检索要求，但是现有的旅游知识图谱模态单一，大多是文本数据，少有图像数据和视频数据。然而，伴随着移动终端的发展，现今的互联网充斥着海量的图片和视频数据，人们在旅游的时候往往会拍摄大量的图片和视频，图文游记和旅游vlog成为了当下时兴的旅游经历分享方式。并且，基于文字的检索方式对于无标签的图片和视频难以定位到语义对应的位置，仍需要用户二次人工筛选定位，检索难度大。因此，传统的检索方式和单一模态的旅游知识图谱无法支持对目前多模态旅游大数据的定位式检索。

发明内容

本发明要解决的问题是：对多模态旅游信息的检索定位，通过构建多模态旅游知识图谱实现对多模态旅游大数据进行检索的语义定位，得到更符合要求的检索结果。

本发明的技术方案为：一种基于旅游知识图谱的多模态旅游信息定位式检索方法，基于图文游记数据和旅游视频数据混合的多模态旅游数据库，构建带有权值的旅游知识图谱，并在构建和更新过程中保存实体和实体间关系对数据源的语义位置索引，用户进行文本搜索时对文本抽取搜索实体和搜索实体间的关系，映射到知识图谱的一个子图，对该子图增强扩展后根据对应索引返回检索结果，返回的检索结果为子图在多模态旅游数据库中对应的多模态数据。

作为优选方式，构建带有权值的旅游知识图谱具体为：

1)根据旅游垂直网站构建本体库，定义实体类型，包括城市、景点、地点、时间、活动、和其他实体；

2)从旅游垂直网站和视频网站获取多模态数据，作为多模态旅游数据库，包括从旅游垂直网站获取半结构化城市、景点数据以及非结构化的游记数据，以及从视频网站获取非结构化的旅游类视频；

3)将多模态数据进行预处理，对游记数据中的文本进行分词、词性分析和依存关系分析，对游记数据中的图片进行物体识别，对视频进行物体跟踪识别和场景文字识别，并对场景文字进行分词、词性分析和依存关系分析；

4)从游记数据的分析的文本、视频识别的场景文字文本、游记数据识别的物体、视频跟踪识别的物体中，结合半结构化数据抽取语义实体；

5)挖掘提取的实体之间的关系，构成知识图谱，实体间关系权值计算方法为：

w(h，r，t)＝P((r，t)|h)，

其中w(h，r，t)表示头部实体h和尾部实体t之间的关系(h，r，t)的权值，P((r，t)|h)表示实体关系在头部实体h出现条件下关系为r，尾部实体为t的事件出现的概率。

作为优选方式，检索方法具体为：

1)基于多模态旅游数据构建带有权值的旅游知识图谱；

2)在构建旅游知识图谱的过程中，保存知识图谱中实体和实体关系所对应数据源的语义单元位置索引，游记文本数据源的实体语义定位表示为＜文档id，章id，节id，段id，句id，词id＞，游记图片数据源的实体语义定位表示为＜文档id，章id，节id，段id，图片语句id，包围框＞，视频数据源图像中的实体语义定位表示为＜视频id，镜头id，0，0，帧id，包围框＞，视频数据源识别出的文本中实体语义定位表示为＜视频id，镜头id，0，0，句id，词id＞，数据源的实体关系语义定位表示为＜头实体定位，尾实体定位＞；

3)对输入的检索文本抽取实体和实体关系；

4)将步骤3)获得的实体和实体关系映射到步骤1)构建的知识图谱，得到其中的一个子图；

5)对步骤4)得到的子图，将每个实体根据设置的扩展阈值沿实体关系扩展关联实体，将扩展的实体和实体关系加入到子图中，得到增强子图；

6)根据步骤5)增强子图中实体和实体关系对应的源数据语义位置返回检索数据。

本发明对检索文本返回的结果同样是多模态的，并且指向语义对应的位置。对于数据库中的游记数据，返回增强后子图对应的文本和图片及所在游记；对于数据库中的旅游视频数据，返回增强后子图对应的视频片段和整个视频。

进一步地，本发明实现带权值的多模态旅游知识图谱构建和检索文本子图映射检索，本发明通过对多模态旅游大数据构建带权值的多模态知识图谱，为多模态旅游信息的定位式检索提供了解决方案，对检索文本构建检索子图后映射到知识图谱子图，根据知识图谱子图中实体和实体关系对源数据的语义位置索引，返回符合检索要求的源数据及对应语义位置。

本发明首先利用文本分析、图片物体识别、视频场景文字识别和视频物体跟踪等技术构建了一个带权值的多模态旅游知识图谱。不同于单一文本模态旅游知识图谱，该知识图谱能够抽取图像和视频中的知识与文本中抽取的支持相互补充和制约，提供更加丰富准确的实体和实体关系。本发明利用构建的带权值的多模态旅游知识图谱支持了多模态旅游信息的定位式检索。有效地解决了传统文本检索和标签检索不能支持复杂语义检索要求的问题，以及解决了单一文本模态知识图谱不能对图片、视频进行语义检索的问题。同时，本发明使用了定位式检索，可以帮助用户找到定位更加精确的检索目标，无需人工对检索返回数据再次搜索理解，尤其是对于长视频数据源，降低人工花费的效果更加明显。

本发明的有效利益是：提供了一种多模态旅游信息定位式搜索的解决方案，通过构建带权值的多模态旅游知识图谱，增强了多模态旅游大数据的复杂语义要求的检索能力，通过知识图谱对数据源的语义位置索引，能够返回更加精确的检索结果，降低了人工二次搜索理解的成本，具有良好的广泛性与实用性。

附图说明

图1为本发明的检索原理示意。

图2为本发明的多模态旅游知识图谱构建过程。

具体实施方式

本发明提出一种基于旅游知识图谱的多模态旅游信息定位式检索方法，原理如图1所示，根据图文游记数据和旅游视频数据混合数据库中的多模态数据构建多模态旅游知识图谱，并在构建和更新过程中保存实体和实体间关系对数据源的语义位置索引，用户进行文本搜索时对文本抽取搜索实体和搜索实体间的关系，映射到知识图谱的一个子图，对该子图增强扩展后根据对应索引返回检索结果。本发明对检索文本返回的结果同样是多模态的，并且指向语义对应的位置。对于数据库中的游记数据，返回增强后子图对应的文本和图片及所在游记；对于数据库中的旅游视频数据，返回增强后子图对应的视频片段和整个视频。

本发明对带权值的多模态旅游知识图谱构建和检索文本子图映射检索的实现包括：

1)如图2所示，基于多模态旅游数据构建带有权值的旅游知识图谱；

1.1)对视频使用镜头分割软件ShotDetect进行镜头分割；

1.2)对步骤1.1)分割的每个镜头每0.5秒取帧，并使用文本识别软件PaddleOCR识别帧场景文本；

1.3)对每个镜头中步骤1.2)识别的文本去重，并以镜头为单位保存；

1.4)对视频使用***CenterTrack进行多类别多物体跟踪；

1.5)对步骤1.4)跟踪结果保存每帧的物体类别和物体包围框；

1.6)对游记图片使用Mask R-CNN进行物体识别；

1.7)对步骤1.6)识别结果保存物体的类别的物体包围框；

1.8)对游记每章的每节文本进行分句；

1.9)对步骤1.8)分句结果进行分词；

1.10)基于步骤1.9)分词结果进行词性分析；

1.11)基于步骤1.9)分词结果进行命名实体识别；

1.12)基于步骤1.9)分词结果进行依存句法分析；

1.13)对视频每个镜头文本进行分句；

1.14)对步骤1.13)分句结果进行分词；

1.15)基于步骤1.13)分词结果进行词性分析；

1.16)基于步骤1.13)分词结果进行命名实体识别；

1.17)基于步骤1.13)分词结果进行依存句法分析。

1.18)对城市和对应景点构建映射关系；

1.19)按照游记行文顺序将图片和游记文本的句作为语义单位；

1.20)从步骤1.19)每个句中词性为地名的命名实体中选取能与城市景点映射对应的命名实体抽取为城市实体和景点实体，并记录为最近城市或最近景点；

1.21)从步骤1.19)每个句中词性为地名的命名实体中选取未能与城市景点映射对应的命名实体抽取为地点实体；

1.22)从步骤1.19)每个句中选取临近时间词组合抽取为时间实体；

1.23)从步骤1.19)每个句中选取动词抽取为活动实体；

1.24)从步骤1.19)每个句中选取与动词、介词具有依存关系的非地点名词及图片中的物体抽取为其他实体；

1.25)按照视频镜头时间顺序将视频的镜头、视频的文本识别句作为语义单位；

1.26)从步骤1.25)每个句中词性为地名的命名实体中选取能与城市景点映射对应的命名实体抽取为城市实体和景点实体，并记录为最近城市或最近景点；

1.27)从步骤1.25)每个句中词性为地名的命名实体中选取未能与城市景点映射对应的命名实体抽取为地点实体；

1.28)从步骤1.25)每个句中选取临近时间词组合抽取为时间实体；

1.29)从步骤1.25)每个句中选取动词抽取为活动实体；

1.30)从步骤1.25)每个句中选取与动词、介词具有依存关系的非地点名词及镜头中跟踪的物体抽取为其他实体；

1.31)对从步骤1.19)到步骤1.30)抽取的实体计算莱文斯坦比合并相同类别实体。

1.32)对抽取的景点实体和最近城市实体构建所属关系；

1.33)对抽取的地点实体和最近城市实体构建所属关系；

1.34)对抽取的地点实体和最近景点实体构建所属关系；

1.35)对抽取的活动实体和最近景点实体构建发生在关系；

1.36)对抽取的活动实体和地点实体根据依存关系构建发生在关系；

1.37)对抽取的活动实体和时间实体根据依存关系构建发生时关系；

1.38)对抽取的活动实体和时间实体根据依存关系构建发生时关系；

1.39)对抽取的景点实体和地点实体根据关键词和依存关系构建位置接近关系；

1.40)对抽取的其他实体和地点、景点、城市实体根据关键词和依存关系构建利用到达和利用出发关系；

1.41)对抽取的其他实体间根据依存关系或语义顺序构建所属关系；

1.42)对从步骤3.32)到步骤3.41)抽取的实体间关系权值计算方法为：

w(h,r,t)＝P((r，t)|h)，

其中w(h,r,t)表示头部实体h和尾部实体t之间的关系(h,r,t)的权值，P((r,t)|h)表示实体关系在头部实体h出现条件下关系为r，尾部实体为t的事件出现的概率。

2)在步骤1)构建旅游知识图谱的过程中保存知识图谱中实体和实体关系对应源数据的语义单元位置索引，游记文本数据源的实体语义定位表示为<文档id，章id，节id，段id，句id，词id>，游记图片数据源的实体语义定位表示为<文档id，章id，节id，段id，图片语句id，包围框>，视频数据源图像中的实体语义定位表示为<视频id，镜头id，0，0，帧id，包围框>，视频数据源识别出的文本中实体语义定位表示为<视频id，镜头id，0，0，句id，词id>，数据源的实体关系语义定位表示为<头实体定位，尾实体定位>；；

3)对给定的检索文本抽取实体和实体关系：

3.1)对检索文本进行文本识别分析；

3.2)从步骤3.1)得到的分析后数据中根据词性和句法依存关系抽取语义实体；

3.3)从步骤3.1)得到的分析后数据中根据句法依存关系抽取实体间关系。

4)将步骤3)获得的检索文本实体和实体关系映射到步骤1)构建的知识图谱中的一个子图：

4.1)对检索文本中的实体和实体关系构建检索子图；

4.2)将步骤4.1)中构建的检索子图映射到步骤1)构建的带权值的旅游知识图谱的一个检索子图。

5)对步骤4)得到的映射的检索子图，将每个实体根据阈值沿实体关系扩展关联实体，将扩展的实体和实体关系加入到子图中得到增强子图：

5.1)对于边缘实体h，子图暂时不作延申，对于边缘实体关系(h，r，t)，将实体t作为边缘实体，现子图只存在边缘实体而不存在边缘实体关系；

5.2)对于步骤5.1)得到的子图，对于边缘实体h和非子图实体

如果存在非子图关系

关系且

大于等于阈值α，将非子图实体

和非子图关系

添加为扩展子图实体

和扩展子图实体关系

同样地，如果存在非子图关系

关系且

大于等于阈值α，将非子图实体

和非子图关系

关添加为扩展子图实体

和扩展子图实体关系

5.3)对于步骤5.2)得到的扩展子图，对于原边缘实体h，和非子图实体

如果存在非子图关系

且

大于等于阈值α，将非子图实体

和非子图关系

添加为扩展子图实体

和扩展子图实体关系

同样地，如果存在非子图关系

且

大于等于阈值α，将非子图实体

和非子图关系

添加为扩展子图实体

和扩展子图实体关系

由此类推直到对非子图实体

的权值乘积均小于阈值α，则对于原边缘实体h的扩展结束；

5.4)当所有边缘实体扩展结束，该子图扩展结束。

6)根据步骤5)增强子图中实体和实体关系，对应查询多模态旅游数据库中源数据语义位置，返回检索数据，具体为：

6.1)对增强子图中的实体和实体关系，取得源数据映射索引；

6.2)根据映射索引查询多模态旅游数据库，对于数据库中的游记数据，返回索引对应的文本和图片及所在游记；对于数据库中的旅游视频数据，返回索引对应的视频片段和整个视频。

Claims

1.一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是基于图文游记数据和旅游视频数据混合的多模态旅游数据库，构建带有权值的旅游知识图谱，并在构建和更新过程中保存实体和实体间关系对数据源的语义位置索引，用户进行文本搜索时对文本抽取搜索实体和搜索实体间的关系，映射到知识图谱的一个子图，对该子图增强扩展后根据对应索引返回检索结果，返回的检索结果为子图在多模态旅游数据库中对应的多模态数据。

2.根据权利要求1所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是构建带有权值的旅游知识图谱具体为：

w(h,r,t)＝P((r,t)|h)，

3.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是对游记数据进行图片物体识别为：

1)对游记图片使用Mask R-CNN进行物体识别；

2)对物体识别结果，保存物体的类别和物体包围框。

4.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是对视频的场景文字文本的获取具体为：

1)对视频使用ShotDetect进行镜头分割；

2)对分割的每个镜头每0.5秒取帧，并使用PaddleOCR识别帧场景文本；

3)对每个镜头中识别的场景文本去重，并以镜头为单位保存，得到场景文字文本。

5.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是对视频的物体识别跟踪具体为：

1)对视频使用CenterTrack进行多类别多物体跟踪；

2)对跟踪结果保存每帧的物体类别和物体包围框。

6.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是分词、词性分析和依存关系分析具体为：

1)对游记文本每章的每节文本进行分句，或对场景文字文本进行分句；

2)对分句结果进行分词；

3)基于分词结果进行词性分析；

4)基于分词结果进行命名实体识别；

5)基于分词结果进行依存句法分析。

7.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是实体抽取中，对游记数据中的语义实体抽取具体为：

1)根据半结构化数据对获取的城市和对应景点构建映射关系；

2)按照游记数据的行文顺序将图片和文本的句作为语义单位；

3)从游记数据文本每个句中词性为地名的命名实体中选取能与城市、景点映射对应的命名实体，抽取为城市实体和景点实体，并记录为最近城市或最近景点；

4)从游记数据文本每个句中词性为地名的命名实体中选取未能与城市景点映射对应的命名实体，抽取为地点实体；

5)从游记数据文本每个句中选取临近时间词组合抽取为时间实体；

6)从游记数据文本每个句中选取动词抽取为活动实体；

7)从游记数据文本每个句中选取与动词、介词具有依存关系的非地点名词，及游记数据图片中识别的物体，抽取为其他实体；

8)对从步骤3)到步骤7)抽取的实体计算莱文斯坦距离，并根据设定的阈值合并相近实体。

8.根据权利要求2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是实体抽取中，对视频中的语义实体抽取具体为：

2)按照视频镜头时间顺序将视频的镜头及对应镜头中的识别句作为语义单位；

3)从每个识别句的词性为地名的命名实体中，选取能与城市景点映射对应的命名实体，抽取为城市实体和景点实体，并记录为最近城市或最近景点；

4)从每个识别句的词性为地名的命名实体中，选取未能与城市景点映射对应的命名实体抽取为地点实体；

5)从每个识别句中选取临近时间词组合抽取为时间实体；

6)从每个识别句中选取动词抽取为活动实体；

7)从每个识别句中选取与动词、介词具有依存关系的非地点名词，以及镜头中跟踪的物体，抽取为其他实体；

9.根据权利要求7或8所述的一种基于多模态旅游大数据的知识图谱构建方法，其特征是实体关系挖掘为异构关系挖掘，具体为：

1)对抽取的景点实体和最近城市实体构建所属关系；

2)对抽取的地点实体和最近城市实体构建所属关系；

3)对抽取的地点实体和最近景点实体构建所属关系；

4)对抽取的活动实体和最近景点实体构建发生在关系；

5)对抽取的活动实体和地点实体根据依存关系构建发生在关系；

6)对抽取的活动实体和时间实体根据依存关系构建发生时关系；

7)对抽取的活动实体和时间实体根据依存关系构建发生时关系；

8)对抽取的景点实体和地点实体根据关键词和依存关系构建位置接近关系；

9)对抽取的其他实体和地点、景点、城市实体根据关键词和依存关系构建利用到达和利用出发关系；

10)对抽取的其他实体间根据依存关系或语义顺序构建所属关系。

10.根据权利要求1或2所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是检索方法具体为：

1)基于多模态旅游数据构建带有权值的旅游知识图谱；

2)在构建旅游知识图谱的过程中，保存知识图谱中实体和实体关系所对应数据源的语义单元位置索引,游记文本数据源的实体语义定位表示为<文档id，章id，节id，段id，句id，词id>，游记图片数据源的实体语义定位表示为<文档id，章id，节id，段id，图片语句id，包围框>，视频数据源图像中的实体语义定位表示为<视频id，镜头id，0，0，帧id，包围框>，视频数据源识别出的文本中实体语义定位表示为<视频id，镜头id，0，0，句id，词id>，数据源的实体关系语义定位表示为<头实体定位，尾实体定位>；

3)对输入的检索文本抽取实体和实体关系；

11.根据权利要求10所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是对输入的检索文本实体抽取和实体关系抽取具体为：

3.1)对检索文本进行文本识别分析；

3.2)从文本识别分析结果中根据词性和句法依存关系抽取语义实体；

3.3)从文本识别分析结果中根据句法依存关系抽取实体间关系。

12.根据权利要求10所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是步骤4)通过映射得到知识图谱检索子图为：

4.1)对检索文本中的实体和实体关系构建检索子图；

4.2)将步骤4.1)中构建的检索子图映射到构建的带权值的旅游知识图谱的一个检索子图；

4.3)将步骤4.2)中映射的知识图谱检索子图根据边缘实体与其他实体间关系权值的阈值，扩展实体和实体关系。

13.根据权利要求12所述的一种基于旅游知识图谱的多模态旅游信息定位式检索方法，其特征是对子图的权值阈值扩展为：

4.3.1)对于边缘实体h，子图暂时不作延伸，对于边缘实体关系(h,r,t)，将实体t作为边缘实体，现子图只存在边缘实体而不存在边缘实体关系；

4.3.2)对于步骤4.3.1)得到的子图，对于边缘实体h和非子图实体