CN111460225A - 影视作品搜索方法、装置及计算机可读存储介质 - Google Patents

影视作品搜索方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111460225A
CN111460225A CN202010256971.8A CN202010256971A CN111460225A CN 111460225 A CN111460225 A CN 111460225A CN 202010256971 A CN202010256971 A CN 202010256971A CN 111460225 A CN111460225 A CN 111460225A
Authority
CN
China
Prior art keywords
movie
television
film
keywords
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010256971.8A
Other languages
English (en)
Inventor
邓理平
黄志云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aotian Technology Co ltd
Original Assignee
Shenzhen Aotian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aotian Technology Co ltd filed Critical Shenzhen Aotian Technology Co ltd
Priority to CN202010256971.8A priority Critical patent/CN111460225A/zh
Publication of CN111460225A publication Critical patent/CN111460225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种影视作品搜索方法、装置及计算机可读存储介质,所述影视作品搜索方法包括以下步骤:接收输入词语,并搜索影视标签库;若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。本发明通过当影视标签库中不存在与用户输入的词语一致的影视标签时,则先计算输入词语对应的近义词,再通过近义词搜索影视作品,从而解决了在搜索影视作品时,存在输入的词语不能搜索到相应的影视作品的问题。

Description

影视作品搜索方法、装置及计算机可读存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种影视作品搜索方法、装置及计算机可读存储介质。
背景技术
随着影视业的迅猛发展,成千上万的影视作品走进千家万户,极大丰富了智能电视用户的业余生活,使人们逐渐从信息匮乏的时代进入信息过载的时代。现今如何快速找到自己感兴趣的影视作品,成为用户迫切待解决的难题。
当前的技术是通过人工标注的方式,给影视作品添加标签,然后通过标签检索相应的影视作品。实际上,由于标签的数量有限,只有较少的关键词能检索到对应的结果。因此,导致在搜索影视作品时,输入相关性不大的词语不一定能搜索到相应的影视作品,从而降低搜索影视作品的体验感。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种影视作品搜索方法、装置及计算机可读存储介质,旨在解决在搜索影视作品时,存在输入的词语不能搜索到相应的影视作品的技术问题。
为实现上述目的,本发明提供一种影视作品搜索方法,所述影视作品搜索方法包括以下步骤:
接收输入词语,并搜索影视标签库;
若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;
若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;
搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。
可选地,所述接收输入词语,并搜索影视标签库的步骤之前,还包括:
获取影视作品对应的影视语料;
确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库。
可选地,所述关键词包括第一关键词和第二关键词,所述确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个分词为第一关键词,将所述第一关键词作为所述影视作品的影视标签,以将所述第一关键词与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个分词为第二关键词,将所述第二关键词作为所述影视作品的影视标签,以将所述第二关键词与所述影视作品对应的编号关联存储于所述影视标签库。
可选地,所述第二关键词包括第三关键词、第四关键词以及第五关键词,所述确定所述不规则影视语料中的多个分词为第二关键词的步骤包括:
构建所述不规则影视语料中不同分词之间的关系网络,并计算得到各个分词的第一权重,选取所述第一权重大于第一预设阈值的分词作为第三关键词;
确定所述不规则影视语料中各个分词的词频和逆文本词频,并计算得到各个分词的第二权重,选取所述第二权重大于第二预设阈值的分词作为第四关键词;
基于预先训练完成的主题模型,确定所述不规则影视语料对应的主题,将所述主题作为所述第五关键词。
可选地,所述获取所述影视语料中的规则影视语料以及不规则影视语料的步骤包括:
对所述影视语料中原始的规则影视语料进行数据清洗,得到规范化的规则影视语料;
对所述影视语料中原始的不规则影视语料进行分词,得到包含多个分词的不规则影视语料。
可选地,所述确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤之后,还包括:
确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库。
可选地,所述权重包括第一权重以及第二权重,所述确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个词语为第一关键词,以及确定所述第一关键词对应的第一权重,并将所述第一关键词、第一权重与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个词语为第二关键词,以及确定所述第二关键词对应的第二权重,将所述第二关键词、所述第二权重与所述影视作品对应的编号关联存储于所述影视标签库。
可选地,所述输出所述第一目标影视标签对应的所有目标影视作品的步骤包括:
确定各个目标影视作品对应的目标权重;
基于各个目标影视作品对应的目标权重,对所有的目标影视作品进行排序,输出所述第一目标影视标签对应的所有目标影视作品。
此外,为实现上述目的,本发明还提供一种影视作品搜索装置,所述影视作品搜索装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的影视作品搜索程序,所述影视作品搜索程序被所述处理器执行时实现如上述的影视作品搜索方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有影视作品搜索程序,所述影视作品搜索程序被处理器执行时实现如上述的影视作品搜索方法的步骤。
本发明通过接收输入词语,并搜索影视标签库;若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。在本实施例中,通过接收用户输入的词语,在影视标签库中搜索与输入词语相匹配的目标影视标签,若影视标签库中存在与输入词语一致的第一目标影视标签,那么可以直接输出第一目标影视标签对应的目标影视作品;若影视标签库中不存在与输入词语相匹配的影视标签,则先计算输入词语的近义词,再搜索影视标签库中与近义词一致的第二目标影视标签,从而输出第二目标影视标签对应的目标影视作品,一方面,在影视标签库中存在大量的影视标签,增加了基于输入词语搜索到影视作品的可能性,另一方面,当影视标签库中不存在与用户输入的词语一致的影视标签时,则先计算输入词语对应的近义词,再通过近义词搜索影视作品,从而解决了在搜索影视作品时,存在输入的词语不能搜索到相应的影视作品的问题,保证用户基于输入词语搜索影视作品时具有更高的召回率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的影视作品搜索装置结构示意图;
图2为本发明影视作品搜索方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的影视作品搜索装置结构示意图。
本发明实施例影视作品搜索装置可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该影视作品搜索装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,影视作品搜索装置还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在影视作品搜索装置移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别影视作品搜索装置姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,影视作品搜索装置还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的影视作品搜索装置结构并不构成对影视作品搜索装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及影视作品搜索程序。
在图1所示的影视作品搜索装置中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的影视作品搜索程序。
在本实施例中,影视作品搜索装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的影视作品搜索程序,其中,处理器1001调用存储器1005中存储的影视作品搜索程序时,并执行以下操作:
接收输入词语,并搜索影视标签库;
若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;
若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;
搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
获取影视作品对应的影视语料;
确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个分词为第一关键词,将所述第一关键词作为所述影视作品的影视标签,以将所述第一关键词与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个分词为第二关键词,将所述第二关键词作为所述影视作品的影视标签,以将所述第二关键词与所述影视作品对应的编号关联存储于所述影视标签库。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
构建所述不规则影视语料中不同分词之间的关系网络,并计算得到各个分词的第一权重,选取所述第一权重大于第一预设阈值的分词作为第三关键词;
确定所述不规则影视语料中各个分词的词频和逆文本词频,并计算得到各个分词的第二权重,选取所述第二权重大于第二预设阈值的分词作为第四关键词;
基于预先训练完成的主题模型,确定所述不规则影视语料对应的主题,将所述主题作为所述第五关键词。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
对所述影视语料中原始的规则影视语料进行数据清洗,得到规范化的规则影视语料;
对所述影视语料中原始的不规则影视语料进行分词,得到包含多个分词的不规则影视语料。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个词语为第一关键词,以及确定所述第一关键词对应的第一权重,并将所述第一关键词、第一权重与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个词语为第二关键词,以及确定所述第二关键词对应的第二权重,将所述第二关键词、所述第二权重与所述影视作品对应的编号关联存储于所述影视标签库。
进一步地,处理器1001可以调用存储器1005中存储的影视作品搜索程序,还执行以下操作:
确定各个目标影视作品对应的目标权重;
基于各个目标影视作品对应的目标权重,对所有的目标影视作品进行排序,输出所述第一目标影视标签对应的所有目标影视作品。
本发明还提供一种影视作品搜索方法,参照图2,图2为本发明影视作品搜索方法第一实施例的流程示意图。
本发明所提出的影视作品搜索方法应用于一种***架构,该***架构包括关键词提取模型、词向量模型以及影视标签库。其中,关键词提取模型用于提取影视作品的影视语料中的关键词;当用户输入的词语不在影视标签库中时,词向量模型用于查找输入的词语的近义词,以供根据近义词再影视标签库中查找对应的影视标签,搜索相应的影视作品。影视标签库用于保存关键词提取模型提取的影视标签以及用于搜索影视标签和相对应的影视作品。词向量模型包括第一词向量模型以及第二词向量模型,其中,第一词向量模型用于确定输入词语的近义词。
本发明通过训练不同的算法模型,从影视作品的内容简介和评论中提取主题词作为标签,保证了影视作品标签的丰富多样性。同时,使用简介和评论内容训练词向量模型,如果用户输入的关键词不在影视作品标签库中,可以通过近义词搜索语义最接近的影视作品。本发明通过非监督算法提取影视作品的标签,解决了人工标注的高成本痛点。通过训练词向量模型,解决了当前技术搜索召回率不足的缺陷。
在本实施例中,该影视作品搜索方法包括以下步骤:
步骤S10,接收输入词语,并搜索影视标签库;
一实施例中,当接收到搜索指令时,获取用户输入的信息即输入词语,其中,可以通过在相应的影视搜索的网页或者小程序或者应用程序中输入词语以及触发搜索指令。之后,根据该搜索指令和输入词语,搜索影视标签库,以确定影视标签库中是否存在与该输入词语相匹配的影视标签。其中,该影视标签库可以部署于计算机设备或者服务器或者服务器集群等,通过互联网可以访问部署有影视标签库的计算机设备或者服务器或者服务器集群。影视标签库中存在大量的影视标签,如“音乐”、“体育”、“综艺”或者“电影”等影视标签,并且影视标签与影视编号(影视ID)关联存储于影视标签库中,每一个影视标签均与一个影视编号相关联,即影视标签与影视作品互相关联,可以通过影视标签库查询到与影视标签相关的影视作品,可以理解的是,由于也可能存在重复的影视标签,因此输入同一个标签可以指向不同的影视作品,如影视标签为“综艺”,“综艺”对应的影视作品包括数据***中所存储的所有综艺类型的视频。
步骤S20,若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;
一实施例中,搜索影视标签库后,搜索到的第一目标影视标签可以是一个也可以是多个,第一目标影视标签一般为多个,其中,与输入词语相匹配的第一目标影视标签的数量在本实施例中不作限定。若在影视标签库搜索到与输入词语相匹配的第一目标影视标签,则获取第一目标影视标签对应的影视编号,根据影视编号获取该影视编号对应的目标影视作品,并输出该目标影视作品,其中,可以在影视搜索的网页或者小程序或者应用程序上的搜索页面上显示搜索结果,即显示搜索到的目标影视作品。或者,若搜索到与输入词语相匹配的多个第一目标影视标签,则获取每个第一目标影视标签对应的影视编号,并根据影视编号获取并输出影视编号对应的目标影视作品。
步骤S30,若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;
一实施例中,搜索影视标签库后,若搜索不到与输入词语相匹配的第一目标影视标签,则通过词向量模型确定与输入词语的词义相近的近义词。具体地,词向量模型包括第一词向量模型和第二词向量模型,在搜索影视标签库后,若搜索不到与输入词语相匹配的第一目标影视标签,则通过第一词向量模型在影视语料中查找输入词语的近义词,若在本地影视语料中查找到输入词语的近义词,则得到与输入词语词义相近的近义词;若在影视语料中未查找到输入词语的近义词,则通过第二词向量模型在比本地影视语料更大的开放语料中查找输入词语的近义词,因此可以在用户输入相对本地影视语料较生僻的词语,也可以计算得到计算机计算得到的。可以理解的是,为使词向量模型适用于更普遍的应用场景,先采用开源的语料,训练一个预训练模型,然后加载预训练模型,用清洗和分词后的影视作品相关的本地影视语料二次训练预训练模型,训练完成预训练模型最后得到第一词向量模型,从而保证第一词向量模型既具有普遍性又具有个性化特征,以满足通过影视标签搜索影视作品的应用场景。第一词向量模型仅能返回本地影视语料中包含的词语的近义词,如果用户输入较生僻的关键词(未包含在本地影视语料中),则需要使用二词向量模型获取近义词。本发明使用词向量模型获取近义词,第二词向量模型是第一词向量模型的拓展和补充,对于用户任意的关键词输入,都能通过词向量模型计算近义词,从而保证用户基于关键词搜索影视作品时具有更高的召回率。
步骤S40,搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。
一实施例中,若未搜索到与输入词语相匹配的第一目标影视标签,得到输入词语对应的近义词,在得到输入词语对应的近义词后,在影视标签库中搜索与该近义词相匹配的第二目标影视标签,其中,搜索到的第二目标影视标签可以是一个也可以是多个,第二目标影视标签一般为多个,在本实施例中,第二目标影视标签的数量不做具体限定。若在影视标签库搜索到与近义词相匹配的第二目标影视标签,则获取第二目标影视标签对应的影视编号,根据影视编号获取该影视编号对应的目标影视作品,并输出该目标影视作品。或者,在第二目标影视标签包括多个标签时,若搜索到与近义词相匹配的多个第二目标影视标签,则获取每个第二目标影视标签对应的影视编号,并根据影视编号获取并输出各个影视编号对应的目标影视作品。
可以理解的是,若在影视标签库未搜索到与近义词相匹配的第二目标影视标签,则继续基于词向量模型确定输入词语对应的近义词,直至可以在影视标签库搜索到与近义词相匹配的第二目标影视标签。
进一步地,若搜索到与输入词语相匹配的第一目标影视标签,且第一目标影视标签对应的第一目标影视作品的数量小于预设数量时,则确定与输入词语词义相近的目标近义词;搜索与所述目标近义词相匹配的第三目标影视标签,并确定第三目标影视标签对应的第三目标影视作品,并输出该第一目标影视作品和第二目标影视作品。也就是说,当用户输入搜索词语时,在影视标签库中搜索到与输入词语一致的第一目标标签时,但第一目标标签对应的目标影视作品的数量小于一定的数目时,再通过词向量模型获取输入词语的近义词,并在影视标签库中搜索与近义词一致的第三目标影视标签,并在搜索界面对应的输出界面上输出目标影视作品以及第三目标影视标签对应的目标影视作品。
进一步地,一实施例中,所述输出所述第一目标影视标签对应的所有目标影视作品的步骤包括:
步骤a1,确定各个目标影视作品对应的目标权重;
步骤b1,基于各个目标影视作品对应的目标权重,对所有的目标影视作品进行排序,输出所述第一目标影视标签对应的所有目标影视作品。
一实施例中,影视标签、权重与影视编号(影视ID)关联存储于影视标签库中,每一个影视标签均对应一个权重值和一个影视编号,其中,权重表示该影视标签对于该影视编号对应的影视作品的重要性程度,即权重用于衡量影视标签的重要性程度。
具体地,若在影视标签库搜索到与输入词语相匹配的多个第一目标影视标签,则获取每个第一目标影视标签对应的影视编号和目标权重,根据影视编号获取该影视编号对应的目标影视作品,并基于各个目标影视作品对应的目标权重,对各个目标影视作品进行排序,最后输出按照权重顺序排序后的各个目标影视作品。其中,所述基于各个目标影视作品对应的目标权重,对各个目标影视作品进行排序的方式可以包括按照目标权重降序的方向对各个目标影视作品进行排序,权重越高的目标影视作品排得越前,以供用户方便查看。
进一步地,一实施例中,所述输出所述第二目标影视标签对应的所有目标影视作品的步骤包括:
步骤a2,确定各个目标影视作品对应的目标权重;
步骤b2,基于各个目标影视作品对应的目标权重,对所有的目标影视作品进行排序,输出所述第二目标影视标签对应的所有目标影视作品。
若未搜索到与输入词语相匹配的第一目标影视标签,得到输入词语对应的近义词,在得到输入词语对应的近义词后,在影视标签库中搜索与该近义词相匹配的第二目标影视标签。若在影视标签库搜索到与近义词相匹配的第二目标影视标签,则获取每个第二目标影视标签对应的影视编号和目标权重,根据影视编号获取该影视编号对应的目标影视作品,并基于各个目标影视作品对应的目标权重,对各个目标影视作品进行排序,最后输出按照权重顺序排序后的各个目标影视作品。其中,所述基于各个目标影视作品对应的目标权重,对各个目标影视作品进行排序的方式可以包括按照目标权重降序的方向对各个目标影视作品进行排序,权重越高的目标影视作品排得越前,以供用户方便查看。
本实施例提出的影视作品搜索方法,通过接收输入词语,并搜索影视标签库;若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。在本实施例中,通过接收用户输入的词语,在影视标签库中搜索与输入词语相匹配的目标影视标签,若影视标签库中存在与输入词语一致的第一目标影视标签,那么可以直接输出第一目标影视标签对应的目标影视作品;若影视标签库中不存在与输入词语相匹配的影视标签,则先计算输入词语的近义词,再搜索影视标签库中与近义词一致的第二目标影视标签,从而输出第二目标影视标签对应的目标影视作品,一方面,在影视标签库中存在大量的影视标签,增加了基于输入词语搜索到影视作品的可能性,另一方面,当影视标签库中不存在与用户输入的词语一致的影视标签时,则先计算输入词语对应的近义词,再通过近义词搜索影视作品,从而解决了在搜索影视作品时,存在输入的词语不能搜索到相应的影视作品的问题,保证用户基于输入词语搜索影视作品时具有更高的召回率。
基于第一实施例,提出本发明影视作品搜索方法的第二实施例,在本实施例中,步骤S10之前,还包括:
步骤c,获取影视作品对应的影视语料;
步骤d,确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库。
一实施例中,影视作品的影视语料包括但不限于影视作品的类型、地区、影视名称、影视别名、导演、主演、编剧、简介以及评论等。获取影视作品对应的影视语料,对各类型的影视语料进行分词,得到由分词组成的影视语料。之后,在已分词的各类型的影视语料中提取多个分词为关键词,并将关键词作为该影视作品的影视标签,以将关键词与影视作品对应的编号关联存储至影视标签库。
进一步地,一实施例中,所述关键词包括第一关键词和第二关键词,所述确定所述影视语料中的多个分词为关键词,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
步骤e,获取所述影视语料中的规则影视语料以及不规则影视语料;
步骤f,确定所述规则影视语料中的多个分词为第一关键词,将所述第一关键词作为所述影视作品的影视标签,以将所述第一关键词与所述影视作品对应的编号关联存储于所述影视标签库;
步骤g,确定所述不规则影视语料中的多个分词为第二关键词,将所述第二关键词作为所述影视作品的影视标签,以将所述第二关键词与所述影视作品对应的编号关联存储于所述影视标签库。
一实施例中,规则影视语料为影视语料中相对规范的字段信息,且规则影视语料包括影视作品的类型、地区、影视名称、影视别名、导演、主演、编剧等字段信息,不规则影视语料则为影视语料中的词语排序不存在规律或者词语排序不规范的字段信息,且不规则影视语料包括影视作品的简介以及评论。获取影视语料中的规则影视语料,按照预设的关键词提取规则,提取规则影视语料中的若干分词作为关键词中的第一关键词,并将第一关键词作为影视作品的影视标签,以将第一关键词与对应的影视作品的编号关联存储至影视标签库。以及,获取影视语料中的不规则影视语料,将不规则影视语料输入至关键词提取模型,提取不规则影视语料中的若干分词作为关键词中的第二关键词,并将第二关键词作为影视作品的影视标签,以将第二关键词和对应的影视作品的编号关联存储至影视标签库。
进一步地,一实施例中,所述第二关键词包括第三关键词、第四关键词以及第五关键词,所述确定所述不规则影视语料中的多个分词为第二关键词的步骤包括:
步骤h,构建所述不规则影视语料中不同分词之间的关系网络,并计算得到各个分词的第一权重,选取所述第一权重大于第一预设阈值的分词作为第三关键词;
步骤i,确定所述不规则影视语料中各个分词的词频和逆文本词频,并计算得到各个分词的第二权重,选取所述第二权重大于第二预设阈值的分词作为第四关键词;
步骤j,基于预先训练完成的主题模型,确定所述不规则影视语料对应的主题,将所述主题作为所述第五关键词。
一实施例中,不规则影视语料则为影视语料中的词语排序不存在规律或者词语排序不规范的字段信息,且不规则影视语料包括影视作品的简介以及评论。获取影视语料中的不规则影视语料,将不规则影视语料输入至关键词提取模型,提取不规则影视语料中的若干分词作为关键词中的第二关键词,并将第二关键词作为影视作品的影视标签,以将第二关键词和对应的影视作品的编号关联存储至影视标签库。
具体地,关键词提取模型包括三种算法模型,即第一算法模型、第二算法模型和第三算法模型。将不规则影视语料输入至第一算法模型,通过第一算法模型,对不规则影视语料进行构建关系网络,即构建不规则影视语料中不同分词的关系网络,并计算得到各个分词的第一权重,选取各个分词中权重较大的分词作为关键词中的第三关键词,从而实现根据分词之间的关系提取不规则影视语料中的关键词作为影视标签。以及,将不规则影视语料输入至第二算法模型,通过第二算法模型,计算不规则影视语料中各个分词的词频和逆文本词频,并基于所求得的各个分词的词频和逆文本词频计算各个分词的权重即第二权重,之后,再选取各个分词中权重较大的分词作为关键词中的第四关键词,从而实现根据分词的词频和逆文本词频提取不规则影视语料中的关键词作为影视标签。以及,将不规则影视语料输入至预先训练完成的主题模型即第三算法模型,通过第三算法模型,对影视作品的简介以及评论等内容进行分析得到影视作品的主题,并将该主题作为关键词中的第五关键词。
进一步地,一实施例中,所述获取所述影视语料中的规则影视语料以及不规则影视语料的步骤包括:
步骤k,对所述影视语料中原始的规则影视语料进行数据清洗,得到规范化的规则影视语料;
步骤l,对所述影视语料中原始的不规则影视语料进行分词,得到包含多个分词的不规则影视语料。
一实施例中,在对影视语料进行提取关键词之前需要对影视语料进行数据梳理,以供后续更顺利以及更准确地提取影视语料中的关键词。具体地,对影视语料中的规则影视语料进行数据清洗以及进行分词,得到规范化的划分分词后的规则影视语料;对影视语料中原始的不规则影视语料进行分词,即对影视语料中的简介以及评论中包含的所有语句进行划分分析,得到划分分词后的不规则影视语料,其中,不规则影视语料由多个分词组成。
进一步地,一实施例中,所述确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤之后,还包括:
步骤m,确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库。
一实施例中,获取影视作品对应的影视语料,对各类型的影视语料进行分词,得到由分词组成的影视语料。之后,在已分词的各类型的影视语料中提取多个分词为关键词,以及计算关键词对应的权重,并将关键词作为该影视作品的影视标签,以将关键词、权重与影视作品对应的编号关联存储至影视标签库。
进一步地,一实施例中,所述权重包括第一权重以及第二权重,所述确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
步骤o,获取所述影视语料中的规则影视语料以及不规则影视语料;
步骤p,确定所述规则影视语料中的多个词语为第一关键词,以及确定所述第一关键词对应的第一权重,并将所述第一关键词、第一权重与所述影视作品对应的编号关联存储于所述影视标签库;
步骤q,确定所述不规则影视语料中的多个词语为第二关键词,以及确定所述第二关键词对应的第二权重,将所述第二关键词、所述第二权重与所述影视作品对应的编号关联存储于所述影视标签库。
一实施例中,获取影视语料中的规则影视语料,按照预设的关键词提取规则,提取规则影视语料中的若干分词作为关键词中的第一关键词,以及计算第一关键词对应的第一权重,并将第一关键词作为影视作品的影视标签,以将第一关键词、第一权重与对应的影视作品的编号关联存储至影视标签库。以及,获取影视语料中的不规则影视语料,将不规则影视语料输入至关键词提取模型,提取不规则影视语料中的若干分词作为关键词中的第二关键词,并计算第二关键词对应的第二权重,并将第二关键词作为影视作品的影视标签,以将第二关键词、第二权重和对应的影视作品的编号关联存储至影视标签库。
本实施例提出的影视作品搜索方法,通过获取影视作品对应的影视语料;确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,并将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库,从影视语料对应的文本中抽取关键词,改变了传统的使用人工标注影视作品标签的方法,从而极大节省了人力成本,并且使用多种算法相结合的方式提取关键词,从而保证了影视作品标签的丰富多样性。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有影视作品搜索程序,所述影视作品搜索程序被处理器执行时实现如上述中任一项所述的影视作品搜索方法的步骤。
本发明计算机可读存储介质具体实施例与上述影视作品搜索方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种影视作品搜索方法,其特征在于,所述影视作品搜索方法包括以下步骤:
接收输入词语,并搜索影视标签库;
若搜索到与所述输入词语相匹配的第一目标影视标签,则输出所述第一目标影视标签对应的所有目标影视作品;
若未搜索到与所述输入词语相匹配的第一目标影视标签,则确定与所述输入词语词义相近的近义词;
搜索与所述近义词相匹配的第二目标影视标签,并输出所述第二目标影视标签对应的所有目标影视作品。
2.如权利要求1所述的影视作品搜索方法,其特征在于,所述接收输入词语,并搜索影视标签库的步骤之前,还包括:
获取影视作品对应的影视语料;
确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库。
3.如权利要求2所述的影视作品搜索方法,其特征在于,所述关键词包括第一关键词和第二关键词,所述确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个分词为第一关键词,将所述第一关键词作为所述影视作品的影视标签,以将所述第一关键词与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个分词为第二关键词,将所述第二关键词作为所述影视作品的影视标签,以将所述第二关键词与所述影视作品对应的编号关联存储于所述影视标签库。
4.如权利要求3所述的影视作品搜索方法,其特征在于,所述第二关键词包括第三关键词、第四关键词以及第五关键词,所述确定所述不规则影视语料中的多个分词为第二关键词的步骤包括:
构建所述不规则影视语料中不同分词之间的关系网络,并计算得到各个分词的第一权重,选取所述第一权重大于第一预设阈值的分词作为第三关键词;
确定所述不规则影视语料中各个分词的词频和逆文本词频,并计算得到各个分词的第二权重,选取所述第二权重大于第二预设阈值的分词作为第四关键词;
基于预先训练完成的主题模型,确定所述不规则影视语料对应的主题,将所述主题作为所述第五关键词。
5.如权利要求3所述的影视作品搜索方法,其特征在于,所述获取所述影视语料中的规则影视语料以及不规则影视语料的步骤包括:
对所述影视语料中原始的规则影视语料进行数据清洗,得到规范化的规则影视语料;
对所述影视语料中原始的不规则影视语料进行分词,得到包含多个分词的不规则影视语料。
6.如权利要求2所述的影视作品搜索方法,其特征在于,所述确定所述影视语料中的多个分词为关键词,将所述关键词作为所述影视作品的影视标签,以将所述关键词与所述影视作品对应的编号关联存储至所述影视标签库的步骤之后,还包括:
确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库。
7.如权利要求6所述的影视作品搜索方法,其特征在于,所述权重包括第一权重以及第二权重,所述确定所述关键词对应的权重,并将所述权重与所述影视作品对应的编号关联存储至所述影视标签库的步骤包括:
获取所述影视语料中的规则影视语料以及不规则影视语料;
确定所述规则影视语料中的多个词语为第一关键词,以及确定所述第一关键词对应的第一权重,并将所述第一关键词、第一权重与所述影视作品对应的编号关联存储于所述影视标签库;
确定所述不规则影视语料中的多个词语为第二关键词,以及确定所述第二关键词对应的第二权重,将所述第二关键词、所述第二权重与所述影视作品对应的编号关联存储于所述影视标签库。
8.如权利要求1至7任一项所述的影视作品搜索方法,其特征在于,所述输出所述第一目标影视标签对应的所有目标影视作品的步骤包括:
确定各个目标影视作品对应的目标权重;
基于各个目标影视作品对应的目标权重,对所有的目标影视作品进行排序,输出所述第一目标影视标签对应的所有目标影视作品。
9.一种影视作品搜索装置,其特征在于,所述影视作品搜索装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的影视作品搜索程序,所述影视作品搜索程序被所述处理器执行时实现如权利要求1至8中任一项所述的影视作品搜索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有影视作品搜索程序,所述影视作品搜索程序被处理器执行时实现如权利要求1至8中任一项所述的影视作品搜索方法的步骤。
CN202010256971.8A 2020-04-02 2020-04-02 影视作品搜索方法、装置及计算机可读存储介质 Pending CN111460225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256971.8A CN111460225A (zh) 2020-04-02 2020-04-02 影视作品搜索方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256971.8A CN111460225A (zh) 2020-04-02 2020-04-02 影视作品搜索方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111460225A true CN111460225A (zh) 2020-07-28

Family

ID=71681661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256971.8A Pending CN111460225A (zh) 2020-04-02 2020-04-02 影视作品搜索方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111460225A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984740A (zh) * 2014-05-23 2014-08-13 合一网络技术(北京)有限公司 基于组合标签的检索页显示的方法和***
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
US20170154077A1 (en) * 2015-12-01 2017-06-01 Le Holdings (Beijing) Co., Ltd. Method for comment tag extraction and electronic device
CN109547840A (zh) * 2018-12-03 2019-03-29 深圳创维数字技术有限公司 影视作品搜索引导方法、电视及计算机可读存储介质
CN109670080A (zh) * 2018-12-21 2019-04-23 深圳创维数字技术有限公司 一种影视标签的确定方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984740A (zh) * 2014-05-23 2014-08-13 合一网络技术(北京)有限公司 基于组合标签的检索页显示的方法和***
US20170154077A1 (en) * 2015-12-01 2017-06-01 Le Holdings (Beijing) Co., Ltd. Method for comment tag extraction and electronic device
CN106096050A (zh) * 2016-06-29 2016-11-09 乐视控股(北京)有限公司 一种视频内容搜索的方法和装置
CN109547840A (zh) * 2018-12-03 2019-03-29 深圳创维数字技术有限公司 影视作品搜索引导方法、电视及计算机可读存储介质
CN109670080A (zh) * 2018-12-21 2019-04-23 深圳创维数字技术有限公司 一种影视标签的确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108304441B (zh) 网络资源推荐方法、装置、电子设备、服务器及存储介质
CN109471945B (zh) 基于深度学习的医疗文本分类方法、装置及存储介质
CN111125435B (zh) 视频标签的确定方法、装置和计算机设备
CN107562939B (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN111353068A (zh) 一种视频推荐方法及装置
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN111522909B (zh) 一种语音交互方法及服务器
CN109144285B (zh) 一种输入方法和装置
CN109754316B (zh) 产品推荐方法、产品推荐***及存储介质
CN109101505B (zh) 一种推荐方法、推荐装置和用于推荐的装置
JP2021114277A (ja) 情報処理方法、装置及び記憶媒体
CN109933805B (zh) 文本解析方法、***及计算机可读存储介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN111611490A (zh) 资源搜索方法、装置、设备及存储介质
CN113704507B (zh) 数据处理方法、计算机设备以及可读存储介质
WO2021115277A1 (zh) 图像检索方法、装置、存储介质及电子设备
CN107515870B (zh) 一种搜索方法和装置、一种用于搜索的装置
CN113806588A (zh) 搜索视频的方法和装置
CN101763211A (zh) 语意实时分析联想操控***及方法
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN111813236B (zh) 输入方法、装置、电子设备及可读存储介质
CN111241844A (zh) 一种信息推荐方法及装置
CN112784156A (zh) 基于意图识别的搜索反馈方法、***、设备及存储介质
CN113407775A (zh) 视频搜索方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728