CN111191010B

CN111191010B - 一种电影剧本多元信息抽取方法

Info

Publication number: CN111191010B
Application number: CN201911416307.9A
Authority: CN
Inventors: 刘宏伟; 刘宏蕊
Original assignee: Tianjin Foreign Studies University; Guangdong University of Technology
Current assignee: Tianjin Foreign Studies University; Guangdong University of Technology
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-08-08
Anticipated expiration: 2039-12-31
Also published as: CN111191010A

Abstract

本公开提供了一种电影剧本多元信息抽取方法。所述方法包括：从文本中抽取出一个或多个场景；确定所述场景包含的事件以及所述事件的事件信息；根据所述场景包含的事件，确定所述场景的情节类型；将所述场景与所述事件信息以及所述情节类型对应存储至图数据库。本公开提供的方法可以从文本中抽取出包含语义层面的多元信息，以便于读者更好地对文本内容进行预览。

Description

一种电影剧本多元信息抽取方法

技术领域

本公开涉及计算机软件领域，特别涉及一种电影剧本多元信息抽取方法。

背景技术

为了从篇幅较长的文本中抽取中主要信息，以便于读者对文本内容进行快速地预览，通常利用文本格式，使用基于规则或表达式的方式，进行文本信息的抽取，但是，该方式仍存在一些缺陷，例如该方法忽略了文本语义层面的信息，难以实现文本中多元信息的抽取，因此，如何从文本中抽取出包含语义层面的多元信息，以便于读者更好地对文本内容进行预览，成为一项亟待解决的技术问题。

发明内容

本公开实施例的目的是提供一种电影剧本多元信息抽取方法，以从文本中抽取出包含语义层面的多元信息，便于读者更好地对文本内容进行预览。

为达到上述目的，本公开实施例提供一种电影剧本多元信息抽取方法，所述方法包括：

从文本中抽取出一个或多个场景；

确定所述场景包含的事件以及所述事件的事件信息；

根据所述场景包含的事件，确定所述场景的情节类型；

将所述场景与所述事件信息以及所述情节类型对应存储至图数据库。

本公开实施例还提供一种电影剧本多元信息抽取装置，所述装置包括：

场景抽取模块，用于从文本中抽取出一个或多个场景；

事件确定模块，用于确定所述场景包含的事件以及所述事件的事件信息；

情节类型确定模块，用于根据所述场景包含的事件，确定所述场景的情节类型；

数据存储模块，用于将所述场景与所述事件信息以及所述情节类型对应存储至图数据库。

本公开实施例还提供一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述任意实施例中所述电影剧本多元信息抽取方法的步骤。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述任意实施例中所述电影剧本多元信息抽取方法的步骤。

由以上本公开实施例提供的技术方案可见，本公开通过确定文本中各个场景所包含的事件以及所述事件的事件信息，再根据场景包含的事件，确定所述场景的情节类型；从而将包含语义层面的多元信息抽取出来，便于读者更好地对文本内容进行预览。

附图说明

图1是本公开实施例提供的一种电影剧本多元信息抽取方法流程图；

图2是本公开实施例提供的电影剧本格式示意图；

图3是本公开实施例提供的数据存储结构示意图；

图4是本公开实施例提供的一种电影剧本多元信息抽取装置的模块结构图；

图5是本公开实施例提供的计算机设备的示意图；

图6是本公开实施例提供的计算机可读存储介质的示意图。

具体实施方式

本公开实施例提供一种电影剧本多元信息抽取方法。

为了使本技术领域的人员更好地理解本公开中的技术方案，下面将结合本公开实施方式中的附图，对本公开实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本公开保护的范围。

参考图1所示，为本公开实施例提供的一种电影剧本多元信息抽取方法的流程图，可以包括如下步骤：

S1：从文本中抽取出一个或多个场景。

在本实施方式中，可以利用正则表达式将场景信息抽取出来。

在一些实施方式中，文本为一个电影剧本，电影剧本中的场景信息通常以“EXT.”或者“INT.”开头，因此，可以利用正则表达式定位到“EXT.”或者“INT.”开头的语句，从而确定事件的场景信息。

例如，参考图2所示的电影剧本，在剧本的起始位置包含字符串“EXT.”，则通过正则表达式可以定位到该语句，并提取出场景信息：We’re flying once again over RobinHood Trail,ascending slowly.

S2：确定所述场景包含的事件以及所述事件的事件信息。

在一些实施方式中，为了确定场景包含的事件，可以先对所述语句进行词性标注，并确定所述语句中的动词；再将所述动词与预先建立的ACE(Automatic ContentExtraction，自动内容抽取库)中的事件类型进行匹配，得到与所述动词相匹配的事件类型及事件子类型。

例如，下面的表1为ACE中的一部分事件类型和事件子类型与触发词之间的匹配关系。

表1

具体的，可以利用Spacy或StanFordNLP对所述语句进行词性标注。

在本实施方式中，事件信息可以包括人物、时间以及地点，当然，还可以包括其他内容，对此，本公开不做限定。事件信息可以通过深度学习模型确定，例如RNN-CRF模型、CNN-CRF模型、最大熵模型以及BiLSTM-CRF模型。

下面以BiLSTM-CRF模型为例，说明如何得到事件信息。

第一步：利用word embedding层，将文本中的单词映射为词向量。

第二步：将第一步得到的词向量，输入BiLSTM层，输出针对每个单词预测出的BIO标签以及与BIO标签对应的分数值。

第三步：利用预先训练好的CRF模型，在学习到的约束下，基于第二步输出的BIO标签的分数值，输出合法的BIO标签序列。其中，学习到的约束包括：语句中第一个单词以标签“B-”或“O”开头，标签“B-label I-label2 I-label3 I-”中的label1、label2、label3是同一类型。

例如，一个具体的BIO标注的例子为：

于大宝帮助中国队获胜

B-PER I-PER I-PER O O B-ORG I-ORG O-ORG O O

S3：根据所述场景包含的事件，确定所述场景的情节类型。

为了对得到的事件进一步的整合，将多个事件归纳为一个情节类型，还需要通过LDA(Latent Dirichlet Allocation，潜在狄利克雷)模型或聚类算法确定所述场景的情节类型。

下面以一个具体的场景为例，说明事件类型与情节类型之间的关系。

例如，在家里，一个人收拾行李、带上买好的机票、叫了出租车。同一场景下发生这一系列动作，可以触发“整理”、“携带”、“呼叫”等事件，这些事件都属于“出行”情节类型。

下面以LDA模型为例，利用事件描述段落的主题模型来确定情节类型。

具体的，事件集合D，主题集合T，D中每个事件的文本d看做一个单词序列＜w₁,w₂,...,w_n＞，其中，w_i表示第i个单词，设d有n个单词。D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)，LDA以集合D作为输入，训练出两个结果向量，两个结果向量分别为对每个D中的文本d，对应到不同主题的概率θ_d＜pt₁,...,pt_k＞以及对每个T中的主题t，生成不同单词的概率φ_t＜pw₁,...,pw_m＞。

其中，对每个D中的文本d，对应到不同主题的概率θ_d＜pt₁,...,pt_k＞，pt_i表示d对应T中第i个主题的概率，pt_i＝nt_i/n，nt_i表示d中对应第i个主题的词的数目，n是d中所有词的总数。

对每个T中的主题t，生成不同单词的概率φ_t＜pw₁,...,pw_m＞，pw_i表示t生成VOC中第i个单词的概率，pw_i＝Nw_i/N，Nw_i表示对应到主题t的VOC中第i个单词的数目，N表示所有对应到主题t的单词总数。

利用当前的θ_d和φ_t，可以为一个文本中的一个单词计算它对应任意一个主题时的p(w|d)，然后根据这些结果来更新这个词应该对应的主题。然后，如果这个更新改变了这个单词所对应的主题，就会反过来影响θ_d和φ_t。

在LDA模型开始时，先随机地给θ_d和φ_t赋值。然后上述过程不断重复，最终收敛到的结果就是LDA的输出

S4：将所述场景与所述事件信息以及所述情节类型对应存储至图数据库。

参考图3所示，所述场景、所述事件信息以及所述情节类型可以以三元组的形式存储至所述图数据库。

例如，场景：(Beauty,Scenes,FITTS HOUSE)，时间：(FITTS HOUSE,Time,NIGHT)，人物：(JANE,Appear,FITTS HOUSE)。

参考图4所示，本公开还提供一种电影剧本多元信息抽取装置，所述装置包括：

场景抽取模块100，用于从文本中抽取出一个或多个场景；

事件确定模块200，用于确定所述场景包含的事件以及所述事件的事件信息；

情节类型确定模块300，用于根据所述场景包含的事件，确定所述场景的情节类型；

数据存储模块400，用于将所述场景与所述事件信息以及所述情节类型对应存储至图数据库。

参考图5所示，本公开还提供一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述任意实施方式中所述电影剧本多元信息抽取方法的步骤。

参考图6所示，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述任意实施方式中所述电影剧本多元信息抽取方法的步骤。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera HardwareDescriptionLanguage)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的装置、模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本公开可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中，内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括短暂电脑可读媒体(transitory media)，如调制的数据信号和载波。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

本公开可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本公开，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应当理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电影剧本多元信息抽取方法，其特征在于，包括：

利用正则表达式从文本中抽取出一个或多个场景；

确定所述场景包含的事件以及所述事件的事件信息；

根据所述场景包含的事件，确定所述场景的情节类型；

将所述场景与所述事件信息以及所述情节类型对应存储至图数据库；

其中，所述事件的事件信息通过深度学习模型确定，所述深度学习模型包括RNN-CRF模型、CNN-CRF模型、最大熵模型以及BiLSTM-CRF模型；

其中，利用所述BiLSTM-CRF模型确定所述事件的事件信息包括：

利用BiLSTM模型的word embedding层，将文本中的单词映射为词向量；

将所述词向量输入所述BiLSTM模型的BiLSTM层，输出针对每个所述单词预测出的BIO标签以及与BIO标签对应的分数值；

利用预先训练好的CRF模型，在学习到的约束下，基于所述BIO标签对应的分数值，输出合法的BIO标签序列。

2.根据权利要求1所述的方法，其特征在于，所述确定所述场景包含的事件，包括：

对所述场景下的语句分别进行词性标注，并确定所述语句中的动词；

将所述动词与预先建立的自动内容抽取库中的事件类型进行匹配，得到与所述动词相匹配的事件类型。

3.根据权利要求1所述的方法，其特征在于，所述场景的情节类型通过潜在狄利克雷模型或聚类算法确定。

4.根据权利要求1所述的方法，其特征在于，所述场景、所述事件信息以及所述情节类型以三元组的形式存储至所述图数据库。

5.根据权利要求1所述的方法，其特征在于，所述事件信息包括人物、时间及地点。

6.一种电影剧本多元信息抽取装置，其特征在于，包括：

场景抽取模块，用于从文本中抽取出一个或多个场景；

数据存储模块，用于将所述场景与所述事件信息以及所述情节类型对应存储至图数据库；

其中，利用所述BiLSTM-CRF模型确定所述事件的事件信息包括：

7.根据权利要求6所述的装置，其特征在于，所述事件确定模块包括：

词性标注单元，用于对所述场景下的语句分别进行词性标注，并确定所述语句中的动词；

事件匹配单元，用于将所述动词与预先建立的自动内容抽取库中的事件类型进行匹配，得到与所述动词相匹配的事件类型。

8.一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-5中任意一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1-5中任意一项所述方法的步骤。