CN105573980A

CN105573980A - 信息片段生成方法和装置

Info

Publication number: CN105573980A
Application number: CN201510918463.0A
Authority: CN
Inventors: 张新展
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-05-11

Abstract

本申请公开了信息片段生成方法和装置。所述方法的一具体实施方式包括：对获取的信息进行句子切分得到至少一个分句；根据预先设定的论元集合标注所述至少一个分句中的论元；将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。该实施方式通过快速、有效的生成信息片段，实现了信息精确、简洁的表达。

Description

信息片段生成方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及终端技术领域，尤其涉及信息片段生成方法和装置。

背景技术

随着互联网和信息化技术突飞猛进的发展，使得互联网中包含了海量的信息内容。关键词是指单个媒体在制作使用索引时，所用到的词汇，它可以表达信息的主题内容以及核心内容。关键句是用于反映信息的核心思想内容的句子。然而，使用关键词表达信息，由于主体、受体、关系不明确，不能充分反映信息的核心内容；关键句虽可以反映信息的核心内容，但表述上不够简洁，不能使用户快速、准确的识别核心内容。因此，需要一种既能充分反映信息的核心内容，又表述简洁的信息表达形式。

发明内容

本申请的目的在于提出一种改进的信息片段生成方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种信息片段生成方法，所述方法包括：对获取的信息进行句子切分得到至少一个分句；根据预先设定的论元集合标注所述至少一个分句中的论元；将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

在一些实施例中，所述方法还包括：基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。

在一些实施例中，所述对获取的信息进行句子切分得到至少一个分句，包括：根据获取的信息中的标点符号，将所述信息中的句子进行切分，得到至少一个分句。

在一些实施例中，所述根据预先设定的论元集合标注所述至少一个分句中的论元，包括：根据所述论元集合建立单词查找树；依据所述单词查找树判断各个分句中是否包含所述论元集合中论元，如果包含，则将该论元进行标注。

在一些实施例中，所述将已标注论元的各个分句进行分词，包括：利用全切分方法，并结合领域词典将已标注论元的各个分词进行分词，得到至少一个词汇。

第二方面，本申请提供了一种信息片段生成装置，所述装置包括：切分单元，配置用于对获取的信息进行句子切分得到至少一个分句；标注单元，配置用于根据预先设定的论元集合标注所述至少一个分句中的论元；分词单元，配置用于将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；生成单元，配置用于基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

在一些实施例中，所述装置还包括：去除单元，配置用于基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。

在一些实施例中，所述切分单元进一步配置用于：根据获取的信息中的标点符号，将所述信息中的句子进行切分，得到至少一个分句。

在一些实施例中，所述标注单元进一步配置用于：根据所述论元集合建立单词查找树；依据所述单词查找树判断各个分句中是否包含所述论元集合中论元，如果包含，则将该论元进行标注。

在一些实施例中，所述分词单元进一步配置用于：利用全切分方法，并结合领域词典将已标注论元的各个分词进行分词，得到至少一个词汇。

本申请提供的信息片段生成方法和装置，通过对所获取信息的分句标注论元，而后将已标注论元的分句进行分词，并将分词后得到的词汇进行词性标注，最后基于词汇搭配对集合、标注的论元、以及词性标注结果生成能够充分表达信息的核心内容，且表述简洁的信息片段，从而快速、有效的生成信息片段，实现了信息精确、简洁的表达。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的信息片段生成方法的一个实施例的流程图；

图3是根据本申请的信息片段生成方法的一个应用场景的示意图；

图4是根据本申请的信息片段生成方法的又一个实施例的流程图；

图5是根据本申请的信息片段生成装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备或服务器的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息片段生成方法或信息片段生成装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、新闻类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持信息处理的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如为终端设备101、102、103提供信息的后台网页服务器。后台网页服务器可以将互联网上的信息发送给终端设备，也可以将互联网上的信息进行分析等处理后将处理结果发送给终端设备。

需要说明的是，本申请实施例所提供的信息片段生成方法可以由终端设备101、102、103单独执行，或者也可以由终端设备101、102、103和服务器105共同执行。相应地，信息片段生成装置可以设置于终端设备101、102、103中，也可以将信息片段生成装置的部分单元设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的信息片段生成方法的一个实施例的流程200。所述的信息片段生成方法，包括以下步骤：

步骤201，对获取的信息进行句子切分得到至少一个分句。

在本实施例中，信息片段生成方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以从本地，也可以通过有线连接方式或者无线连接方式从为其提供信息的后台服务器上获取信息。当该信息为文字信息时，上述电子设备可以根据文本段落、字体样式、字体大小等将上述信息进行切分，得到至少一个分句；当该信息为图片信息或语音信息时，上述电子设备可以首先将该信息进行识别生成的文字信息，之后可以根据文本段落、字体样式、字体大小等将上述信息进行切分，得到至少一个分句。

需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例的一些可选的实现方式中，上述电子设备可以根据获取的信息(例如新闻资讯)中的标点符号，将该信息切分为至少一个分句。在这里，上述标点符号可以是特定的某种标点符号(例如，句号)，也可以是信息中出现的全部标点符号。例如，可以将上述信息中出现的各个标点符号作为分隔符，将句子切分为至少一个分句。作为示例，长句子“野生动物集中分布的地区，一般都是贫困落后地区。当地群众为了动物保护做出了巨大贡献，也因此失去了很多的发展机遇。”可以根据标点符号切分为四个分句：“野生动物集中分布的地区”；“一般都是贫困落后地区”；“当地群众为了动物保护做出了巨大贡献”；“也因此失去了很多的发展机遇”。

步骤202，根据预先设定的论元集合标注至少一个分句中的论元。

在本实施例中，基于步骤201中得到的至少一个分句，上述电子设备可以将各个分句中的文字与预先设定的论元集合中的论元进行匹配，并将分句中匹配成功的论元进行标注。在这里，论元指一个句子中带有名词性的词。上述论元集合所包括的论元可以是根据实际需要设定的论元，可以是与将要生成的信息片段相关的论元。例如，如果将要提取的信息片段与多支股票相关，则论元集合中可以包括这多支股票的股票名称。

在本实施例的一些可选的实现方式中，上述电子设备可以首先根据上述论元集合建立单词查找树(Trie树)。上述单词查找树的根节点为空，除根节点外每一个节点都只包含上述论元集合中某个论元的某一个汉字、字母或字符。从根节点到某一节点的路径上经过的汉字、字母或字符连接起来组成一个论元，每个节点的所有子节点包含的汉字、字母或字符都不相同。然后，依据建立的单词查找树判断各个分句中是否包含上述论元集合中论元，如果包含，则将该论元进行标注。

步骤203，将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注。

在本实施例中，信息片段生成方法运行于其上的电子设备可以使用分词工具将步骤202中已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注，确定每一个词汇的词性。在这里，上述分词工具可以是能够实现分词和词性标注的分词工具中的任何一种。例如，可以是汉语中经常使用的结巴(jieba)分词工具、汉语词法分析***ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)等。

在本实施例的一些可选的实现方式中，上述电子设备可以首先利用全切分方法将已标注论元的各个分句进行切分，之后再结合领域词典将错误切分的词进行合并，得到至少一个词汇。例如，股票名称“国新能源”可能会被错误的切分为“国/新能源”，则需要结合证券股票词典将错误切分的词进行合并。

步骤204，基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

在本实施例中，上述电子设备可以首先从上述信息中检索步骤202中标注的论元，并记录各个论元在上述信息中的位置。之后，检索步骤203中标注的谓语动词，并将检索到的谓语动词与预先设定的词汇搭配对集合中的谓语动词进行匹配，如果匹配成功，则记录该谓语动词在上述信息中的位置。然后，判断位置相邻的已标注的论元和匹配成功的谓语动词之间是否有否定词，如果没有，且该谓语动词为不及物动词，则将该论元和该谓语动词与上述词汇搭配对集合中的词汇搭配对进行匹配，并在匹配成功时根据该论元、谓语动词生成主谓宾结构的信息片段进行输出；如果有，且该谓语动词为不及物动词，则将该论元和该谓语动词与上述词汇搭配对集合中的词汇搭配对进行匹配，并在匹配成功时在该论元和该谓语动词之间***检索到的否定词，并根据该论元、否定词和谓语动词生成主谓宾结构的信息片段进行输出；如果该谓语动词为及物动词，则在该论元和该谓语动词与上述词汇搭配对集合中的词汇搭配对匹配成功后，继续检索该谓语动词后相邻的名词或名词短语，并根据该论元、和/或否定词、谓语动词、以及检索到的名词或名词短语生成主谓宾结构的信息片段进行输出。上述主谓宾结构的信息片段可以是包含主语、谓语和宾语的信息片段，也可以是只包含主语和谓语的信息片段，例如，“企业，破产”、“学生，购买，铅笔”。上述词汇搭配对集合中可以包括多种词汇搭配对(例如，主谓搭配对、动宾搭配对)，这些词汇搭配对可以是通过分析大量与上述信息相关的信息后人工采集获得的词汇搭配对，也可以是根据现有的某种方法从大量与上述信息相关的信息中自动获取的词汇搭配对。

继续参见图3，图3是根据本实施例的信息片段生成方法的应用场景的一个示意图。在图3的应用场景中，用户根据需要预先设定论元集合“A球队，B球队”和词汇搭配对集合“球队失败，球队晋级，球队夺冠”，并将信息“北京时间11月12日，A球队和B球队在体育中心举行比赛，经过紧张激烈的角逐，A球队成功晋级。”通过终端设备所显示的输入控件301输入到终端设备，并通过提交按钮302确认提交后，终端设备首先对获取的信息进行句子切分得到至少一个分句；之后，根据论元集合标注各个分句中的论元；然后，将标注论元的分句进行分词，并将分词后得到的词汇进行词性标注；最后，基于词汇搭配对集合、标注的论元、以及词性标注结果，生成主谓宾结构的信息片段“A球队，晋级”，并由输出控件303进行显示，就会如图3所示。

本申请的上述实施例提供的方法通过生成主谓宾结构的信息片段，实现了信息中核心内容充分、简洁的表达。

进一步参考图4，其示出了信息片段生成方法的又一个实施例的流程400。该信息片段生成方法的流程400，包括以下步骤：

步骤401，对获取的信息进行句子切分得到至少一个分句。

在本实施例中，信息片段生成方法运行于其上的电子设备可以对获取的信息进行句子切分，从而得到至少一个分句，其中，上述信息可以直接是文字信息，也可以是将图片信息和语音信息进行识别后生成的文字信息。

步骤402，根据预先设定的论元集合标注至少一个分句中的论元。

在本实施例中，基于步骤401中得到的至少一个分句，上述电子设备可以将各个分句中的文字与预先设定的论元集合中的论元进行匹配，并将分句中匹配成功的论元进行标注。

步骤403，将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注。

在本实施例中，上述电子设备可以将步骤402中已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注，从而确定每一个词汇的词性。

步骤404，基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

在本实施例中，上述电子设备可以将步骤402中标注的论元，以及步骤403中标注的谓语动词，与预先设定的词汇搭配对集合中的词汇搭配对进行匹配，并根据匹配结果生成主谓宾结构的信息片段。上述主谓宾结构的信息片段是包含主语、谓语、和/或宾语的信息片段。

步骤405，基于领域词典和词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。

在本实施例中，上述电子设备可以基于领域词典和上述预先设定的词汇搭配对将步骤404中生成的主谓宾结构的信息片段做进一步的处理，具体处理为：去除存在歧义和/或结构不完整的信息片段，例如，去除“科学家提出”这种宾语缺失的信息片段。其中，领域词典可以是根据获取的信息的内容从现有的领域词典(例如金融词典、电力词典、机械词典等)中直接选取的，也可以是根据实际需要构建的。

从图4中可以看出，与图2对应的实施例相比，本实施例中的信息片段生成方法的流程400突出了对歧义和/或结构不完整的信息片段的去除的步骤。由此，本实施例描述的方案可以使生成的信息片段更加准确、有效，从而实现了更加精确的信息表达。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种信息片段生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的信息片段生成装置500包括：切分单元501、标注单元502、分词单元503和生成单元504。其中，切分单元501，配置用于对获取的信息进行句子切分得到至少一个分句；标注单元502，配置用于根据预先设定的论元集合标注至少一个分句中的论元；分词单元503，配置用于将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；生成单元504，配置用于基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

在本实施例中，信息片段生成装置500的切分单元501可以根据获取的信息(例如新闻资讯)中的标点符号，将信息进行句子进行切分，得到至少一个分句。

在本实施例中，基于切分单元501切分得到的至少一个分句，标注单元502可以将各个分句中的文字与预先设定的论元集合中的论元进行匹配，并将分句中匹配成功的论元进行标注。

在本实施例中，分词单元503可以将标注单元502标注论元后的各个分句进行分词，并将分词后得到的词汇进行词性标注，确定每一个词汇的词性。

在本实施例中，上述生成单元504可以基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

本领域技术人员可以理解，上述信息片段生成装置500还包括一些其他公知结构，例如处理器、存储器等，为了不必要地模糊本公开的实施例，这些公知的结构在图5中未示出。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***600的结构示意图。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中，还存储有***600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括切分单元、标注单元、分词单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，切分单元还可以被描述为“对获取的信息进行句子切分得到至少一个分句的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：对获取的信息进行句子切分得到至少一个分句；根据预先设定的论元集合标注所述至少一个分句中的论元；将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息片段生成方法，其特征在于，所述方法包括：

对获取的信息进行句子切分得到至少一个分句；

根据预先设定的论元集合标注所述至少一个分句中的论元；

将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；

基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。

3.根据权利要求1所述的方法，其特征在于，所述对获取的信息进行句子切分得到至少一个分句，包括：

根据获取的信息中的标点符号，将所述信息中的句子进行切分，得到至少一个分句。

4.根据权利要求1所述的方法，其特征在于，所述根据预先设定的论元集合标注所述至少一个分句中的论元，包括：

根据所述论元集合建立单词查找树；

依据所述单词查找树判断各个分句中是否包含所述论元集合中论元，如果包含，则将该论元进行标注。

5.根据权利要求1所述的方法，其特征在于，所述将已标注论元的各个分句进行分词，包括：

利用全切分方法，并结合领域词典将已标注论元的各个分词进行分词，得到至少一个词汇。

6.一种信息片段生成装置，其特征在于，所述装置包括：

切分单元，配置用于对获取的信息进行句子切分得到至少一个分句；

标注单元，配置用于根据预先设定的论元集合标注所述至少一个分句中的论元；

分词单元，配置用于将已标注论元的各个分句进行分词，并将分词后得到的词汇进行词性标注；

生成单元，配置用于基于预先设定的词汇搭配对集合、标注的论元、以及词性标注结果，对已标注论元的各个分句进行分析，生成主谓宾结构的信息片段。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

去除单元，配置用于基于领域词典和所述词汇搭配对集合去除生成的信息片段中的存在歧义和/或结构不完整的信息片段。

8.根据权利要求6所述的装置，其特征在于，所述切分单元进一步配置用于：

9.根据权利要求6所述的装置，其特征在于，所述标注单元进一步配置用于：

根据所述论元集合建立单词查找树；

10.根据权利要求6所述的装置，其特征在于，所述分词单元进一步配置用于：