CN112035612A - 基于自然语言识别与处理技术的ppt自动宣讲方法及装置 - Google Patents

基于自然语言识别与处理技术的ppt自动宣讲方法及装置 Download PDF

Info

Publication number
CN112035612A
CN112035612A CN202010888380.2A CN202010888380A CN112035612A CN 112035612 A CN112035612 A CN 112035612A CN 202010888380 A CN202010888380 A CN 202010888380A CN 112035612 A CN112035612 A CN 112035612A
Authority
CN
China
Prior art keywords
ppt
content
script
natural language
processing technology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010888380.2A
Other languages
English (en)
Inventor
邹芳
曹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010888380.2A priority Critical patent/CN112035612A/zh
Publication of CN112035612A publication Critical patent/CN112035612A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及人工智能技术,应用于智慧教育中,揭示了一种基于自然语言识别与处理技术的PPT自动宣讲方法、装置、设备及存储介质,其中方法包括:加载导入的PPT文件;利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;基于匹配结果进行剧本训练,生成宣讲剧本;调用预设的语音机器人对所述宣讲剧本进行宣讲。本申请的基于自然语言识别与处理技术的PPT自动宣讲方法、装置、设备及存储介质,可以基于预设的宣讲模型和PPT内容生成宣讲剧本,调用语音机器人自动对PPT内容进行宣讲,降低了人力成本,并能够保证宣讲效果。本申请还涉及区块链技术,所述宣讲模型存储于区块链节点中。

Description

基于自然语言识别与处理技术的PPT自动宣讲方法及装置
技术领域
本申请涉及到人工智能领域,特别是涉及到一种基于自然语言识别与处理技术的PPT自动宣讲方法、装置、设备及存储介质。
背景技术
PPT(PowerPoint)作为最常用的办公软件之一,在内容汇报、主题演讲、培训课件等各种场景有着非常广泛的应用,需要依赖演讲人进行演示和讲解。一个好的PPT,宣讲效果与演讲者的口才及逻辑关联性高,需要付出较高的人力成本,在某些人力缺乏的环境下演示效果会变差。同时,经过市场需求分析,在日常办公中经常存在大量重复性会议,尤其是在企业培训、路演推介、现场招聘、商务会议等办公活动中经常要对同一展示内容进行多次讲解的现象,急需开发出一款结合机器人技术,使机器人代替人类在工作办公中的重复劳动,从而提升办公效率,提高与会质量,增强创新影响力,所以需要一种可以自动进行PPT内容演讲的人工智能机器人,来完成PPT的自动宣讲工作。
发明内容
本申请的主要目的为提供一种基于自然语言识别与处理技术的PPT自动宣讲方法、装置、设备及存储介质,旨在解决目前PPT内容宣讲人力成本高、宣讲效果差的技术问题。
为了实现上述发明目的,本申请提出一种基于自然语言识别与处理技术的PPT自动宣讲方法,包括:
加载导入的PPT文件;
利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
基于匹配结果进行剧本训练,生成宣讲剧本;
调用预设的语音机器人对所述宣讲剧本进行宣讲。
进一步地,所述在所述加载导入的PPT文件的步骤之前还包括:
对PPT文件进行内容规范检查;
如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
进一步地,所述利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取的步骤包括:
对PPT文件的目录进行解析,提取所述PPT文件的章节特征;
对PPT文件的内容进行解析,提取所述PPT文件的内容特征;
对PPT文件内容的布局进行解析,提取所述PPT文件的布局特征。
进一步地,所述基于匹配结果进行剧本训练,生成宣讲剧本的步骤之后包括:
为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;
根据人工辅助矫正或补充内容更新宣讲剧本。
进一步地,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤包括:
生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;
生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
进一步地,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤之后还包括:
将宣讲机器人的宣讲过程录制成视频,保存在存储设备中。
本申请实施例还提供一种基于自然语言识别与处理技术的PPT自动宣讲装置,包括:
加载单元,用于加载导入的PPT文件;
特征提取单元,用于利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
匹配单元,用于根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
宣讲剧本生成单元,用于基于匹配结果进行剧本训练,生成宣讲剧本;
宣讲单元,用于调用预设的语音机器人对所述宣讲剧本进行宣讲。
进一步地,所述特征提取单元包括:
章节特征提取单元,对PPT文件的目录进行解析,用于提取所述PPT文件的章节特征;
内容特征提取单元,对PPT文件的内容进行解析,用于提取所述PPT文件的内容特征;
布局特征提取单元,对PPT文件内容的布局进行解析,用于提取所述PPT文件的布局特征。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于自然语言识别与处理技术的PPT自动宣讲方法、装置、设备及存储介质,可以基于预设的宣讲模型和PPT内容生成宣讲剧本,调用语音机器人自动对PPT内容进行宣讲,降低了人力成本,并能够保证宣讲效果。
附图说明
图1为本申请一实施例的基于自然语言识别与处理技术的PPT自动宣讲方法的流程示意图;
图2为本申请一实施例的基于自然语言识别与处理技术的PPT自动宣讲装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能技术,应用于智慧教育中,利用语音机器人和自然语言识别与处理技术实现一种PPT自动宣讲方法、装置、设备及可读存储介质。
参照图1,本申请实施例中提供一种基于自然语言识别与处理技术的PPT自动宣讲方法,包括步骤:
S1、加载导入的PPT文件;
S2、利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
S3、根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
S4、基于匹配结果进行剧本训练,生成宣讲剧本;
S5、调用预设的语音机器人对所述宣讲剧本进行宣讲。
如上述步骤S1所述,为完成基于自然语言识别与处理技术的PPT自动宣讲的目的,首先要加载由用户导入的PPT文件。用户导入PPT的方式可以是通过可移动存储介质如U盘、移动硬盘等也可以通过网络共享或下载的方式例如文件传输工具、邮箱、网盘等。***加载用户导入的PPT文件的过程可以通过利用能够打开PPT格式的应用程序打开PPT文件来实现。在加载导入的PPT文件之后,可以对PPT的内容是否符合要求进行检查,检查规则是预先设定的,通过检查后再进行进一步的操作,如果没有通过检查,则可以提示用户该导入的PPT内容不规范,无法实现自动宣讲,建议用户对PPT的内容格式进行修改。
如上述步骤S2所述,利用自然语言识别与处理技术对PPT文件进行内容解析,挖掘内容特征要素。PPT文件中可能会有大量的图片、表格等,也可能会有不同种类的语言混合,例如中文和英文、中文和日文等,需要利用自然语言识别与处理技术对PPT文件的内容进行处理,才能继续对PPT内容进行解析。具体地,可以对PPT的章节特征进行解析,例如解析PPT的封面、目录、正文、封底的内容;可以对PPT的内容进行解析,例如解析PPT的标题、副标题、正文、图形、配图、配音、视频、动画、附件等;可以对PPT的布局特征进行解析,分析PPT是采用何种布局,其解析结果可能是上下布局、左右布局、中心布局、分散布局的其中一种或多种的组合。通过对PPT进行解析可以对PPT的内容和结构进行了解,选择合适的宣讲模型进行内容宣讲。
如上述步骤S3所述,根据特征提取结果在宣讲模型库中匹配合适的宣讲模型。其中,所述宣讲模型是基于PPT演讲场景的特征进行结构化构建的规则引擎,包括两大部分,第一部分是流程范式,如整体宣讲前会对PPT整体情况(共有多少页,主题是什么,会分几部分来介绍等)进行概述,然后再逐页宣讲,每一页内容宣讲时,也有对应的流程范式,如先播报标题,然后按照先左后右,先上后下的原则逐个显示内容并配套宣讲。第二部分是内容范式,内容范式是基于素材内容的常见宣讲方式进行的规则整理,如:表格素材会先宣讲列的表头然后介绍每行的数据、多段文本会根据文本多少选择全部播报或者仅播报标题等。上述的规则引擎可以通过程序设定并由人工进行不断扩充,通过PPT宣讲模型可以实现PPT的必要宣讲内容如页面概述、内容要点、内容详解、动画宣讲等的宣讲。具体的,宣讲模型中包括多个具体的宣讲模版,以实现对不同内容专业地宣讲。例如表格宣讲模版可以对表格进行宣讲,图表宣讲模版可以对如柱状图、扇形图等图表进行宣讲。容易理解地,宣讲模版也依赖于对图片中的文字识别技术。这些宣讲模版会由制作人进行人工校正和调试,不断完善模版具体的宣讲规则以使其具备更高的准确性和适用性。
如上述步骤S4所述,基于匹配结果进行剧本训练,生成宣讲剧本。所述剧本训练是指***根据内容解析结果和模型匹配结果自动生成宣讲内容的过程。具体地,***根据内容解析结果确定PPT内容的章节、内容、布局,然后根据所述解析结果匹配的宣讲模型中的对应宣讲模版对相应内容进行宣讲。例如,根据PPT的章节确定宣讲大纲,根据PPT的布局确定内容宣讲顺序,根据PPT内容中的表格使用对应的表格宣讲模型,对应的图片使用图片宣讲模型等,最终生成宣讲剧本。剧本训练的过程是根据宣讲模型中的宣讲模版生成的,其效果依赖于宣讲模型、宣讲模版的规则制定,剧本训练完成后可以为剧本提供人工预览或试听,从而对宣讲内容进行矫正或补充,也可以对宣讲模版中的规则进行改进。
如上述步骤S5所述,在生成宣讲剧本后,***可以根据PPT内容和模板选择对应的语音机器人音色、语速和音量来生成演讲机器人,可以提供外部窗口供用户启动或调用,***也可提供外部窗口来供用户主动选择语音机器人的音色、语速和音量。
在一个实施例中,在所述加载导入的PPT文件的步骤之前还包括:
对PPT文件进行内容规范检查;
如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
如上所述,本申请的基于自然语言识别与处理技术的PPT自动宣讲的方法需要PPT满足一定的格式或内容规范,因此,在加载导入PPT文件后,还包括对PPT文件的内容规范进行检查的步骤,检查的规则可以是预设的,例如检查是否具有具体的框架,也就是说检查PPT是否具有明确的目录,内容中各目录是否有对应的PPT页面,如果缺少对应目录的PPT页面,则可能是PPT内容不完整,为了保证完整的演示效果,可以以错误提示弹窗的形式提醒用于PPT内容不规范,无法实现自动宣讲。优选的,可以提示用户PPT内容不规范的原因,以便用户针对性的修改,以及时实现机器人自动演讲。
在一个具体的实施例中,所述利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取的步骤S2包括:
对PPT文件的目录进行解析,提取所述PPT文件的章节特征;
对PPT文件的内容进行解析,提取所述PPT文件的内容特征;
对PPT文件内容的布局进行解析,提取所述PPT文件的布局特征。
如上所述,在本方案中,需要对PPT文件进行内容解析,挖掘内容特征要素。具体地,可以对PPT的章节特征进行解析,例如解析PPT的封面、目录、正文、封底的内容;可以对PPT的内容进行解析,例如解析PPT的标题、副标题、正文、图形、配图、配音、视频、动画、附件等;可以对PPT的布局特征进行解析,分析PPT是采用何种布局,其解析结果可能是上下布局、左右布局、中心布局、分散布局的其中一种或多种的组合。通过对的PPT进行解析可以对PPT的内容和结构进行了解,选择合适的宣讲模型进行内容宣讲。
在一个实施例中,所述根据特征提取结果在宣讲模型库中匹配合适的宣讲模型的步骤之后包括:
对PPT文件的内容进行语义分析,获取内容主题,在预设的宣讲资料库中进行内容主题匹配,将匹配到的资料作为内容主题的拓展宣讲内容。
如上所述,一般的质量较高的宣讲PPT文件的内容都较为充实,只需要按照宣讲模版对PPPT文件的内容进行宣讲即可,但有的PPT文件内容较少,为了保证宣讲效果,可以采用对宣讲内容进行拓展的方式来丰富宣讲内容,保证宣讲效果。具体地,可以对PPT文件的内容进行语义分析,获取内容主题,在预设的宣讲资料库中进行内容主题匹配,将匹配到的资料作为内容主题的拓展宣讲内容。其中,所述预设的宣讲资料库的数据可以利用网络爬虫技术对相关内容在网络上进行爬取,例如在产品类的宣讲PPT可以在公司网站上进行爬取,也可以在百科类网站上进行爬取。所述拓展宣讲内容是可选的,在生成宣讲剧本后可以和人工进行交互,由人工决定是否添加拓展宣讲内容,以保证匹配内容的相关度,提高宣讲的效果。
在一个具体的实施例中,所述基于匹配结果进行剧本训练,生成宣讲剧本的步骤之后包括:
为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;
根据人工辅助矫正或补充内容更新宣讲剧本。
如上所述,基于匹配结果进行剧本训练,生成宣讲剧本。所述剧本训练是指***根据内容解析结果和模型匹配结果自动生成宣讲内容的过程。剧本训练完成后可以为剧本提供人工预览或试听,从而对宣讲内容进行矫正或补充。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤包括:
生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;
生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
如上所述,作为宣讲机器人,最基础的宣讲能力为语音合成,语音合成(Text ToSpeech)满足已知文本生成语音的需求,打通人机交互闭环。目前的语音机器人可以实现多种音色选择,支持自定义音量、语速,利用语音机器人可以将宣讲剧本转化成对应的宣讲语音,即生成宣讲机器人。为了使演讲效果更好,可以生成与用户交互的第一对外窗口,使用户可以主动选择语音机器人的音色和语速。可以理解,如果用户没有主动选择语音机器人的音色和语速,***可以根据预设的规则选择默认的语音机器人的音色和语速。所述预设规则可以是根据PPT的内容和长度来确定语音机器人的音色和语速,例如婴幼儿产品推广类PPT可以用女性声音和较慢的语速,内容较长的商务类内容的PPT可以用男性声音和稍快的语速。用户可以通过所述第二对外窗口随时启动或调用语音机器人按照宣讲剧本完成PPT内容的宣讲。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤之后还包括:
将宣讲机器人的宣讲过程录制成视频,保存在存储设备中。
如上所述,为了方便相同PPT内容的重复演讲,可以把宣讲机器人宣讲PPT的过程录制成为宣讲视频,在后续多次演讲过程中只需要播放对应视频即可,视频输出的格式多样化人WMV、AVI、MP4、MOV、MKV、FLV、MPEG、VOB、WEBM等,所述存储设备可以是硬盘、U盘等存储工具。
在一个实施例中,所述宣讲模型、语音机器人、录制成的视频等均可以存储与区块链中,在区块链网络中实现如上所述的基于自然语言识别与处理技术的PPT自动宣讲方法。
如上所述,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请实施例的基于自然语言识别与处理技术的PPT自动宣讲方法,可以基于预设的宣讲模型和PPT内容生成宣讲剧本,调用语音机器人自动对PPT内容进行宣讲,降低了人力成本,并能够保证宣讲效果。
参照图2,本申请实施例中还提供一种基于自然语言识别与处理技术的PPT自动宣讲装置,包括:
加载单元1,用于加载导入的PPT文件;
特征提取单元2,用于利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
匹配单元3,用于根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
宣讲剧本生成单元4,用于基于匹配结果进行剧本训练,生成宣讲剧本;
宣讲单元5,用于调用预设的语音机器人对所述宣讲剧本进行宣讲。
在一个实施例中,所述基于自然语言识别与处理技术的PPT自动宣讲装置还包括:
内容规范检查单元,用于对PPT文件进行内容规范检查;
提示单元,用于如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
在一个具体的实施例中,所述特征提取单元2包括:
章节特征提取单元,对PPT文件的目录进行解析,用于提取所述PPT文件的章节特征;
内容特征提取单元,对PPT文件的内容进行解析,用于提取所述PPT文件的内容特征;
布局特征提取单元,对PPT文件内容的布局进行解析,用于提取所述PPT文件的布局特征。
在一个具体的实施例中,所述宣讲剧本生成单元4还包括:
试听单元,用于为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;
更新单元,用于根据人工辅助矫正或补充内容更新宣讲剧本。
在一个具体的实施例中,所述宣讲单元5包括:
第一交互窗口生成单元,用于生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;
第二交互窗口生成单元,用于生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
在一个实施例中,所述基于自然语言识别与处理技术的PPT自动宣讲装置还包括:
录制单元,用于将宣讲机器人的宣讲过程录制成视频,保存在存储设备中。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于宣讲模版等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于自然语言识别与处理技术的PPT自动宣讲方法。
上述处理器执行上述的基于自然语言识别与处理技术的PPT自动宣讲方法,包括:加载导入的PPT文件;利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;基于匹配结果进行剧本训练,生成宣讲剧本;调用预设的语音机器人对所述宣讲剧本进行宣讲。
在一个实施例中,在所述加载导入的PPT文件的步骤之前还包括:对PPT文件进行内容规范检查;如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
在一个具体的实施例中,所述利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取的步骤S2包括:提取所述PPT文件的章节特征;提取所述PPT文件的内容特征;提取所述PPT文件的布局特征。
在一个具体的实施例中,所述基于匹配结果进行剧本训练,生成宣讲剧本的步骤之后包括:为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;根据人工辅助矫正或补充内容更新宣讲剧本。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤包括:生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤之后还包括:将宣讲机器人的宣讲过程录制成视频,保存在存储设备中。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于自然语言识别与处理技术的PPT自动宣讲方法,包括步骤:加载导入的PPT文件;利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;基于匹配结果进行剧本训练,生成宣讲剧本;调用预设的语音机器人对所述宣讲剧本进行宣讲。
上述执行的基于自然语言识别与处理技术的PPT自动宣讲方法,可以基于预设的宣讲模型和PPT内容生成宣讲剧本,调用语音机器人自动对PPT内容进行宣讲,降低了人力成本,并能够保证宣讲效果。
在一个实施例中,在所述加载导入的PPT文件的步骤之前还包括:对PPT文件进行内容规范检查;如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
在一个具体的实施例中,所述利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取的步骤S2包括:提取所述PPT文件的章节特征;提取所述PPT文件的内容特征;提取所述PPT文件的布局特征。
在一个具体的实施例中,所述基于匹配结果进行剧本训练,生成宣讲剧本的步骤之后包括:为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;根据人工辅助矫正或补充内容更新宣讲剧本。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤包括:生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
在一个实施例中,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤之后还包括:将宣讲机器人的宣讲过程录制成视频,保存在存储设备中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,包括:
加载导入的PPT文件;
利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
基于匹配结果进行剧本训练,生成宣讲剧本;
调用预设的语音机器人对所述宣讲剧本进行宣讲。
2.根据权利要求1所述的基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,所述在所述加载导入的PPT文件的步骤之前还包括:
对PPT文件进行内容规范检查;
如果没有通过内容规范检查,则提示用户PPT内容不规范,无法实现自动宣讲。
3.根据权利要求1所述的基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,所述利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取的步骤包括:
对PPT文件的目录进行解析,提取所述PPT文件的章节特征;
对PPT文件的内容进行解析,提取所述PPT文件的内容特征;
对PPT文件内容的布局进行解析,提取所述PPT文件的布局特征。
4.根据权利要求1所述的基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,所述基于匹配结果进行剧本训练,生成宣讲剧本的步骤之后包括:
为所述宣讲剧本提供人工试听,获取人工辅助矫正或补充内容;
根据人工辅助矫正或补充内容更新宣讲剧本。
5.根据权利要求1所述的基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤包括:
生成与用户交互的第一交互窗口,所述第一交互窗口用于开始、暂停和停止调用语音机器人按照所述宣讲剧本进行PPT内容宣讲;
生成与用户交互的第二交互窗口,所述第二交互窗口用于调整语音机器人的音色、语速和音量。
6.根据权利要求1所述的基于自然语言识别与处理技术的PPT自动宣讲方法,其特征在于,所述调用预设的语音机器人对所述宣讲剧本进行宣讲的步骤之后还包括:
将宣讲机器人的宣讲过程录制成视频,保存在存储设备中;
生成与用户交互的第三交互窗口,所述第三交互窗口用于播放所述视频。
7.一种基于自然语言识别与处理技术的PPT自动宣讲装置,其特征在于,包括:
加载单元,用于加载导入的PPT文件;
特征提取单元,用于利用自然语言识别与处理技术对所述PPT文件进行解析和特征提取;
匹配单元,用于根据特征提取结果在宣讲模型库中匹配合适的宣讲模型;
宣讲剧本生成单元,用于基于匹配结果进行剧本训练,生成宣讲剧本;
宣讲单元,用于调用预设的语音机器人对所述宣讲剧本进行宣讲。
8.根据权利要求7所述的基于自然语言识别与处理技术的PPT自动宣讲装置,其特征在于,所述特征提取单元包括:
章节特征提取单元,对PPT文件的目录进行解析,用于提取所述PPT文件的章节特征;
内容特征提取单元,对PPT文件的内容进行解析,用于提取所述PPT文件的内容特征;
布局特征提取单元,对PPT文件内容的布局进行解析,用于提取所述PPT文件的布局特征。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010888380.2A 2020-08-28 2020-08-28 基于自然语言识别与处理技术的ppt自动宣讲方法及装置 Pending CN112035612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010888380.2A CN112035612A (zh) 2020-08-28 2020-08-28 基于自然语言识别与处理技术的ppt自动宣讲方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010888380.2A CN112035612A (zh) 2020-08-28 2020-08-28 基于自然语言识别与处理技术的ppt自动宣讲方法及装置

Publications (1)

Publication Number Publication Date
CN112035612A true CN112035612A (zh) 2020-12-04

Family

ID=73586185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010888380.2A Pending CN112035612A (zh) 2020-08-28 2020-08-28 基于自然语言识别与处理技术的ppt自动宣讲方法及装置

Country Status (1)

Country Link
CN (1) CN112035612A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113885896A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 应用程序软件包安装方法、装置、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113885896A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 应用程序软件包安装方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110392281B (zh) 视频合成方法、装置、计算机设备及存储介质
US11431517B1 (en) Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches
US20090055193A1 (en) Method, apparatus and computer code for selectively providing access to a service in accordance with spoken content received from a user
CN109147800A (zh) 应答方法和装置
CN107220228A (zh) 一种教学录播数据修正装置
Takeuchi et al. Creating a gesture-speech dataset for speech-based automatic gesture generation
US20160189107A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
US20160189103A1 (en) Apparatus and method for automatically creating and recording minutes of meeting
CA3147813A1 (en) Method and system of generating and transmitting a transcript of verbal communication
CN111858892A (zh) 基于知识图谱的语音交互方法、装置、设备及介质
WO2014100893A1 (en) System and method for the automated customization of audio and video media
CN114638232A (zh) 一种文本转换成视频的方法、装置、电子设备及存储介质
CN113096634A (zh) 语音合成方法、装置、服务器及存储介质
CN112035612A (zh) 基于自然语言识别与处理技术的ppt自动宣讲方法及装置
US8255221B2 (en) Generating a web podcast interview by selecting interview voices through text-to-speech synthesis
Yoshino et al. Japanese dialogue corpus of information navigation and attentive listening annotated with extended iso-24617-2 dialogue act tags
CN117787409A (zh) 基于大语言模型的人机交互方法、装置及电子设备
KR101165300B1 (ko) 패턴애니메이션을 기반으로 하는 ucc서비스 시스템
US11100161B2 (en) Systems and methods for generating and managing audio content
US11704585B2 (en) System and method to determine outcome probability of an event based on videos
CN113256133B (zh) 会议纪要管理方法、装置、计算机设备及存储介质
CN115393484A (zh) 虚拟形象动画的生成方法、装置、电子设备和存储介质
CN112487170A (zh) 面向场景配置的人机交互对话机器人***
CN105890612A (zh) 一种导航过程中的语音提示方法及装置
US20240119854A1 (en) Method for Automatically Converting a Text string to an Interactive Video Experience

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination