CN116628264A - 一种会议信息处理方法、装置、设备和介质 - Google Patents

一种会议信息处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN116628264A
CN116628264A CN202310673247.9A CN202310673247A CN116628264A CN 116628264 A CN116628264 A CN 116628264A CN 202310673247 A CN202310673247 A CN 202310673247A CN 116628264 A CN116628264 A CN 116628264A
Authority
CN
China
Prior art keywords
audio
video
text information
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310673247.9A
Other languages
English (en)
Inventor
钱丽雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202310673247.9A priority Critical patent/CN116628264A/zh
Publication of CN116628264A publication Critical patent/CN116628264A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开一种会议信息处理方法、装置、设备和介质,可应用于大数据领域或金融领域,获取会议对应的音视频,以及获取音视频对应的文本信息。建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息,便于用户了解想要回顾的会议内容。响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频,便于用户了解想要回顾的会议内容所关联的音视频。可见,通过建立第一索引关系及生成第一提问文本,便于快速了解想要回顾的会议内容及所关联的音视频,有效提高回顾效率。

Description

一种会议信息处理方法、装置、设备和介质
技术领域
本申请涉及大数据领域,特别是涉及一种会议信息处理方法、装置、设备和介质。
背景技术
在日常生活与工作中,通常会通过会议的形式进行通讯,为了便于回顾,通常会对会议内容进行记录,后续便可以利用记录下来的会议内容进行回顾,对会议的重要内容或重要问题进行回顾等。
目前的会议记录方式比较简单,通常由会议参与者自行记录和整理。然而,这种方式缺乏全面和客观地记录,容易遗漏重要信息、信息整合困难以及回顾效率低等。同时,也需要花费大量的时间与精力进行信息整合,效率低。
由此可见,针对会议内容,如何进行高效处理以便回顾等具有重要意义。
发明内容
为了解决上述技术问题,本申请提供了一种会议信息处理方法、装置、设备和介质,通过建立会议的音视频与文本信息之间的第一索引关系以及生成第一提问文本的方式,用户不仅可以快速了解想要回顾的会议内容,还可以快速了解想要回顾的会议内容所关联的音视频,能够有效提高回顾效率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种会议信息处理方法,所述方法包括:
获取会议对应的音视频,以及获取所述音视频对应的文本信息;
建立所述文本信息与所述音视频之间的第一索引关系,以及基于所述文本信息生成第一提问文本;
响应于回顾用户基于所述第一提问文本触发的第一回顾请求,返回所述第一回顾请求所指示的提问文本对应的目标文本信息;
响应于所述回顾用户触发的针对所述目标文本信息的第一回溯请求,根据所述第一索引关系返回所述目标文本信息对应的目标音视频。
在一种可能的实现方式中,所述方法还包括:
对所述音视频进行情感分析,得到所述音视频对应的情感分析结果;
分别建立所述情感分析结果和所述文本信息之间的第二索引关系、所述情感分析结果与所述音视频之间的第三索引关系,以及基于所述情感分析结果生成第二提问文本;
响应于所述回顾用户基于所述第二提问文本触发的第二回顾请求,根据所述第二回顾请求所指示的目标情感和所述第二索引关系,返回所述目标情感对应的文本信息;
响应于所述回顾用户触发的针对所述目标情感的第二回溯请求,根据所述第三索引关系返回所述目标情感对应的音视频。
在一种可能的实现方式中,所述情感分析结果包括情感类别、所述情感类别对应的情感程度和所述情感类别对应的情感极性。
在一种可能的实现方式中,所述音视频包括所述会议的发言用户标记信息,所述方法还包括:
根据所述文本信息在所述音视频中的位置和所述发言用户标记信息在所述音视频中的位置,确定所述文本信息对应的发言用户;
建立所述文本信息与所述发言用户之间的第四索引关系,以及基于所述会议的发言用户生成第三提问文本;
响应于所述回顾用户基于所述第三提问文本触发的第三回顾请求,根据所述第三回顾请求所指示的目标发言用户和所述第四索引关系,返回所述目标发言用户对应的文本信息。
在一种可能的实现方式中,在所述返回所述目标文本信息对应的目标音视频之后,所述方法还包括:
对所述目标音视频进行文本分析,得到所述目标音视频对应的文本信息;
返回所述目标音视频对应的文本信息。
在一种可能的实现方式中,所述获取会议对应的音视频,包括:
在所述会议的线上开会过程中,获取所述会议对应的实时音视频流作为所述音视频。
在一种可能的实现方式中,所述获取所述音视频对应的文本信息,包括:
对所述音视频进行文本分析,得到所述音视频对应的初始文本;
对所述初始文本进行关键词提取以及语义分析,得到会议关键词和会议摘要作为所述文本信息。
另一方面,本申请实施例提供了一种会议信息处理装置,所述装置包括获取单元、建立单元和返回单元:
所述获取单元,用于获取会议对应的音视频,以及获取所述音视频对应的文本信息;
所述建立单元,用于建立所述文本信息与所述音视频之间的第一索引关系,以及基于所述文本信息生成第一提问文本;
所述返回单元,用于响应于回顾用户基于所述第一提问文本触发的第一回顾请求,返回所述第一回顾请求所指示的提问文本对应的目标文本信息;
所述返回单元,还用于响应于所述回顾用户触发的针对所述目标文本信息的第一回溯请求,根据所述第一索引关系返回所述目标文本信息对应的目标音视频。
在一种可能的实现方式中,所述装置还包括分析单元:
所述分析单元,用于对所述音视频进行情感分析,得到所述音视频对应的情感分析结果;
所述建立单元,还用于分别建立所述情感分析结果和所述文本信息之间的第二索引关系、所述情感分析结果与所述音视频之间的第三索引关系,以及基于所述情感分析结果生成第二提问文本;
所述返回单元,还用于响应于所述回顾用户基于所述第二提问文本触发的第二回顾请求,根据所述第二回顾请求所指示的目标情感和所述第二索引关系,返回所述目标情感对应的文本信息;
所述返回单元,还用于响应于所述回顾用户触发的针对所述目标情感的第二回溯请求,根据所述第三索引关系返回所述目标情感对应的音视频。
在一种可能的实现方式中,所述情感分析结果包括情感类别、所述情感类别对应的情感程度和所述情感类别对应的情感极性。
在一种可能的实现方式中,所述音视频包括所述会议的发言用户标记信息,所述装置还包括确定单元:
所述确定单元,用于根据所述文本信息在所述音视频中的位置和所述发言用户标记信息在所述音视频中的位置,确定所述文本信息对应的发言用户;
所述建立单元,还用于建立所述文本信息与所述发言用户之间的第四索引关系,以及基于所述会议的发言用户生成第三提问文本;
所述返回单元,还用于响应于所述回顾用户基于所述第三提问文本触发的第三回顾请求,根据所述第三回顾请求所指示的目标发言用户和所述第四索引关系,返回所述目标发言用户对应的文本信息。
在一种可能的实现方式中,所述返回单元还用于:
对所述目标音视频进行文本分析,得到所述目标音视频对应的文本信息;
返回所述目标音视频对应的文本信息。
在一种可能的实现方式中,所述获取单元还用于:
在所述会议的线上开会过程中,获取所述会议对应的实时音视频流作为所述音视频。
在一种可能的实现方式中,所述获取单元还用于:
对所述音视频进行文本分析,得到所述音视频对应的初始文本;
对所述初始文本进行关键词提取以及语义分析,得到会议关键词和会议摘要作为所述文本信息。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行以上方面所述的会议信息处理方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上方面所述的会议信息处理方法。
由上述技术方案可以看出,可以首先获取会议对应的音视频,以及获取音视频对应的文本信息。接着,可以建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。其中,第一索引关系用于标识文本信息与音视频之间的对应关系,第一提问文本可以是指文本信息对应的提问文本,便于用户对会议进行回顾。具体的,可以响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息,基于此,用户在需要对会议进行回顾时,可以直接利用第一提问文本进行回顾,返回与提问文本对应的目标文本信息,回顾用户便可以直接通过目标文本信息了解想要回顾的会议内容。以及,可以响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频,基于此,可以便于用户了解想要回顾的会议内容所关联的音视频。可见,采用本申请,通过建立会议的音视频与文本信息之间的第一索引关系以及生成第一提问文本的方式,用户不仅可以快速了解想要回顾的会议内容,还可以快速了解想要回顾的会议内容所关联的音视频,能够有效提高回顾效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种会议信息处理方法的流程图;
图2为本申请实施例提供的一种会议信息处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所提供的会议信息处理方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不做任何限制。
需要说明的是,本申请提供的一种会议信息处理方法、装置、设备和介质可用大数据领域或金融领域。上述仅为示例,并不对本申请提供的一种会议信息处理方法、装置、设备和介质的应用领域进行限定。
具体通过如下实施例进行说明:
图1为本申请实施例提供的一种会议信息处理方法的流程图,以服务器作为前述计算机设备为例进行说明,所述方法包括S101-S104:
S101:获取会议对应的音视频,以及获取音视频对应的文本信息。
针对需要回顾的会议,可以采用本申请进行处理,以便于对会议进行回顾。在具体实施时,可以首先获取会议对应的音视频,以及获取音视频对应的文本信息。其中,音视频可以是该会议对应的,用于记录会议过程,如可以记录有参会者发言的会议内容等,相应的,音视频对应的文本信息可以用于表示会议内容。
需要说明的是,针对获取会议对应的音视频的时机,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式中作为示例:
在实际应用中,可以在会议进行的过程中录制音视频,然后在会议结束之后,在基于录制的音视频进行处理以便回顾。故在一种可能的实现方式中,可以是在会议结束后获取音视频。
为了提高处理效率,在又一种可能的实现方式中,还可以是在会议进行的过程中,实时获取对应的音视频。具体的,以会议是线上进行为例,可以是在会议的线上开会过程中,获取会议对应的实时音视频流作为音视频。其中,实时音视频流可以是指会议在进行过程中实时产生的音视频。基于此,可以在会议进行的过程中,同步进行处理以便及时地生成用于回顾的相关内容,有利于提高处理效率。
此外,针对音视频的录制及传输方式,本申请不做任何限定。在实际应用中,可以在线上开会过程中,基于网页实时通信(Web Real-Time Communication,WebRTC)技术对会议进行过程中的实时音视频流进行实时传输和处理,包括音视频采集、编解码以及网络传输等。其中,基于WebRTC的线上会议是一种使用WebRTC技术实现的线上会议***。WebRTC是一个开放源代码的项目,它提供了一组应用程序编程接口(Application ProgrammingInterface,API)和开发工具,用于在支持WebRTC的浏览器和移动应用程序之间实现实时通信,如语音和视频通话、数据共享和聊天等。具体的,WebRTC技术使用实时传输协议(Real-time Transport Protocol,RTP)来传输音频和视频流,使用传输控制协议(TransmissionControl Protocol,TCP)或用户数据报协议(User Datagram Protocol,UDP)来控制通信。此外,还包括会话描述协议(Session Description Protocol,SDP)和交互式连接建立(Interactive Connectivity Establishment,ICE),同时还使用了JavaScript APIs,以便实现浏览器之间的点对点通信,WebRTC可以在各种平台和设备上运行,并且已经被广泛用于实现在线视频会议、在线教育、实时客服、在线游戏和其他实时应用程序。通过使用WebRTC技术,开发人员可以轻松创建具有实时音频和视频通信功能的Web应用程序,而无需使用插件或其他第三方工具。对于线上会议***而言,基于WebRTC的技术可以提供高质量、低延迟的实时音视频流传输,同时支持多个与会者参与会议,以及屏幕共享等功能。此外,WebRTC技术还支持端到端的加密,保护会议中的敏感信息不被窃听或篡改。在实际应用中,可以开发音视频流采集和处理模块以获取音视频流,具体需要技术人员设计和实现有效的音视频处理算法和技术,确保从会议中获取高质量的音视频流数据,如进行处理和噪音消除等以确保获取到的音视频流的质量。
还需说明的是,针对如何获取音视频对应的文本信息的方式,本申请不做任何限定。为了便于理解,本申请实施例提供以下方式作为示例:
在实际应用中,可以对音视频进行文本分析,得到音视频对应的初始文本,其中,初始文本可以是参会者发言内容对应的文字信息,通常,参会者即发言用户的发言内容中会包括一些可能无关乎会议内容的文字。为了能够更高效地回顾会议内容,接着,可以对初始文本进行关键词提取以及语义分析,得到会议关键词和会议摘要作为文本信息。其中,会议关键词可以是短词等形式,主要能够表达会议的主要话题等内容,会议摘要可以是长句或者段落等形式,主要能够表达会议的具体内容,如会议的技术实例等。基于此,可以通过对音视频进行处理的方式,获取音视频对应的文本信息,使得文本信息能够更为准确地表达会议内容,便于后续对会议进行回顾。
在实际应用中,可以开发语音识别模块,利用语音识别模块基于开源语音识别技术对音视频进行分析以得到文本信息。例如,可以使用现成的语音识别API或自行开发训练语音识别模型。其中,语音识别是一种基于计算机技术的语音转换技术,它将人类语音转化为文本或指令,从而实现与计算机进行交互的功能。通过使用语音识别技术,用户可以通过口语输入文本、执行命令、控制设备等,使得人机交互更加便捷和自然化。语音识别技术通常基于语音信号的处理、特征提取、模型训练等技术,包括自然语言处理、机器学习等多种技术手段,可以在智能音箱、手机、车载娱乐***等多种场景中应用。具体的,语音识别模块可以包括关键词提取模块、议题识别模块和文本生成模块,其中,关键词提取模块用于提取出关键词,并根据重要程度进行排序。议题识别模块用于根据关键词的分布和主题的相关性,识别出各个议题。文本生成模块用于将识别出的文本生成综合的会议摘要。在识别得到文本信息的过程中,可以使用文本生成人工智能技术进行自然语言处理和分析。其中,文本生成人工智能又称为自然语言生成(Natural Language Generation,NLG),是一种人工智能技术,利用深度学习和自然语言处理技术生成自然语言文本,以模拟人类的语言生成过程。它可以从非结构化数据中提取信息并将其转换为自然语言文本,例如从语音转录、知识库、数据库、文本摘要等方面提取信息,并将其组合成易于理解的语言。这种技术已经被广泛应用于各种领域,如智能客服、自动摘要、机器翻译等,以提高工作效率和用户体验。
S102:建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。
接着,可以建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。其中,第一索引关系用于标识文本信息与音视频之间的对应关系,第一提问文本可以是指文本信息对应的提问文本,便于用户对会议进行回顾。
在实际应用中,可以开发语义索引模块,生成文本信息对应的第一提问文本,可以理解的是,文本信息与第一提问文本之间也可以是索引形式,如此便于快速搜索和查询,有利于提高回顾效率。以及可以开发索引回溯模块,将文本信息与音视频之间建立第一索引关系,以便将文本信息与音视频关联起来。为了便于回顾,可以将文本信息作为索引标签,将生成的文本信息、第一提问文本以及音视频以索引的形式进行存储,以便于用户进行搜索和回溯。
S103:响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息。
在需要进行回顾时,可以将需要进行回顾的用户称为回顾用户,回顾用户可以基于第一提问文本触发第一回顾请求,以便获取对应的内容。相应的,可以响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息。例如,第一提问文本可以包括“您可以提问本次会议的A”、“您可以提问本次会议的B”……,其中,A、B可以是指文本信息中的某一文本信息,如此,回顾用户可以基于第一提问文本快速触发自己想要了解的内容。如,回顾用户触发的第一回顾请求所指示的提问文本为“您可以提问本次会议的A”,则返回该提问文本对应的目标文本信息,具体的,可以是返回A对应的目标文本信息。基于此,用户在需要对会议进行回顾时,可以直接利用第一提问文本进行回顾,返回与提问文本对应的目标文本信息,回顾用户便可以直接通过目标文本信息了解想要回顾的会议内容。
在实际应用中,可以开发聊天框呈现模块以及智能分析模块,利用聊天框呈现模块将生成的第一提示文本以聊天框的形式呈现,相应的,回顾用户可以进入会议的回顾聊天框,以对话的形式进行查找和理解会议内容,方便回顾用户可以快速触发回顾请求。响应于回顾用户触发的回顾请求,利用智能分析模块分析回顾用户触发的回顾请求所指示的提问文本,即分析回顾用户触发的文字信息,进而可以调用语义索引模块做文字回答,即返回与提问文本对应的目标文本信息。
S104:响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频。
在返回目标文本信息之后,回顾用户便可以通过目标文本信息了解想要回顾的会议内容。在返回目标文本信息后,还可以提示回顾用户可以使用回溯功能获取更进一步的详细的信息。在此基础上,回顾用户还可以继续回溯与之对应的音视频,以便于从音视频的角度进一步了解想要回顾的会议内容。通常,回顾用户可以接着触发针对目标文本信息的第一回溯请求,以便回顾与之对应的音视频。相应的,可以响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频,基于此,可以便于用户了解想要回顾的会议内容所关联的音视频。可见,采用本申请,通过建立会议的音视频与文本信息之间的第一索引关系以及生成第一提问文本的方式,用户不仅可以快速了解想要回顾的会议内容,还可以快速了解想要回顾的会议内容所关联的音视频,能够有效提高回顾效率。
在实际应用中,与目标文本信息对应的目标音视频可能只是会议对应的音视频中的某个片段,且在不同时候对音视频进行识别处理可能会得到不一样的结果。故为了便于回顾用户能够回顾到更为准确的会议内容,在返回目标文本信息对应的目标音视频之后,还可以对目标音视频进行文本分析,得到目标音视频对应的文本信息,接着便可以返回目标音视频对应的文本信息。基于此,可以在用户回溯了当前所关心的目标音视频之后,可以对目标音视频进一步处理,以便提取出更加详细和精准的信息,便于用户能够回顾到更为准确的会议内容。
此外,会议的发言用户的情感能够反映会议中存在争议或者会议中更为关系的会议内容等,故为了便于用户能够快速回顾会议中存在争议、更为关心的会议内容等,还可以结合情感分析,通过不同的情感分析结果便于用户回顾,以提高回顾效率。在具体实施时,可以对音视频进行情感分析,得到音视频对应的情感分析结果。接着,可以分别建立情感分析结果和文本信息之间的第二索引关系、情感分析结果与音视频之间的第三索引关系,以及基于情感分析结果生成第二提问文本,便于用户可以基于第二提问文本进行回顾。具体的,可以响应于回顾用户基于第二提问文本触发的第二回顾请求,根据第二回顾请求所指示的目标情感和所述第二索引关系,返回目标情感对应的文本信息,基于此,便于回顾用户可以利用第二提示文本回顾想要了解的目标情感对应的文本信息。在此基础上,还可以响应于回顾用户触发的针对目标情感的第二回溯请求,根据第三索引关系返回目标情感对应的音视频,基于此,便于回顾用户可以回顾想要了解的目标情感所关联的音视频。从而实现从文本信息以及音视频这两个维度,对想要了解的目标情感的会议内容进行全面回顾,有利于提高回顾效率。
其中,情感分析结果可以包括情感类别、情感类别对应的情感程度和情感类别对应的情感极性。具体的,情感类别可以包括高兴、生气等不同情绪,情感程度可以表示情感的强烈程度,情感极性可以表示情感属于积极情绪、消极情绪或者中级情绪等。基于此,能够从多个维度反映会议的发言用户的情绪,也便于回顾用户能够回顾更想要了解的目标情感的会议内容。
在实际应用中,第二提问文本可以包括“您可以提问本次会议中引发生气或引发争议的内容”、“您可以提问本次会议中讨论愉快的内容”……,如此,回顾用户可以基于第二提问文本快速触发自己想要了解的目标情感对应的会议内容。如,回顾用户触发的第二回顾请求是基于“您可以提问本次会议中讨论愉快的内容”触发的,对应的,第二回顾请求所指示的目标情感可以为“高兴”,则可以基于第二索引关系返回“高兴”这一情感所对应的文本信息。以及还可以接着触发第二回溯请求,以返回所关联的音视频。基于此,便于用户回顾,有利于提高回顾效率。
在实际应用中,可以开发语音情感分析模块,利用语音情感分析模块可以基于开源语音情感分析技术对音视频进行情感分析,提取发言用户的情感状态,例如高兴、悲伤、愤怒等,从而得到情感分析结果。其中,语音情感分析是一种人工智能技术,通过对语音信号进行分析和处理,识别出其中所包含的情感信息。这项技术可以识别出说话人在说话时的情绪状态,例如愤怒、悲伤、高兴等,以及语音的情感极性,例如积极、消极、中性等。语音情感分析技术可以应用于多种场景,例如语音客服、智能助理、情感课堂等,可以帮助人们更好地理解和处理语音交流中的情感信息。
通常,会议的发言用户可以是多个,相应的,在所录制的音视频中可以包括会议的发言用户标记信息,利用发言用户标记信息标识会议内容是哪位发言用户发表的,便于回顾。在实际应用中,为了便于用户能够快速回顾会议中某一发言用户所发表的会议内容,还可以根据文本信息在音视频中的位置和发言用户标记信息在音视频中的位置,确定文本信息对应的发言用户。接着,可以建立文本信息与发言用户之间的第四索引关系,以及基于会议的发言用户生成第三提问文本。相应的,可以响应于回顾用户基于第三提问文本触发的第三回顾请求,根据第三回顾请求所指示的目标发言用户和第四索引关系,返回目标发言用户对应的文本信息。基于此,回顾用户可以基于第三提问文本快速回顾想要了解的特定发言用户所发表的会议内容。同样的,还可以响应于回顾用户触发的针对目标发言用户对应的文本信息的第三回溯请求,可以基于第一索引关系返回目标发言用户对应的文本信息所关联的音视频,便于回顾用户可以回顾目标发言用户在会议中发言的相关音视频。
例如,第三提问文本可以包括“您可以提问本会议的a发言的会议内容”、“您可以提问本会议的b发言的会议内容”……,其中,a、b可以是会议的发言用户。便于用户可以直接利用第三提问文本快速回顾某一发言用户对应的会议内容,有利于提高回顾效率。
在实际应用中,在所录制的音视频中可以包括会议的发言时间标记信息,利用发言时间标记信息标识会议内容是何时发表的,便于回顾。相应的,在对音视频进行分析生成初始文本时,可以同时记录是哪位发言用户在什么时刻发言的,以便于回顾。在此过程中,还可以对音视频的语音进行分段、识别以及纠错,提高初始文本的可读性,以保障文本信息可以准确地传达会议内容。
为了提高处理效率,可以将前述的各个模块整合成一个完整的会议回顾***,并对会议回顾***进行相应的测试与优化,确保会议回顾***稳定可靠,保障用户具有良好的回顾体验,以及保障回顾效率。同时,针对不同的会议应用场景,还可以进行相应的定制化开发,例如可以与第三方软件或硬件进行集成、支持多语言发言以及识别等等。
由上述技术方案可以看出,可以首先获取会议对应的音视频,以及获取音视频对应的文本信息。接着,可以建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。其中,第一索引关系用于标识文本信息与音视频之间的对应关系,第一提问文本可以是指文本信息对应的提问文本,便于用户对会议进行回顾。具体的,可以响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息,基于此,用户在需要对会议进行回顾时,可以直接利用第一提问文本进行回顾,返回与提问文本对应的目标文本信息,回顾用户便可以直接通过目标文本信息了解想要回顾的会议内容。以及,可以响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频,基于此,可以便于用户了解想要回顾的会议内容所关联的音视频。可见,采用本申请,通过建立会议的音视频与文本信息之间的第一索引关系以及生成第一提问文本的方式,用户不仅可以快速了解想要回顾的会议内容,还可以快速了解想要回顾的会议内容所关联的音视频,能够有效提高回顾效率。
图2为本申请实施例提供的一种会议信息处理装置的结构图,所述装置包括获取单元201、建立单元202和返回单元203:
所述获取单元201,用于获取会议对应的音视频,以及获取所述音视频对应的文本信息;
所述建立单元202,用于建立所述文本信息与所述音视频之间的第一索引关系,以及基于所述文本信息生成第一提问文本;
所述返回单元203,用于响应于回顾用户基于所述第一提问文本触发的第一回顾请求,返回所述第一回顾请求所指示的提问文本对应的目标文本信息;
所述返回单元203,还用于响应于所述回顾用户触发的针对所述目标文本信息的第一回溯请求,根据所述第一索引关系返回所述目标文本信息对应的目标音视频。
在一种可能的实现方式中,所述装置还包括分析单元:
所述分析单元,用于对所述音视频进行情感分析,得到所述音视频对应的情感分析结果;
所述建立单元,还用于分别建立所述情感分析结果和所述文本信息之间的第二索引关系、所述情感分析结果与所述音视频之间的第三索引关系,以及基于所述情感分析结果生成第二提问文本;
所述返回单元,还用于响应于所述回顾用户基于所述第二提问文本触发的第二回顾请求,根据所述第二回顾请求所指示的目标情感和所述第二索引关系,返回所述目标情感对应的文本信息;
所述返回单元,还用于响应于所述回顾用户触发的针对所述目标情感的第二回溯请求,根据所述第三索引关系返回所述目标情感对应的音视频。
在一种可能的实现方式中,所述情感分析结果包括情感类别、所述情感类别对应的情感程度和所述情感类别对应的情感极性。
在一种可能的实现方式中,所述音视频包括所述会议的发言用户标记信息,所述装置还包括确定单元:
所述确定单元,用于根据所述文本信息在所述音视频中的位置和所述发言用户标记信息在所述音视频中的位置,确定所述文本信息对应的发言用户;
所述建立单元,还用于建立所述文本信息与所述发言用户之间的第四索引关系,以及基于所述会议的发言用户生成第三提问文本;
所述返回单元,还用于响应于所述回顾用户基于所述第三提问文本触发的第三回顾请求,根据所述第三回顾请求所指示的目标发言用户和所述第四索引关系,返回所述目标发言用户对应的文本信息。
在一种可能的实现方式中,所述返回单元还用于:
对所述目标音视频进行文本分析,得到所述目标音视频对应的文本信息;
返回所述目标音视频对应的文本信息。
在一种可能的实现方式中,所述获取单元还用于:
在所述会议的线上开会过程中,获取所述会议对应的实时音视频流作为所述音视频。
在一种可能的实现方式中,所述获取单元还用于:
对所述音视频进行文本分析,得到所述音视频对应的初始文本;
对所述初始文本进行关键词提取以及语义分析,得到会议关键词和会议摘要作为所述文本信息。
由上述技术方案可以看出,可以首先获取会议对应的音视频,以及获取音视频对应的文本信息。接着,可以建立文本信息与音视频之间的第一索引关系,以及基于文本信息生成第一提问文本。其中,第一索引关系用于标识文本信息与音视频之间的对应关系,第一提问文本可以是指文本信息对应的提问文本,便于用户对会议进行回顾。具体的,可以响应于回顾用户基于第一提问文本触发的第一回顾请求,返回第一回顾请求所指示的提问文本对应的目标文本信息,基于此,用户在需要对会议进行回顾时,可以直接利用第一提问文本进行回顾,返回与提问文本对应的目标文本信息,回顾用户便可以直接通过目标文本信息了解想要回顾的会议内容。以及,可以响应于回顾用户触发的针对目标文本信息的第一回溯请求,根据第一索引关系返回目标文本信息对应的目标音视频,基于此,可以便于用户了解想要回顾的会议内容所关联的音视频。可见,采用本申请,通过建立会议的音视频与文本信息之间的第一索引关系以及生成第一提问文本的方式,用户不仅可以快速了解想要回顾的会议内容,还可以快速了解想要回顾的会议内容所关联的音视频,能够有效提高回顾效率。
又一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述实施例提供的会议信息处理方法。
该计算机设备可以包括终端设备或服务器,前述的会议信息处理装置可以配置在该计算机设备中。
又一方面,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的会议信息处理方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语(如果存在)仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请实施例提供的一种会议信息处理方法、装置、设备和介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法。同时,对于本领域的一般技术人员,依据本申请的方法,在具体实施方式及应用范围上均会有改变之处。
综上所述,本说明书内容不应理解为对本申请的限制,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。

Claims (10)

1.一种会议信息处理方法,其特征在于,所述方法包括:
获取会议对应的音视频,以及获取所述音视频对应的文本信息;
建立所述文本信息与所述音视频之间的第一索引关系,以及基于所述文本信息生成第一提问文本;
响应于回顾用户基于所述第一提问文本触发的第一回顾请求,返回所述第一回顾请求所指示的提问文本对应的目标文本信息;
响应于所述回顾用户触发的针对所述目标文本信息的第一回溯请求,根据所述第一索引关系返回所述目标文本信息对应的目标音视频。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述音视频进行情感分析,得到所述音视频对应的情感分析结果;
分别建立所述情感分析结果和所述文本信息之间的第二索引关系、所述情感分析结果与所述音视频之间的第三索引关系,以及基于所述情感分析结果生成第二提问文本;
响应于所述回顾用户基于所述第二提问文本触发的第二回顾请求,根据所述第二回顾请求所指示的目标情感和所述第二索引关系,返回所述目标情感对应的文本信息;
响应于所述回顾用户触发的针对所述目标情感的第二回溯请求,根据所述第三索引关系返回所述目标情感对应的音视频。
3.根据权利要求2所述的方法,其特征在于,所述情感分析结果包括情感类别、所述情感类别对应的情感程度和所述情感类别对应的情感极性。
4.根据权利要求1所述的方法,其特征在于,所述音视频包括所述会议的发言用户标记信息,所述方法还包括:
根据所述文本信息在所述音视频中的位置和所述发言用户标记信息在所述音视频中的位置,确定所述文本信息对应的发言用户;
建立所述文本信息与所述发言用户之间的第四索引关系,以及基于所述会议的发言用户生成第三提问文本;
响应于所述回顾用户基于所述第三提问文本触发的第三回顾请求,根据所述第三回顾请求所指示的目标发言用户和所述第四索引关系,返回所述目标发言用户对应的文本信息。
5.根据权利要求1所述的方法,其特征在于,在所述返回所述目标文本信息对应的目标音视频之后,所述方法还包括:
对所述目标音视频进行文本分析,得到所述目标音视频对应的文本信息;
返回所述目标音视频对应的文本信息。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述获取会议对应的音视频,包括:
在所述会议的线上开会过程中,获取所述会议对应的实时音视频流作为所述音视频。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述获取所述音视频对应的文本信息,包括:
对所述音视频进行文本分析,得到所述音视频对应的初始文本;
对所述初始文本进行关键词提取以及语义分析,得到会议关键词和会议摘要作为所述文本信息。
8.一种会议信息处理装置,其特征在于,所述装置包括获取单元、建立单元和返回单元:
所述获取单元,用于获取会议对应的音视频,以及获取所述音视频对应的文本信息;
所述建立单元,用于建立所述文本信息与所述音视频之间的第一索引关系,以及基于所述文本信息生成第一提问文本;
所述返回单元,用于响应于回顾用户基于所述第一提问文本触发的第一回顾请求,返回所述第一回顾请求所指示的提问文本对应的目标文本信息;
所述返回单元,还用于响应于所述回顾用户触发的针对所述目标文本信息的第一回溯请求,根据所述第一索引关系返回所述目标文本信息对应的目标音视频。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7中任意一项所述的方法。
CN202310673247.9A 2023-06-07 2023-06-07 一种会议信息处理方法、装置、设备和介质 Pending CN116628264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310673247.9A CN116628264A (zh) 2023-06-07 2023-06-07 一种会议信息处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310673247.9A CN116628264A (zh) 2023-06-07 2023-06-07 一种会议信息处理方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN116628264A true CN116628264A (zh) 2023-08-22

Family

ID=87591904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310673247.9A Pending CN116628264A (zh) 2023-06-07 2023-06-07 一种会议信息处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116628264A (zh)

Similar Documents

Publication Publication Date Title
US11551804B2 (en) Assisting psychological cure in automated chatting
Serban et al. A survey of available corpora for building data-driven dialogue systems
WO2018224034A1 (zh) 智能问答方法、服务器、终端及存储介质
McKeown et al. The semaine database: Annotated multimodal records of emotionally colored conversations between a person and a limited agent
US10574597B2 (en) Conversational log replay with voice and debugging information
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
JP2019003604A (ja) ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム
US11749255B2 (en) Voice question and answer method and device, computer readable storage medium and electronic device
CN108710653B (zh) 一种绘本朗读点播方法、装置及***
US10762906B2 (en) Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques
CN111046148A (zh) 智能交互***及智能客服机器人
CN113392273A (zh) 视频播放方法、装置、计算机设备及存储介质
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN116431806A (zh) 自然语言理解方法及冰箱
Inupakutika et al. Integration of NLP and Speech-to-text Applications with Chatbots
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
CN113630309B (zh) 机器人会话***、方法、装置、计算机设备和存储介质
CN114065720A (zh) 会议纪要生成方法、装置、存储介质及电子设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN113542797A (zh) 视频播放中的互动方法、装置及计算机可读存储介质
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN116628264A (zh) 一种会议信息处理方法、装置、设备和介质
US11704585B2 (en) System and method to determine outcome probability of an event based on videos
Pan et al. A multimodal framework for automated teaching quality assessment of one-to-many online instruction videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination