CN116303893B - 基于lda主题模型的主播形象分类与关键特质分析方法 - Google Patents

基于lda主题模型的主播形象分类与关键特质分析方法 Download PDF

Info

Publication number
CN116303893B
CN116303893B CN202310161332.7A CN202310161332A CN116303893B CN 116303893 B CN116303893 B CN 116303893B CN 202310161332 A CN202310161332 A CN 202310161332A CN 116303893 B CN116303893 B CN 116303893B
Authority
CN
China
Prior art keywords
anchor
topic
distribution
introduction
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310161332.7A
Other languages
English (en)
Other versions
CN116303893A (zh
Inventor
吴少辉
谢晓东
王洪珑
李子菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202310161332.7A priority Critical patent/CN116303893B/zh
Publication of CN116303893A publication Critical patent/CN116303893A/zh
Application granted granted Critical
Publication of CN116303893B publication Critical patent/CN116303893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于LDA主题模型的主播形象分类与关键特质分析方法,属于数据分析技术领域。方法是:S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数,依据主题分布的最高值作为该主播形象分类;S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;S6、基于不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。本发明用于主播形象分类与关键特质分析。

Description

基于LDA主题模型的主播形象分类与关键特质分析方法
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于LDA主题模型的主播形象分类与关键特质分析方法。
背景技术
主播介绍是指在当前直播购物环境中,主播通过直播购物平台的个人信息界面向消费者和公司展现自我特征,明确直播内容,发布声明并提醒观众与公司相关直播信息的重要文本。随着信息技术和电子商务的飞速发展,越来越多的观众通过主播介绍进一步了解主播信息与其直播内容,从而关注主播、实现购买等。主播介绍作为主播风格与品牌特质的重要呈现方式,被主播们极大使用从而突出自身,推销自己,指导观众进行购买。但是,在现有的主播群体中存在哪些主播人设或者主播画像?这些不同类型的主播究竟是如何介绍自己?除此以外,这些不同类型主播的直播效果是否有差异,同时,不同类主播之间影响其直播效果差异的特质有哪些,需要哪些资源或者行为来提升某类主播的直播效果?无法明确主播介绍的相关元素与其占比,就无法对主播介绍方式进行指导,从而导致主播自我呈现、内容发布与用户偏好产生偏差,最终无法实现精准营销与个人品牌构建。不结合直播效果进行主播特质的对比分析,更无法了解到不同人设主播的努力方向。目前对此问题的研究更多使用实验法和定性的研究方法,无法对大量的文本数据进行深入的研究。同时现有的可针对大数据的主播画像往往需要人工编码,对信息的处理和挖掘依赖于人工标签(如《一种基于主播画像的声音分类方法》等)。且利用自然语言处理个人介绍并研究直播效果的文献相对较少,数据采集的样本也偏少,对文本内容的挖掘也不够充分,令公司难以真实快速地了解主播及个人形象,主播也难以精确有效的自我介绍,后续根据主播介绍特征的相关研究也无法深入开展,对其直播效果及关键特质更无法挖掘。
通过自然语言处理和机器学习,针对大量文本数据(主播介绍)迅速提炼核心内容,提炼主播介绍的侧重点与类别,研究介绍内容与其分类,迅速挖掘主播介绍中不同话题点的比例,依据主播介绍中占比最大比例的主题分布对该类主播进行分类并依据主题词分布进行画像(即不同类型的主播会有哪些特征),同时对比不同类型主播的直播效果及独特特征进行分析。此方法对实现主播与观众的精准介绍与内容呈现,挖掘并对比关键特征,提升直播参与方的沟通效率和直播的沉浸体验,具有显著意义。
发明内容
本发明为解决现有技术存在的上述问题,提供一种基于LDA主题模型的主播形象分类与关键特质分析方法,能够对主播的介绍内容进行分析和归类(即能对主播形象分类与关键特质分析)。
实现上述目的,本发明采取的技术方案如下:
基于LDA主题模型的主播形象分类与关键特质分析方法,利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响该类群体直播效果的关键特质,所述方法包括以下步骤:
S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;
S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;
S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;
S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。
进一步的是,所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:
S21、筛选掉主播介绍内容为空的主播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最佳主题数K,困惑度计算公式为:
其中,M为主播介绍的个数,Ni为第i位主播的主播介绍中出现的词语总数,wi为构成第i位主播的主播介绍的词语,p(wi)表示基于主题数K的wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;
S32、在先验参数为α和β的狄利克雷分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布
α表示为每位主播介绍在主题上分布的狄利克雷先验参数;
β表示为所有主播介绍的主题词分布的狄利克雷先验参数;
S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式分布,表示为:
Z|θ=Multinomial(θ)
从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式分布,表示为:
其中,构成第i位主播的主播介绍的词语wi概率分布的计算公式为:
其中,P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i位主播介绍中第s个主题的概率;K为最佳主题数;P(wi|i)表示概率分布;
进一步的是,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词以及每位主播介绍的主题分布θ,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;
S42、为了避免不同主题k下相同高频词的出现,影响主题k的解释结果,采用主题-词语关联度,以控制显示某一主题k的不同的下位词项;
其中,w表示语料库中的词语;k表示主题;P(w)表示词语w在所有主播介绍的主题词分布中的边际概率;/>表示词语w与主题k的相关度,λ=0时,显示主题k下特有的、相对独立的下位词项,即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题,用户通过给定λ值,调节词语w与主题k的相关程度,即r(w,k|λ);
S43、依据主题分布的最高值,作为该主播形象分类,并依据步骤S42结果中的相对独立的下位词项和分布概率高的下位词项解释该主播的分类。
进一步的是,所述步骤S5中,使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;具体步骤是:
S51、对主播的特征和效果数据进行对数处理,以避免极端值的影响,同时将偏态数据转换成正态数据;
S52、使用方差分析不同主播群体之间的直播特质和效果差异,方差分析用于定类数据与定量数据之间的差异分析,定类数据为主播分组,定量数据为直播效果;
进一步的是,所述步骤S6中,使用回归分析,得到每个主播群体内的影响直播效果的关键特质;具体步骤是:
S61、在每个主播群体内,以主播特质为自变量,直播效果为因变量,建立回归方程,
yi=k1xi1+k2xi2+k3xi3+...knxin+b+c
其中,yi表示第i位主播的销量;xi1....xin表示第i位主播的n个特质相关的变量;b表示主播的截距项;c表示主播的残差项;ki....kn表示n个特质对应的系数;
S62、对于每位主播而言,选择最大的k值,即为该主播最大影响因素,并依据不同的主播特质所对应的k值大小进一步分析变量的重要性。
与现有技术相比,本发明的有益效果是:本发明提出的一种基于LDA主题模型的主播形象分类与关键特质分析方法,首先运用LDA主题模型挖掘主播介绍,以此为语料库展开分析,并提取出高频特征词与不同主题所占比例。该方法使用的LDA主题模型是一种无监督模型,仅需要主播介绍数据(即介绍文本)作为语料并且指定主题数量,无须标签即可完成训练,易于实现;依据结果,本方法能明确主播介绍内容的不同维度以及其所占比例(依据每位主播的主播介绍的主题分布与主题词分布分析得出),弥补了现有基于个人介绍的分析方法的不足,可以快速、高效、精确的对主播介绍内容展开分析。本发明中,LDA主题模型能够依据所有主播的介绍文本,将每位主播的介绍匹配到最相关的主题,即在每位主播介绍中的不同主题的概率分布,从而深入理解直播电商与观众互动、品牌宣传的内在模式,并为进一步地探索不同介绍重点下的对于主播直播业绩的影响打好基础,为直播间的主播提供有效的支撑服务。本发明具有识别速度快、准确率高且易于实现等特点,成功为主播介绍的语义解析(即主播的文本数据分析)提供了可靠的保障,可广泛用于直播效果分析,从而为主播提供建议。本发明的方法解决了现有对于文本分类的方法往往采用主观定性的视角,通过机器学习将主播介绍进行分类,提高了分类的准确率,也充分考虑到了每位主播的异质性。这种分析方法可以广泛运用在主播介绍中,并适用于各类直播。
附图说明
图1为本发明的基于LDA主题模型的主播形象分类与关键特质分析方法实施例1的流程框图;
图2为LDA主题模型的简易示意图。
图2中,α和β均为狄利克雷(Dirichlet)先验参数,其中:α表示每位主播介绍在主题上分布的狄利克雷先验参数;β表示所有主播介绍的主题词分布的狄利克雷先验参数;θ表示抽样生成每位主播介绍的主题分布;表示所有主播介绍的主题词分布;M表示主播介绍的个数(文本数);Ni表示第i位主播的主播介绍中出现的词语总数;Z是指抽样生成每位主播介绍的主题;W表示抽样生成主题词。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施方式一:一种基于LDA主题模型的主播形象分类与关键特质分析方法,利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响该类群体直播效果的关键特质,所述方法包括以下步骤:
S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;
S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类(此步骤是利用LDA主题模型得到不同主题群体。即,把主播群体分类);
S5、使用方差分析(ANOVA),得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异(在步骤S4的主播群体分类中得到不同主播群体之间的差异性特质,即把不同类的主播做了对比);
S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质。
进一步的是,所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:
S21、筛选掉主播介绍内容为空的主播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型(为现有技术)的主题数K,采用困惑度评价法求得最佳主题数K(不同主题数K运算得出的困惑度是不同的,困惑度越低,对应K值下的主题模型的泛化能力就越强),困惑度计算公式为:
其中,M为主播介绍的个数;Ni为第i位主播的主播介绍中出现的词语总数;wi为构成第i位主播的主播介绍的词语;p(wi)表示基于主题数K的wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;
S32、在先验参数为α和β的狄利克雷(Dirichlet)分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布
α表示为每位主播介绍在主题上分布的狄利克雷先验参数;
β表示为所有主播介绍的主题词分布的狄利克雷先验参数;
S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式(Multinomial)分布,表示为:
Z|θ=Multinomial(θ)
从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式(Multinomial)分布,表示为:
其中,构成第i位主播的主播介绍的词语wi概率分布的计算公式为:
其中,P(wi|z=s)表示词语wi属于第s个主题的概率;P(x=s|i)表示第i位主播介绍中第s个主题的概率;K为最佳主题数;P(wi|i)表示概率分布;
进一步的是,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词以及每位主播介绍的主题分布θ,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;
S42、为了避免不同主题k下相同高频词的出现,影响主题k的解释结果,采用主题-词语关联度(relevance),以控制显示某一主题k的不同的下位词项;
其中,w表示语料库中的词语;k表示主题;P(w)表示词语w在所有主播介绍的主题词分布中的边际概率;/>表示词语w与主题k的相关度,λ=0时,显示主题k下特有的、相对独立的下位词项(所述主题词分布/>由各个词语和各个主题的相关度/>组成),即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题,用户通过给定λ值,调节词语w与主题k的相关程度,即r(w,k|λ);
S43、依据主题分布的最高值(即步骤S41中最大主题分布的值),作为该主播形象分类,并依据步骤S42结果中的相对独立的下位词项和分布概率高的下位词项解释该主播的分类。
进一步的是,所述步骤S5中,使用方差分析(ANOVA),得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;具体步骤是:
S51、对主播的特征(如粉丝量、直播时长)和效果数据(如粉丝量、直播销量等)进行对数处理,以避免极端值的影响,同时将偏态数据转换成正态数据;
S52、使用方差分析(ANOVA,为现有技术)不同主播群体之间的直播特质和效果差异(如直播销量等差异),方差分析用于定类数据与定量数据之间的差异分析,定类数据为主播分组,定量数据为直播效果(如直播销量,点赞量等);
进一步的是,所述步骤S6中,使用回归分析,得到每个主播群体内的影响直播效果的关键特质;具体步骤是:
S61、在每个主播群体内,以主播特质(如粉丝数、直播时长等)为自变量,直播效果为因变量,建立回归方程,
yi=k1xi1+k2xi2+k3xi3+...knxin+b+c
其中,yi表示第i位主播的销量;xi1....xin表示第i位主播的n个特质相关的变量;b表示主播的截距项;c表示主播的残差项;ki....kn表示n个特质对应的系数;
S62、对于每位主播而言,选择最大的k值,即为该主播最大影响因素,并依据不同的主播特质(包括直播时长等)所对应的k值大小进一步分析变量的重要性。
实施例1:
本实施例披露了一种基于LDA主题模型的主播形象分类与关键特质分析方法,该方法采用LDA主题模型挖掘主播介绍中的不同主题及主题词,并进行分类提取,旨在挖掘主播介绍的内容要素,在此基础上对主播群体及形象进行划分,并以每位主播的平均销售量作为直播效果的衡量指标,并探究不同形象主播的直播效果。在此基础上,对该群体内主播特质对直播效果的影响进行乐回归分析,并对比不同群体主播特质的影响差异,指导主播在直播中更好的介绍、呈现自己,介绍直播内容。
一、研究数据与方法
1、研究数据
随着移动互联网技术的发展,直播也越来越受到观众的喜爱,各种各样形象的主播也在直播平台上出现。本实施例选取了抖音平台上2067位主播的主播介绍。
2、研究方法
随着时代科技的发展,直播凭借其便捷性,沉浸性,极大地丰富了观众的生活,观众也越来越依赖直播购物。在消费者观看直播,每位主播的主播介绍也成为决定观看者是否冲动购买的重要刺激。主播介绍作为主播与观众的重要沟通载体,既能告知观众直播内容与主播特质,从而构建主播的个人品牌,也会使观众对其产生了解与信任。本实施例通过对主播介绍进行数据挖掘,分析主播介绍的不同内容板块,精细化分类主播介绍的形象特质占比(每位主播介绍中的不同主题分布),从而实现主播群体的划分,并在此基础上探究不同主播群体对应的个人形象带来的直播效果差异,并探究不同主播特质对此直播效果的差异性影响。具体步骤如下(如图1所示):
(1)数据预处理:通过设计Python爬虫程序获取抖音的主播介绍的原始数据,对原始数据进行数据预处理,主要包括数据清洗、Jieba分词(即文本分词)和去停用词处理。
(2)主题模型分析:采用LDA主题模型识别主播介绍中潜藏的不同内容要素(即主题分布),挖掘主题及对应高频词,依据每位主播介绍中对应的最大概率分布对此主播进行群体的划分,并归纳主播群体的形象。
(3)关键特质分析:对数据机型自然对数处理(即数据转换),并进行方差分析,探究不同主播群体的直播效果差异。进行回归分析,探究不同主播特质对主播效果的差异性影响(即基于分析结果,分析主播特质)。
二、实验与分析
1、数据来源及预处理
通过第三方平台知瓜选取了抖音平台上2021年5月至10月期间的全部带货直播,获取每场直播的信息数据,去除掉主播介绍为空的直播后,累计2067位主播的主播介绍被获取。
由于主播在主播介绍中的介绍内容较为随意,因此,获得原始数据后,通常需要进行数据预处理,提高数据的可靠性,具体过程为:
(1)通过Excel筛选去除特殊字符;
(2)通过利用Jieba分词软件包,在Python程序中进行文本分词;
(3)收集停用词库,制作停用词表,并利用Python程序去除停用词;
2、主题模型分析
在直播过程中,不同的主播有不同的主播介绍风格与要素。有的主播会将主播介绍的重点放在产品上;而有的主播会分享自己的经历,和以期待和观众产生情感共鸣;也有的主播会突出自己的信誉与服务。本发明采用LDA主题模型对主播介绍进行主题挖掘,得到不同介绍主题下的特征词及主题要素的占比,并依据主题分布的最大值得到不同类型的主播群体。
2.1、确定LDA主题模型最优主题数;本实施例采用困惑度算法确定最优主题数范围。
困惑度算法为:
LDA主题模型需要提前设置文本的主题数K,主题数K要最优才能做出合理分类,主题数K偏大会导致部分主题的语义信息不明显,主题数K偏小会导致主题颗粒度过粗。选择合适的主题数K一直是一个开放的问题。本实施例采用困惑度算法和LDA主题模型结果中的主题的可解释性,两者结合确定最优主题数K,困惑度(Perplexity)表示文档(即每篇主播介绍)所属主题的不确定性,它与聚类效果成反比,困惑度越小,主题数越优。计算公式如下:
其中,M为主播介绍的个数,也是主播的个数;Ni为第i位主播的主播介绍中出现的词语总数;wi为构成第i位主播的主播介绍的词语;p(wi)表示基于主题数K的wi产生的概率;
较小的困惑度表明,经过训练的主题对测试文档中的单词的误读程度较低。同时,除了较小的困惑度代表着统计意义的最佳选择集。
为了保证聚类效果,得出主题数K在10以内的所有主题数K的困惑度;
我们采用Python程序进行LDA中sklearn包进行困惑度的计算。较多的主题数量可能会影响聚类的效果,较少的主题数也会使主题分析不够精确。依据手肘法,选择困惑度的拐点,即K=3作为最佳主题数K,开始构建LDA主题模型。
2.2、LDA主题模型
本实施例采用LDA主题模型对主播介绍进行主题挖掘,这是一种文档主题生成模型,共包含词、主题、文档(即主播介绍)三层结构,具体如图2所示;该模型采用概率推断算法处理文本,建模前不需要人工干预标注初始文档,可识别文档中隐含的主题信息,更好地保留文档内部关系,在文本语义分析、信息检索等方面取得了良好的实践效果。
LDA主题模型生成过程如下:
(1)在先验参数为α和β的狄利克雷(Dirichlet)分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布
α表示为每位主播介绍在主题上的分布的狄利克雷先验参数;
β表示为所有主播介绍的主题词分布的狄利克雷先验参数;
(2)从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式(Multinomial)分布,表示为:
Z|θ=Multinomial(θ)
从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式(Multinomial)分布,表示为:
其中,构成第i位主播的主播介绍的词语wi概率分布的计算公式为:
其中,P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i位主播介绍中第s个主题的概率,K为最佳主题数,P(wi|i)表示概率分布;
2.3主题结果分析
主题数K=3下结果的部分示例如表1,列出了每个主题中出现频率最高的20个词汇及其出现的概率,显示了主播介绍中三个主题的部分词语分布。在主题1中,主要词是品牌、客服、官方、工厂等。这些词都是特定于信誉的。因此,我们将这种主播介绍元素称为信誉型。在此主题下,主播往往聚焦于突出自身的信誉和品牌,会较多的讨论产品和服务的保障、名声等。相比之下,主题2中个人介绍的主要词汇包括合作、商务、售后、分享、关注等。结果表明,这一类别的主播介绍元素是聚焦于互动的,更倾向于主播与观众之间的交互行为,关系和情感在这一主题中起着重要作用。以此,主题2中的情感词比例较高,将主题2中主播介绍的归类为关系型或者互动型的主播介绍。主题3聚焦于产品,该主题下有大量的独特的词汇,如商品、女装、身高、体重等,此类主播介绍的元素往往突出于自己的产品信息,以证明自己的产品贴合于客户的需求。值得注意的是,不同主题下可能会出现相同的高频词,影响我们对主题的定义与解释,为此,可采用关联度进一步分析。
表1
为了避免不同主题下相同高频词的出现,影响主题的解释结果。采用主题-词语关联度(relevance),即可以控制显示某一主题的不同的下位词项。
r(w,k|λ)=λlog(φkw)+(1-λ)log(φkw/p(w))
其中,w表示语料库中的词语;k表示主题;P(w)表示词语w在主题词分布矩阵Φ中的边际概率;Φkw表示词语w与主题k的相关度,即主题词分布主题-词语关联度的参数λ=0时,显示主题k下特有的、相对独立的下位词项(/>是主题词分布,是一个统称,里面由各个词语和各个主题的相关度/>组成),即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题,用户通过给定λ值,调节词语w与话题k的相关程度,即r(w,k|λ);
本实施例中使用Python下的pyLDAvis工具包来绘制动态交互式的LDA主题模型可视化图谱,分析研究主题之间的关联关系,从而识别核心研究主题以及次要研究主题。pyLDAvis可以通过调节参数λ(0≤λ≤1)来控制主题-词语关联度relevance(termw|topict),以主题3为例:
由关联度可知,主题3下的前10个关联词中,有6个和产品相关,分别为商品,女装,工厂,身高,服装,衣服,可印证该主题主要聚焦于产品。
在此基础上,得到了不同主题在主播介绍中的分布,部分示例如表2所示。我们了解到不同主播介绍的风格与氛围,并为进一步地探索不同主播介绍的元素对于主播直播业绩的影响打好基础,即根据每位主播自身的往期直播效果,根据每个主题对应概率分布(即主题分布),探寻最适合自己的介绍方式,以及自己粉丝的独特互动偏好与兴趣点。
最终,在此步骤内,我们得到三类主播群体,第一类主播群体(群体1),侧重突出自己的产品、品牌的信誉。第二类主播群体(群体2),侧重与顾客的互动。第三类主播群体(群体3),侧重于自己的产品,其个人介绍包含大量的产品信息,以期满足顾客对产品的需求。
表2
3、关键特质分析
通过LDA主题模型对主播的群体进行分类,对数据自然对数处理,并进行方差分析,探究不同主播群体的直播效果差异,进行回归分析,探究不同主播特质对主播效果的差异性影响。
3.1、数据转换
对数值数据,即直播销售量(GMV)、主播粉丝量等进行对数处理,避免极端值的影响,同时将偏态数据转换成正态数据,在此数据的基础上进行方差分析和回归分析。
3.2、方差分析检验直播效果
使用方差分析(ANOVA分析,为现有技术)不同主播群体之间的直播效果差异(在本实施例中为直播销量差异),方差分析用于定类数据与定量数据之间的差异分析,定类数据为主播分组,定量数据为直播效果(如直播销量,点赞量等)。
本实施例采用spss进行方差分析,得到结果如表3所示;
表3
注.**p<0.01.
根据方差分析结果可知,参数F值(组间与组内均方的比值)为5.799,参数p(用于判定假设检验结果)值为0.003<0.05,即可得出,基于信誉的主播群体有最高的销量,基于互动的主播群体次之,而基于产品的主播群体直播带货效果最差。由此可看出,主播以品质流的形象接触观众最能刺激观众的购买。
3.3、回归分析挖掘关键特质
由LDA主题模型和方差分析,我们将主播群体分为三类,群体1是信誉型主播(第一类主播),群体2是互动型主播(第二类主播),群体3是产品型主播(第三类主播),并发现主播群体中信誉型主播会有更高的销量。接下来我们对每个主播群体进行回归分析,探究每个主播群体内,主播的不同特质对直播销量的差异性影响,从而更好的为不同群体的主播提供指导。
我们将主播在每场直播中、经过对数转换的log(平均商品种类数),log(产品平均价格),在一天中不同时间段直播的频率(即在上午,下午,晚上,凌晨直播的概率),log(直播时长),log(主播的平均粉丝数)为自变量,并以log(直播的带货量)为因变量,以凌晨直播的概率为参照组,建立回归分析模型,如表4所示;
表4
/>
由回归分析结果可知,对于三类主播而言,产品的平均价格都是当前自变量中最重要的影响因素,且对第三类主播而言,商品种类数的多少不会对直播效果产生较大影响;而对于第二类主播,则不应该在凌晨直播,但对于第一类主播,则没有关系,可以挑选任意时间段直播;对于第一类和第三类主播而言,则应该在当前直播时间的基础上,加大直播时长;同时,粉丝数对三类主播都是至关重要的,对于第一类主播尤其如此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:利用LDA主题模型得到不同主题群体,了解不同主播群体的直播效果差异,挖掘影响不同主播群体直播效果的关键特质,所述方法包括以下步骤:
S1、在指示终端设备中获取每位主播的介绍文本,得到原始数据集;
S2、对原始数据集中的介绍文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类;
S5、使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;
S6、基于步骤S5中的不同主播群体之间的差异性特质和直播效果差异,使用回归分析,得到每个主播群体内的影响直播效果的关键特质;
所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词和每位主播自我介绍的主题分布,确定主题数K,依据主题分布的最高值作为该主播形象分类,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词以及每位主播介绍的主题分布θ,分析最佳主题数K下,每个主题k的前20个高频词,同时对每个主题k进行定义与解释;
S42、为了避免不同主题k下相同高频词的出现,影响主题k的解释结果,采用主题-词语关联度,以控制显示某一主题k的不同的下位词项;
其中,w表示语料库中的词语,k表示主题,P(w)表示词语w在所有主播介绍的主题词分布中的边际概率,/>表示词语w与主题k的相关度,λ表示参数且0≤λ≤1,λ=0时,显示主题k下特有的、相对独立的下位词项,即这些词项往往只出现在该主题;λ=1时,显示分布概率更高的下位词项,但是这些高分布概率的词项往往不单独属于该主题,也会同时属于其它主题,用户通过给定λ值,调节词语w与主题k的相关程度,即r(w,k|λ);
S43、依据主题分布的最高值,作为该主播形象分类,并依据步骤S42结果中的相对独立的下位词项和分布概率高的下位词项解释该主播的分类。
2.根据权利要求1所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S2中,对原始数据集中的介绍文本进行数据预处理的具体步骤如下:
S21、筛选掉主播介绍内容为空的主播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
3.根据权利要求1或2所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型的主题数K,采用困惑度评价法求得最佳主题数K,困惑度计算公式为:
其中,M为主播介绍的个数;Ni为第i位主播的主播介绍中出现的词语总数;wi为构成第i位主播的主播介绍的词语;p(wi)表示基于主题数K的wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为最佳主题数K;
S32、在先验参数为α和β的狄利克雷分布中,抽样生成基于最佳主题数K条件下的每位主播介绍的主题分布θ和所有主播介绍的主题词分布
α表示为每位主播介绍在主题上分布的狄利克雷先验参数;
β表示为所有主播介绍的主题词分布的狄利克雷先验参数;
S33、从每位主播介绍的主题分布θ中,抽样生成每位主播介绍的主题Z,LDA主题模型假设每位主播介绍都是由不同比例的词语组合组成的,反映了每位主播介绍的独特的主题,组合比例服从多项式分布,表示为:
Z|θ=Multinomial(θ)
从所有主播介绍的主题词分布中,抽样生成主题词W,每个主题k都是由主播介绍中的词语组成的,组合比例也服从多项式分布,表示为:
其中,构成第i位主播的主播介绍的词语wi概率分布的计算公式为:
其中,P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i位主播介绍中第s个主题的概率,K为最佳主题数,P(wi|i)表示概率分布。
4.根据权利要求1所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S5中,使用方差分析,得到不同主播群体之间的差异性特质,了解不同主播群体的直播效果差异;具体步骤是:
S51、对主播的特征和效果数据进行对数处理,以避免极端值的影响,同时将偏态数据转换成正态数据;
S52、使用方差分析不同主播群体之间的直播特质和效果差异,方差分析用于定类数据与定量数据之间的差异分析,定类数据为主播分组,定量数据为直播效果。
5.根据权利要求4所述的基于LDA主题模型的主播形象分类与关键特质分析方法,其特征在于:所述步骤S6中,使用回归分析,得到每个主播群体内的影响直播效果的关键特质;具体步骤是:
S61、在每个主播群体内,以主播特质为自变量,直播效果为因变量,建立回归方程,yi=k1xi1+k2xi2+k3xi3+...knxin+b+c
其中,yi表示第i位主播的销量,xi1....xin表示第i位主播的n个特质相关的变量,b表示主播的截距项,c表示主播的残差项,ki....kn表示n个特质对应的系数;
S62、对于每位主播而言,选择最大的k值,即为该主播最大影响因素,并依据不同的主播特质所对应的k值大小进一步分析变量的重要性。
CN202310161332.7A 2023-02-23 2023-02-23 基于lda主题模型的主播形象分类与关键特质分析方法 Active CN116303893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310161332.7A CN116303893B (zh) 2023-02-23 2023-02-23 基于lda主题模型的主播形象分类与关键特质分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310161332.7A CN116303893B (zh) 2023-02-23 2023-02-23 基于lda主题模型的主播形象分类与关键特质分析方法

Publications (2)

Publication Number Publication Date
CN116303893A CN116303893A (zh) 2023-06-23
CN116303893B true CN116303893B (zh) 2024-01-30

Family

ID=86833492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310161332.7A Active CN116303893B (zh) 2023-02-23 2023-02-23 基于lda主题模型的主播形象分类与关键特质分析方法

Country Status (1)

Country Link
CN (1) CN116303893B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140065235A (ko) * 2012-11-21 2014-05-29 서울대학교산학협력단 트래픽 분류 장치 및 방법
CN109062905A (zh) * 2018-09-04 2018-12-21 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质
CN110400027A (zh) * 2018-04-20 2019-11-01 香港乐蜜有限公司 直播平台中主播的统计管理方法和装置
CN113161001A (zh) * 2021-05-12 2021-07-23 东北大学 一种基于改进lda的过程路径挖掘方法
CN113807092A (zh) * 2021-09-09 2021-12-17 贺晓宇 一种基于lda主题模型的卷烟品牌在线评论分析方法
CN115619041A (zh) * 2022-11-09 2023-01-17 哈尔滨工业大学 基于lda主题模型与固定效应模型的直播效果的预测方法
CN115630644A (zh) * 2022-11-09 2023-01-20 哈尔滨工业大学 基于lda主题模型的直播用户弹幕的话题挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510257B2 (en) * 2010-10-19 2013-08-13 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140065235A (ko) * 2012-11-21 2014-05-29 서울대학교산학협력단 트래픽 분류 장치 및 방법
CN110400027A (zh) * 2018-04-20 2019-11-01 香港乐蜜有限公司 直播平台中主播的统计管理方法和装置
CN109062905A (zh) * 2018-09-04 2018-12-21 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质
CN113161001A (zh) * 2021-05-12 2021-07-23 东北大学 一种基于改进lda的过程路径挖掘方法
CN113807092A (zh) * 2021-09-09 2021-12-17 贺晓宇 一种基于lda主题模型的卷烟品牌在线评论分析方法
CN115619041A (zh) * 2022-11-09 2023-01-17 哈尔滨工业大学 基于lda主题模型与固定效应模型的直播效果的预测方法
CN115630644A (zh) * 2022-11-09 2023-01-20 哈尔滨工业大学 基于lda主题模型的直播用户弹幕的话题挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
各年龄段潜在购车者关注主播的差异化特征分析及相关启示;贾雅婧;;教育传媒研究(第06期);全文 *
回归与超越:粉丝文化语境下网民对"网红带货"的情感态度研究;孙强;;东南传播(第06期);全文 *
基于LDA主题模型的格调挖掘;李江宇;宋添树;张沁哲;;电脑与电信(第05期);全文 *

Also Published As

Publication number Publication date
CN116303893A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Zheng et al. Capturing the essence of word-of-mouth for social commerce: Assessing the quality of online e-commerce reviews by a semi-supervised approach
Gaikar et al. Using Twitter data to predict the performance of Bollywood movies
US20210117417A1 (en) Real-time content analysis and ranking
Liu et al. Mining product competitiveness by fusing multisource online information
EP2068276A1 (en) Information processing device and method, program, and recording medium
US11966698B2 (en) System and method for automatically tagging customer messages using artificial intelligence models
CN115619041B (zh) 基于lda主题模型与固定效应模型的直播效果的预测方法
Yin et al. Ranking products through online reviews considering the mass assignment of features based on BERT and q-rung orthopair fuzzy set theory
CN112529615A (zh) 自动生成广告的方法、装置、设备和计算机可读存储介质
CN115630644A (zh) 基于lda主题模型的直播用户弹幕的话题挖掘方法
Rizun et al. Text mining algorithms for extracting brand knowledge: The fashion industry case
Lu et al. What matters for short videos’ user engagement: A multiblock model with variable screening
Kim et al. Competitive intelligence in Korean Ramen market using text mining and sentiment analysis
CN117764669A (zh) 物品推荐方法、装置、设备、介质及产品
Zhao et al. Predicting the voluntary donation to online content creators
CN116303893B (zh) 基于lda主题模型的主播形象分类与关键特质分析方法
Vozalis et al. Enhancing collaborative filtering with demographic data: The case of item-based filtering
Steininger et al. A systemizing research framework for Web 2.0
CN112800230B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
Huang et al. Improving social media engagements on paid and non-paid advertisements: a data mining approach
Chang et al. Using Machine Learning to Extract Insights from Consumer Data
Tsao et al. From mining to meaning: How B2B marketers can leverage text to inform strategy
Xia et al. Internet advertising investment analysis based on beijing and jinhua signaling data
Iswari et al. User-Generated Content Extraction: A Bibliometric Analysis of the Research Literature (2007–2022)
Thunuguntla et al. Densenet121-DNN-Based Hybrid Approach for Advertisement Classification and User Identification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant