【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据|附代码数据
全文下载链接:
在文本发掘中,我们经常有文档聚集,例如博客文章或新闻文章,我们期看将它们分红天然组,以便我们理解它们(点击文末“阅读原文”获取完全代码数据)。
主题建模是一种对此类文档停止分类的办法。在本视频中,我们介绍了潜在狄利克雷分配LDA模子,并通过R软件利用于数据集来理解它。
什么是主题建模?
主题建模是一种对文档停止无监视分类的办法,类似于对数字数据停止聚类。
编纂
一个文档能够是多个主题的一部门,有点像模糊聚类(或软聚类),此中每个数据点属于多个聚类。
简而言之,主题建模想象了一组固定的主题。每个主题代表一组单词。主题建模 的目标是以某种体例将所有文档映射到主题,如许每个文档中的单词大部门都被那些虚构的主题捕获。
主题建模的东西和手艺将文天职类或分类为每个主题的单词,那些是基于狄利克雷散布建模的。
什么是潜在狄利克雷分配?
潜在狄利克雷分配是一种无监视算法,它为每个文档为每个定义的主题分配一个值。
编纂
潜在是隐躲的另一个词(即无法间接丈量的特征),而狄利克雷是一种概率散布。
我们要从数据中提取的主题也是“隐躲主题”。它还有待被发现。它的用处包罗天然语言处置 (NLP)和主题建模等。
点击题目查阅往期内容
编纂
天然语言处置NLP:主题LDA、感情阐发疫情下的新闻文本数据
转存失败
从头上传
取缔
展开全文
摆布滑动查看更多
转存失败
从头上传
取缔
01
编纂
02
编纂
03
编纂
04
编纂
那种办法遵照与我们人类类似的思维体例。那使得 潜在狄利克雷分配 更易于阐明,而且是目前最时髦的办法之一。不外,此中最棘手的部门是找出主题和迭代的更佳数量。
不要将潜在狄利克雷分配与潜在判别阐发(也称为 LDA)相稠浊。潜在判别阐发是一种有监视的降维手艺,用于高维数据的分类或预处置。
为什么要停止主题建模?
主题建模供给了主动组织、理解、搜刮和总结大型电子档案的办法。
编纂
它能够搀扶帮助处理以下问题:
发现收躲中隐躲的主题。新闻供给者能够利用主题建模来快速理解文章或对类似文章停止聚类。另一个有趣的利用是图像的无监视聚类,此中每个图像都被视为类似于文档。
将文档分类为发现的主题。汗青学家能够利用 LDA通过火析基于年份的文原来识别回类为汗青上的重要事务相关的主题。
利用分类来组织/总结/搜刮文档。基于 Web 的藏书楼能够利用 LDA根据您过往的阅读内容选举册本。例如,假设一个文档属于主题 :食物、宠物狗和安康。因而,假设用户查询“狗粮”,他们可能会发现上述文档是相关的,因为它涵盖了那些主题(以及其他主题)。我们以至无需阅读整个文档就可以计算出它与查询的相关性。
因而,通过正文文档,基于建模办法揣测的主题,我们可以优化我们的搜刮过程。
潜在狄利克雷分配及其过程
潜在狄利克雷分配是一种将句子映射到主题的手艺。它根据我们提赐与它的主题提取某些主题集。在生成那些主题之前,LDA 施行了许多过程。
在利用该过程之前,我们有必然的规则或假设。
主题建模的 LDA 假设有两个:
起首,每个文档都是主题的混合体。我们想象每个文档可能包罗来自多个主题的特定比例的单词。例如,在双主题模子中,我们能够说“文档 1 是20%的主题A和80%的主题B,而文档2是70% 的主题A和30%的主题B”。
编纂
其次,每个主题都是单词的混合。例如,我们能够想象一个新闻的两个主题模子,一个主题是“政治”,一个主题是“娱乐”。政治话题中最常见的词可能是“主席”和“政府”,而娱乐话题可能由“片子”、“电视”和“演员”等词构成。重要的是,单词能够在主题之间共享;像“预算”如许的词可能会同时呈现在两者中。
编纂
LDA 是一种同时估量那两者的数学办法:找到与每个主题相联系关系的词的混合,同时确定描述每个文档的主题的混合。
而且,那些主题利用概率散布生成单词。在统计语言中,文档被称为主题的概率密度(或散布),而主题是单词的概率密度(或散布)。
主题自己就是词的概率散布。
那些是用户在利用 LDA 之前必需领会的假设。
LDA 是若何工做的?
LDA 有两个部门:
属于文档的词,我们已经晓得。
那属于某个主题的词或属于某个主题的单词的概率,我们需要计算。
找到后者的算法。
编纂
阅读每个文档并将文档中的每个单词随机分配给k个主题之一(k是预先抉择的)。
如今我们测验考试领会它的完全工做过程:
假设我们有一组来自某个数据集或随机来源的文档。我们决定要发现K 个主题,并将利用 LDA 来进修每个文档的主题表达以及与每个主题相联系关系的单词。
LDA 算法轮回遍历每个文档,并将文档中的每个单词随机分配给 K 个主题中的一个。那种随机分配已经给出了所有文档的主题表达和所有文档的单词散布以及所有主题的单词散布。LDA 将遍历每个文档中的每个单词以改进那些主题。但是那些主题的表达其实不适宜。所以我们必需改进那个限造。为此,关于每个文档中的每个单词和每个主题 T,我们计算:
文档 d 中当前分配给主题 T 的单词的比例
主题 T 的分配在来自那个词的所有文档中的比例
将单词从头分配给一个新主题,我们以P(主题 T | 文档 D) 乘以 P(单词| 主题 T)的概率抉择主题 T,那本色上是,主题T生成的单词的概率。在屡次反复上一步之后,我们最末到达了一个大致不变的形态,即分配是能够承受的。最初,我们将每个文档分配给一个主题。我们能够搜刮最有可能被分配到某个主题的单词。
编纂
我们最末得到了输出,例如
·分配给每个主题的文档
·主题的最常用关键词
·由用户来阐明那些主题。
编纂
两个重要阐明:
·用户必需决定文档中存在的主题数量
·用户必需阐明主题是什么
所以凡是假设我们有文档聚集,我们想要生成一组主题来表达文档,我们能够利用 LDA 来施行它。因为 LDA 将通过遍历每个文档来操练那些文档并将单词分配给主题。但那不是一个轮回过程。那里是一个进修过程。它将遍历每个文档中的每个单词并利用上面讨论的公式。
R软件 LDA 利用
我们将测验考试通过R软件将 LDA 利用于数据来更简要天文解它。
越来越多的情面愿精神消费。旅游不只能够提拔人们对外埠情况和外埠人文的认知,也能够放松身心、愉悦心绪,是一种受欢送的精神消费。
跟着国内近些年来互联网的开展,越来越多的人起头线上消费,消费感触感染的选举成为了潮水。在各个旅游平台上,越来越多的情面愿参与旅游目标地玩耍感触感染的分享。
本文试图从马蜂窝旅游官网上就新疆那个旅游目标地游记停止感知阐发。
游记表示出多元复杂的感情
通过感情阐发(也称为定见发掘),用文本发掘和计算机语言学来识别和提取原始材料中的主看信息,阐发主看信息(例如看点,感情,立场,评估,感情等),以停止提取,阐发,处置,回纳和推理。
图表1
编纂
通过数据阐发可知,旅客对新疆整体上正向感情仍是远高于负向感情,旅游群体对新疆旅游地域仍是闪现出积极的必定立场,如温馨、温馨、心旷神怡、冲动、迷恋等。从词频统计看出,天然光景多,旅游对民族特色的较为存眷,如:盆地、白云、戈壁、草原、南疆。当然还有食食,如“奶酪”等等。从成果也能够看到有少量的“失看”、“难过”等感情,通过游记我们发现光景根本上称心了旅客的需求,但是深条理的体验项目较少,新疆旅游景点间空间跨度大、路况前提差、行车时间长、节假日拥堵列队等。新疆旅游大部门都是景区内的光景,关于天然风貌笔录偏少,规划、人文旅游也偏少。感情阐发可知,旅客对光景、美食都很称心,有着更高的等待。
哪些游记搀扶帮助人数最多
通过游记的内容特征和搀扶帮助人数,我们通过决策树来揣度哪些游记的搀扶帮助人数最多,同时也发现大大都驴友的心里出行需求。
图表2
编纂
样本游记从游记篇幅、做者品级、人均破费、游览组合、出行天数等方面反映游记的特征。游记篇幅的大小和做者品级是影响搀扶帮助人数的最重要的因素,内容详尽的游记能搀扶帮助到更多的人,体味老道的驴友的游记一般更有参考价值。游览组合中家庭组合较少,赴疆旅客以小我或伴侣背包客徒步、自在行旅游为主,人均费用在7k以下,出行天数小于12天。游记的搀扶帮助人数客看地反映了驴友们旅游行程规划的心理预期,同时会对其他旅游者的决策和对旅游目标地的营销产生重要影响。
游记话题感情认知形象
接下来我们通过主题发掘觅觅游记话题和表达感情之间的关系。
图表3
编纂
从中能够看到有两个主题是景点相关,从关键词中能够用看到驴友们存眷比力多的景点是独库公路、天山、喀纳斯、禾木、布尔津、五彩滩等。“新疆”、“独库公路”、“喀纳斯”、“乌鲁木齐”是游记样本中共现频次更高的词,成为两个重要的中心节点。凡是情状下,间隔中心节点越近,表达与两个节点的联系关系越密切。由此可见,语义收集图闪现出两个较为明显的趋向:一是“新疆”一词辐射出的语义收集除旅游景区外,更多地表示了旅客对新疆“雪山”、“草原”、“风光”等旅游形象的整体感情感知:如“特殊”、“平静”等,那与新疆对外旅游鼓吹所摘用的词语相一致; 二是“乌鲁木齐”、“光景”一词辐射出的语义收集聚集了更多与行程和旅游攻略相关的信息,如“酒店”、“机场”、“包车”、“自驾”等,从旅客感知视角证明了新疆旅游的旅游攻略行程信息以及乌鲁木齐做为重要的旅游集散中心在新疆旅游业开展中的地位。
编纂
本文摘选《游记数据感知旅游目标地形象》,点击“阅读原文”获取全文完全材料。
编纂
本文中的游记数据分享到会员群,扫描下面二维码即可加群!
点击题目查阅往期内容
NLP天然语言处置—主题模子LDA案例:发掘人民网留言板文本数据
Python主题建模LDA模子、t-SNE 降维聚类、词云可视化文本发掘新闻组数据集
天然语言处置NLP:主题LDA、感情阐发疫情下的新闻文本数据
R语言对NASA元数据停止文本发掘的主题建模阐发
R语言文本发掘、感情阐发和可视化哈利波特小说文本数据
Python、R对小说停止文本发掘和条理聚类可视化阐发案例
用于NLP的Python:利用Keras停止深度进修文本生成
长短期记忆收集LSTM在时间序列揣测和文天职类中的利用
用Rapidminer做文本发掘的利用:感情阐发
R语言文本发掘tf-idf,主题建模,感情阐发,n-gram建模研究
R语言对推特twitter数据停止文本感情阐发
Python利用神经收集停止简单文天职类
用于NLP的Python:利用Keras的多标签文本LSTM神经收集分类
R语言文本发掘利用tf-idf阐发NASA元数据的关键字
R语言NLP案例:LDA主题文本发掘优惠券选举网站数据
Python利用神经收集停止简单文天职类
R语言天然语言处置(NLP):感情阐发新闻文本数据
Python、R对小说停止文本发掘和条理聚类可视化阐发案例
R语言对推特twitter数据停止文本感情阐发
R语言中的LDA模子:对文本数据停止主题模子topic modeling阐发
R语言文本主题模子之潜在语义阐发(LDA:Latent Dirichlet Allocation)