云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

消息队列_个人买云服务器干嘛_精选特惠

小七 141 0

来自Databricks学院的新视频:介绍自然语言处理的潜在语义分析

Databricks对教育的承诺是我们工作的中心。通过讲师指导的培训、认证和自学培训,Databricks Academy为用户提供了学习ApacheSpark的强大途径™ 把他们的知识推向下一个层次。我们的最新产品是一系列介绍自然语言处理技术,潜在语义分析(LSA)的短片。本系列介绍了该技术的概念框架,以及如何使用Databricks运行时来使用scikitlearn和apachespark将该技术应用到文本文档中。如果你想在你自己的电脑上观看视频,只需下载Databricks笔记本。如果您还没有Databricks帐户,可以免费开始Databricks社区版。如果您想深入研究使用Databricks进行的机器学习,请查看我们在Databricks Academy的自学课程《数据科学与机器学习/AWS简介》(也可在Azure上获得)。潜在语义分析概论本视频介绍自然语言处理的核心概念和无监督学习技术,潜在语义分析(LSA)。讨论了该技术的目的和优点。特别是,视频强调了该技术如何帮助人们了解文档主体的潜在或隐藏方面,以及如何降低原始数据集的维数。使用Scikit-Learn实现LSA本视频介绍了完整的LSA管道中的步骤,并展示了如何使用开源库scikitlearn和Pandas在Databricks运行时中实现机器学习。这些步骤是:导入原始数据构建文档术语矩阵对文档项矩阵执行奇异值分解检查生成的主题编码数据这个视频使用一个简单的字符串列表作为文档主体,以便您可以将自己的直觉与LSA的结果进行比较。在完成这个过程之后,我们检查LSA的两个副产品字典和编码矩阵,以了解文档在主题空间中是如何编码的。第二个LSA在这里,我们在第二个完整的LSA管道中完成与前一个视频相同的步骤,再次在Databricks运行时中使用开源库scikitlearn和Pandas进行机器学习。这个视频使用了一个稍微复杂一点的文档体:两本流行的儿童读物的文本串。在完成这个过程之后,我们检查LSA的两个副产品字典和编码矩阵,以了解文档在主题空间中是如何编码的。最后,我们使用开源库Matplotlib在主题空间编码中绘制结果文档。用TFIDF改进LSA本视频通过第三个完整的LSA管道工作,使用Databricks的机器学习运行时和开源库scikitlearn和Pandas。在这里,我们使用一种替代方法,即术语频率逆文档频率,在前面的LSA管道上迭代,以准备文档项矩阵。在完成这个过程之后,视频检查LSA的两个副产品字典和编码矩阵,以便了解文档在主题空间中是如何编码的。最后,视频使用开源库Matplotlib以主题空间编码打印结果文档,并将绘图与前一个视频中准备的绘图进行比较。apachespark的潜在语义分析在这段视频中,我们开始研究一个新的、更大的数据集:20个新闻组数据集。为了处理这个更大的数据集,我们使用Scala编程语言将分析管道转移到apachespark。这个视频介绍了一种新的NLP特定的预处理:lemmatization。我们还讨论了在scikitlearn和apachespark中执行NLP之间的关键区别。我们希望你发现这些视频信息丰富,以及娱乐!完整的视频播放列表在这里。如果您想深入了解使用Databricks进行机器学习,请查看我们在Databricks Academy提供的数据科学和机器学习/AWS(也可在Azure上获得)的自学课程介绍, 免费试用Databricks。今天就开始吧