这是深入学习空间系列文章中的第二篇文章,以及如何使用SAP Leonardo ML基金会进行相同的学习。这些文章将涵盖一个深度学习项目的完整过程,从数据准备到预测。如果你错过了第一篇文章,物联网模块,云服务器的,它是用SAP列奥纳多ML基金会进行的图像分类,在这里找到它。正如标题所说,这是另一个非常流行的深度学习应用:文本分类。面对如此多的文本数据,免费云服务器,自动文本分类是非常必要的。一些主要的行业示例包括文章标记、新闻文章分类、情感分析等。
问题陈述:制作一个深度学习模型,将文本分类为各种类别。
数据集:任何文本分类数据集。在本文中,我们将使用著名的20个新闻组数据集。数据集包含新闻文章及其所属的类别。有20个不同的类别。培训样本11314个,测试样本7532个
技术堆栈:
开始工作吧!主要步骤是:
制作模型和培训。
数据集自带sklearn库,无需明确下载。让我们跳到编码:
创建新的培训.py归档并继续编写所有代码:
以上代码将构成两个数据帧:训练和测试。它们看起来像:
第一列包含文章的文本,第二列是文章所属的类别(0到19)。
数据准备好后开始编码模型。
进行必要的导入。
一些常量。
文本标记化。
定义模型。
定义一些回调。
所有设置都用于训练模型。这将需要一些时间。
预测
直到这个代码,模型训练和权重保存。现在,是时候看到训练过的模型了,大数据 学习,也就是做预测。把钥匙放好培训.py在代码文件夹中。我们还需要创建一个名为新闻组.yaml指定运行进程的资源。
上传作业。在与代码文件夹和yaml文件相同的目录中打开命令提示符。运行以下命令:
您还可以使用适当的命令查看作业日志。
,淘客大玩家