MySQL数据库_如何开通企业邮箱_9元

小七 2019年10月25日 21:23 141 0

视频索引器中的多语言识别与转录

在国际广播公司大会（IBC）上，多语言语音转录最近被引入微软视频索引器。它作为预览功能提供，客户已经可以在我们的门户网站中开始体验它。关于我们所有ibc219增强功能的更多细节可以在这里找到。在全球化背景下，多语言视频是常见的媒体资产，全球政治峰会、经济论坛和体育新闻发布会就是演讲者使用母语来表达自己观点的例子。对于那些需要为大量视频档案提供自动转录的公司来说，这些视频是一个独特的挑战。自动抄写技术要求用户事先明确确定视频语言，以便将语音转换为文本。当抄写多语言内容时，这个手动步骤成为可伸缩性的障碍，因为人们必须用适当的语言手动标记音频片段。Microsoft Video Indexer为多语言内容提供了独特的自动口语识别功能。此解决方案允许用户轻松地抄写多语言内容，而无需在触发前执行繁琐的手动准备步骤。通过这一点，它可以为拥有大量视频存档的人节省时间和金钱，并实现可发现性和可访问性场景。视频索引器中的多语言音频转录多语言转录功能作为视频索引器门户的一部分提供。目前，它支持四种语言，包括英语、法语、德语和西班牙语，同时在一个输入媒体资产中最多支持三种不同的语言。上载新媒体资产时，您可以选择"自动检测多语言"选项，如下所示。我们的应用程序编程接口（API）也支持此功能，它允许用户在上载API中指定"multi"作为语言。一旦索引过程完成，索引JavaScript对象表示法（JSON）将包含底层语言。有关更多详细信息，请参阅我们的文档。此外，转录部分中的每个实例都将包括它被转录时使用的语言。客户可以按时间查看转录本和识别的语言，跳到视频中每种语言的特定位置，甚至可以将多语言转录视为视频字幕。结果转录也可以作为闭路字幕文件（VTT、TTML、SRT、TXT和CSV）提供。方法论从音频信号中识别语言是一项复杂的任务。声环境、说话人性别和说话人年龄是影响这一过程的多种因素之一。我们用一种视觉表示法来表示音频信号，比如频谱图，假设不同的语言会产生独特的视觉模式，这些模式可以通过深层神经网络学习。我们的解决方案有两个主要阶段来确定多语言媒体内容中使用的语言。首先，它使用深度神经网络对音频片段进行分类，粒度非常高，也就是说，只需几秒钟。虽然一个好的模型可以成功地识别底层语言，但是由于语言之间的相似性，它仍然可能无法识别某些片段。因此，我们应用第二阶段来检查这些错误并相应地平滑结果。下一步行动我们引入了一种区分多语言语音转录的能力。有了视频索引器的这一独特功能，您可以更加有效地了解视频内容，因为它允许您立即开始跨视频搜索不同的语言片段。在接下来的几个月里，我们将通过增加对更多语言的支持和提高模型的准确性来改进这一能力。有关详细信息，请访问Video Indexer的门户或Video Indexer developer portal，并尝试此新功能。阅读更多有关新的多语言选项以及如何在我们的文档中使用它的信息。请使用我们的用户语音分享反馈，并帮助我们区分功能或电子邮件的优先级visupport@microsoft.com有什么问题吗。

本文地址： /zhuji/1316.html