企业邮箱_中国cdn公司_限量秒杀

小七 2019年10月25日 21:23 141 0

Azure媒体服务公司新的人工智能驱动创新

动画角色识别，多语种语音转录等在微软，我们的使命是让这个星球上的每个人和组织都能取得更大的成就。传媒业就是这一使命的例证。我们生活在一个比以往任何时候都要以更多的方式和更多的设备来创建和消费更多内容的时代。在IBC 2019大会上，我们很高兴与大家分享我们一直致力于的最新创新，以及它们如何帮助您改变媒体工作流程。请继续阅读以了解更多信息，或于9月13日至17日在阿姆斯特丹RAI的1号展厅C27展位加入我们的产品团队和合作伙伴。视频索引器增加了对动画和多语言内容的支持去年，我们在IBC上发布了屡获殊荣的Azure媒体服务视频索引器，而今年它的表现更为出色。Video Indexer自动从媒体文件中提取见解和元数据，如口语、面孔、情绪、主题和品牌，而无需您成为机器学习专家。我们最新发布的产品包括对动画角色识别和多语言语音转录的两个高度要求和差异化功能的预览，以及对视频索引器（Video Indexer）现有模型的一些补充。动画角色识别动画内容或卡通是最受欢迎的内容类型之一，但为人脸构建的标准人工智能视觉模型不能很好地与之配合，尤其是当内容中包含没有人类特征的角色时。在这个新的预览解决方案中，Video Indexer与微软的Azure Custom Vision服务联手提供一套新的模型，可以自动检测和分组动画角色，并允许客户通过集成的定制视觉模型轻松标记和识别他们。这些模型被集成到一个管道中，允许任何人使用该服务，而无需任何先前的机器学习技能。结果可以通过无代码视频索引器门户或restapi获得，以便轻松集成到您自己的应用程序中。我们建立了这些动画角色模型与选定的客户合作谁提供了真实的动画内容的培训和测试。Viacom International Media Networks工作室和后期制作技术高级总监Andy Gutteridge充分阐述了新功能的价值，这是数据贡献者之一："添加可靠的基于人工智能的动画检测将使我们能够快速高效地从我们的内容库中发现和编目字符元数据。最重要的是，它将使我们的创意团队能够立即找到他们想要的内容，最大限度地减少在媒体管理上的时间，并让他们专注于创意。"要开始动画角色识别，请访问我们的文档页。多语种识别与转录一些媒体资产，如新闻、时事和采访，包含使用不同语言的演讲者的音频。大多数现有的语音到文本功能都需要预先指定音频识别语言，这对转录多语言视频是一个障碍。我们新的多内容自动口语识别功能利用机器学习技术来识别媒体资产中使用的不同语言。一旦检测到，每个语言片段都会以所识别的语言进行自动转录过程，所有片段都会重新整合到一个由多种语言组成的转录文件中。生成的转录既可以作为视频索引器JSON输出的一部分，也可以作为闭路字幕文件使用。输出文本还集成了Azure搜索，允许您立即搜索不同语言片段的视频。此外，多语言转录作为视频索引器门户体验的一部分，因此您可以按时间查看转录本和识别的语言，或者跳到视频中每种语言的特定位置，并在播放视频时将多语言转录视为字幕。您还可以通过门户和API将输出来回转换为54种不同的语言。在我们的文档中，阅读有关新的多语言选项以及如何在视频索引器中使用它的更多信息。其他更新和改进型号我们还在Video Indexer中添加新的和改进的现有模型，包括：提取人员和地点实体我们已经扩展了我们目前的品牌检测能力，也包括了知名的名字和地点，比如巴黎的埃菲尔铁塔或伦敦的大本钟。当这些信息出现在生成的成绩单中或通过光学字符识别（OCR）显示在屏幕上时，就会产生特定的洞察力。有了这项新功能，您可以查看和搜索视频中出现的所有人、地点和品牌，以及他们的时间表、描述，以及到我们的必应搜索引擎的链接以获取更多信息。编辑镜头检测模型这个新特性在insights JSON中附加到单个快照的元数据中添加了一组"标记"，以表示其编辑类型（例如广角、中景、特写、特写、双镜头、多人、室外和室内等）。当将视频剪辑成剪辑和预告片时，以及在为艺术目的搜索特定风格的镜头时，这些镜头类型的特征非常有用。探索并阅读更多关于视频索引器中编辑镜头类型检测的信息。IPTC映射的扩展粒度我们的主题推断模型基于转录、光学字符识别（OCR）和识别名人（即使主题没有明确说明）来确定视频主题。我们将这些推断出的主题映射到四种不同的分类中：Wikipedia、Bing、IPTC和IAB。通过这个增强，我们现在包括了级别2的IPTC分类。利用这些增强功能的好处就像重新索引当前的视频索引器库一样简单。新的实时流媒体功能我们还在Azure媒体服务的预览版中引入了两个新的实时流媒体功能。现场转录用人工智能增强你的现场活动使用Azure媒体服务流式传输实时事件，您现在可以获得一个输出流，其中除了视频和音频内容外，还包括自动生成的文本轨迹。这个文本轨道是使用人工智能的现场转录的音频贡献饲料。在语音到文本转换前后应用自定义方法，以改善最终用户体验。文本跟踪打包为IMSC1、TTML或WebVTT，具体取决于您是以DASH、HLS-CMAF还是HLS-TS进行交付。24/7 over-top（OTT）频道的实时线性编码使用我们的v3 API，您可以为OTT服务创建、管理和流媒体直播频道，并利用Azure媒体服务的所有其他功能，如视频点播（VOD）、打包和数字版权管理（DRM）。若要尝试这些预览功能，请访问Azure媒体服务社区页面。新的包装功能支持音频描述曲目广播内容通常有一个音频轨道，除了正常的节目音频外，还包含对屏幕动作的口头解释。这使得有视力障碍的观众更容易阅读节目，尤其是在内容高度视觉化的情况下。新的音频描述功能使客户可以将其中一个音频曲目注释为音频描述（AD）曲目，而播放机可以使用该功能使观众能够发现广告曲目。ID3元数据插入为了在客户端播放器上发出插入广告或自定义元数据事件的信号，广播公司通常使用嵌入在视频中的定时元数据。除了SCTE-35信令模式，我们现在还支持ID3v2或其他由应用程序开发人员定义的定制模式，供客户端应用程序使用。Microsoft Azure合作伙伴演示端到端解决方案Bitmovin将在微软Azure上发布其Bitmovin视频编码和Bitmovin视频播放器。客户现在可以在Azure上使用这些编码和播放器解决方案，并利用高级功能，如三通编码、AV1/VVC编解码器支持、多语言闭路字幕以及用于QoS、广告和视频跟踪的预集成视频分析。Evergent正在Azure上展示其用户生命周期管理平台。作为收入和客户生命周期管理解决方案的领先提供商，Evergent利用Azure AI使高级娱乐服务提供商能够通过在客户生命周期的关键点生成有针对性的软件包和服务来提高客户的获取和保留率。Haivision将展示其智能媒体路由云服务SRT Hub，该服务帮助客户转换端到端工作流，从使用Azure Data Box Edge的摄取开始，使用Avid、Telestream、Wowza和Cinegy的Hubblet进行媒体工作流转换，以及制作电视.SES在Azure上为其卫星连接和托管媒体服务客户开发了一套广播级媒体服务。SES将展示全面管理播放服务的解决方案，包括主播放、本地化播放和广告检测和替换，以及Azure上全天候高质量多频道实时编码。SyncWords正在Azure上提供字幕自动化技术和用户友好的基于云的工具。这些服务将使媒体组织更容易在Azure上为其实时和离线视频处理工作流添加自动隐藏字幕和外语字幕功能。全球设计和技术服务公司Tata Elxsi将其OTT平台SaaS TEPlay与Azure Media services集成，以从云端交付OTT内容。塔塔Elxsi还将FalconEye引入了microsoftazure，它的质量体验（QoE）监控解决方案专注于可操作的指标和分析。Verizon Media正在将其流媒体平台在Azure上进行beta测试。Verizon Media Platform是一个企业级管理OTT解决方案，包括DRM、广告插入、o

本文地址： /ziyuan/1428.html