消息队列_数据库审计_好用

小七 2019年10月25日 21:23 141 0

持续讨论的主要收获（c9d9）第75集-持续监控和开发

在最近的一次持续讨论（c9d9）视频播客中，专家小组成员讨论了监控和DevOps。我们的专家小组成员包括：Splunk首席技术倡导者Andi Mann、Dynatrace的技术策略师Andreas Grabber、CFEngine的创始人Mark Burgess、Enterprise Management Associates的常务研究总监Torsten Volk、DevOps的构建/发布工程和人为因素顾问J.Paul Reed以及我们自己的Anders沃格伦和萨姆摔倒了。在本期节目中，小组成员讨论了有效监控的体系结构和先决条件、您应该监控的内容以及故障排除和故障恢复的最佳实践。继续阅读他们的见解！有效监控的体系结构和先决条件是什么？监控的关键挑战是了解scale@markburgess_osl#c9d9#DevOpspic.twitter.com/DhKkx60V8t-CloudBees（@electricloud）2017年8月8日监视软件必须打包到生命周期中，您需要考虑将监视作为部署包的一部分pic.twitter.com/6LKnZ5xtkr-CloudBees（@electricloud）2017年8月8日当你改变软件的开发方式时pic.twitter.com/typimaqdbn-CloudBees（@electricloud）2017年8月8日Mann推荐了一种系统方法："从系统思考的角度来考虑DevOps。你开始使用这些系统来了解你在监视什么。当你在考虑DevOps和监视时，你构建它，运行它。因此，您必须考虑所有这些不同的系统。"grabbner说，你需要从一开始就考虑监控："当你在讨论构建新的应用程序时，你需要弄清楚你的监控策略是什么。你怎样才能以一种好的方式监控所有不同的运动部件和部件，这样最终它才有意义呢？这就是挑战。"伯吉斯认为，理解有效监控的规模是很重要的："如果你想从中获取有用的数据，你的监控系统必须以与你的软件相似的方式扩展。你还需要对你所看到的东西有所选择。"根据里德的说法，监控包括许多不同的方面："我倾向于从事件和补救的角度来看待这个空间。也许监控渗透了所有这些，通过查看您如何发现事件，您可以看到您的监控缺陷可能在哪里。然后，当你做回顾时，你会问这些谈话中遗漏了哪些部分。"Volk补充说，单窗格的概念与scale同样重要："有一个单一的窗格，全面监控，并使其成为DevOps部署过程的一部分。然后从终端基础设施中提取应用程序。"Wallgren说监控应该是架构的一部分。"我认为整个监控问题的有趣之处在于它是指标。它是我们拥有的最庞大的指标来源之一，因此我们需要考虑我们在监控什么。"监控什么，如何监控以及为什么监控？Per@jpaurreed，"#BigData不等于大信息#c9d9#DevOpspic.twitter.com/NzdLSGfR69-CloudBees（@electricloud）2017年8月8日我们试图做的很多事情都是为了暴露问题。我们要找的是不好的东西，这很难@anders_wallgren#c9d9pic.twitter.com/kzzzlhpcvo-CloudBees（@electricloud）2017年8月8日最大的挑战是扩展相关数据。软件变得越来越复杂，所以我们的监控需要变得更加复杂pic.twitter.com/f3snocyslp-CloudBees（@electricloud）2017年8月8日Wallgren谈到了语义："我们在API监控方面处于什么位置，或者API调用是否按预期的方式工作，以及我们所获得的更高级别的堆栈？在接下来的几年里，将所有这些东西都放在一块玻璃上会非常有趣，因为我们可能会开始获得更多的机器学习或其他类型的帮助，找到需要砍倒的高草。"从运营的角度来看，里德关注的是人们："如果你在查看整个系统，你总是遇到问题，而且会说‘我们确实使用了监视器，我们进行应用程序监控，进行基础设施监控等等，’那么，也许你的it员工已经连续两年不间断地随叫随到了。"Mann说："监控需要与为DevOps重组的团队一起进行。"如果我是应收账款团队或UI团队的一员，我想监控我关心的事情。您希望能够监视该服务中的所有组件，但需要将它们绑定在一起。我认为存在低级组件监控，但您还需要开始监控对最终客户造成的影响，并从整体上加以考虑。"Volk讨论了应用程序如何使用底层基础设施监控元素为客户服务，以及基础架构中可能出现的问题："目前缺少的是顶层业务优先级与底层解决问题的单个工程师之间的联系。这一切都可以归结为业务层面与基础设施层面的捆绑。"伯吉斯说，我们需要了解如何衡量不同的尺度："我认为关键的是，我们今天所建立的与20年前相比，是多尺度的系统。我们在微观规模、集群规模、云规模、服务规模和客户规模上都发生了变化。而且，在一个设计良好的体系结构中，这些规模往往会相互解耦。我们需要找到分离这些指标的方法，以便了解我们所衡量的标准。"Grabbner说，监控工具已经成熟："我认为，作为一个监控市场（供应商），我们在过去几年中了解到，我们构建的新应用程序也需要与传统应用程序交互，已经发生了变化，因此监控必须适应。我认为我们学到的另一件事是，我们都在向更多的平台化服务迈进。我相信，我们现在都在努力将这些平台作为服务和烘焙监控的一部分。"出了问题怎么办：关键是我们要分享从失败中学到的东西，并找出如何通过左移实现自动化。@地堑兰迪c9d9pic.twitter.com/Q8VgUOr7iG-CloudBees（@electricloud）2017年8月8日关于隐藏的关联…企业间的相互关系，您将发现如何防止您无法预料的问题#c9d9pic.twitter.com/EbOcNNjK4s-CloudBees（@electricloud）2017年8月8日在排除故障时-可能有一条您认为不重要但实际上很关键的数据@AndiMannŧc9d9pic.twitter.com/pw2SOxR8Qd-CloudBees（@electricloud）2017年8月8日沃格伦解释道："当我们遇到一个问题时，它常常会让人陷入恐慌状态，在这一点上，这是一场赛跑。然后，情况就有点不同了，因为现在人们都在压力下试图解决问题。但是，如果你在生产前就开始监控，那么会有更多的人接触到这些信息。这是我们可以帮助改善工作的方法之一。"从失败中学到了什么？Grabbner建议说："关键是我们要分享我们从失败中学到的东西，然后试着找出如何通过向左移动、添加新测试或查看管道中相同的公制轮来自动检测特定模式，从而防止这种情况的发生。然后，如果我们有任何人工智能，任何机器学习在生产中，让人工智能意识到这个问题。"沃尔克补充了分享的学习建议："如果你在不同的企业之间相互关联，并从所有这些事件中学习，你会发现很多东西可以用来告诉你的客户，'看，这不是一台时间机器，但它将防止许多你无法在集体学习基础上预料到的问题。"对我来说，这是一个很大的下一个前沿领域。"伯吉斯说，虽然自动化是成功的关键，但人类在监控工作中仍然扮演着至关重要的角色："正是通过投射思想、假设和图像，让我们能够看到一些完全出乎意料的东西，就像一个洞察的闪光，这就是我们如何经常诊断出那些正在出错的病理错误。"Mann在为大数据辩护时说："当涉及到故障排除时，我认为大数据真的开始进入它自己的领域，因为你确实在大海捞针。您需要重新考虑存储的成本效益，但是，为了保护大数据，您只会在一开始忘记收集数据时错过它。"里德解释道："如果你认为你有监控，而你一直遇到问题，那么问题实际上可能是你，作为一名工程师或一个组织，如何看待监控空间。如果你想真正理解这一切，那就去买一本马克·伯吉斯的《寻找确定性》观看整集：想要更多的持续讨论吗？我们每隔一个星期二上午10点举行一次c9d9播客。每集都有专家小组成员讨论DevOps、持续交付、敏捷等等。

本文地址： /shichang/12353.html