扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
调度工作意味着系统必须以杂质般的精准手法处理不同类型的应用程序,这样才能为第一层应用程序提供可靠的性能保证——例如面向付费客户的Azure工作负载——同时“压缩”低优先级工作负载(例如面向微软内部项目的批处理作业)所占用的资源容量。
“如果大家把操作系统看成是一台计算机的话,那就相当于选择了抢占式调度方案——即在环境中同时运行多个应用程序以及时间片,”Neil解释道,“在这方面,我们正在努力搞定装箱问题——这是个非常经典的难题,要找到最佳答案可不简单、而且对网络处理器来说负担也很重。”
Neil无法就Autopilot调度机制的具体特点提供进一步信息,不过最近由微软研究院发布的一篇学术论文指出,该公司正计划以自动方式进一步提升工作负载压缩流程、从而有效实现作业安排。(另有证据表明,微软内部规模达数EB级别的‘COSMOS’存储采用的是一种名为‘SCOPE’的脚本语言,旨在处理特定的分析类调度任务。)
这种调度组件的存在意味着Autopilot除了扮演木偶操纵者之外,同时也身兼转盘演员角色。
集装箱中的服务器们在被运抵微软数据中心之后,最先遇见的软件就将是Autopilot
而且与谷歌(即Borg及其继任者Omega)以及Twitter(Mesos)所使用的系统类似,Autopilot的复杂程度使其更像是一位技术娴熟但却不善沟通的同事、而不仅仅是套实用的管理系统。
“我们必须学会习惯的是,要适应放弃对这套系统的全面控制并允许它作出正确的判断与操作,一定得信任它——它可能会采取一些我们自己并不了解的处理步骤,”Neil指出,“这些系统规模如此庞大,以至于没人能对其进行全面追踪。而这也正是该系统的设计目的——处理一切细节事务。”
Autopilot还会收集大量数据,从而帮助微软对自己的基础设施加以分析并由此定位问题。
“我们掌握着全部与处理器负载以及内存负载有关的信息,”Neil解释称,“人们往往容易忽略这样一种普遍状况,即我们所拥有的物理设备是存在容量极限的,第一时间掌握资源剩余情况非常非常重要。可能大家使用的某款应用程序会导致内存耗尽,及时发现这种情况有助于我们对关键性组件进行优化。”
尽管该服务中包含关于CPU、内存、网络以及磁盘使用情况等多种指标,但Neil表示“我们通过实践经验了解到,通过不间断监控所获得的终端到终端测试结果往往更加有效。举例来说,我们可以发出一条搜索查询、验证能否得到有效结果,并比对结果的实际返回时间与我们的预期范围是否相符。我们把这样的工作内容称为监督者。不同的结果能够触发自动修复或者让我们回滚到原先曾经部署过的早期版本。”
从这个角度来说,Autopilot拥有了与谷歌系统截然不同的特性。相比之下,后者利用一项名为CPI2的先进技术收集更多细节指标,并借此帮助谷歌定位运行在单一处理器上的单一任务所遭遇的性能问题,并有选择性地加以解决。
Autopilot的强大实力为微软带来了显著收益,因为它有效提高了该公司在驾驭其价值数十亿美元的计算设备时所表现出的工作效率。随着微软公司在云计算大师纳德拉的带领下逐步向“设备与服务”企业转型,Autopilot的重要性只会随着时间的推移外加微软冲击广阔数字化世界而愈发得到凸显。有了Autopilot,Neil认为微软相当于拥有了“足以应对这个全新云世界的操作系统。”
可以肯定,纳德拉也抱有同样的期望。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。