欢迎来到《值班记录》的又一期内容,这是The Register每周发布的读者投稿专栏,分享您在技术支持工作中遇到的奇异而精彩的故事。
本周,我们要介绍一位读者,我们称他为"卡勒姆"。他向我们讲述了自己在英格兰北部一家公司工作时的经历。这家公司运行着一台8-CPU的Sun服务器,其处理器成对存储在可拆卸的卡片上。
卡勒姆解释说:"这台服务器运行着支撑他们销售平台的Oracle数据库,被认为是极其重要的,因此公司花费了五位数的费用租用了一条专线连接到支持供应商,供应商'持续监控'服务器的问题,并承诺在一小时内派遣工程师。"附近还有一个备件缓存库,这意味着替换硬件通常会在支持技术人员到达之前就送到!
这种安排是明智的,因为服务器很老,偶尔会出现故障。
卡勒姆写道:"我们时不时会遇到问题,通常是CPU卡出现故障。但没问题,这就是支持合同存在的意义!"
这种安排也有两个缺陷。
一个是指定的合同值班支持人员住得很远,只要有一点恶劣天气——而北方的恶劣天气很多——路况就会变得很糟糕,他无法按要求在一小时内安全到达。
第二个问题是监控系统在服务器宕机时并不擅长察觉,但在检测启动时表现出色。
卡勒姆告诉我们,这些问题意味着事故通常按以下顺序展开:
CPU卡出现故障;
服务器的操作系统因失去四分之一的CPU而重启;
服务器无法重启,因为其中一张CPU卡坏了;
联系中心向IT部门投诉;
卡勒姆或其他值班的IT工作人员开车进来移除故障卡并重启服务器;
服务器恢复运行;
支持承包商打电话报告服务器故障,并承诺在一小时内派人。
卡勒姆说,在这个流程重复了两三次后,他们告诉合同IT支持人员不要冒险匆忙赶来修理服务器。
卡勒姆写道:"大多数时候我们可以自己让设备启动并运行,而且无论如何,如果我们几个小时不能销售东西,世界也不会末日。所以我们告诉他不要冒着杀死自己和/或他人的风险试图在一小时内到达我们这里。"
支持供应商也配合了,免除了两年的专线费用,承认它没有履行职责!
Q&A
Q1:这台Sun服务器为什么如此重要?
A:这台8-CPU的Sun服务器运行着支撑公司销售平台的Oracle数据库,被认为极其关键,因此公司花费五位数费用租用专线进行24小时监控,并要求支持供应商在一小时内派遣工程师。
Q2:为什么外包支持总是比内部团队慢?
A:主要有两个原因:一是支持人员住得很远,遇到恶劣天气时无法在一小时内安全到达;二是监控系统在服务器宕机时检测能力差,但在检测启动时表现出色,导致他们总是在服务器已经修复后才发现问题。
Q3:最终如何解决这个问题?
A:内部团队告诉外包支持人员不要冒险匆忙赶来修理服务器,因为大多数时候内部团队可以自己解决问题,而且短时间的系统停机不会造成严重后果。支持供应商也配合免除了两年的专线费用。
好文章,需要你的鼓励
Finastra最新研究显示,99%的英国金融服务公司已采用人工智能技术,AI已成为金融业的"连接纽带"。该技术不再局限于后台自动化,而是推动实时欺诈检测、个性化产品推荐和智能承保等创新应用。AI投资间接促使银行增加其他技术投入,安全支出预计2026年平均增长40%。九成公司计划投资技术现代化以支持AI扩展,云技术采用成为重点。
亚马逊FAR部门研究团队通过创新的"掩码比特建模"技术,突破了图像生成领域的传统认知。研究发现离散方法劣势源于信息容量不足而非技术路线缺陷,提出的BAR框架通过渐进式比特预测解决大词汇表计算难题,在ImageNet-256上创下0.99 gFID新纪录,同时实现数十倍的速度提升,为AI图像生成开启质量与效率并举的新时代。
HPE公司宣布其将为2026年米兰-科尔蒂纳冬奥会提供网络基础设施,这是HPE与其收购的Juniper Networks首次在重大赛事中联合部署技术服务。本届冬奥会覆盖超过2.2万平方公里,是史上地理分布最广的奥运会,拥有40多个场馆。HPE部署了包括4900多个接入点、1500多台交换机等设备,运用AI原生的HPE Mist平台和Marvis Copilot提供智能网络管理,确保为3000名运动员、媒体转播商和观众提供奥运级别的网络稳定性和安全性。
北京大学与美团联合研究团队提出轮廓引导路径探索(OPE)方法,解决AI并行推理中的"互信息饱和"问题。通过先生成多样化策略轮廓再执行具体推理,避免多条思路重复收敛的困境。在数学推理测试中,该方法显著提升了复杂问题的解决成功率,为AI推理能力的可靠性提升提供了新的技术路径。