欢迎来到《值班记录》的又一期内容,这是The Register每周发布的读者投稿专栏,分享您在技术支持工作中遇到的奇异而精彩的故事。
本周,我们要介绍一位读者,我们称他为"卡勒姆"。他向我们讲述了自己在英格兰北部一家公司工作时的经历。这家公司运行着一台8-CPU的Sun服务器,其处理器成对存储在可拆卸的卡片上。
卡勒姆解释说:"这台服务器运行着支撑他们销售平台的Oracle数据库,被认为是极其重要的,因此公司花费了五位数的费用租用了一条专线连接到支持供应商,供应商'持续监控'服务器的问题,并承诺在一小时内派遣工程师。"附近还有一个备件缓存库,这意味着替换硬件通常会在支持技术人员到达之前就送到!
这种安排是明智的,因为服务器很老,偶尔会出现故障。
卡勒姆写道:"我们时不时会遇到问题,通常是CPU卡出现故障。但没问题,这就是支持合同存在的意义!"
这种安排也有两个缺陷。
一个是指定的合同值班支持人员住得很远,只要有一点恶劣天气——而北方的恶劣天气很多——路况就会变得很糟糕,他无法按要求在一小时内安全到达。
第二个问题是监控系统在服务器宕机时并不擅长察觉,但在检测启动时表现出色。
卡勒姆告诉我们,这些问题意味着事故通常按以下顺序展开:
CPU卡出现故障;
服务器的操作系统因失去四分之一的CPU而重启;
服务器无法重启,因为其中一张CPU卡坏了;
联系中心向IT部门投诉;
卡勒姆或其他值班的IT工作人员开车进来移除故障卡并重启服务器;
服务器恢复运行;
支持承包商打电话报告服务器故障,并承诺在一小时内派人。
卡勒姆说,在这个流程重复了两三次后,他们告诉合同IT支持人员不要冒险匆忙赶来修理服务器。
卡勒姆写道:"大多数时候我们可以自己让设备启动并运行,而且无论如何,如果我们几个小时不能销售东西,世界也不会末日。所以我们告诉他不要冒着杀死自己和/或他人的风险试图在一小时内到达我们这里。"
支持供应商也配合了,免除了两年的专线费用,承认它没有履行职责!
Q&A
Q1:这台Sun服务器为什么如此重要?
A:这台8-CPU的Sun服务器运行着支撑公司销售平台的Oracle数据库,被认为极其关键,因此公司花费五位数费用租用专线进行24小时监控,并要求支持供应商在一小时内派遣工程师。
Q2:为什么外包支持总是比内部团队慢?
A:主要有两个原因:一是支持人员住得很远,遇到恶劣天气时无法在一小时内安全到达;二是监控系统在服务器宕机时检测能力差,但在检测启动时表现出色,导致他们总是在服务器已经修复后才发现问题。
Q3:最终如何解决这个问题?
A:内部团队告诉外包支持人员不要冒险匆忙赶来修理服务器,因为大多数时候内部团队可以自己解决问题,而且短时间的系统停机不会造成严重后果。支持供应商也配合免除了两年的专线费用。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。