欢迎来到《值班记录》的又一期内容,这是The Register每周发布的读者投稿专栏,分享您在技术支持工作中遇到的奇异而精彩的故事。
本周,我们要介绍一位读者,我们称他为"卡勒姆"。他向我们讲述了自己在英格兰北部一家公司工作时的经历。这家公司运行着一台8-CPU的Sun服务器,其处理器成对存储在可拆卸的卡片上。
卡勒姆解释说:"这台服务器运行着支撑他们销售平台的Oracle数据库,被认为是极其重要的,因此公司花费了五位数的费用租用了一条专线连接到支持供应商,供应商'持续监控'服务器的问题,并承诺在一小时内派遣工程师。"附近还有一个备件缓存库,这意味着替换硬件通常会在支持技术人员到达之前就送到!
这种安排是明智的,因为服务器很老,偶尔会出现故障。
卡勒姆写道:"我们时不时会遇到问题,通常是CPU卡出现故障。但没问题,这就是支持合同存在的意义!"
这种安排也有两个缺陷。
一个是指定的合同值班支持人员住得很远,只要有一点恶劣天气——而北方的恶劣天气很多——路况就会变得很糟糕,他无法按要求在一小时内安全到达。
第二个问题是监控系统在服务器宕机时并不擅长察觉,但在检测启动时表现出色。
卡勒姆告诉我们,这些问题意味着事故通常按以下顺序展开:
CPU卡出现故障;
服务器的操作系统因失去四分之一的CPU而重启;
服务器无法重启,因为其中一张CPU卡坏了;
联系中心向IT部门投诉;
卡勒姆或其他值班的IT工作人员开车进来移除故障卡并重启服务器;
服务器恢复运行;
支持承包商打电话报告服务器故障,并承诺在一小时内派人。
卡勒姆说,在这个流程重复了两三次后,他们告诉合同IT支持人员不要冒险匆忙赶来修理服务器。
卡勒姆写道:"大多数时候我们可以自己让设备启动并运行,而且无论如何,如果我们几个小时不能销售东西,世界也不会末日。所以我们告诉他不要冒着杀死自己和/或他人的风险试图在一小时内到达我们这里。"
支持供应商也配合了,免除了两年的专线费用,承认它没有履行职责!
Q&A
Q1:这台Sun服务器为什么如此重要?
A:这台8-CPU的Sun服务器运行着支撑公司销售平台的Oracle数据库,被认为极其关键,因此公司花费五位数费用租用专线进行24小时监控,并要求支持供应商在一小时内派遣工程师。
Q2:为什么外包支持总是比内部团队慢?
A:主要有两个原因:一是支持人员住得很远,遇到恶劣天气时无法在一小时内安全到达;二是监控系统在服务器宕机时检测能力差,但在检测启动时表现出色,导致他们总是在服务器已经修复后才发现问题。
Q3:最终如何解决这个问题?
A:内部团队告诉外包支持人员不要冒险匆忙赶来修理服务器,因为大多数时候内部团队可以自己解决问题,而且短时间的系统停机不会造成严重后果。支持供应商也配合免除了两年的专线费用。
好文章,需要你的鼓励
"影子AI"是指员工在未经公司批准的情况下使用AI工具办公。虽然ChatGPT等工具能提升效率,但将内部文件、客户数据或源代码输入未授权平台,可能导致企业数据失控。IBM报告显示,20%的企业存在未授权AI工具,63%尚无AI治理政策。专家建议,一味封禁效果有限,企业应明确哪些工具可用、哪些数据禁止上传,员工也应主动核查AI输出内容,避免将敏感信息粘贴至公共AI平台。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
Hirebotics联合Fanuc发布首款基于无代码Beacon平台的防爆协作喷涂机器人Cobot Painter。该方案适用于金属制造商,无需专用喷涂房或复杂编程,可在现有人工喷涂环境中数日内完成部署。操作人员通过平板或手机的"点击示教"功能即可引导机器人完成路径学习,实现液体涂料、粉末涂装等高精度重复作业,帮助制造商将涂装业务收回自主管理。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。