ZD至顶网服务器频道 12月05日 新闻消息(文/邹大斌): 如今云计算已经进入务实落地的阶段,一批云数据中心正在各地拔地而起,大批x86服务器被采购、部署,为各种云服务的交付发挥重要作用。这些服务器除了CPU型号、内存和存储空间的型号和大小不同,整体架构上大同小异,并没有哪款服务器是专门为其中某类应用类型而专门订制的。在曙光看来这并不合理,在这个领域应该有专用的服务器,就像曙光刚刚推出的“星河”云服务器。
11月29日,曙光“星河”云服务器在天津宣布正式量产,这是一款专门为云计算典型应用需求而研发的服务器。这也是业界首款支持亿级并发的云服务器系统,由于采用了全新的国产架构,可以有效应对亿级以上的并发访问,特别是适合用户在线访问和互动搜索应用。
尽管当下云服务种类繁多,但仔细分析,不难发现这些云服务大多离不开简单的交互,比如我们要到互联网上去查询,互联网给我们返回一个查询结果。其实,这也正是最主要的应用类型。根据有关机构对云服务类型进行的调查研究,发现简单的Web访问类应用和信息检索查询应用占现有云应用90%以上。这些服务对计算能力的要求并不高,反而对并发更为敏感。这与传统企业级市场有很大区别,在传统企业市场,用户普遍更关注前者。这只是云服务市场对服务器的特殊要求之一,但它说明了云服务对服务器有着不同的需求,这也正是曙光推出“星河”云服务器的一个大背景。
“近几年,我们看到,服务器从4U到2U、1U,服务器的计算密度越做越高,还出现了整机柜这种产品。它们都是在用物理上的资源共享来让传统的通用服务器适应现代大型数据中心的互联网应用。”曙光高级副总裁聂华表示。
而厂家乐此不疲地要压缩服务器的空间和体积、降低服务器的功耗和成本,其背后的原因在于它们希望借此来满足云数据中心的新需求。而其实不管是现有的服务器还是经过调整之后的服务器都很难满足这些需求,比如计算资源的浪费(利用率普遍不到30%)、高并发的响应不足、能耗高、占空间。
“我们认为,这是并不是仅仅通过服务器物理结构上的改变就可以解决的,包括整机柜服务器、高密度的机架服务器等都只是在一定程度上部分解决了问题,不能说从根本上解决这方面的问题。”聂华说。
面对云计算这样重大的需求,曙光应该做点什么?应该怎么样更好地满足市场?曙光先是对于最典型的云服务做了调查,然后总结了这些应用对服务器的需求,随后决定推出为这个市场定制的云服务器,并成功申请国家863计划“亿级并发云服务器系统研制”课题。
“云计算是一个非常重要的市场,在这个市场争夺十分激烈,但是,到目前为止我们并没有掌握到云计算的核心技术,也就没有掌握云时代的话语权。我们希望从基础装备的角度做出自己的努力。”聂华表示。
基于上述目的,课题组对目前市场需求进行了归纳。除了前面提到的并发要求高之外,共性需求还包括需要是高能效的,而且是弹性可扩展,能按需分配,可以软件定义,只有这样用户才能面对不同的云应用拿出不同的资源去响应。最后,提出了这款云服务的两个基本特征,即可通用原则和简约原则。
“尽管定制,但我们的服务器必须有它的通用性,能进入x86服务器现有的生态系统中。另外要简约,就是对服务器的功能做减法,这两个是贯穿我们整个云服务器设计当中的两个基本原则。”聂华说。
聂华进一步解释说,之所以有两个基本原则很大程度上是基于过去的经历。因为太多国产自主的系统由于通用性不足,导致生态不够完善,厂商要花很大力气来改变、要塑造生态,最后效果都不理想。而在高度的简约方面,就是希望用减法来减掉一些浪费的部件,从而进一步提升价格优势。
经过3年多的研究,11月29日“亿级并发云服务器系统研制”课题正式对外公开了自己的研究成果,这就是业界首款支持亿级的并发云服务器系统——“星河”云服务器系统。该系统有着多项技术上的突破,从而使得其性能功耗比和整体服务能力较传统服务器有显著提升。
比如,“星河”云服务器系统采用了英特尔高节能的Xeon D处理器,与传统架构相比,云服务器系统的节点性能功耗比提升3倍以上;去掉了各种非必要的传统输入输出设备及扩展支持,成本降低70%,系统复杂性降低60%;标准4U空间容纳32路单路节点,与业内最好的传统架构服务器相比,空间占用减少50%。
据聂华介绍,之所以能实现这些重大突破,源于该云服务器实现了三大核心技术突破:第一,全球首创全新云计算基础装备,专为云计算需求设计的简洁节能结构,首创单路直连紧耦合体系架构和全硬件存储虚拟化,实现真正的软件定义云服务器;第二,实现系统负载并发处理能力大于1亿次,单节点可应对典型云服务日请求处理数大于900亿次;第三,采用全新国产体系架构和安全可控技术承载现有的标准和应用,在保留产品尖端技术和通用性的前提下,不留安全后门,保证云计算应用的安全。
据悉,“亿级并发云服务器系统研制”课题共申请相关国际发明专利2项,国内发明专利23 项。该研究成果已在中国银联的联云平台、中国电信的天翼云、中国教育电视台的教育新媒体云上得到有效的应用推广,获得用户的广泛好评,取得了显著的社会和经济效益。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。