ZD至顶网服务器频道 05月23日 新闻消息: 一年之前,Gartner公司曾经将OpenStack定义为一个“科学项目”。然而在与国家计算基础设施协会的Andrew Howard进行沟通时,他结合澳大利亚规模最大的OpenStack部署方案给出了不同观点。
在这座占地面积900平方米的数据中心内承载着30PB数据,且利用AARnet作为组成部分接入NECTAR。Howard在采访中表示,NCI以OpenStack为基础的软件定义网络改变了研究人员们的固有思维方式。
十年之前,他指出,大多数研究人员都选择使用一台高端PC并希望其中提供充裕的磁盘空间来运行各类应用。如果将其中一部分参数集交由IT部门来打理,那么恐怕没有任何一套技术支持体系能够顺利接管。
然而时至今日,Howard表示,“大家可以运行自己的计算任务并将数据存储在国家级设施当中。如今可供支配的计算资源较本地环境更为丰富,我们也能够把处理结果通过网络传回设施内部。”
“它改变了资源的消费方式,也让研究人员拥有了超越部门甚至是高校级别的资源支配能力。由于项目本身是由联邦政府赞助的,因此几乎任何其它组织都无法在规模上与之比肩。”
作为澳大利亚早期互联网规划的参与者之一,Howard亦投身于OpenFlow早期开发并在NCI考虑使用OpenStack之后拿出三年半时间进行研究,因此他对于OpenStack如今的表现有着相当深入的理解。
相较于基于TCP/IP的路由机制——大家可以将其理解成世界上最原始的“SDN”——SDN的核心实质在于“对数据流进行进一步细分处理”,Howard解释道。
这对于NCI当然是一件大事,因为其科学高性能计算体系专门面向规模庞大但周期相对较短的数据流、大量用户以及遍布全国的基础设施。
在旧有模式当中,“远程”机制是指用户能够以登录方式通过网络访问与自身所在位置相距甚远的集中资源。现在,需要对CERN数据(或者天文数据)进行处理的研究人员希望能够从来源处获取数据,将其移动至应用当中,运行该款应用,获取结果并共享结果等等。
“为了实现网络设备商用化,供应商需要提供低成本交换机,同时将其全部集成至单一SDN控制面板当中,从而实际成本节约,”他表示,但在NCI看来,SDN的重要性已经远远高于上述作法带来的复杂难题。
“对于我们来说,真正的成本优势在于能够跨越多套国家级设施实现灵活性目标。”
SDN控制面板的存在,意味着NCI的用户们不再需要以某种方式借助电信运营商的力量,他表示:“我们可以为研究人员建立复杂的内部网络,其负责以透明方式跨AARnet实现数据传输,而无需触及运营商控制面板。”
AARnet对SDN功能的支持能力非常重要,因为研究人员所使用的网络容量将直接转化为应用程序功能——这种关系与上世纪九十年代的方案非常相似:“十五年之前,那时候人们还在使用ISDN PRI或者ATM(即初级速率接口与异步传输模式)。大家可以拨号上网并直接使用资源。”
“事实证明,这确定是一种极具成本效益的软件实现方式。”
如今的体系构建工作再次回归十年前的思路,“大部分资源由云环境提供”,而OpenStack则在NCI用于承载工作负载的虚拟机体系的升级工作当中起到举足轻重的作用。
软件堆栈“仍需要时间以达到成熟”,Howard告诉我们,但OpenStack未来三年的定期升级规划已经让NCI方面有信心将其引入生产环境,而Rackspace等厂商也在配合推出相关方案——这一切都让OpenStack已经不再仅仅属于实验室环境下的“科学项目”。
尽管如此,Howard指出:“这是一整套复杂的软件集合,需要想办法将其整合起来。”虽然大家“无法在车库中实现集成并立即将其投入生产环境”,但先以小规模方式安装并摸索无疑是了解OpenStack的最佳途径,他建议称。
而对于用户来说,由技能积累带来的收益也显而易见。“无论具体使用哪种虚拟化平台,这些技能都可以稍加调整即运用于VMware等各类平台之上。”
相较于那些令人头痛的高难度环境,Howard强调称,NCI发现OpenStack一直在“致力于平衡可用功能、简化功能优势的具体实现方式以及有效培训研究人员运用环境优势”。
为了尽可能降低研究人员的上手难度,大量指标被纳入仪表板以供他们随时查看。
“最典型的实例就是虚拟基础设施即服务平台——这是一套标准的OpenStack平台,用户可以借此启动虚拟机并在此基础上构建应用程序。”
此外还有更多进阶用例,例如跨越多套设施或机构创建虚拟实验体系。在各虚拟实验室中,OpenStack能够实现多种弹性工作负载,例如在支持NCI高性能计算服务的同时运行后处理虚拟化机制。
“研究人员能够登录至门户站点,将数据拖拽至/出其设施,点击对话框并运行工作负载。我们则负责完成配置工作——我认为这绝对是种与众不同的实现方式。”
“我们能够支持大规模数据流:作为国家级科学枢纽,我们负责处理来自SKA、CERN、Copernicus以及地球传感系统的数据——其数据总量无疑极为庞大。”
“因此,我们能否取得成功完全依靠网络体系的表现。对于用户来说,我们需要为其提供真正稳定且值得信赖的高性能资源。”
好文章,需要你的鼓励
随着AI模型参数达到数十亿甚至万亿级别,工程团队面临内存约束和计算负担等共同挑战。新兴技术正在帮助解决这些问题:输入和数据压缩技术可将模型压缩50-60%;稀疏性方法通过关注重要区域节省资源;调整上下文窗口减少系统资源消耗;动态模型和强推理系统通过自学习优化性能;扩散模型通过噪声分析生成新结果;边缘计算将数据处理转移到网络端点设备。这些创新方案为构建更高效的AI架构提供了可行路径。
清华大学团队开发了CAMS智能框架,这是首个将城市知识大模型与智能体技术结合的人类移动模拟系统。该系统仅需用户基本信息就能在真实城市中生成逼真的日常轨迹,通过三个核心模块实现了个体行为模式提取、城市空间知识生成和轨迹优化。实验表明CAMS在多项指标上显著优于现有方法,为城市规划、交通管理等领域提供了强大工具。
Meta以143亿美元投资Scale AI,获得49%股份,这是该公司在AI竞赛中最重要的战略举措。该交易解决了Meta在AI发展中面临的核心挑战:获取高质量训练数据。Scale AI创始人王亚历山大将加入Meta领导新的超级智能研究实验室。此次投资使Meta获得了Scale AI在全球的数据标注服务,包括图像、文本和视频处理能力,同时限制了竞争对手的数据获取渠道。
MIT研究团队发现了一个颠覆性的AI训练方法:那些通常被丢弃的模糊、失真的"垃圾"图片,竟然能够训练出比传统方法更优秀的AI模型。他们开发的Ambient Diffusion Omni框架通过智能识别何时使用何种质量的数据,不仅在ImageNet等权威测试中创造新纪录,还为解决AI发展的数据瓶颈问题开辟了全新道路。