2016年6月28日,浪潮在北京举行大数据一体机产品媒体沟通会。浪潮产品专家向媒体详细介绍了浪潮云海大数据一体机SDA50000和SDA70000两款产品。云海大数据一体机产品是浪潮在“持续深化计算+”战略背景下,在大数据领域的又一次创新和尝试。浪潮云海大数据一体机具有融合高效、敏捷易用、企业级增强等特点,可以广泛应用于应对高并发分布式查询业务优化,海量异构数据仓库的构建、大数据处理分析以及包含大数据服务的PaaS平台建设等业务场景。
浪潮云海大数据一体机
四大特性铸就一体化大数据平台
此次展示的浪潮云海大数据一体机,是软硬一体化、开箱即用的解决方案型产品。功能涵盖浪潮云海Insight大数据套件能力,旨在帮助用户快速构建GB到PB级大数据业务处理平台。浪潮云海大数据一体机的核心优势主要包括以下四个方面:
融合高效:采用新型分布式并行计算架构,可横向扩展达到4000个节点,形成强大的计算和处理能力;通过计算、存储和网络集中池化,柜内数据交换,资源利用率可提升40%,由于采用整机柜服务器模式,满柜搭载32节点1U标准服务器,可为用户节省75%的机房空间,整体功耗可降低66%;使用统一的可视化管理监控模块,运维管理工作降低50%以上。在性能调优方面,SDA70000基于SmartRack融合架构,软硬件预集成预调优,性能优于Hadoop社区版2-10倍。
敏捷易用:组件化交付,将繁琐的大数据环境搭建过程在生产线完成,开箱即用,易于部署。只需插电、连接网络、启动等简单几步即可开始使用。一体化运维,一站完成对软件、计算、网络和存储单元的运维管理,无需频繁切换控制台,建设周期缩短50%运维效率提升40%。
企业级增强:平台可靠性可达99.999%;针对分布式文件系统有30项优化,例如小文件存储优化、数据导入自动创建二级索引等,速度提高20%;整合和增强HBase、HDFS、Hive、Storm等20项关键组件,适配流式计算、离线处理、交互式分析、迭代预测、图计算等多种计算场景。
强大的开发支持:兼容SQL-92/99/2003、OLAP扩展,PL/SQL兼容度大于92%;提供基于MADLib的高级机器学习和数据挖掘功能;无需数据导入,即可直接访问HDFS、Hive、HBase、关系数据库的数据,进行统一的数据碰撞。
“硬”功夫的磨炼:企业级硬件平台,经受BAT业务锤炼
中国互联网的迅猛发展催生了大量的服务器需求。自2009年开始,浪潮就积极参与中国互联网行业的天蝎计划,为中国互联网公司深度定制服务器。如今,浪潮为互联网数据中心定制的整机柜服务器Smart Rack已经更新到第四代,该产品符合天蝎2.0标准,实现了各类资源的聚合,以及计算、存储和网络三类资源的各自池化,单日可部署4500节点,是传统服务器的10倍以上,而且可提升13.8%部署密度、10倍以上部署速度以及12%以上功耗节省,降低15%以上TCO。
阿里巴巴、百度等大型互联网企业已经大规模采用,此产品目前市场占有率超过60%而浪潮已经开发完成颗粒度更高的微模块数据中心MDC也已在杭州电信和网易中应用。技术方面,高密度、高效能电能方案、高温带腐蚀是浪潮最关注的三个方向。比如浪潮高压直流服务器,采用A-S电源,助力数据中心供电系统变革,改变传统IDC双UPS的供电架构,整体能耗降低15%。
浪潮云海大数据一体机的硬件平台,选用经过BAT级大型互联网环境考验过的浪潮服务器硬件平台,经得起“双十一”那样的考验,能够担当起大数据处理的重任。其中,SDA50000采用标准2U节点的整机柜服务器。SDA70000有两种硬件平台,一种采用标准2U节点的整机柜服务器;一种采用1U节点SmartRack高密度整机柜服务器,数量容量更大。
“软”实力的构建:融入生态,深耕行业应用
浪潮深知,大数据业务的成功,软实力的构建与硬功夫同样重要,需要融入生态、深耕行业,形成 “天时、地利、人和”的发展环境。
“天时”是开源、开放的业界趋势。IT技术的开源开放成为潮流,Hadoop已经成为大数据业界的事实标准。浪潮积极融入开源社区,成为主要成员之一,为浪潮迅速构建软实力提供了有利的条件。“地利”是浪潮在服务器存储自主化技术领域的雄厚积累。浪潮也是国内屈指可数的具有软硬件一体化产品和解决方案提供厂商,在政企行业耕耘二十多年具备深厚的技术功底和解决方案经验,这些作为拓展大数据领域市场具有得天独厚的优势。“人和”得益于浪潮的开放心胸与合作心态。浪潮坚持合作是两翼的营销策略,合作伙伴总数量已超过9000家,这也为大数据领域的开放创新提供了良好的生态基础。浪潮在发展大数据业务合作中有取有予,不谋求自建封闭体系,也致力于跟本地ISV互利共赢。在“天时、地利、人和”的条件下,浪潮打造了强大的大数据产品线研发体系,还建立了美国研发中心,方便核心研发团队在这里跟国际最先进的大数据软件公司深入交流与合作。
在“天时、地利、人和”的环境下,浪潮迅速构建了大数据的软实力。目前,浪潮云海Insight大数据组件化能力已初步成形,包括Insight HD分布式计算引擎、Insight MPP分布式并行数据库模块、Insight MemDB分布式内存数据库模块,涵盖了从GB到PB级数据的各类数据处理场景。
同时,云海IOP是一个完整的PaaS平台,可以支持快速的应用创新。它可以将大数据产品组件能力服务化,以组件模块或服务接口的形式提供给最终用户及ISV生态圈的开发者,可以实现快速、海量的应用开发。跟传统的开发方式相比,业务上线时间缩短75%,生产效率提高400%以上,业务扩容时间在分钟级,可以管理上万规模的应用。
浪潮云海大数据一体机,经过了大量的实践应用,在产品发布之前,已经积累了多个实际案例案例。总结来说其主要适用于以下四个场景:
第—,利用分布式技术改善数据查询分析速度。通过传统的结构化数据库处理海量数据查询时,查一个数需要几分钟的时间,这是让人无法忍受的。通过分布式数据库,可以把把这种传统结构化数据库的数据非常低成本的复制迁移,然后把传统分析查询的模块的劣势通过并行计算的架构进行优化,整体的导入速度和查询速度都可能提升10倍以上。经过实测表明,原来需要10分钟结构化数据处理业务,在分布式数据库上只需要数秒处理即可完成。例如12306背后的订单系统,公安行业人员查询系统,都是几十亿的数据, 通过SDA50000分布式数据库可以以极低的成本,可能几毫秒的时间,就在几十亿的数据库里面查询。
第二,海量异构数据仓库建设。云海大数据一体机内置云海Insight大数据平台处理组件,里面包含了20多个关键业务组件,统一进行调优和适配,提供体系化支撑模型。它真正的应用的目的就是解决当前大数据爆发之后面临很多问题,以前业务系统大部分都是结构化的,信息这些是一行一行的,数量很小。但是随着大数据时代的到来,半结构化、非结构化的数据越来越多。而这种数据在原来的传统架构中很难去存上,还是存不起,存得起之后扩不动,因为一旦存满了之后还要再买一台。而新架构里面,不管是什么样的数据都要存起来,对于大数据来说,需要一个全量的数据。如果只是存一部分数据,过两个月被扔掉了,其实对于大数据的概念就没有意义。比如电商业务,以前购物的信息删掉了,很难再预测客户的消费习惯。所以,经过这种海量的异构数据的存储,可以用大数据一体机去做非常多的事情。对这种半结构化和非结构化的数据原来是很难分析的,因为很零散,比如像日志数据,想分析这个人点击这个网页的行为,这种原来需要互联网公司亲自写一些专用的模型做这个事,比如像互联网公司,可以去雇一些人专门做一些日志分析。而在当前,可能以极低的成本来做。另外,对这种海量的非结构化数据还有结构化数据的快速定位,新型的架构模型可能非常适合把全量的数据存起来。
第三,互联网+、物联网新型业务的大数据处理分析。当前车联网、智能制造、手机App、智慧交通、智慧政务,也就是互联网+,可能都会涉及到大数据业务处理分析。这种系统对于这种分布式、弹性、可靠、并发性要求很高。比如,现在做一个老百姓访问的系统,例如百度,第一方面他做了多极的存储,任何一个节点宕掉都没有关系,就是以极低的成本实现了高并发、高可靠平台。基于此,我们可以利用IOP打造一个分布式的支撑层,实现一个快速迭代。通过后端云海Insight,可以实现超过10万的并发响应支持,对于互联网数据的海量历史存储,我们希望它能够永远的存下来,放在一体机里面,随着应用的不断深化逐步发掘数据产生的价值。
第四,包含大数据服务的PaaS平台建设。这是当前信息化建设的新一波,IaaS基础设施建设层面基本上已经很成熟了,而且都已经比较坚实了,很多的信息化,或者很多的这种信息部门都已经上了虚拟化。但是下一步的过程当中如何去打造一个类似于互联网的,互联网其实已经做了PaaS,它的快速迭代,它的这种服务化,它的这种交付能力,它的这种大数据处理能力,其实都是构建在PaaS上。如何用产品的模型快速的去搭建和迭代一个PaaS,这是目前浪潮大数据事产品关注的一个方向。希望利用一体机这种模式,快速的帮助用户搭建PaaS层,构建以应用商店为模型的这种轻量级的应用平台。
大数据应用只有深入行业,才能发挥价值。这也正是浪潮独有的优势。浪潮在中国信息化领域20多年的耕耘,成功为公安、气象、交通、卫生、教育、金融、电信、银行、金融、证券、保险、审计等各大行业提供解决方案。如今进入大数据时代,扎实的行业根基让浪潮比同行先行半步。给客户带来实际价值,用案例和事实说话,会让浪潮的大数据业务越走越坚实。
好文章,需要你的鼓励
TAE Technologies在最新一轮投资中获1.5亿美元,累计融资约18亿美元。公司利用 AI 技术优化融合反应堆设计,目标于 2030 年代商业化发电,谷歌等巨头均参与合作。
这项来自KU Leuven、中科大和上海Memory Tensor公司的研究探索了如何利用拼图游戏训练多模态大型语言模型的视觉推理能力。研究发现,现有模型在未经训练时表现近似随机猜测,但通过强化学习能达到近乎完美的准确率并泛化到更复杂的拼图配置。有趣的是,模型能否有效学习与是否包含明确推理过程无关,且复杂推理模式是预先存在而非突然出现的。此外,研究证明强化学习在泛化能力上优于监督微调,挑战了传统的模型训练范式。这些发现不仅揭示了AI视觉理解的机制,还为未来多模态模型研发提供了重要参考。
Nvidia 正在全球数据中心推广 AI 芯片,其最新 Blackwell 架构在 MLPerf 基准测试中获得最高性能,大幅加速下一代 AI 应用的训练与部署。
这项研究提出了LoHoVLA,一种用于长时序实体任务的统一视觉-语言-动作模型,融合了高层任务规划和低层动作控制功能。与传统方法不同,它利用单一预训练视觉语言模型同时生成语言子任务和机器人动作,并采用分层闭环控制机制增强鲁棒性。研究团队构建了包含20个长时序任务的LoHoSet数据集,实验结果显示LoHoVLA在Ravens模拟器中显著优于现有方法,展现出统一架构在实现可泛化实体智能方面的潜力。