至顶网服务器频道 12月04日 新闻消息(文/李祥敬):在这个数据无处不在的时代,如何从数据中获取价值成为企业的重要课题。有数据显示,面向数据科学和机器学习的服务器市场每年价值约为200亿美元,加上科学分析和深度学习市场,高性能计算市场总价值大约为360亿美元,且该市场还在持续快速发展。
在NVIDIA看来,数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速。NVIDIA解决方案架构与工程团队副总裁Marc Hamilton告诉记者,数据科学在2010年变得非常兴盛,但是那个时候CPU的计算力已经没办法满足数据科学家的需求了。数据规模越来越大,但是计算力并没有相应发展,等待时间也是越来越长。于是,NVIDIA推出了开源GPU加速平台——RAPIDS,为数据科学家提供标准化的流水线式工具。
在当前的人工智能浪潮中,深度学习与机器学习是两个重要的技术。在Marc看来,深度学习在处理非结构化数据(比如语音、图像等)上的效果更好,而机器学习却在结构化数据处理上效果更好。RAPIDS把深度学习的能力扩展到了大数据领域。
也就是说,RAPIDS把GPU最为擅长的深度学习优势也带到了机器学习领域,让企业在处理结构化数据方面与在处理非结构化数据方面同样获得GPU的加速。据悉,最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟。
RAPIDS平台通过加速cuDF、cuML、cuGRAPH库,英伟达能够让GPU加速计算应用到更多机器学习的算法与场景当中,为数据科学家提供标准化的流水线式工具。比如在数据处理方面,RAPIDS将会通过数据准备、数据合并、数据降维三个步骤加速处理数据。
Marc表示,RAPIDS底层由CUDA支撑。他强调,RAPIDS加速有不同方式,一种方式是在CUDA上对软件进行重新编程,第二种方式是使用CUDA软件库、cuML及机器学习的软件库,用来加速XGBOOST。第三种加速方式是在软件应用层面的加速,比如:SAP或者Oracle的某些软件功能已经可以通过GPU加速。
RAPIDS采用了开源的方式,可以非常完美地运行在GPU云平台,数据科学家只需要下载RAPIDS代码,就可以使用机器学习,不需要对现有代码进行太多修改。而且RAPIDS会保持不断更新,用户也可以将自己的需求反馈给NVIDIA,新的功能会不断加入到新版本中,满足用户的需求。
目前英伟达正在广泛地与开源生态系统贡献者展开合作,其中包括Anaconda、BlazingDB、Databricks、Quansight等,将更多的机器学习库和功能引入RAPIDS。为了推动RAPIDS的广泛应用,英伟达正努力将RAPIDS与分析及数据科学方面领先的开源框架Apache Spark进行整合。
在落地应用方面,RAPIDS目前已经被非常广泛采用,比如华大基因、中国移动、平安科技等中国公司都宣布引入它进行机器学习加速。例如,平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之后,工作流程执行速度加快了80倍,从几天缩短到几小时(包括数据加载和训练时间),这有助于该公司主动做出预测并完善预防计划。
华大基因使用XGBoost机器学习算法,对用于癌症患者个性化免疫治疗的靶向多肽进行分类。他们在NVIDIA DGX-1 AI超级计算机上运行RAPIDS平台,将分析速度提高了17倍,并将多肽的分析范围扩大至数百万种。
好文章,需要你的鼓励
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
预计到2035年,数据中心用电需求将增长一倍以上,达到440TWh,相当于整个加利福尼亚州的用电量。AI工作负载预计将占2030年数据中心需求的50-70%。传统冷却系统电机存在功率浪费问题,通常在30-50%负载下运行时效率急剧下降。采用高效率曲线平坦的适配电机可显著降低冷却系统功耗,某大型数据中心通过优化电机配置减少了近4MW冷却功耗,为13500台AI服务器腾出空间,年增收入900万美元。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。