近日,中科曙光面向海量异构数据自研的智能化大数据平台——XData大数据智能引擎V6.0(简称“XData”)突破TPCx-HS基准测试世界记录。
TPCx-HS是事务处理性能委员会TPC针对大数据系统制定的基准测试之一。基于曙光10台高度稳定、极致性能品质硬件搭建的测试环境,XData的1TB和3TB results中HSph@SF值分别达到18.28、16.75。该结果目前已超越TPC官网最新公布的最优结果,测试性能达到顶峰。
TPCx-HS基准通过对Hadoop集群进行压力测试,从性能、性价比、可用性、耗电量等方面对大数据系统的软硬件进行综合考量。TPCx-HS有两个主要指标,一个是集群性能值HSph@SF,另一个是性价比$/HSph@SF(集群总金额/性能值),其中前者为重点考察值。
XData因其具备性能卓越的处理能力,在最新一次TPCx-HS基准测试中,性能突破世界纪录。XData的突破在于其采用了先进的分布式、模块化体系架构,平台包含数据集成、治理、存储计算、高速分析引擎、数据智能、可视化分析、安全管控等功能,覆盖数据处理全生命周期。
针对大数据运算处理的特性,XData结合软硬一体化模式进行了针对性的开发,平台采用“基于专家系统的平台级综合调优、基于智能启发模式的应用级在线调优、基于爬山算法的迭代式微调”——三段式优化方法快速提高大数据平台的计算效率,实现了从底层操作系统级到上层大数据平台服务级且全生命周期的系统性优化提升。此外,XData还为大数据业务运行的深度监测与分析提供了有力支撑。
相较于传统大数据平台,XData聚焦且长于“敏捷、智能、融合、安全”四大核心能力,更因其管理方便、使用便捷、多行业适用等的特点,越来越成为大规模业务处理的标配。
近年来,曙光XData大数据智能引擎不断深耕技术与应用场景,帮助政企用户挖掘数据背后蕴藏的巨大商业价值,助其实现数字化转型升级。
在2020年国家工信部公示的大数据产业发展试点示范项目名单中,中科曙光申报的智慧城市、智慧电力和网格化社会治理三个项目被列入,其中项目均使用了XData大数据智能引擎。
近日,大数据产业生态联盟联合赛迪顾问股份有限公司、工信部赛迪智库、《软件和集成电路》杂志社共同揭晓了“2020中国大数据企业50强”,中科曙光凭借其在大数据产业的卓越表现与创新发展,在近2000家参评企业中脱颖而出,蝉联“中国大数据企业50强”。
未来,曙光大数据还将继续致力于打造数字大航海时代的大数据“智能引擎”,助力客户开辟新航路、平稳快速横穿深水水域,实现价值大发现。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。