2019年6月20日,北京,人工智能企业第四范式正式发布了企业级 AI 软硬一体集成系统——SageOne,通过业界领先的“软件定义计算”软硬一体技术构建了闭环企业AI系统,贯通硬件基础设施、AI核心引擎、AI平台和AI业务应用的全价值链条,全面支撑企业AI"1+N"业务场景应用需求。第四范式本次发布了SageOne Advanced、SageOne Standard和SageOne WorkStation三大系列共7款产品,覆盖大中小企业中开发、投产和验证等全部场景应用。SageOne软硬一体集成系统具备低门槛、低TCO、高性能、高效率和规模化应用等特点,助力各行业企业解决“1”核心应用的极致业务效果和“N”规模化应用落地效率的难题。
面对企业AI应用需求,传统算力存在的先天缺陷暴露无遗,解决算力问题成为企业AI转型的关键。“软件定义算力”已经成为行业发展的共识和趋势。第四范式SageOne借助自研AI训练引擎、AI推理引擎和AI特征存储引擎三大引擎的领先技术,针对硬件中的芯片、存储、网络等组件进行了重新定义,根据企业AI应用的实际情况进行了专用计算架构、资源管理和调度等进行深度优化和加速,为企业 “1+N”AI应用提供充沛算力。
1、AI训练引擎——全面加速高维机器学习过程
以自研高维机器学习分布式框架GDBT和高维算法为基础,第四范自主研发的硬件加速卡——4Paradigm ATX800,采用20nm制程,算力达到1.5TFLOPS,内置FlashGBM加速系统,充分用内存和高速缓存带宽,支持自动优化训练超参数、高位特征计算过程I/O加速和高维GBDT训练加速等功能,在企业应用场景中表现出多达10倍的训练性能。
此外,第四范式和英特尔联合实验室一直探索最佳优化技术,并针对最新Cascade Lake-AP处理器的全新AVX512指令集、多核心及主频利用率和CLX AP微架构IO总线的利用率进行全面优化。
SageOne内置第四范式自主研发的高维、分布式网络通讯协议Swift,集成P-PRC自研网络通信框架、零拷贝数据交换协议等AI领先通讯技术,结合基于CLX-AP架构的参数服务器集群,展现出业界顶级机器学习性能表现。SageOne在高维特征计算过程I/O最大10X加速,高维稀疏场景模型训练比GPU提速5X以上,自研pRPC通信框架比百度bRPC和谷歌gRPC提速3-10X。
2、AI推理引擎——实现极速实时AI推理能力
SageOne内置行业领先的自研实时特征计算引擎和模型预估引擎,为企业AI应用提供特征处理过程免开发上线、线下线上一致性保证、一键生成预估服务、异构模型统一服务等AI核心应用服务,结合非易失性存储的无限缓存和超低延迟内存存储等硬件技术,确保企业AI应用时具备?量量时序特征计算和万亿维模型实时推理能力的同时,提供百万级并发实时请求支持和99.9%请求毫秒级响应的高并发业务极速响应服务。
3、AI特征存储引擎——打造超低延时在线AI数据治理
面向AI的数据治理是企业AI规模化落地的基础,针对企业中多源异构数据对接、离线在线数据一致性管理、回流数据自动标准及权限、审计等众多治理需求,SageOne借由自研内存时序数据库引擎的优势,具备毫秒级海量时序特征供给性能,并通过融合InfiniCache无限缓存等技术,实现自动切换存储介质优化TCO和RAFT一致性灾备与恢复等高性能企业级标准。SageOne利用超低延迟数据访问接口、超高数据吞吐传输通道和水平扩展动态扩容服务等突出能力,为企业AI应用构建了超低延迟在线数据治理能力。
企业核心场景的AI应用,每一个百分点的效果提升,对企业都至关重要。第四范式SageOne软硬一体集成系统具备高维、实时领先优势,更大限度助力企业释放核心业务潜能,让AI应用紧随业务发展需求。
1、高维算法+海量数据
第四范式自主研发的高维机器学习算法,面对企业海量多源异构的数据场景,特征维度呈现指数级提升,同时带来模型的预测效果成倍提升,达到更精准的业务价值触达和业务收益。在金融、互联网和医疗行业AI应用中,高维为行业的核心业务效果提升50%——574%。
2、实时AI推理决策
SageOne通过毫秒级数据响应和百万级吞吐量实时提升核心业务成效,让原本只能出现于“事后”的统计分析,转变成为 “事中”实时业务决策AI应用。在企业核心场景的海量实时业务决策中,15个SageOne推理引擎节点都够支撑20亿维特征模型实时2万次并发请求,其中99.9%请求在100ms内响应,大幅提升实时决策在核心业务场景中的关键价值。
面对众多的AI应用场景落地需求,很多企业都面临着“全面AI改造”困局,此时规模化落地能力成为企业智能化转型的关键。借助第四范式统一的方法论和SageOne强大的AI数据治理和充沛算力,企业可以快速完成AI应用创新与规模化落地,快速赋能成百上千个业务应用。
1、统一方法论
第四范式以“库伯学习圈”理论为基础建立了闭环AI应用方法论,通过SageOne将AI应用构建简化为“行为数据采集、反馈数据采集、模型训练、模型应用”四个标准步骤,并借助第四范式领先的AutoML技术构建规模化的AI生产流水线,将AI应用上线平均周期从30人月降低至数十人天,大幅度节省了人力时间成本。
2、面向AI的数据治理
目前企业AI应用开发周期中数据准备占据了60%人天成本,要实现企业AI规模化高效落地需要建立一套完整的AI的数据治理系统。SageOne不仅具备能够存取 PB 级甚至更大量的日志的实时高性能存储能力,同时解决了企业数据采集访问双实时、全量原始数据 、线上线下一致性及利用回流数据自动标注等AI数据治理能力难题,突破制约AI规模化落地的数据瓶颈。
3、AutoML
AutoML是帮助企业AI走向规模化生产流水线的关键性技术。SageOne内置第四范式自研的领先AutoML算法,覆盖企业AI应用从数据准备、自动数据标注、自动模型选择、模型一键上线、模型迭代自学习等端到端的全栈流程,助力企业实现低门槛、高效率、大规模构建AI应用。
SageOne的领先性能表现,正在支撑大规模核心场景快速智能迭代。
此外,本次发布会现场第四范式还展示了全面国产化的AI软硬一体机——领航,产品内置国产化的CPU、BIOS、网卡和操作系统等软硬组件,深度融合第四范式独有企业级先知Sage平台中自研高维机器学习框架、AutoML和实时自学习等突出优势,提供不逊于市场其他主流软硬一体机的算力表现,保障企业更安全、可靠的算力应用。
面对越来越多企业AI “1+N”转型的迫切需求,第四范式发布SageOne企业级AI集成系统恰逢其时,不仅为企业实现核心业务“1”提供极致业务效果和大规模“N”个场景快速落地的全面有效支撑,同时带给企业拥有更优质的能效和更高的投资回报率。目前,第四范式SageOne AI集成系统产品服务于银行、保险、证券、零售、安防、能源、政务、媒体、互联网等多个行业与领域的领军企业,助力它们实现全面AI转型目标。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。