全新AutoAI功能将通过自动化和加速时间密集型数据流程,加速人工智能开发,同时解放数据科学家,使他们能够更加专注于机器学习
IBM宣布推出AutoAI,这是IBM Watson Studio上又一全新功能,旨在帮助企业实现人工智能设计、优化和管理等环节的自动化。如此,数据科学家们便可以腾出更多时间投入到机器学习模型的设计、测试和部署等工作上来。
尽管人们已经意识到人工智能在商业中越来越高的战略价值,但大多数组织还仍在努力应对基础信息架构方面的挑战。寻找、收集和整理零散、孤立的数据,并将这些数据准备好用作分析与机器学习,这些繁琐的工作往往减慢了人工智能的开发。Forrester近期发表的一篇报告中称,60%的受访者表示,管理数据质量是实现人工智能所面临的最大挑战之一,另有44%的受访者将这一挑战归结为数据的准备。
对于没有数据科学家的企业来说,人工智能项目面临着更大的挑战。IBM商业价值研究院在一项题为《向企业级人工智能的转变》(Shifting Toward Enterprise-Grade AI) 的研究中指出,63%的受访者表示,缺乏适当的技术、技能是企业实施人工智能所面临的主要挑战。
Watson Studio全新AutoAI功能与Watson Machine Learning相结合,将能够帮助企业加速并实现人工智能生命周期中各个步骤的自动化,从而解决上述挑战。
全新AutoAI功能专门为加速企业人工智能开发而设计,使那些极其耗时的数据准备和预处理环节实现自动化,例如模型开发、功能工程等。目前,企业已可以在基于IBM云的Watson Studio上使用此功能。AutoAI的推出是为了使用户能够利用超参数(hyperparameter)优化功能,更轻松地构建数据科学和人工智能模型。此外,AutoAI还包含一套强大的企业级数据科学模型集,如梯度增强树(gradient boosted trees)等,帮助用户快速扩展机器学习实验并完成部署。
IBM大数据与人工智能业务总经理Rob Thomas表示:“IBM始终与客户保持密切合作,为他们规划通往人工智能的路径,而许多客户面临的首要挑战之一便是数据准备,这是人工智能的基础步骤。我们已经发现,对于一些成熟企业而言,数据基础架构的复杂性让人望而生畏,而对于那些几乎没有或根本没有技术资源的企业来说,这种复杂性更是根本无法驾驭的。我们为Watson Studio提供的自动化功能旨在简化流程,帮助客户更快地构建机器学习模型和实验。”
AutoAI系列还包括IBM Neural Networks Synthesis(NeuNetS),这一技术于去年秋天首次亮相,目前在Watson Studio项目中处于公测阶段。这一技术能够使用户通过人工智能自动合成定制化的神经网络,快速跟踪深度学习模型的开发。NeuNetS使用户能够在优化速度和精度方面进行选择,并实时观察模型的构建并进行自我训练。
Watson Studio AutoAI利用IBM研究院开发的关键技术,基于IBM多年来一直在开发和提供的诸多自动化功能,为包括IBM Watson Assistant、IBM Watson Discovery与IBM Watson Machine Learning在内的各种解决方案都提供了不同程度的自动化,加快并简化了极其耗时的任务与环节,使客户能够更快地专注于具有更高价值的工作。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。