基准测试文章列表第1页

人工智能博弈论基准测试

2026-06-18

博弈论新研究：通用算法胜过专用博弈算法

MIT研究人员在2025年国际学习表征会议上发表论文，挑战了博弈论领域的长期假设。研究发现，在双人不完全信息零和博弈中，通用的策略梯度算法训练的神经网络，其表现优于专门的博弈论算法。研究团队还开发了一套基准测试工具，可在...

人工智能大语言模型基准测试

2026-06-15

Gemini 3.5 Flash登上安卓编程榜单，但成本高出3倍且性能更慢

谷歌更新了Android Bench基准测试榜单，新增了Gemini 3.5 Flash的评测数据。结果显示，该模型在Android开发场景中表现欠佳，仅排名第六，不仅落后于GPT 5.5和Gemini 3.1 Pro ...

Fivetran发布基准测试：Workday、Rippling、Slack数据访问表现垫底

人工智能数据集成基准测试

2026-04-23

Fivetran发布基准测试：Workday、Rippling、Slack数据访问表现垫底

企业数据集成商Fivetran发布了"开放数据基础设施（ODI）数据访问基准测试"，评估主流SaaS厂商在数据覆盖、性能和数据导出费用三项指标上的表现。结果显示，Workday因严苛的API调用限制和缺乏分页支持，性能排...

人工智能模型评估基准测试

2026-03-19

博士生创业项目Arena成为AI模型评判标杆，估值17亿美元

AI模型竞争激烈，Arena已成为大语言模型的权威排行榜，影响着行业资金流向和产品发布。这家初创公司在七个月内从加州大学伯克利分校博士研究项目发展为估值17亿美元的企业。联合创始人讨论了如何在接受OpenAI、谷歌和An...

人工智能基准测试商业模式

2026-03-19

Arena平台如何成为大语言模型权威评测标准

AI模型竞争激烈，Arena成为前沿大语言模型的权威公开排行榜，影响着资金投入和产品发布。这家初创公司从加州大学伯克利分校的博士研究项目起步，仅七个月就获得17亿美元估值。尽管获得OpenAI、谷歌和Anthropic等...

人工智能基准测试评估体系

2026-03-16

科学家创建史上最难AI测试，结果令人意外

随着AI在传统学术基准测试中得分极高，研究人员发现现有测试已无法准确衡量先进AI系统的能力。为此，近千名全球研究人员开发了"人类最后考试"，这是一个包含2500道题目的评估系统，涵盖数学、人文、自然科学等高度专业化领域。...

人工智能数学推理基准测试

2026-03-02

AI在数学考试中的表现超越了科学家出题速度

数学被视为衡量AI进展的理想领域，但AI系统改进速度如此之快，以至于数学基准测试难以跟上。Frontier Math基准在2024年11月发布时，顶尖AI模型只能解决不到2%的问题，而如今最佳公开AI模型已能解决超过40...

人工智能自然语言处理基准测试

2026-02-25

AI智能体仍需人类指导才能有效执行任务

最新研究显示，AI智能体需要特定的程序性技能知识才能良好执行任务，但无法自主学习这些技能。研究团队开发了SkillsBench基准测试，评估了AI智能体在医疗、制造、网络安全和软件工程等11个领域84项任务中的表现。测试...

人工智能智能体技术基准测试

2026-02-25

AI智能体仍需人类传授技能才能有效运作

最新研究表明，AI智能体需要特定的程序化知识技能才能良好执行任务，但无法自主学习这些技能。研究人员开发了SkillsBench基准测试，评估AI在医疗、制造、网络安全和软件工程等11个领域84项任务中的表现。测试显示，配...

人工智能智能体基准测试

2026-01-30

AI智能体何时可胜任自主商业运营？

卡内基梅隆大学和富士通研究人员开发了三项新基准测试，用于评估AI智能体在无人监督情况下执行商业操作的安全性和有效性。FieldWorkArena基准专注评估物流制造环境中的AI智能体，测试其检测安全违规和生成事故报告的准...

人工智能物理推理基准测试

2026-01-28

AI物理推理能力不足阻碍自动化发展进程

斯坦福大学推出QuantiPhy基准测试框架，评估AI对视频图像中物理属性的数值推理能力。测试显示当前AI模型在估算尺寸、速度和距离等基本物理量方面表现不佳，主要依赖记忆事实而非视觉推理。这一缺陷限制了机器人、自动驾驶汽...

处理器性能基准测试芯片竞争

2026-01-27

英特尔最新芯片多核跑分超越苹果M5但优势或仅维持两天

Wired测试显示，英特尔Core Ultra系列3在多核性能测试中表现出色。在Cinebench 24多核基准测试中，Core Ultra X9 388H得分1285分，超过M5的922分；在3DMark Steel ...

人工智能智能体基准测试

2026-01-23

AI智能体是否已准备好进入职场？新基准测试引发质疑

最新研究显示，尽管AI模型在深度研究和智能规划方面取得巨大进步，但在实际白领工作任务中表现不佳。新的Apex-Agents基准测试涵盖咨询、投资银行和法律等领域的真实工作场景，结果显示即使是最先进的AI模型也只能正确回答...

异构计算基准测试数据处理优化

2025-11-28

异构计算时代需要新的数据处理基准测试

数据基础设施正经历数十年来最重大变革。生成式AI和异构加速计算环境的兴起，正在重塑现代数据栈的核心需求。传统基准测试如TPC-DS已无法准确评估GPU、TPU等多样化硬件的真实性能。硬件厂商的规格参数往往与实际工作负载表...

人工智能数学计算基准测试

2025-11-18

研究显示大语言模型数学计算能力令人担忧

波兰研究团队开发ORCA数学基准测试，对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于...

人工智能基准测试资助项目

2025-11-07

Laude研究所宣布首批"弹弓"AI资助计划获奖名单

Laude研究所周四宣布首批Slingshots资助计划，旨在推进人工智能科学与实践发展。该加速器项目为研究人员提供学术环境中难以获得的资源支持，包括资金、算力和产品工程支持。首批15个项目重点关注AI评估难题，包括命令...

人工智能模型上下文协议基准测试

2025-08-25

MCP-Universe基准测试显示GPT-5在超半数真实业务场景中表现不佳

Salesforce AI研究团队开发了开源基准测试MCP-Universe，用于评估大语言模型在真实世界中与MCP服务器的交互能力。测试涵盖位置导航、代码库管理、金融分析等六个企业核心领域的231项任务。结果显示，即使...

存储技术 NVMe/TCP 基准测试

2025-07-31

Lightbits与Supermicro服务器共享块存储测试创IOPS新高

Lightbits声称在使用超微服务器硬件的基准测试中，为容器化事务处理展示了最快的共享块存储性能。测试配置采用AMD EPYC 9575F处理器和8块三星NVMe SSD，实现了360万4K随机读IOPS、160万4K...

人工智能基准测试实验结果

2025-04-22

OpenAI 的 o3 AI 模型基准测试得分低于公司最初声称的水平

独立测试显示，OpenAI 的 o3 模型得分约 10%，远低于内部报告的25%上限。公开版与内测版存在差异，后续版本预计将更加强大，提醒业界对 AI 基准测试结果保持谨慎。

WEKA 在 SPECstorage Solution 2020 基准测试中包揽第一

存储性能 PCIe Gen 5 基准测试

2025-02-12

WEKA 在 SPECstorage Solution 2020 基准测试中包揽第一

WEKA 在 SPECstorage Solution 2020 基准测试的五个工作负载场景中全面领先，采用 HPE PCIe Gen 5 硬件实现卓越性能。此次测试涵盖 AI 图像处理、电子设计自动化等多个领域，WEK...