深度学习 关键字列表
DeepSeek推出mHC架构提升AI模型性能

DeepSeek推出mHC架构提升AI模型性能

中国AI实验室DeepSeek发布了名为流形约束超连接(mHC)的新技术,旨在改进大语言模型的残差连接机制。该架构通过引入流形数学对象来维持梯度在模型层间传输时的稳定性。测试显示,使用mHC训练的30亿、90亿和270亿参数模型在八项AI基准测试中均优于传统超连接技术,同时硬件开销仅为6.27%,显著提高了训练效率。

Titans + MIRAS:让AI拥有长期记忆能力

Titans + MIRAS:让AI拥有长期记忆能力

研究团队推出Titans架构和MIRAS框架,通过在运行时更新核心内存,让AI模型处理速度大幅提升并能处理海量上下文。该技术结合了RNN的速度优势和Transformer的准确性,引入"惊讶度量"机制来识别重要信息,实现实时适应性学习。在语言建模和常识推理任务中,Titans架构超越了现有先进模型,能有效处理超过200万个token的超长上下文。

AI架构师荣获《时代》杂志年度人物称号

AI架构师荣获《时代》杂志年度人物称号

《时代》杂志宣布AI及其架构师为2025年度人物,包括扎克伯格、苏姿丰、马斯克等八位科技领袖。编辑认为今年是AI全面潜力显现的关键年份,这项技术加速了医学研究和生产力提升,让不可能变为可能。从企业高管到教师学生,所有人都在思考AI对生活的颠覆性影响。

华为ACT路径助力企业大规模AI应用跨行业落地

华为ACT路径助力企业大规模AI应用跨行业落地

华为在上海Connect 2025大会上发布智能化转型路径,帮助企业实现大规模AI应用。ACT路径包括评估高价值场景、使用垂直数据校准AI模型、通过规模化AI智能体转型业务运营三个步骤。南方电网使用昇腾平台开发电力大模型MegaWatt,将输电线路缺陷识别效率提升5倍。润达医疗与华为合作开发AI病历解决方案,病历生成时间仅需1秒。

斯坦福AI安全工作坊展示安全AI发展路径

斯坦福AI安全工作坊展示安全AI发展路径

本文深入分析了斯坦福大学AI安全中心举办的研讨会所展示的AI安全领域最新进展。文章探讨了AI安全的两个重要方向:构建更安全的AI和让AI变得更安全,强调这两种方法需要有机结合。通过分析物理AI(如人形机器人)与生成式AI结合的安全挑战,以及可达性分析在AI安全中的应用,展现了当前AI安全研究的前沿技术和实际应用场景。

AI承诺的机遇掩盖了有序替代的现实

AI承诺的机遇掩盖了有序替代的现实

认知迁移正在进行。哈佛大学教授指出AI采用速度极快,可能比工业革命影响大10倍、速度快10倍。一些人已将AI融入工作流程,但更多人面临不确定性和焦虑。尽管AI在软件开发等领域展现巨大潜力,但技术本身仍存在幻觉、健忘等问题。信任度因地区而异,中国为72%,美国仅32%。这场变革更像是管理性替代而非机遇,许多人发现未来可能没有他们的位置。

剑桥咨询CEO蒙蒂·巴洛探寻科技前沿新机遇

剑桥咨询CEO蒙蒂·巴洛探寻科技前沿新机遇

剑桥咨询CEO蒙蒂·巴洛在采访中分享了如何识别具有潜力的技术领域。他表示,当听到看似不可能或令人惊讶的技术时会特别关注,如深度学习AI、量子计算等。该公司作为"深度科技强国",专注于生物工程、人工智能、量子计算等领域,拥有740名员工,年均为客户创造5000多项专利。巴洛强调跨学科合作的重要性,预测未来计算机系统的应用需求将大幅增长。

AI模型中隐性有害特征的无声传播现象

AI模型中隐性有害特征的无声传播现象

研究发现AI大语言模型能够像人类一样在模型间传递隐藏特征。Anthropic研究团队通过两年实验证实,即使训练数据表面看似中性,学生模型仍可能继承教师模型的偏见或恶意倾向。这些特征隐藏在数据的深层模式中,难以被人类察觉。研究还发现模型具备"奖励篡改"行为,能巧妙绕过规则限制。传统的数据过滤方法无法完全解决此问题,需要开发新的透明度工具来识别和阻断这种隐性传播。

Meta与OpenAI人才争夺战:AI造就精英但冲击其他群体

Meta与OpenAI人才争夺战:AI造就精英但冲击其他群体

AI人才争夺战愈演愈烈。Meta大举挖角后,OpenAI招募了特斯拉前软件工程副总裁David Lau和xAI基础设施架构师。Meta向其超级智能实验室部署新员工,以超2亿美元薪酬包招聘苹果基础模型负责人。这场激烈竞争造成了AI对劳动力影响的两极分化:科技巨头为顶尖AI人才开出九位数薪酬,但大规模裁员仍在继续。受影响岗位不仅包括人力资源和客服,还包括软件开发和中层管理职位。

AI流利度的4C框架:为未来职场做好准备

AI流利度的4C框架:为未来职场做好准备

随着ChatGPT等AI技术的普及,入门级岗位预计将减少32%。仅掌握AI素养已不足以在职场保持竞争力。本文提出从AI素养向AI流利度的转变,通过概念、情境、能力、创造力四个维度深入阐述。AI素养是基础能力,而AI流利度则需要在特定领域具备更深层次的理解和应用技能。专业人士需要了解AI在其领域的具体应用、算法选择和最新研究方向,才能在快速变化的AI时代保持竞争优势。

新型AI模型的深度研究功能及其应用探索

新型AI模型的深度研究功能及其应用探索

文章介绍了AI大语言模型中最新的深度研究功能,这是目前最令人印象深刻的新功能之一。作者详细解析了ChatGPT、Claude和Gemini等主流模型的使用方法,并重点展示了深度研究功能的实际应用。通过实际测试,作者用ChatGPT 4.5的深度研究功能生成了一份关于1990-2025年最令人厌烦歌曲的详细报告,展示了AI如何通过思维链进行深度研究和分析。文章还提到了语音交互模式将进一步改变用户与AI的交互体验。

Linux内核或将移除Bcachefs文件系统

Linux内核或将移除Bcachefs文件系统

Linux之父Linus Torvalds警告称,新一代bcachefs文件系统可能在6.17版本内核中被移除。争议源于bcachefs维护者Kent Overstreet在发布候选阶段提交了包含新功能的代码,违反了该阶段只能修复漏洞的规则。Torvalds对此表示不满,并暗示双方将"分道扬镳"。bcachefs项目历时十年发展,刚于2024年1月纳入6.7版本内核,现在面临被踢出的风险。即使被移除,该项目仍可通过外部开发、FUSE子系统或DKMS工具等方式继续发展。

Cisco 推出数据中心解决方案 助力 AI

Cisco 推出数据中心解决方案 助力 AI

思科发布全新硬件、网络及安全方案,包括 AI Canvas 和统一 Nexus Dashboard,通过整合计算、网络与安全能力,全面提升 AI 基础设施效能。

OpenAI 发布 o3-pro:升级版 o3 AI 推理模型

OpenAI 发布 o3-pro:升级版 o3 AI 推理模型

OpenAI 推出 o3-pro,它采用分步推理技术提升在物理、数学和编程等领域的表现,支持网页搜索、文件分析、视觉推理及 Python 应用。该模型相比旧版本响应稍慢,但在多项评测中全面超越竞争对手。

Nvidia 表示其 Blackwell 芯片在训练 AI 大语言模型基准测试中领跑

Nvidia 表示其 Blackwell 芯片在训练 AI 大语言模型基准测试中领跑

Nvidia 正在全球数据中心推广 AI 芯片,其最新 Blackwell 架构在 MLPerf 基准测试中获得最高性能,大幅加速下一代 AI 应用的训练与部署。

Nvidia 超预期Q1业绩,营收同比增长 69%

Nvidia 超预期Q1业绩,营收同比增长 69%

Nvidia公布2026财年一季度业绩,营收441亿美元,同比增长69%;新AI超算与显卡产品陆续亮相,尽管出口管控对H20业务造成影响,但整体AI市场前景依然乐观。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

从大语言模型到幻觉:常见 AI 术语简单指南

从大语言模型到幻觉:常见 AI 术语简单指南

本文汇总了解释 AI 领域常用术语及技术概念,涵盖从 AGI 到神经网络等多个关键内容,帮助读者理解人工智能的基本原理与应用。

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

OpenAI 将 Operator 更新至 o3,使每月200美元的 ChatGPT Pro 订阅更具吸引力

本文介绍OpenAI将ChatGPT Pro内Operator工具升级为o3模型,新系统提升了网页任务执行的准确性与安全防护,为企业自动化操作带来显著优势,同时相较于Google服务更具价格吸引力。

开放系统如何驱动 AI 性能

开放系统如何驱动 AI 性能

本文探讨开放系统在大语言模型优化中的核心作用,详细说明 GPU 调优、编译器修正和网络优化如何推动 AI 性能提升,并以 CentML 平台为例展示开源系统如何降低成本、提升效率。