Groq的LPU将成为继NVIDIA GPU的又一“新宠”？原创

作者：毛烁

Groq大模型以每秒500个token，彻底颠覆了GPT-4的40 tok/s的速度纪录！

几乎在你按下发送按钮的瞬间，大模型便以惊人的速度完成了回复的生成。这一次，Groq大模型以每秒500个token，彻底颠覆了GPT-4的40 tok/s的速度纪录！

Groq之所以“出圈”，缘于其惊人的速度，自称“史上最快大模型”！而让其冠绝大模型圈子的响应速度，来自驱动模型的新型AI芯片——LPU（Language Processing Units）。

Groq家的LPU“不走寻常路”

LPU旨在克服两大大语言模型(LLM)的瓶颈——计算密度和内存带宽。与GPU和CPU相比，LPU在处理LLM方面具有更大的计算能力。这减少了每个单词计算所需的时间，使文本序列能够被更快地生成。此外，消除外部内存瓶颈使得LPU推理引擎能够在性能上实现数量级的提升。

与专为图形渲染而设计的GPU不同，LPU采用了一种全新的架构，旨在为AI计算提供确定性的性能。

GPU采用的是SIMD（单指令多数据），而LPU采取了更为直线化的方法，避免了复杂的调度硬件需求。这种设计允许每个时钟周期都被有效利用，确保了一致的延迟和吞吐量。

简单来说，如果把GPU比作一支精英运动队，每个成员都擅长处理多任务，但需要复杂的协调才能发挥最佳效能，那么LPU就像是一支由单一项目专家组成的队伍，每个成员都在他们最擅长的领域中以最直接的方式完成任务。

对于开发者而言，这意味着性能可以被精确预测和优化，这在实时AI应用中至关重要。

在能效方面，LPU也展现出其优势。通过减少管理多线程的开销并避免核心的低效利用，LPU能够以更低的能耗完成更多的计算任务。

Groq还允许多个TSP无缝连接，避开了GPU集群中常见的瓶颈问题，实现了极高的可扩展性。这意味着随着更多LPU的加入，性能可以线性扩展，简化了大规模AI模型的硬件需求，使开发者能够更容易地扩展他们的应用，而无需重新架构系统。

举例来说，如果把GPU集群比作一座由多条桥梁连接的岛屿，尽管可以通过这些桥梁访问更多的资源，但桥梁的容量限制了性能的提升。而LPU则像是设计了一种新型的交通系统，通过允许多个处理单元无缝连接，避免了传统瓶颈问题。这意味着随着更多LPU的加入，性能可以线性扩展，大大简化了大规模AI模型的硬件需求，使得开发者能够更容易地扩展他们的应用，而无需重新架构整个系统。

快如闪电的Groq到底好不好用？

尽管LPU的创新举措令人瞠目，但对于通用大模型而言，好不好用才是关键。

我们对于chatGPT和Groq 提出了相同的需求，且没有经过二次对话。

不论内容正确与否，单从语言风格上看，从两款模型给出的反馈不难发现，Groq 的回复一板一眼有些生硬，很浓的“AI味”，而chatGPT则相对自然，对于人类语言（中文）习惯的“领悟”更加透彻。

接着我们又问了几乎同样的问题，它们的回答这这样的：

GPT的语言风格把“人情世故”吃的透透的，而Groq依旧是“AI味”浓厚。

能不能取代英伟达的GPU?

伴随着Groq极速狂飙的同时，出现了一票声音——英伟达的GPU是否已经落后了？

然而，速度并不是AI发展的唯一决定性因素。在讨论大型模型推理部署时，7B（70亿参数）模型的例子很能说明问题。

目前，部署这样一个模型大约需要14GB以上的内存。以此为基础，大概需要70个专用芯片，每个芯片对应一张计算卡。如果采用一种常见的配置，即一个4U服务器装载8张计算卡，那么部署一个7B模型就需要9台4U服务器，几乎占满了一个标准的服务器机柜。总共需要72个计算芯片，这样配置下的计算能力在FP16模式下达到了惊人的13.5P（PetaFLOPS），而在INT8模式下更是高达54P。

以英伟达的H100为例，其拥有80GB的高带宽内存，可以同时运行5个7B模型。在FP16模式下，经过稀疏化优化的H100的计算能力接近2P，在INT8模式下则接近4P。

一位国外的博主作了对比，结果显示：以INT8模式进行推理，使用Groq的方案需要9台服务器。而9台Groq服务器的成本远高于2台H100服务器。而Groq方案的成本超过160万美金，而H100服务器的成本为60万美金，这还未包括机架相关费用和电费开销。

对于更大的模型，如70B参数模型，使用INT8模式可能需要至少600张计算卡，接近80台服务器，成本更是天文数字。

事实上，于Groq的架构来讲，或需要建立在小内存，大算力上，让有限的被处理的内容对应着极高的算力，导致其速度非常快。

而对于部署推理能力的大模型，性价比最高的，依旧是英伟达的GPU。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

Groq的LPU将成为继NVIDIA GPU的又一“新宠”？ 原创

来源：至顶网计算频道

2024

02/21

15:57

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

NVIDIA 初创加速计划 | 2024 NVIDIA 创业企业展示完美收官!

老黄掏出“迷你版AI超算”，每秒67万亿次运算，仅售2070元人民币

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Groq的LPU将成为继NVIDIA GPU的又一“新宠”？原创