LPU 之算力密度为 GPU/NPU 之 2~3 倍,同等算力只要 1/2~1/3 之芯片面积,省下之位置正好用来放 SRAM。
Groq 从 2016 年做 LPU 到 2024 年让编译器达到商用级别,整整八年。
需强调之为,LPU 架构本身完全具备端到端推演本领,并非只能做协办理器。
全梯度之晋级节奏,让不同机型、不同用需求之用户,皆能齐步享受到HarmonyOS 6.1之全新体验。
Web3。更枢纽之为,Attention 与 FFN 对内存之需求完全不同。
注资圈对 LPU 也没有达成共识:Groq 到 2024 年 8 月之 Series D,估值才 28 亿美元。
” LPU 之身价密码:极难做,极稀缺 基于此一优势,Groq 一举进入全球算力根基设施之核心版图。
元川微于此之上做之三层革新: AFD 解码原理丨NVIDIA官网 第二,确定性数据流。
他做之 22 年芯片,2012 年回国后带华为无线基带部门,把团队从 200 多者带到近千者,将华为于此名领域做到全球居先。
Groq 明确将此种设计概括为“ static scheduling and deterministic execution ”。
” 但定下方位不等于立刻下场。
[3]Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/ 转折生于 2025 年春节。
对于实时 Agent 应用而言,延迟之确定性与可预测性比峰值性能更为枢纽——而 LPU 之静态调度与确定性数据流架构,确保之每一次交互皆同样快速、稳固。
“榜一大哥”当然为名偏激名例。
此算为给之家长一颗定心丸。
整名掘发者社区沸腾,Anthropic 紧急通过 DMCA 下架之数千名搬运仓库。
Groq 来自谷歌 TPU,元川微则有华为无线通信基带因子——数据流架构第一次大规模商用正为于无线通信基带办理领域,此其实与 LPU 于营造学上高度相通,二者于架构设计、互连、存储、编译器等领域之阅历可共享。
算力气象之演化方位已清晰:通用 GPU 不会灭,但于 Agent 时代需求最大之实时推演场景中,LPU 正成为不可或缺之搭档。
70B参数模型下各推演效劳商之输出吞吐量对比(tokens/s) • 行业瞄准之一种叫LPU(Language Processing Unit)之新架构:抛弃 HBM,用片上大 SRAM(带宽约为 HBM 之 7 倍)+ 确定性数据流 + 静态调度,将推演速度做到 GPU 之 5~10 倍。
故英伟达做之一名慧之选择:不跟物理定律较劲,进行分派。
此不为英伟达之营造本领疑难,而为物理极限:HBM 可做到 288GB ,但带宽只能到 22TB/s 。
彼时他与一群同事于反复推演一件事:若推演之真正需求与操练完全不同,彼么硬件就不应“既做操练又做推演”。
就于此样之氛围里,2024 年炎夏,杨滨凭借多年积攒,于业内率先做出之自己之裁决。
Groq LPU 于独力部署时已证验之端到端推演之商业身价——从云订阅到算力中心,它跑之为完整之模型推演差事。
到 2024 年下半年,彼等定下之技艺方位:做自研之 LPU 。
旧俗 GPU 依赖外部 HBM ,LPU 将数百 MB 之 SRAM 直接集结于芯片上,作为模型参数权重之主存储。
方位看得清,但时机不到。
解答藏于两名词里:极难做,极稀缺。
LPU 预案也为其中之一,它为美国公司 Groq 从 2016 年始研发之,一种完全不同于 GPU / CPU 之非冯·诺依曼架构,用片上 SRAM 与确定性数据流彻底抛弃之 GPU 之内存层级。
LPU 之架构优势,正变成定价权。
” Groq 已为此条赛道画出之一张商业路线图:其 GroqCloud 平台已吸引超过 200 万注册掘发者,采用类似 ChatGPT 之付费订阅模式。
随之大模型本领之突围性进展,到之 2024 年,专用 AI 芯片赛道已热闹之好几年—— Google 之 TPU 、各种 NPU 、Cerebras 之 wafer-scale 、Etched 之 ASIC ——没者知道哪条路线会赢。
杨滨给之一名反常识之比喻——“吾等之 SRAM 为免费之。
SRAM 访问延迟纳秒级且完全可预测。
”此句话看似简,背后为 PPA(性能/功耗/面积)三者同时做到极致——业内甚少有团队能达到。
吾等知道之用 SRAM 作为更高速之缓存可提升 FFN 之推演效能,但 LPU 架构之繁性远不止于“换名闪存芯片”此样简。
此也意味之,它于成为 GPU 之最佳搭档时可实现极致之算力分派,但独力部署时却并不货殖。
全全球消耗 Token 最多之者 编译器最难,因 GPU 有运行时兜底,LPU 没有。
每次读取皆有不确定之延迟,且 HBM 带宽有尽——即使相比旧俗 GPU 显存,HBM 已有之数倍乃至数十倍之容量与速度,但仍然不够快。
[5]元川微成数亿元天使轮系列融资,自研首名国产LPU架构,领航 AI 实时推演 https://mp.weixin.qq.com/s/kuaAt8jrWsH52nWmalkcrA 说得再直白一点,远大中央公园周边之家长只要把此3名校填于志愿里,其中一所校就必能兜底。
但 FFN 需逐层高速翻阅权重矩阵—— HBM 之带宽成之瓶颈。
此种架构叫 AFD(Attention-FFN Decoupling),为英伟达基于体系效能与商业计策做出之路线选择。
对 Agent 来说,'光阴就为效能'、'QoS 就为效劳水准'。
• 用不起 AI 、Token(词元)太贵之根源于芯片。
他把成果发到 GitHub,取名 Claw Code,24 小时内星标破 10 万,成为 GitHub 史册上增益最快之开源课题。
一名值得追问之疑难为:英伟达花 200 亿美元拿下之技艺,国内一线基金数亿元押注——LPU凭什么此么贵。
于苍生探求计算机架构之史册长河里,其实已早已有之另一种更快速之存储器,于等待之被选中去应战大模型之推演,此就为被称作“ SRAM (静态随机存取存储器)”之一类小容量、超高速存储器,它之典型容量虽只有几十 KB 到几百 MB ,但可做到上百 TB/s 带宽,被大量集结于各类办理器芯片中,作为距离计算核心最近之缓存,提升计算速度。
”也正为此种极难与极稀缺,支撑之 LPU 之身价。
[2]The Trillion Dollar Race to Automate Our Entire Lives, the *Wall Street Journal* https://www.wsj.com/tech/ai/claude-code-cursor-codex-vibe-coding-52750531 但有一名者做之件反直觉之事。
其中,元禾原点——十年前之天使轮投出之寒武纪——此样阐释它之逻辑:“十年前,吾等开启之对 AI 时代算力根基设施之体系化注资陈设,今日选择注资元川微作为 Agent 时代推演芯片落子。
• 架构层支 MoE(混合专家模型):MoE 之路由特性对片上调度提出新要求,此为 Groq 原版架构没有原生考虑之; 70B参数模型下各推演效劳商之首字响应光阴(TTFT)对比(秒) 杨滨对果壳说:“Groq 于 2016 年设计时完全没有遇到过此些疑难——此些皆为吾等要处置之。
此为 LPU 相比 GPU 之根本差异点。
英伟达官方给出之数据为:每兆瓦功耗之推演吞吐量最高可提升 35 倍,万亿参数模型之收益机会最高可提升 10 倍。
此也为此几年,越来越多家长关注九年一贯制校之缘由。
杨滨与元川微押注“ LPU 为推演之正确解答”,于 2026 年阳春,此名裁决已拿到之全球头部本钱与英伟达之双重背书。
• 静态调度把全部繁性推给编译器,须于编译阶段排定每一拍时序,没有运行时纠错之机会。
从架构验证到货品落地,元川微正加速跑完最枢纽之一程。
能做 LPU 之团队全球屈指可数。
技艺因子相通之外,元川微之“ +”代表之为针对 LLM/Agent 时代重新做之架构革新。
一句话体谅:LPU 像帮你把整部电影剪辑好,按帧播放。
LPU+ 与 Groq LPU 之底层因子一致——ASIC 化数据流、离线编译、确定性执行——但 Groq 2016 年设计 LPU 时 Transformer 还没现,它主要针对之为 CNN(卷积神经网络),彼时之模型对内存访问、带宽与数据流模式皆与今日完全不同。
此就导致内存带宽成之新瓶颈。
他补之一句:“Devils are always in detail ——吾等经常说踩完之所有之坑,就为专家之。
此名历程天然为串行之, GPU 之并行优势于此里发挥不出来。
声明。GPU 编译阶段有疏漏,硬件可于执行时动态补救;LPU 把一切前置到编译期——编译器须于编译阶段同时建模算法、硬件、数据流之协同,排定每一拍时钟周期里数据于芯片之位置、路径与时序。
2025 年营收约 5 亿美元。
LPU 内部数据搬移采用 ASIC 化硬件流水,数据于芯片内如流水线般自动流转,每名时钟周期之数据路径于编译时即已确定。
三名 DNA 每名皆为反常识之硬骨头: Groq LPU 于 Llama 2 70B 模型上取得之 185 tokens/s 之输出吞吐量,相比榜单上其他 GPU 预案实现之 3 到 18 倍之居先优势;同时首字响应光阴 (TTFT) 稳固于 0.22 秒,且变化范围最小。
推演需频繁从外部 HBM 读取模型参数。
GPU 为吞吐量优先之设计,但大模型推演为逐 Token 自回归生成—— GPU 之并行优势发挥不出来, HBM 带宽成之物理瓶颈。
张鹏说之“算力约束”,不为算力不够,而为GPU 之架构撑不住 Agent 时代之推演。
它只于数据搬移层面全部进行之 ASIC 化,算法办理层仍保留可编程性与指令集,支模型演进迭代,为一种“可编程之 ASIC 化架构”。
此种独力裁决之底气,来自元川微自己押注之另一条路——产业股东即早期主顾。
格外为对于钱庄高频交易与风控、自动驾驶、交互式 AI Agent 与实时智能体等应用,LPU 之确定性执行与快速响应本领至关重要。
此就为英伟达斥巨资得 Groq 技艺授权并引入其核心团队之底层逻辑,LPU 成为被算力巨头正式验证之下一代推演根基设施。
来看国内,2026 年 4 月,国内第一家 LPU 芯片创业公司元川微成数亿元天使轮系列融资。
华创证券研报显示,星宸科技于 2025 年参与元川微天使轮第一批融资后,近期追加注资 3000 万元,持股比例从 3.3% 提升至 6.6%,前景将与元川微共建端边侧 AI 整体处置预案本领,加速产业协同落地。
要体谅为什么 LPU 会于此名时点爆发,得从一名刚刚生不到三周之典故说起。
谁能把时延 + 确定性 + 本金做到最优,谁就有溢价本领。
例如 Groq 第三代 LPU 单芯片搭载 512MB SRAM ,带宽 150TB/s ,约为 HBM4 之 7 倍。
喜气洋洋。杨滨回忆:“激昂得有点让自己觉得为不为于做梦,因此连夜看之 DeepSeek 之论文,才缓过来。
• 华夏第一家 LPU 公司为元川微。
核心主顾包括 Meta、中东某国之推演算力中心,以及挪威一名部署数万张 LPU 卡之算力中心。
第三,静态调度。
为 CNN 设计之 LPU 只为推演芯片之序章,真正为大模型而生之 LPU ,成之元川微等新一代 LPU 之突围点,于此场架构改制中,华夏已有者站上之起跑线。
十年前投寒武纪,十年后投元川微。
LPU 能让 Token 更廉,怎么还能让它更有身价。
实际上,LPU 架构有三名核心 DNA ,只有同时具备它们,才为真正之 LPU 。
但当一名者之推演账单超过百万美元,当 Claw Code 此类 AI Agent 重度差事始变成日常器物,一名体系性之疑难就浮出之水面:AI 推演之底层本金架构,撑不住正到来之 Agent 时代。
当模型有几百亿参数,每名 Token 皆要反复读取时,等待光阴远超计算光阴。
[4]Inference Speed Is the Key To Unleashing AI’s Potential, Groq https://cdn.sanity.io/files/chol0sk5/production/85f04a42fb0711b6009a024da43689667efadd9a.pdf [1]Claw Code Project https://claw-code.codes/ • 多模态与长上下文改良:图像、语音、视频之数据搬移模式与纯文本不同,需架构层面之解法。
英伟达之下场,进一步把 LPU 推向之算力根基设施之核心位置。
再看稀缺性。
彼么,LPU 究竟凭什么比 GPU 快。
• 原生支大言辞模型:Groq 之 LLM 本领为后期打补丁适配之,LPU+ 从一始就按 Transformer 之算法架构反推硬件; • Agent 时代之算力定价逻辑正变——商场从买“峰值算力”(Tflops)转向买“成差事之统合本金”(本领 × 光阴 × QoS)。
当 AI Agent 始 24 小时不睡觉地跑,旧算力根基设施之瓶颈始暴露。
他说:“今之商业模式卖之为'计算本领',但前景定价模式本原为成一名差事之本金——算力之本领、算力之光阴,还有算力之 QoS(效劳品质)。
两名截然不同之时代——但此不为一时兴起之赌注。
GPU 做推演,到底慢于哪。
2025 年 9 月,杨滨创办之元川微。
紧接之 3 月,黄仁勋于英伟达 GTC 上就公开回应 Groq 此类专用芯片:“有其适用场景,但将难以从软件领域之革新速度中获益”——英伟达当时对 LPU 之态度为明确之蔑视。
2024 年 2 月,Groq 凭借一段 viral demo 短暂出圈——独力基准测试上达到 241 tokens /秒之输出速度,为第二名之两倍以上,但热度仅限技艺圈。
当整名商场从“买马力”转向“买里程”,LPU 之架构优势就从技艺指标变成之定价权。
他告诉果壳:“英伟达于 GTC 上展示之预案,吾等裁决为一名暂时预案,后续会续演进。
” 一年半后,英伟达以 200 亿美元购买它之技艺与团队彼一幕,于当时几乎不可想象。
架构设计阶段须把模型算法之数据流完全吃透,一处设计疏漏,就没法于后期修补。
2025 年9 月成立,2026 年 4 月成数亿元天使轮融资。
Groq LPU 设计于 2016 年,主要为针对 CNN 此类“计算密集型、内存访问法则”之模型改良之。
大模型机构密集发出“涨价信号”。
Sigrid Jin——被《华尔街日报》报道之 Claude Code 全球头号 重度用户,一名韩裔加拿大掘发者,曾于过往一年单枪匹马烧掉之 250 亿 Token(按 Claude API 定价折算超过百万美元)——他完全不碰泄露之源码,用自己调教一年多之 AI 代理框架 oh-my-codex,几小时内从零用 Python “净室重写”之一遍。
又比如市面上有些 NPU 芯片仅将数据流做之局部 ASIC 化就宣称为 LPU,但真正之 LPU 须同时具备上述三名核心因子,缺一不可。
而 LPU 能否从“技艺稀缺品”变成“算力必需品”,商业化落地将为下一场大考。
经历过小升初之家长皆知道,历程挺磨者之。
”一周后,大洋彼岸之 Anthropic 出手: Claude 企业版原本 $200 /者/月之包月套餐,改成 $20 座位费+按实际算力消耗另行计费,重度 Claude Code 用户之账单或翻倍甚至三倍。
Groq 2016 年为 CNN 设计,而元川微 LPU+ 原生支大言辞模型、MoE 混合专家、多模态——此些皆为 Groq 当年没遇到过之疑难。
又过之四名月,彼等也得之文章开头彼轮数亿元融资。
确定性数据流之难处为“没有软件兜底”——数据搬移全部 ASIC 化,意味之数据于芯片里之物理路径焊死于硬件上。
两颗芯片于解码时交替配合,每层传递少量中间激活值,跑完所有层生成一名 Token 。
首先,GPU 之设计理念为吞吐量优先,擅长把一大块数据切成几千份同时计算。
2024 年下半年到 2025 年初,杨滨与团队有过一段难熬之“等、等、等”——产业共识还集中于操练、于“卷”大模型研发,操练霸主 GPU 难撼动,推演又尚未到转折点。
如鱼得水。而今日之大模型为“内存密集型、访问模式动态”之新物种。
创始者为有 22 年华为芯片阅历之老兵杨滨。
智微智能与星宸科技两家 A 股上市公司,既为元川微天使轮之注资方,也为其早期协作主顾。
对技艺路线之裁决迅速成为行业共识。
但大模型推演为逐 Token 自回归生成——模型要逐层计算每一名 Token ,每层皆要成注意力机制( Attention )与前馈神经网络( FFN )两步运算,其中注意力机制于寻找词之上下文联系,而 FFN 则为模型之“学识库”,记载之大模型里之参数权重,每一名 token 生成皆要经过大模型之参数矩阵之运算。
为什么此么说。
Attention 需反复读取 KV 缓存,GPU 之大容量 HBM 可派上用场。
站于推演架构颠覆性变化之拐点上实情看—— Groq LPU 架构有其时代局限,而它之胜,也正源于此。
• 大 SRAM 要求极致设计密度——同等算力下芯片面积须压缩到 GPU 之 1/2~1/3 ,才能“省”出片上方位; 英伟达200亿美元押注之赛道,,一家华夏公司元川微杀之进来 不过,Groq 之胜,也为一场带有时代烙印之胜。
等待之焦虑灭之,元川微正式决定下场。
此也进一步印证之推演处置预案之多样化趋势—— LPU 既可与 GPU 协同作战,也可独力部署,最终之衡量标准只有一名:于实在场景下,Token 之统合本金为否有优势。
正为凭借此些架构优势,Groq LPU 于所参与之第一名公开基准测试 Anyscale 之 LLMPerf 中,就交出之一份亮眼之成绩单。
为什么产业股东愿意又投钱又买货。
此为最核心也最难实现之一点。
元川微创始者兼 CEO 杨滨给果壳排之名序,难度从大到小看,为“编译器 > 确定性数据流 > 高密度 SRAM”。
” 第一,片上大 SRAM 作为主存。
于国内,智谱 4 月 8 日随 GLM-5.1 新模型发布同时宣布涨价 10% ——此为它 2026 年内第三次涨价,CEO 张鹏之解释甚直白:“公司存算力约束与瓶颈。
用 LPU 处置推演瓶颈此件事,其实两年前就有者看到之——只为当时几乎没者相信。
而一贯制校可直升本部初中,校普遍也有课程上之贯通,小升初能更丝滑衔接。
2026 年 3 月底,Anthropic 不小心把 Claude Code 之源码漏于之 npm 包里——一名粗心之 “ .npmignore ”疏忽,让 51 万行源代码公开流出。
太长不看版(本文要回答之疑难) • 确定性数据流意味之数据搬移逻辑全部硬件固化,没有软件兜底之后路; • 元川微 LPU+ 为更随顺华夏大模型性命之推演芯片。
需格外区分之为:LPU 并非纯 ASIC。
AI 快用不起之。
下一步为推进第一代 LPU+ 推演芯片之研发——编译器将于芯片回片前通过仿真器提前验证与改良,以达到商用标准;同时积极拓展云厂商、算力中心等新主顾。
目前,元川微已成自研 LPU+ 架构之 FPGA 验证,所有性能指标均达到设计预期。
旧俗芯片运行时需动态决策,而 LPU 于编译阶段就成全部源泉分发与时序排定,运行时零动态开销——没有缓存未命中,没有调度延迟,没有仲裁等待。
此名瓶颈不于算法,也不于算力规模,而为于更底层之芯片架构—— 2025 年底,英伟达以 200 亿美元拿下之美国公司 Groq 之技艺授权与核心团队,于繁之交易背后,彼等瞄准之为一种叫LPU(Language Processing Unit)之 AI 推演新架构。
GPU 卖之为峰值算力(Tflops),LPU 卖之为“成一次 Agent 差事之统合本金”。
” 先说极难做。
注资机构阵容豪华,包括东方嘉富、元禾原点、峰瑞本钱等知名机构。
为什么为此名顺序。
此意味之 LPU 不仅于端到端推演速度上显著居先,更重要之为——每一次响应皆同样快速、可预测。
推演为一名应用驱动之商场,前景体系处置预案也会多种多样——最终之衡量标准为:一名场景下之 token 本金为否有优势。
”。
创始者杨滨有22 年华为无线基带阅历,2024 年炎夏就判定 LPU 为推演之正确解答。
事后他说:“此为用 250 亿名 Token 烧出来之直觉。
它把 FFN 计算交给 Groq LPU ——一种全 SRAM 架构之芯片,用 150TB/s之极致带宽进行办理;GPU 则专注做 Attention ,发挥 HBM 之大容量优势。
彼一周,DeepSeek R1 以“开源 + 低本金 + 高性能”横空出世——推演性能对标 OpenAI o1,而它之底座模型 V3 以 671B 总参数、每 token 仅激活 37B 之 MoE 架构,只用之约 600 万美元就成操练。
杨滨之回答为:Agent 时代之算力定价逻辑正变。
杨滨之解释为:“ LPU 架构为典型之'软件定义硬件'——数据流为第一公民,数据流之管完全由编译器物成。
高密度 SRAM 试炼之为物理实现本领。
GTC 2026 上,英伟达正式推出 Groq 3 LPU 与 LPX 机架,将其定位为 Vera Rubin GPU 之“推演协办理器”,通过 Dynamo 软件编排形成双引擎协同。
但有意思之为,杨滨对此套 AFD 协同预案之看法并不完全追随英伟达。
财通证券于其 LPU 专题研报中,将智微智能与星宸科技列为 LPU 产业链核心受益标之。
三名月后,英伟达宣布与 Groq 之繁交易——他之裁决被行业霸主天价盖章确认。
他看到之为 AI 推演真正被打开之彼一刻—— DeepSeek 证验之高性能推演可低本金,而一旦推演本金降下来,Agent 时代之算力需求就会真正爆发。
上一篇:外媒:营造师拒绝AI写之代码后,遭AI写千字“小作文”辱骂 下一篇:沃尔玛:对自动化与者工智能(AI)之注资正取得成效