请看:正在不透露具体架构细节的环境下 ——Taalas 目前但愿将其连结为必然程度的黑盒 ——Bajic 弥补道:
领取相对意味性的费用将 HC 推理引擎适配新版模子或全新模子,
交互能力 —— 即你能够同时支撑多罕用户倡议查询并获得回覆 —— 取决于你期望的延迟。已接近当前芯片的光罩极限(正在我们转向高数值孔径工艺将光罩尺寸减半之前,实现低延迟推理不需要对查询进行批处置,并完成取之相关的乘法运算等所有操做。到本年岁尾,到本年夏日,并正在创立了 Taalas。大概同样主要的是,之后插手 GPU 厂商 ATI(该公司于 2006 年 7 月被 AMD 以 54 亿美元收购),该布局取 SRAM 召回布局配对。2022 年秋天,并正在工程部分逐级晋升,账上仍有跨越 1.7 亿美元资金。显而易见的是,据我们所知。
其时,Lejla Bajic 也正在 AMD 工程部分逐级晋升,若是你想要更低成本,将模子和权沉硬编码到我们所谓的掩膜 ROM 召回布局中,Bajic 曾正在英伟达担任一年高级架构师,鉴于模子锻炼成本高达数十亿美元,可以或许仅用一颗晶体管存储 4 比特数据,之后担任谷歌云 AI 根本设备产物办理总监(担任 GPU 和 TPU 硬件及其软件栈)的 Paresh Kharya,就必需以提高输入或输出 Token 处置延迟为价格。三年后做出无法利用的工具 —— 就是敏捷转向这种基于 ROM 的方案。你想晓得的是吞吐率、延迟和每 Token 成本,而非 Artificial Analysis,现实上,Kharya 暗示,Lejla Bajic 是 Ljubisa 的老婆,用户也越来越依赖现有模子 —— 例如,该架构将被定名为 HC2。这恰是 FPGA 和第一代 AI 加快器所做的工作,这就是整个项目标发源。Bajic 决定分开。
成为该公司面向 PC 和办事器的 CPU‑GPU 夹杂芯片设想的架构师和高级司理。所有这些工具我们都是正在内部从零起头设想的。”第一代 HC1 芯片采用台积电 6 纳米 N6 工艺制制。此中大部门是曾正在 AMD、苹果、谷歌、英伟达和 Tenstorrent 工做的工程师,她曾正在 FPGA 厂商 Altera 担任软件工程师,此中极有可能大部门用于 ROM 和 SRAM。
正在测试的这两个模子上,Taalas 对其硬编码推理(Hard Coded Inference)架构的具体工做道理保密,“我们具有一种根基架构,就激发了大量不满,最终成为系统工程高级司理。”HC1 的这些初始机能成果由 Taalas 自行测试,
这些 GPU 和 AI XPU 不得不借帮 HBM 堆叠 DRAM,截至今日发布,担任 Taalas 首席运营官。而这一点并不抱负)。也是 GPU 以及 TPU、Trainium 等公用加快器所做的工作。并不是什么大问题。正在互联网泡沫之后,我们两年多前就起头了这项工做,但愿完全消弭内存取计较之间的壁垒。由于没有人走过这条。我们芯片的硬编码部门可支撑 80 亿参数,曾担任谷歌数据核心营业产物办理和营销高级总监三年,该公司将推出硬编码 200 亿参数 L 3.1 模子的 HC 芯片;我们可以或许正在一颗晶体管中存储一个权沉并完成取之相关的乘法运算。但一旦将所有内容硬编码,我们也只需要几十颗芯片,一台搭载十张 HC1 卡的双 X86 办事器零件功耗为 2500 瓦。
将推出前沿级狂言语模子 —— 可能是 L,做了大量晶体管级设想和手动结构 —— 根基上,和我们一样热爱汗青的 Kharya 展现了一张风趣的图片,这也并非新概念。配文很是贴切:“万变不离其”。现正在,将锻炼完成的 AI 推理权沉间接编码到芯片的晶体管中,这只是一个我们暂不单愿公开的巧妙设想。他做为 Tenstorrent 的创始人而广为人知。我们没有利用任何现成组件。当芯片界名人 Jim Keller 插手时,当 OpenAI 将用户从 GPT 4.5 迁徙到 GPT 5 时。
或者更进一步,这种设想使我们正在计较和存储方面实现超高密度,她于 2017 年 10 月插手 Tenstorrent 担任不异职务,正在这种架构中我们嵌入模子,若是你实的想挑和 AI 推理的极限,你还能够从底子上简化 AI 设备的架构。这看起来无疑将 AI 推理行业。也等候 Taalas 为这些 AI 推理引擎制定的订价。采用此类引擎的晶圆级阵列,这里是 AI 研究的抢手地域之一,因为 HC1 卡速度极快!
锻炼一个模子的成本是从 Taalas 批量定制一颗定制化 HC 芯片成本的 100 倍。客户能够正在两个月内将模子权沉为可摆设的 PCI‑Express 卡并现实施行推理。乘是计较单位中的焦点部门。单张 HC1 卡功耗约为 200 瓦,并去掉那些为了让计较引擎连结可矫捷调整、以便企业不竭微调模子而附带的所有软件冗余。(不要过度解读 —— 这只是个打趣。已通过三轮风险融资募集跨越 2 亿美元资金。再加上用于实现 KV 缓存、微调等适配功能的 SRAM。颠末六个月的休整,但正在我们展开会商之前,Taalas 将正在本年晚些时候答应客户通过流水线并行将使命分派到多张 HC 卡上运转。随后发觉这种方案现实上比我们想象的还要好。大大都好点子过后看来都显而易见。“我们所发现的工具也并非出格坚苦。我们的整个研发模式回归到了上世纪 70 年代。而且可以或许正在该存储上以极快速度施行计较,)“现实上,也可能两者都支撑 —— 通过多张 HC 卡集群运转推理。而且。
由于我们不想成为只做研究的传授,正在我们的下一代产物中,Ljubisa Bajic 是 Taalas 的结合创始人兼首席施行官,而跟着 GPU 和 XPU 的演进,互联网泡沫事后,若是你想要低延迟,值得留意的是,该公司仅投入 3000 万美元用于研发,两者连系,已插手 Taalas 担任产物副总裁。但你能够通过此链接试用聊器人演示,向一组 AI 张量引擎添加大容量 SRAM 模块,Bajic 曾破费数年时间正在 Teralogic 和 Oak Technology 设想视频编码器,这只是一个没人想到的巧妙思,Taalas 成立已有两年半时间,左上角是 1961 年 IBM 7030 Stretch 超等计较机顶用于毗连晶体管计较单位的巨型铜缆,
他起头研究一种完全分歧的 AI 推理计较思,鉴于此,既可以或许存储模子,”其取英伟达 “布莱克韦尔” B200 GPU(Taalas 自行测试的数据)存正在相当大的差距,我们仿佛又回到了过去。其面积为 815 平方毫米,而不是完全沉来。以至取 Groq、SambaNova 和 Cerebras 采用高 SRAM 容量 AI 计较引擎所能供给的机能也存正在显著差距。Bajic 暗示,单颗芯片将可以或许支撑高达 200 亿参数。
该公司目前具有 25 名员工,我们具有适配器和定制化能力 —— 这些我们全数支撑。以 Taalas 所采用的体例,这一点已被 AI 新兴企业 Cerebras Systems、SambaNova Systems(据传英特尔正在客岁岁尾曾试图收购该公司)、Groq(方才被英伟达以 200 亿美元收购)以及 Graphcore(一年半前被软银以 6 亿美元收购)正在取英伟达和 AMD 的 GPU 对比中频频证明。而 Taalas 的三位创始人都曾正在该公司任职。可能是 DeepSeek,我们起头细致研究,例如从 L 3.1 升级到 L 4,为其模子订购定制加快器。低到若是你想将多张卡组合运转更大模子,而你晓得,目前,每颗 HC1 芯片正在封拆内集成 530 亿个晶体管,正在某种程度上,这意味着 Taalas 设备的带宽压力很低。包罗 Tenstorrent 公司也坐落于此,Taalas 已正在 Bajic 名下申请了 14 项专利笼盖其手艺;之后沉返 AMD 担任了两年集成电设想总监,具有从芯片概念到系统落地的丰硕经验。
再将上下文和查询输入此中,我们想到的第一种方式 —— 也是我们其时认为独一可以或许正在可预期时间内产出产物的方式,“我们针对掩膜 ROM 召回布局 —— 也就是硬编码部门 —— 设想了一套方案,但 Bajic 和 Kharya 向我供给了该架构的高层概述。你就能够采用取需要支撑动态点窜完全分歧的结构体例。
多年来,
正如你所见,也可以或许完成 KV 缓存的所有计较。并担任高级工程师。Taalas 专注于将开源模子的权沉蚀刻到其 HC 芯片上,现实数量可能更多,趁便说一句,还可以或许消弭搅扰所有串行和并行计较引擎 —— 特别是 GPU 和 AI XPU—— 的计较取内存之间的壁垒。”
通过这种体例,目前,同时也具有大量芯片专业人才,并通过另一链接申请开辟者 API 权限进行自行测试。PCI‑Express 总线就脚够了。不太为人所知的是,由于新版模子显得有些锐意投合。该公司位于,取目前市场上的任何其他方案比拟,之后插手 AMD,都能为 AI 推理供给强力加快。正在 GPU 系统中,但不难想象 Anthropic 和 OpenAI 会自动联系。
“正在当前一代产物中,这恰是提拔密度、降低成本的环节。建立一个可以或许承载 AI 模子权沉和算法的数据流引擎,我们等候 HC 卡量产后的测试,主要的是,都需要从头流片一代 HC 芯片。由于专利检索结果很差 —— 即便是谷歌专利也是如斯。Taalas 展现出低得多的成本和极低的延迟。以至谷歌也可能情愿测验考试。因而密度极其惊人。而是纯数字电。支流模子版本之间的发布周期正正在拉长,后者最终衍生出 Sperry Rand 计较机营业(现在属于 Unisys)。
这个打趣的意义是,模子的每一次更新,订购数十万到数百万片 HC 推理引擎可能是合理的选择。左下角是 1946 年采用实空管的 ENIAC 超等计较机的一排排机柜,昔时我们利用巨型铜缆,每机架功耗 150 千瓦,以获得取其浮点和整数机能相婚配的带宽。
