今年hotchips 35上包含了AI, CORE, 以及optical switch内容, 比较有意思的有
- intel的66线程的risc-v core, 结合了gpgpu的多线程和risc-v的模块化,和我的一些想法不谋而合
- google和intel的optical switch, 这个很大可能会成为未来scale out首选
- samsung和hynix的PIM/PNM看起来很美好, 但是看起来在商业上是无解的, 不可能计算和存储的利润都被垄断
- AI未来发展应该的专有的更专有, 通用的更通用, 不会存在即通用又专有的空间。
- AI不能没有大模型, 就像鱼不能没有水。人人都是大模型专家
- ARM的CSS直接把做ARM server的门槛降到零了, 就差直接喊快来买, 不会我帮你。卷的飞起。 阿里得要版权才行, 不然亏死
- intel的chiplet看起来比AMD的分配更好, 计算能力增加了, 对应的memory带宽也需要对应提升, 不可能出现复用。至于PCIE和Slow IO倒是可以复用
- RISC-V的发展迅猛, SiFive的IP看起来就是按照ARM来的
- scale, 还是scale, 不管是scale up还是scale out
Moffett Antoum AI Inference Accelerator
这家公司中文名叫墨芯, 就是去年闹得沸沸扬扬的拳打脚踢NVIDIA的那家, 主打稀疏计算。 正常开场, 一般先讲一下AI发展路径,然后转到大模型的需求。大家套路都一样。 大家都知道的, 大模型相比以前视觉类任务, 参数量更大 不论如何,反正我家产品都是很适合的 哈哈哈 主打的是稀疏计算 开发环境看起来比较完备, 可以用simulator来评估 SoC架构,1个scalar processor, 一个vector processor, 8个sparse processor。计算能力主要在稀疏上 SPU具体特性 SPU数据流, 从ddr到global buffer, 再到weight/activation buffer, 然后送到PE里计算 vector processor很宽, 512bit, 支持int8和fp16 还有一个计算转置,池化的special function, 这个标配 4个core之间可以通信 大模型里的稀疏性, 所以很适合 70W TDP@800MHz. 非稀疏的算力的确很一般 还是主打推理, 不同规格的产品 完整工具链, 没这个都不好意思说了 当然, 多卡扩展也是必须要支持的 8x Moffett S30 上的性能
Lightelligence Hummingbird Low-Latency Optical Connection Engine
喜闻乐见的环节,AI要的太多太多 公司介绍 性能提升两个方面, 架构创新和摩尔 电信号传播的缺点,先抑后扬, 大家都这样 主题来了,用光网络来做片间互联 光网络优势,解放之前的拓扑的限制。优势在我 FPGA和激光组成的测试板. 可以做all-to-all broadcast. 光和电结合的方法 测试电路的架构 感觉偏题了, 计算core的微架构, 我不关心这个啊 一些设计指标, 系统结构和性能数据 未来使用场景一些展望, 或者野望
SiFive P870 RISC-V Processor
SiFive还是主导了RISC-V发展 SiFive的产品路线图 大芯片架构, 不过怎么L2还是4个core共享呢 pipeline core指令流 从上往下分别介绍不同部分 共享的L2 cache, 感觉这块有点没跟上业界节奏 32-core一个示例 这是针对消费市场的大小核例子 针对汽车电子的,强调RAS 这IP真不是按照ARM的来的吗
Ventana Veyron V1 RISC-V Data Center Processor
每个cpu die 16个 core, 要scale到192 core, 需要12个cpu die, 这IO die能同意吗 CPU die的一些特性 瞄准服务器市场, risc-v本身标准不完善,加了一些扩展。感觉这些都是坑 core microarchitecture. pipeline predict, fetch, 和decode load/ store each 16 core cluster共享48MB L3 cache, 这个比arm还是大 吊打其他家上一代, 哈哈 参考实现
Arm Neoverse V2
Neoverse的路线图, 这个很重要,要让人有信心 一些加强的部分 V2核的微架构 下面主要是各个不同部位的改进和相应的性能提升, 当然总结起来就是更大,更宽,更快, 所以更强。都是套路 V2@5nm vs V1@7nm 一整套的配合的IP 后面都是各种场景V2吊打V1, 看起来就是哥哥欺负弟弟 nvidia来了
Arm Neoverse CSS
ARM为了赚钱, 不寒碜 哎 以后连线的活都找不到了 伤心 各种规格 应有尽有 解决方案 MSCP都安排上了,太贴心了 这个倒是常规套餐 CMN来了, 现在不用学了 我都打包给你 ARM : 看, 能iEP都给搞好了 还要什么呢 请叫我贴心宝贝 阿里 : 咦 这不是倚天710吗 看起来很眼熟 之前还是AIB, 与时俱进, 换成UCIe, 其实都是一个东西 看 很火的CXL也能支持的 给你看看floorplan 这是正经做法 不止硬件 firmware, os都准备好了 真不来一套吗 依我看 保守了 3个月差不多 再多就是看不起人了
通篇看完, 就差直说阿里套餐 要不要
Intel
Intel on Changing its Xeon CPU Architecture
intel : 重核不吃香了 我知道了 我改 intel : cloud, cloud, 不就是要高吞吐, 多线程吗 我懂 这个感觉走对了 , AMD的路子不对 intel : 我的互联不差的 计算能力要和内存带宽匹配 P-core一些更新 MCR DRAM是大家都可以用的吗 CXL Type-3, 自家的东西 肯定是要支持的 IO die的架构 这个512M cache很猛 赶紧准备下单吧 什么 你要核多一点的? 那看后面的吧
Intel Xeon E-Cores for Next Gen Sierra Forest
来看看 E-core intel : 不是说云原生吗 受够了 给你4MB L2, 看你还说我不是云原生 一些新的指令 intel : 都来看 我把HyperThread也去掉了 原不原生 intel : 这土豪金封装你学的来吗
Direct Mesh-to-Mesh Optical Fabric
介绍项目背景 OOO给的太多了, 接受无能 单core 66-thread, 一个socket 8 cores, 一共528 threads), This is a RISC ISA not x86. 咦 怎么线程不再多一点 直接做成GPGPU呢 core微架构, 怎么看怎么像SUN之前的Niagara呢?不知道是不是统一伙人做的 10-port的switch, 教科书上的标准设计 整体架构 有趣的来了, 用的光网络互联 EMIB封装,土豪金无处不在 光互联的一些性能数据 一半的功耗在光模块上, 看来还是不堪大用 这IO面积比core大多了 感觉买椟还珠 封装和测试
AMD
AMD Siena - A Smaller EPYC for Telco and Edge
AMD Zen 4, 反正就是比Zen3 更快,更省 Zen 4c是给Bergamo定制的更小的core, 看来x85世界都认为不能被ARM在欺负了 AMD : 我们也是能做小核的
AMD CCD and Memory Technology
看我一个IO Die打遍天下 CXL也是很火的, 不能缺席
Google TPUv4 and Optically Reconfigurable AI Network
TPUv4和光网络, 很早就放出来的消息,本来是期待TPUv5的, 看来google诚意不够 架构图 以后专门写一写AI DSA TPUv4 vs TPUv3 sparseCore TPUv4 SparseCore performance 最喜欢看这种图了 机柜散热 供电 互联情况 算是有点意思 8个机柜一组 一共8个 组成64个机柜的集群 4096个芯片 具体组网情况 现在都是玩HPC那一套 光交换 唉 有钱就是任性 看这密密麻麻的线 不知道有没有机会也玩一个 光互联和机柜的连接 计算池的概念 光交换能灵活修改拓扑 可以提高利用率和稳定性 计算任务变化多样 所以硬件设计要有灵活性 感觉这话不应该google tpu来说啊 google : 增加片上存储真的很香 喜闻乐见的时刻 吊大一下nvidia the PaLM model training over 6144 TPUs in two pods.
Cerebras Wafer-Scale Cluster
常规开场白 架构 摩尔 AI模型需求 吧喇叭啦 嗯 计算能力跟不上需求 现在一些scale系统太啥了 scale来scale去还是小的计算节点 cerebras : 在做都是垃圾 cerebras : 我的片子巨大无比 我还可以scale, 就问你怕不怕 cerebras : 各位不觉得partition来partition去挺麻烦的吗 来我这买一片大的吧 cerebras : 就说实话吧 GPU用起来还是很麻烦的 cerebras : 来我这儿吧 我就跟HAPS一样 忘掉这些partition的烦恼 850,000 cores / WSE-2 cerebras : MemoryX 存储, SwarmX 互联, 我都有了 感觉回到几十年前, SUN/IBM说我能把成百上千cpu组成一个集群 还是dataflow 那一套 互联还能做一些ALU, 莫名想起DPU 一些分发数据操作 没有看懂 感觉还是很复杂的 SwarmX使用100GbE和RoCE RDMA broadcast reduce node有12 nodes, 6x 100GbE links. 100GbE相比NVLink/ NVSwitch /InfiniBand是一个可获取的商用接口了 类似CMN the SwarmX topology. 说是很灵活管理 但是我不太相信 反正快就是了 看 用大芯片比用GPGPU简单多了
SK hynix AI Memory
还是经典开场白 不止计算, 功耗, 存储都是巨大成本 大模型必到 1GHz计算单元有512GB/s带宽. GEMV in memory for AI compute - Weight matrix data is sourced from banks while vector data comes from the global buffer. AiM的一些命令 软件 硬件上的一些挑战 看我是怎么解决这些挑战的 – 但是我觉得最大挑战是别人不会让你既卖memory, 又卖计算逻辑啊 用fpga做了测试 还有相应软件 看起来还是概念
Samsung Processing in Memory Technology
还是老套的开场白 先否定可能的办法,不管增加通道数还是CXL都有局限性的 嗯 怎么可以少了大模型呢 嗯 PIM的应用场景来了 PIM很香,可以降低85%的功耗 这是已经和AMD MI100搭配使用了吗? 没看懂 都没听说过 T5-MoE模型在HBM-PIM 功耗性能大丰收 软件 嗯 标准化 感觉八字还没一撇 都想起软件标准化了 就说想的多了一点 后面的都是概念了 靠想象 LP5-PIM, 嗯 都可以安排上 PNM-CXL, CXL也出场了 按这个架构 host做好控制就行了 计算存储都是三星干好了 512GB CXL-PNM card with up to 1.1TB/s of bandwidth CXL-PNM软件栈, 发现一个typo - phytorch 还是降功耗