Hotchips 35

Fork me on GitHub
  

今年hotchips 35上包含了AI, CORE, 以及optical switch内容, 比较有意思的有

  • intel的66线程的risc-v core, 结合了gpgpu的多线程和risc-v的模块化,和我的一些想法不谋而合
  • google和intel的optical switch, 这个很大可能会成为未来scale out首选
  • samsung和hynix的PIM/PNM看起来很美好, 但是看起来在商业上是无解的, 不可能计算和存储的利润都被垄断
  • AI未来发展应该的专有的更专有, 通用的更通用, 不会存在即通用又专有的空间。
  • AI不能没有大模型, 就像鱼不能没有水。人人都是大模型专家
  • ARM的CSS直接把做ARM server的门槛降到零了, 就差直接喊快来买, 不会我帮你。卷的飞起。 阿里得要版权才行, 不然亏死
  • intel的chiplet看起来比AMD的分配更好, 计算能力增加了, 对应的memory带宽也需要对应提升, 不可能出现复用。至于PCIE和Slow IO倒是可以复用
  • RISC-V的发展迅猛, SiFive的IP看起来就是按照ARM来的
  • scale, 还是scale, 不管是scale up还是scale out

Moffett Antoum AI Inference Accelerator

这家公司中文名叫墨芯, 就是去年闹得沸沸扬扬的拳打脚踢NVIDIA的那家, 主打稀疏计算。 正常开场, 一般先讲一下AI发展路径,然后转到大模型的需求。大家套路都一样。 Pasted image 20230830210446.png 大家都知道的, 大模型相比以前视觉类任务, 参数量更大 Pasted image 20230830210635.png 不论如何,反正我家产品都是很适合的 哈哈哈 Pasted image 20230830210700.png 主打的是稀疏计算 Pasted image 20230830210815.png Pasted image 20230830210842.png 开发环境看起来比较完备, 可以用simulator来评估 Pasted image 20230830210912.png SoC架构,1个scalar processor, 一个vector processor, 8个sparse processor。计算能力主要在稀疏上 Pasted image 20230830210936.png SPU具体特性 Pasted image 20230830211203.png SPU数据流, 从ddr到global buffer, 再到weight/activation buffer, 然后送到PE里计算 Pasted image 20230830211231.png vector processor很宽, 512bit, 支持int8和fp16 Pasted image 20230830211313.png 还有一个计算转置,池化的special function, 这个标配 Pasted image 20230830211333.png 4个core之间可以通信 Pasted image 20230830211354.png 大模型里的稀疏性, 所以很适合 Pasted image 20230830211412.png 70W TDP@800MHz. 非稀疏的算力的确很一般 Pasted image 20230830211431.png 还是主打推理, 不同规格的产品 Pasted image 20230830211521.png 完整工具链, 没这个都不好意思说了 Pasted image 20230830211557.png Pasted image 20230830211618.png Pasted image 20230830211641.png 当然, 多卡扩展也是必须要支持的 Pasted image 20230830211658.png 8x Moffett S30 上的性能 Pasted image 20230830211754.png Pasted image 20230830211831.png

Lightelligence Hummingbird Low-Latency Optical Connection Engine

喜闻乐见的环节,AI要的太多太多 Pasted image 20230830212110.png 公司介绍 Pasted image 20230830212147.png 性能提升两个方面, 架构创新和摩尔 Pasted image 20230830212216.png Pasted image 20230830212300.png 电信号传播的缺点,先抑后扬, 大家都这样 Pasted image 20230830212322.png 主题来了,用光网络来做片间互联 Pasted image 20230830212357.png 光网络优势,解放之前的拓扑的限制。优势在我 Pasted image 20230830212423.png Pasted image 20230830212439.png FPGA和激光组成的测试板. 可以做all-to-all broadcast. Pasted image 20230830212506.png 光和电结合的方法 Pasted image 20230830212536.png 测试电路的架构 Pasted image 20230830212654.png 感觉偏题了, 计算core的微架构, 我不关心这个啊 Pasted image 20230830212713.png 一些设计指标, 系统结构和性能数据 Pasted image 20230830212735.png Pasted image 20230830212753.png Pasted image 20230830212810.png 未来使用场景一些展望, 或者野望 Pasted image 20230830212835.png Pasted image 20230830212855.png

SiFive P870 RISC-V Processor

SiFive还是主导了RISC-V发展 Pasted image 20230830172004.png SiFive的产品路线图 Pasted image 20230830172230.png 大芯片架构, 不过怎么L2还是4个core共享呢 Pasted image 20230830172407.png pipeline Pasted image 20230830172436.png core指令流 Pasted image 20230830172751.png 从上往下分别介绍不同部分 Pasted image 20230830172940.png Pasted image 20230830173113.png Pasted image 20230830173345.png Pasted image 20230830173443.png Pasted image 20230830173503.png Pasted image 20230830173520.png 共享的L2 cache, 感觉这块有点没跟上业界节奏 Pasted image 20230830173556.png 32-core一个示例 Pasted image 20230830173628.png 这是针对消费市场的大小核例子 Pasted image 20230830173724.png 针对汽车电子的,强调RAS Pasted image 20230830173753.png 这IP真不是按照ARM的来的吗 Pasted image 20230830174154.png

Ventana Veyron V1 RISC-V Data Center Processor

每个cpu die 16个 core, 要scale到192 core, 需要12个cpu die, 这IO die能同意吗 Pasted image 20230830135727.png CPU die的一些特性 Pasted image 20230830135854.png 瞄准服务器市场, risc-v本身标准不完善,加了一些扩展。感觉这些都是坑 Pasted image 20230830135926.png core microarchitecture. Pasted image 20230830140108.png Pasted image 20230830140259.png pipeline Pasted image 20230830140403.png predict, fetch, 和decode Pasted image 20230830140428.png load/ store Pasted image 20230830140847.png each 16 core cluster共享48MB L3 cache, 这个比arm还是大 Pasted image 20230830141049.png Pasted image 20230830141238.png 吊打其他家上一代, 哈哈 Pasted image 20230830141430.png 参考实现 Pasted image 20230830141517.png

Arm Neoverse V2

Neoverse的路线图, 这个很重要,要让人有信心 Pasted image 20230830113244.png 一些加强的部分 Pasted image 20230830113317.png V2核的微架构 Pasted image 20230830113354.png 下面主要是各个不同部位的改进和相应的性能提升, 当然总结起来就是更大,更宽,更快, 所以更强。都是套路 Pasted image 20230830113505.png Pasted image 20230830115327.png Pasted image 20230830115455.png Pasted image 20230830115526.png Pasted image 20230830115637.png Pasted image 20230830115716.png Pasted image 20230830115816.png V2@5nm vs V1@7nm Pasted image 20230830113145.png 一整套的配合的IP Pasted image 20230830115930.png 后面都是各种场景V2吊打V1, 看起来就是哥哥欺负弟弟 Pasted image 20230830120028.png Pasted image 20230830120124.png Pasted image 20230830120213.png Pasted image 20230830120235.png Pasted image 20230830120258.png Pasted image 20230830120320.png Pasted image 20230830120427.png nvidia来了 Pasted image 20230830120446.png

Arm Neoverse CSS

ARM为了赚钱, 不寒碜 Pasted image 20230830161255.png 哎 以后连线的活都找不到了 伤心 Pasted image 20230830161315.png Pasted image 20230830161521.png Pasted image 20230830161837.png 各种规格 应有尽有 Pasted image 20230830162006.png 解决方案 Pasted image 20230830162102.png Pasted image 20230830162122.png MSCP都安排上了,太贴心了 Pasted image 20230830162301.png 这个倒是常规套餐 Pasted image 20230830162330.png CMN来了, 现在不用学了 我都打包给你 Pasted image 20230830162404.png ARM : 看, 能iEP都给搞好了 还要什么呢 请叫我贴心宝贝 Pasted image 20230830162442.png 阿里 : 咦 这不是倚天710吗 Pasted image 20230830162521.png 看起来很眼熟 Pasted image 20230830162554.png 之前还是AIB, 与时俱进, 换成UCIe, 其实都是一个东西 Pasted image 20230830162850.png 看 很火的CXL也能支持的 Pasted image 20230830162909.png Pasted image 20230830162929.png 给你看看floorplan Pasted image 20230830162949.png 这是正经做法 Pasted image 20230830163036.png 不止硬件 firmware, os都准备好了 真不来一套吗 Pasted image 20230830163106.png 依我看 保守了 3个月差不多 再多就是看不起人了 Pasted image 20230830163257.png

通篇看完, 就差直说阿里套餐 要不要

Intel

Intel on Changing its Xeon CPU Architecture

intel : 重核不吃香了 我知道了 我改 Pasted image 20230830154234.png intel : cloud, cloud, 不就是要高吞吐, 多线程吗 我懂 Pasted image 20230830154432.png 这个感觉走对了 , AMD的路子不对 Pasted image 20230830155339.png intel : 我的互联不差的 Pasted image 20230830155501.png 计算能力要和内存带宽匹配 Pasted image 20230830155725.png P-core一些更新 Pasted image 20230830160045.png MCR DRAM是大家都可以用的吗 Pasted image 20230830160239.png  CXL Type-3, 自家的东西 肯定是要支持的 Pasted image 20230830160701.png IO die的架构 Pasted image 20230830160823.png 这个512M cache很猛 Pasted image 20230830161014.png 赶紧准备下单吧 什么 你要核多一点的? 那看后面的吧 Pasted image 20230830161039.png

Intel Xeon E-Cores for Next Gen Sierra Forest

来看看 E-core Pasted image 20230830163606.png Pasted image 20230830163741.png Pasted image 20230830163953.png Pasted image 20230830164111.png intel : 不是说云原生吗 受够了 给你4MB L2, 看你还说我不是云原生 Pasted image 20230830164224.png 一些新的指令 Pasted image 20230830164331.png intel : 都来看 我把HyperThread也去掉了 原不原生 Pasted image 20230830164359.png intel : 这土豪金封装你学的来吗 Pasted image 20230830164533.png

Direct Mesh-to-Mesh Optical Fabric

介绍项目背景 Pasted image 20230830204756.png OOO给的太多了, 接受无能 Pasted image 20230830204834.png 单core 66-thread, 一个socket 8 cores, 一共528 threads), This is a RISC ISA not x86. 咦 怎么线程不再多一点 直接做成GPGPU呢 Pasted image 20230830205159.png core微架构, 怎么看怎么像SUN之前的Niagara呢?不知道是不是统一伙人做的 Pasted image 20230830205257.png 10-port的switch, 教科书上的标准设计 Pasted image 20230830205450.png 整体架构 Pasted image 20230830205524.png 有趣的来了, 用的光网络互联 Pasted image 20230830205611.png EMIB封装,土豪金无处不在 Pasted image 20230830205649.png 光互联的一些性能数据 Pasted image 20230830205705.png 一半的功耗在光模块上, 看来还是不堪大用 Pasted image 20230830210111.png 这IO面积比core大多了 感觉买椟还珠 Pasted image 20230830210206.png 封装和测试 Pasted image 20230830210228.png Pasted image 20230830210244.png

AMD

AMD Siena - A Smaller EPYC for Telco and Edge

AMD Zen 4, 反正就是比Zen3 更快,更省 Pasted image 20230830132822.png Zen 4c是给Bergamo定制的更小的core, 看来x85世界都认为不能被ARM在欺负了 AMD : 我们也是能做小核的 Pasted image 20230830132931.png Pasted image 20230830133535.png Pasted image 20230830134753.png

AMD CCD and Memory Technology

看我一个IO Die打遍天下 Pasted image 20230830135029.png CXL也是很火的, 不能缺席 Pasted image 20230830135430.png

Google TPUv4 and Optically Reconfigurable AI Network

TPUv4和光网络, 很早就放出来的消息,本来是期待TPUv5的, 看来google诚意不够 Pasted image 20230830174522.png Pasted image 20230830174641.png 架构图 以后专门写一写AI DSA Pasted image 20230830194958.png TPUv4 vs TPUv3 Pasted image 20230830195133.png sparseCore Pasted image 20230830195304.png TPUv4 SparseCore performance Pasted image 20230830195406.png 最喜欢看这种图了 Pasted image 20230830195516.png 机柜散热 供电 互联情况 算是有点意思 Pasted image 20230830195647.png 8个机柜一组 一共8个 组成64个机柜的集群 4096个芯片 Pasted image 20230830195728.png 具体组网情况 现在都是玩HPC那一套 Pasted image 20230830195908.png 光交换 唉 有钱就是任性 Pasted image 20230830200008.png 看这密密麻麻的线 不知道有没有机会也玩一个 Pasted image 20230830201134.png 光互联和机柜的连接 Pasted image 20230830201215.png 计算池的概念 Pasted image 20230830201236.png 光交换能灵活修改拓扑 可以提高利用率和稳定性 Pasted image 20230830201404.png Pasted image 20230830201539.png Pasted image 20230830201603.png 计算任务变化多样 所以硬件设计要有灵活性 感觉这话不应该google tpu来说啊 Pasted image 20230830201633.png Pasted image 20230830201652.png google : 增加片上存储真的很香 Pasted image 20230830201718.png 喜闻乐见的时刻 吊大一下nvidia Pasted image 20230830201748.png the PaLM model training over 6144 TPUs in two pods. Pasted image 20230830201826.png

Cerebras Wafer-Scale Cluster

常规开场白 架构 摩尔 AI模型需求 吧喇叭啦 Pasted image 20230830202057.png Pasted image 20230830202149.png Pasted image 20230830202220.png 嗯 计算能力跟不上需求 Pasted image 20230830202304.png 现在一些scale系统太啥了 scale来scale去还是小的计算节点 cerebras : 在做都是垃圾 Pasted image 20230830202413.png cerebras : 我的片子巨大无比 我还可以scale, 就问你怕不怕 Pasted image 20230830202446.png cerebras : 各位不觉得partition来partition去挺麻烦的吗 来我这买一片大的吧 Pasted image 20230830202537.png cerebras : 就说实话吧 GPU用起来还是很麻烦的 Pasted image 20230830202704.png cerebras : 来我这儿吧 我就跟HAPS一样 忘掉这些partition的烦恼 Pasted image 20230830202740.png 850,000 cores / WSE-2 Pasted image 20230830202819.png cerebras : MemoryX 存储, SwarmX 互联, 我都有了 感觉回到几十年前, SUN/IBM说我能把成百上千cpu组成一个集群 Pasted image 20230830202848.png Pasted image 20230830202916.png 还是dataflow 那一套 Pasted image 20230830202936.png 互联还能做一些ALU, 莫名想起DPU Pasted image 20230830203024.png 一些分发数据操作 没有看懂 感觉还是很复杂的 Pasted image 20230830203342.png Pasted image 20230830203500.png Pasted image 20230830203616.png SwarmX使用100GbE和RoCE RDMA Pasted image 20230830203851.png broadcast reduce node有12 nodes, 6x 100GbE links. Pasted image 20230830204042.png 100GbE相比NVLink/ NVSwitch /InfiniBand是一个可获取的商用接口了 类似CMN Pasted image 20230830204201.png  the SwarmX topology. Pasted image 20230830204255.png 说是很灵活管理 但是我不太相信 Pasted image 20230830204332.png 反正快就是了 Pasted image 20230830204500.png 看 用大芯片比用GPGPU简单多了 Pasted image 20230830204527.png

SK hynix AI Memory

还是经典开场白 不止计算, 功耗, 存储都是巨大成本 Pasted image 20230830101721.png 大模型必到 Pasted image 20230830101829.png 1GHz计算单元有512GB/s带宽. Pasted image 20230830102404.png Pasted image 20230830102656.png Pasted image 20230830102731.png GEMV in memory for AI compute - Weight matrix data is sourced from banks while vector data comes from the global buffer. Pasted image 20230830103038.png AiM的一些命令 Pasted image 20230830103223.png Pasted image 20230830103400.png Pasted image 20230830103445.png 软件 硬件上的一些挑战 Pasted image 20230830103855.png 看我是怎么解决这些挑战的 – 但是我觉得最大挑战是别人不会让你既卖memory, 又卖计算逻辑啊 Pasted image 20230830104042.png Pasted image 20230830104259.png Pasted image 20230830104358.png Pasted image 20230830104650.png Pasted image 20230830104928.png 用fpga做了测试 Pasted image 20230830105454.png 还有相应软件 Pasted image 20230830105518.png 看起来还是概念 Pasted image 20230830105625.png Pasted image 20230830105649.png

Samsung Processing in Memory Technology

还是老套的开场白 Pasted image 20230830105759.png 先否定可能的办法,不管增加通道数还是CXL都有局限性的 Pasted image 20230830105950.png Pasted image 20230830110144.png 嗯 怎么可以少了大模型呢 Pasted image 20230830110226.png 嗯 PIM的应用场景来了 Pasted image 20230830110414.png Pasted image 20230830110701.png Pasted image 20230830110902.png PIM很香,可以降低85%的功耗 Pasted image 20230830111401.png 这是已经和AMD MI100搭配使用了吗? 没看懂 都没听说过 Pasted image 20230830111435.png Pasted image 20230830111518.png T5-MoE模型在HBM-PIM Pasted image 20230830111603.png 功耗性能大丰收 Pasted image 20230830112020.png 软件 Pasted image 20230830112210.png 嗯 标准化 感觉八字还没一撇 Pasted image 20230830112301.png 都想起软件标准化了 就说想的多了一点 Pasted image 20230830112408.png 后面的都是概念了 靠想象 Pasted image 20230830112439.png Pasted image 20230830112459.png LP5-PIM, 嗯 都可以安排上 Pasted image 20230830112534.png Pasted image 20230830112613.png Pasted image 20230830112744.png PNM-CXL, CXL也出场了 Pasted image 20230830112758.png 按这个架构 host做好控制就行了 计算存储都是三星干好了 Pasted image 20230830112832.png 512GB CXL-PNM card with up to 1.1TB/s of bandwidth Pasted image 20230830112915.png CXL-PNM软件栈, 发现一个typo - phytorch Pasted image 20230830112939.png 还是降功耗 Pasted image 20230830113044.png

  
志飞 /
Published under (CC) BY-NC-SA