今年hotchips 35上包含了AI, CORE, 以及optical switch内容, 比较有意思的有
- intel的66线程的risc-v core, 结合了gpgpu的多线程和risc-v的模块化,和我的一些想法不谋而合
- google和intel的optical switch, 这个很大可能会成为未来scale out首选
- samsung和hynix的PIM/PNM看起来很美好, 但是看起来在商业上是无解的, 不可能计算和存储的利润都被垄断
- AI未来发展应该的专有的更专有, 通用的更通用, 不会存在即通用又专有的空间。
- AI不能没有大模型, 就像鱼不能没有水。人人都是大模型专家
- ARM的CSS直接把做ARM server的门槛降到零了, 就差直接喊快来买, 不会我帮你。卷的飞起。 阿里得要版权才行, 不然亏死
- intel的chiplet看起来比AMD的分配更好, 计算能力增加了, 对应的memory带宽也需要对应提升, 不可能出现复用。至于PCIE和Slow IO倒是可以复用
- RISC-V的发展迅猛, SiFive的IP看起来就是按照ARM来的
- scale, 还是scale, 不管是scale up还是scale out
Moffett Antoum AI Inference Accelerator
这家公司中文名叫墨芯, 就是去年闹得沸沸扬扬的拳打脚踢NVIDIA的那家, 主打稀疏计算。 正常开场, 一般先讲一下AI发展路径,然后转到大模型的需求。大家套路都一样。
 大家都知道的, 大模型相比以前视觉类任务, 参数量更大
大家都知道的, 大模型相比以前视觉类任务, 参数量更大
 不论如何,反正我家产品都是很适合的 哈哈哈
不论如何,反正我家产品都是很适合的 哈哈哈
 主打的是稀疏计算
主打的是稀疏计算
 
 开发环境看起来比较完备, 可以用simulator来评估
开发环境看起来比较完备, 可以用simulator来评估
 SoC架构,1个scalar processor, 一个vector processor, 8个sparse processor。计算能力主要在稀疏上
SoC架构,1个scalar processor, 一个vector processor, 8个sparse processor。计算能力主要在稀疏上
 SPU具体特性
SPU具体特性
 SPU数据流, 从ddr到global buffer, 再到weight/activation buffer, 然后送到PE里计算
SPU数据流, 从ddr到global buffer, 再到weight/activation buffer, 然后送到PE里计算
 vector processor很宽, 512bit, 支持int8和fp16
vector processor很宽, 512bit, 支持int8和fp16
 还有一个计算转置,池化的special function, 这个标配
还有一个计算转置,池化的special function, 这个标配
 4个core之间可以通信
4个core之间可以通信
 大模型里的稀疏性, 所以很适合
大模型里的稀疏性, 所以很适合
 70W TDP@800MHz. 非稀疏的算力的确很一般
70W TDP@800MHz. 非稀疏的算力的确很一般
 还是主打推理, 不同规格的产品
还是主打推理, 不同规格的产品
 完整工具链, 没这个都不好意思说了
完整工具链, 没这个都不好意思说了
 
 
 当然, 多卡扩展也是必须要支持的
当然, 多卡扩展也是必须要支持的
 8x Moffett S30 上的性能
8x Moffett S30 上的性能
 

Lightelligence Hummingbird Low-Latency Optical Connection Engine
喜闻乐见的环节,AI要的太多太多
 公司介绍
公司介绍
 性能提升两个方面, 架构创新和摩尔
性能提升两个方面, 架构创新和摩尔
 
 电信号传播的缺点,先抑后扬, 大家都这样
电信号传播的缺点,先抑后扬, 大家都这样
 主题来了,用光网络来做片间互联
主题来了,用光网络来做片间互联
 光网络优势,解放之前的拓扑的限制。优势在我
光网络优势,解放之前的拓扑的限制。优势在我
 
 FPGA和激光组成的测试板. 可以做all-to-all broadcast.
FPGA和激光组成的测试板. 可以做all-to-all broadcast.
 光和电结合的方法
光和电结合的方法
 测试电路的架构
测试电路的架构
 感觉偏题了, 计算core的微架构, 我不关心这个啊
感觉偏题了, 计算core的微架构, 我不关心这个啊
 一些设计指标, 系统结构和性能数据
一些设计指标, 系统结构和性能数据
 
 
 未来使用场景一些展望, 或者野望
未来使用场景一些展望, 或者野望
 

SiFive P870 RISC-V Processor
SiFive还是主导了RISC-V发展
 SiFive的产品路线图
SiFive的产品路线图
 大芯片架构, 不过怎么L2还是4个core共享呢
大芯片架构, 不过怎么L2还是4个core共享呢
 pipeline
pipeline
 core指令流
core指令流
 从上往下分别介绍不同部分
从上往下分别介绍不同部分
 
 
 
 
 
 共享的L2 cache, 感觉这块有点没跟上业界节奏
共享的L2 cache, 感觉这块有点没跟上业界节奏
 32-core一个示例
32-core一个示例
 这是针对消费市场的大小核例子
这是针对消费市场的大小核例子
 针对汽车电子的,强调RAS
针对汽车电子的,强调RAS
 这IP真不是按照ARM的来的吗
这IP真不是按照ARM的来的吗

Ventana Veyron V1 RISC-V Data Center Processor
每个cpu die 16个 core, 要scale到192 core, 需要12个cpu die, 这IO die能同意吗
 CPU die的一些特性
CPU die的一些特性
 瞄准服务器市场, risc-v本身标准不完善,加了一些扩展。感觉这些都是坑
瞄准服务器市场, risc-v本身标准不完善,加了一些扩展。感觉这些都是坑
 core microarchitecture.
core microarchitecture.
 
 pipeline
pipeline
 predict, fetch, 和decode
predict, fetch, 和decode
 load/ store
load/ store
 each 16 core cluster共享48MB L3 cache, 这个比arm还是大
each 16 core cluster共享48MB L3 cache, 这个比arm还是大
 
 吊打其他家上一代, 哈哈
吊打其他家上一代, 哈哈
 参考实现
参考实现

Arm Neoverse V2
Neoverse的路线图, 这个很重要,要让人有信心
 一些加强的部分
一些加强的部分
 V2核的微架构
V2核的微架构
 下面主要是各个不同部位的改进和相应的性能提升, 当然总结起来就是更大,更宽,更快, 所以更强。都是套路
下面主要是各个不同部位的改进和相应的性能提升, 当然总结起来就是更大,更宽,更快, 所以更强。都是套路
 
 
 
 
 
 
 V2@5nm vs V1@7nm
V2@5nm vs V1@7nm
 一整套的配合的IP
一整套的配合的IP
 后面都是各种场景V2吊打V1, 看起来就是哥哥欺负弟弟
后面都是各种场景V2吊打V1, 看起来就是哥哥欺负弟弟
 
 
 
 
 
 
 nvidia来了
nvidia来了

Arm Neoverse CSS
ARM为了赚钱, 不寒碜
 哎 以后连线的活都找不到了 伤心
哎 以后连线的活都找不到了 伤心
 
 
 各种规格 应有尽有
各种规格 应有尽有
 解决方案
解决方案
 
 MSCP都安排上了,太贴心了
MSCP都安排上了,太贴心了
 这个倒是常规套餐
这个倒是常规套餐
 CMN来了, 现在不用学了  我都打包给你
CMN来了, 现在不用学了  我都打包给你
 ARM : 看, 能iEP都给搞好了 还要什么呢  请叫我贴心宝贝
ARM : 看, 能iEP都给搞好了 还要什么呢  请叫我贴心宝贝
 阿里 : 咦  这不是倚天710吗
阿里 : 咦  这不是倚天710吗
 看起来很眼熟
看起来很眼熟
 之前还是AIB, 与时俱进, 换成UCIe, 其实都是一个东西
之前还是AIB, 与时俱进, 换成UCIe, 其实都是一个东西
 看 很火的CXL也能支持的
看 很火的CXL也能支持的
 
 给你看看floorplan
给你看看floorplan
 这是正经做法
这是正经做法
 不止硬件 firmware, os都准备好了  真不来一套吗
不止硬件 firmware, os都准备好了  真不来一套吗
 依我看 保守了 3个月差不多 再多就是看不起人了
依我看 保守了 3个月差不多 再多就是看不起人了

通篇看完, 就差直说阿里套餐 要不要
Intel
Intel on Changing its Xeon CPU Architecture
intel : 重核不吃香了 我知道了 我改
 intel : cloud, cloud, 不就是要高吞吐, 多线程吗 我懂
intel : cloud, cloud, 不就是要高吞吐, 多线程吗 我懂
 这个感觉走对了 , AMD的路子不对
这个感觉走对了 , AMD的路子不对
 intel : 我的互联不差的
intel : 我的互联不差的
 计算能力要和内存带宽匹配
计算能力要和内存带宽匹配
 P-core一些更新
P-core一些更新
 MCR DRAM是大家都可以用的吗
MCR DRAM是大家都可以用的吗
 CXL Type-3, 自家的东西 肯定是要支持的
 CXL Type-3, 自家的东西 肯定是要支持的
 IO die的架构
IO die的架构
 这个512M cache很猛
这个512M cache很猛
 赶紧准备下单吧 什么 你要核多一点的? 那看后面的吧
赶紧准备下单吧 什么 你要核多一点的? 那看后面的吧

Intel Xeon E-Cores for Next Gen Sierra Forest
来看看 E-core
 
 
 
 intel : 不是说云原生吗 受够了 给你4MB L2, 看你还说我不是云原生
intel : 不是说云原生吗 受够了 给你4MB L2, 看你还说我不是云原生
 一些新的指令
一些新的指令
 intel : 都来看  我把HyperThread也去掉了  原不原生
intel : 都来看  我把HyperThread也去掉了  原不原生
 intel : 这土豪金封装你学的来吗
intel : 这土豪金封装你学的来吗

Direct Mesh-to-Mesh Optical Fabric
介绍项目背景
 OOO给的太多了, 接受无能
OOO给的太多了, 接受无能
 单core 66-thread, 一个socket 8 cores, 一共528 threads), This is a RISC ISA not x86. 咦 怎么线程不再多一点 直接做成GPGPU呢
单core 66-thread, 一个socket 8 cores, 一共528 threads), This is a RISC ISA not x86. 咦 怎么线程不再多一点 直接做成GPGPU呢
 core微架构, 怎么看怎么像SUN之前的Niagara呢?不知道是不是统一伙人做的
core微架构, 怎么看怎么像SUN之前的Niagara呢?不知道是不是统一伙人做的
 10-port的switch, 教科书上的标准设计
10-port的switch, 教科书上的标准设计
 整体架构
整体架构
 有趣的来了, 用的光网络互联
有趣的来了, 用的光网络互联
 EMIB封装,土豪金无处不在
EMIB封装,土豪金无处不在
 光互联的一些性能数据
光互联的一些性能数据
 一半的功耗在光模块上, 看来还是不堪大用
一半的功耗在光模块上, 看来还是不堪大用
 这IO面积比core大多了 感觉买椟还珠
这IO面积比core大多了 感觉买椟还珠
 封装和测试
封装和测试
 

AMD
AMD Siena - A Smaller EPYC for Telco and Edge
AMD Zen 4, 反正就是比Zen3 更快,更省
 Zen 4c是给Bergamo定制的更小的core, 看来x85世界都认为不能被ARM在欺负了
AMD : 我们也是能做小核的
Zen 4c是给Bergamo定制的更小的core, 看来x85世界都认为不能被ARM在欺负了
AMD : 我们也是能做小核的
 
 

AMD CCD and Memory Technology
看我一个IO Die打遍天下
 CXL也是很火的, 不能缺席
CXL也是很火的, 不能缺席

Google TPUv4 and Optically Reconfigurable AI Network
TPUv4和光网络, 很早就放出来的消息,本来是期待TPUv5的, 看来google诚意不够
 
 架构图 以后专门写一写AI DSA
架构图 以后专门写一写AI DSA
 TPUv4 vs TPUv3
TPUv4 vs TPUv3
 sparseCore
sparseCore
 TPUv4 SparseCore performance
TPUv4 SparseCore performance
 最喜欢看这种图了
最喜欢看这种图了
 机柜散热 供电 互联情况 算是有点意思
机柜散热 供电 互联情况 算是有点意思
 8个机柜一组 一共8个 组成64个机柜的集群 4096个芯片
8个机柜一组 一共8个 组成64个机柜的集群 4096个芯片
 具体组网情况 现在都是玩HPC那一套
具体组网情况 现在都是玩HPC那一套
 光交换 唉 有钱就是任性
光交换 唉 有钱就是任性
 看这密密麻麻的线  不知道有没有机会也玩一个
看这密密麻麻的线  不知道有没有机会也玩一个
 光互联和机柜的连接
光互联和机柜的连接
 计算池的概念
计算池的概念
 光交换能灵活修改拓扑 可以提高利用率和稳定性
光交换能灵活修改拓扑 可以提高利用率和稳定性
 
 
 计算任务变化多样 所以硬件设计要有灵活性 感觉这话不应该google tpu来说啊
计算任务变化多样 所以硬件设计要有灵活性 感觉这话不应该google tpu来说啊
 
 google : 增加片上存储真的很香
google : 增加片上存储真的很香
 喜闻乐见的时刻  吊大一下nvidia
喜闻乐见的时刻  吊大一下nvidia
 the PaLM model training over 6144 TPUs in two pods.
the PaLM model training over 6144 TPUs in two pods.

Cerebras Wafer-Scale Cluster
常规开场白 架构 摩尔 AI模型需求 吧喇叭啦
 
 
 嗯 计算能力跟不上需求
嗯 计算能力跟不上需求
 现在一些scale系统太啥了  scale来scale去还是小的计算节点
cerebras : 在做都是垃圾
现在一些scale系统太啥了  scale来scale去还是小的计算节点
cerebras : 在做都是垃圾
 cerebras : 我的片子巨大无比  我还可以scale, 就问你怕不怕
cerebras : 我的片子巨大无比  我还可以scale, 就问你怕不怕
 cerebras : 各位不觉得partition来partition去挺麻烦的吗 来我这买一片大的吧
cerebras : 各位不觉得partition来partition去挺麻烦的吗 来我这买一片大的吧
 cerebras : 就说实话吧  GPU用起来还是很麻烦的
cerebras : 就说实话吧  GPU用起来还是很麻烦的
 cerebras : 来我这儿吧  我就跟HAPS一样 忘掉这些partition的烦恼
cerebras : 来我这儿吧  我就跟HAPS一样 忘掉这些partition的烦恼
 850,000 cores / WSE-2
850,000 cores / WSE-2
 cerebras : MemoryX 存储, SwarmX 互联, 我都有了
感觉回到几十年前, SUN/IBM说我能把成百上千cpu组成一个集群
cerebras : MemoryX 存储, SwarmX 互联, 我都有了
感觉回到几十年前, SUN/IBM说我能把成百上千cpu组成一个集群
 
 还是dataflow 那一套
还是dataflow 那一套
 互联还能做一些ALU, 莫名想起DPU
互联还能做一些ALU, 莫名想起DPU
 一些分发数据操作 没有看懂 感觉还是很复杂的
一些分发数据操作 没有看懂 感觉还是很复杂的
 
 
 SwarmX使用100GbE和RoCE RDMA
SwarmX使用100GbE和RoCE RDMA
 broadcast reduce node有12 nodes, 6x 100GbE links.
broadcast reduce node有12 nodes, 6x 100GbE links.
 100GbE相比NVLink/ NVSwitch /InfiniBand是一个可获取的商用接口了 类似CMN
100GbE相比NVLink/ NVSwitch /InfiniBand是一个可获取的商用接口了 类似CMN
 the SwarmX topology.
 the SwarmX topology.
 说是很灵活管理 但是我不太相信
说是很灵活管理 但是我不太相信
 反正快就是了
反正快就是了
 看 用大芯片比用GPGPU简单多了
看 用大芯片比用GPGPU简单多了

SK hynix AI Memory
还是经典开场白 不止计算, 功耗, 存储都是巨大成本
 大模型必到
大模型必到
 1GHz计算单元有512GB/s带宽.
1GHz计算单元有512GB/s带宽.
 
 
 GEMV in memory for AI compute - Weight matrix data is sourced from banks while vector data comes from the global buffer.
GEMV in memory for AI compute - Weight matrix data is sourced from banks while vector data comes from the global buffer.
 AiM的一些命令
AiM的一些命令
 
 
 软件  硬件上的一些挑战
软件  硬件上的一些挑战
 看我是怎么解决这些挑战的 – 但是我觉得最大挑战是别人不会让你既卖memory,
又卖计算逻辑啊
看我是怎么解决这些挑战的 – 但是我觉得最大挑战是别人不会让你既卖memory,
又卖计算逻辑啊
 
 
 
 
 用fpga做了测试
用fpga做了测试
 还有相应软件
还有相应软件
 看起来还是概念
看起来还是概念
 

Samsung Processing in Memory Technology
还是老套的开场白
 先否定可能的办法,不管增加通道数还是CXL都有局限性的
先否定可能的办法,不管增加通道数还是CXL都有局限性的
 
 嗯 怎么可以少了大模型呢
嗯 怎么可以少了大模型呢
 嗯 PIM的应用场景来了
嗯 PIM的应用场景来了
 
 
 PIM很香,可以降低85%的功耗
PIM很香,可以降低85%的功耗
 这是已经和AMD MI100搭配使用了吗? 没看懂  都没听说过
这是已经和AMD MI100搭配使用了吗? 没看懂  都没听说过
 
 T5-MoE模型在HBM-PIM
T5-MoE模型在HBM-PIM
 功耗性能大丰收
功耗性能大丰收
 软件
软件
 嗯  标准化 感觉八字还没一撇
嗯  标准化 感觉八字还没一撇
 都想起软件标准化了  就说想的多了一点
都想起软件标准化了  就说想的多了一点
 后面的都是概念了 靠想象
后面的都是概念了 靠想象
 
 LP5-PIM, 嗯 都可以安排上
LP5-PIM, 嗯 都可以安排上
 
 
 PNM-CXL, CXL也出场了
PNM-CXL, CXL也出场了
 按这个架构 host做好控制就行了 计算存储都是三星干好了
按这个架构 host做好控制就行了 计算存储都是三星干好了
 512GB CXL-PNM card with up to 1.1TB/s of bandwidth
512GB CXL-PNM card with up to 1.1TB/s of bandwidth
 CXL-PNM软件栈, 发现一个typo - phytorch
CXL-PNM软件栈, 发现一个typo - phytorch
 还是降功耗
还是降功耗

