博文

计算机AI课需要自带算力

已有 2471 次阅读 2024-6-8 08:07 |个人分类:计算|系统分类:海外观察

计算机学院AI课需要自带算力：看到这个转贴，某计算机学院的《通用大模型原理与训练实践》课程要求学生自带算力，否则只能退课。AI 卡脖子的就在于算力与计算资源，包括算力、内存与带宽。这门课似乎需要 40GB GPU内存，不够就不行。其实，对于原理教学来说，没必要搞这么大。以 LLama 3 八十亿参数的模型为例，它有32层多头注意力层，每层32头，其中K-V各为8头。每一层的结构是完全相同的。附图中的代码中，我用kv cache机制，直接进行矩阵运算测试，发现只使用其中27层也得出了与32层类似的输出。可见要做个可以接受的大语言模型教学示范，有很多压缩空间。毕竟这是原理教学，而不是生产。

另外值得一提的是，LLama 3 以及现在流行的很多模型中都用到了一个中国研究团队的2021年的一篇论文（http://t.cn/A6HdOXh9），叫做 RoPE (旋转位置编码）。这个中国研究团队来自一家叫“追一”的公司。在 Attention is All You Need 的开创性论文中(http://t.cn/RSrwyml)，词（token）的位置编码是在原向量各个纬度叠加与位置对应的角度的正弦、余弦量。而 RoPE 编码则是在不同的子空间进行与位置对应的角度的旋转。RoPE 编码更能把握词之间的相对位置。根据谷歌学术数据，这篇 RoPE 论文已经被引用了至少841次。

Screenshot 2024-06-07 133329.png

转载本文请联系原作者获取授权，同时请注明本文来自岳东晓科学网博客。
链接地址：https://blog.sciencenet.cn/blog-684007-1437307.html

上一篇：论文正式发表
下一篇：AI时代的2024年诺贝尔物理学奖化学奖

yuedongxiao的个人博客分享 http://blog.sciencenet.cn/u/yuedongxiao

博文

计算机AI课需要自带算力

当前推荐数：4 推荐人：郑永军 王安良 魏焱明 许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)

岳东晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

yuedongxiao的个人博客分享 http://blog.sciencenet.cn/u/yuedongxiao

博文

计算机AI课需要自带算力

当前推荐数：4 推荐人： 郑永军 王安良 魏焱明 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

岳东晓

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：4 推荐人：郑永军王安良魏焱明许培扬

该博文允许注册用户评论请点击登录评论 (0 个评论)