yuedongxiao的个人博客分享 http://blog.sciencenet.cn/u/yuedongxiao

博文

计算机AI课需要自带算力

已有 1363 次阅读 2024-6-8 08:07 |个人分类:计算|系统分类:海外观察

计算机学院AI课需要自带算力:看到这个转贴,某计算机学院的《通用大模型原理与训练实践》课程要求学生自带算力,否则只能退课。AI 卡脖子的就在于算力与计算资源,包括算力、内存与带宽。这门课似乎需要 40GB GPU内存,不够就不行。其实,对于原理教学来说,没必要搞这么大。以 LLama 3 八十亿参数的模型为例,它有32层多头注意力层,每层32头,其中K-V各为8头。每一层的结构是完全相同的。附图中的代码中,我用kv cache机制,直接进行矩阵运算测试,发现只使用其中27层也得出了与32层类似的输出。可见要做个可以接受的大语言模型教学示范,有很多压缩空间。毕竟这是原理教学,而不是生产。 

 另外值得一提的是,LLama 3 以及现在流行的很多模型中都用到了一个中国研究团队的2021年的一篇论文(http://t.cn/A6HdOXh9),叫做 RoPE (旋转位置编码)。这个中国研究团队来自一家叫“追一”的公司。在 Attention is All You Need 的开创性论文中(http://t.cn/RSrwyml),词(token)的位置编码是在原向量各个纬度叠加与位置对应的角度的正弦、余弦量。而 RoPE 编码则是在不同的子空间进行与位置对应的角度的旋转。RoPE 编码更能把握词之间的相对位置。根据谷歌学术数据,这篇 RoPE 论文已经被引用了至少841次。

Screenshot 2024-06-07 133329.png

Image_20240607133337.jpg



https://blog.sciencenet.cn/blog-684007-1437307.html

上一篇:论文正式发表
收藏 IP: 99.0.81.*| 热度|

2 郑永军 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 15:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部