||
计算机学院AI课需要自带算力:看到这个转贴,某计算机学院的《通用大模型原理与训练实践》课程要求学生自带算力,否则只能退课。AI 卡脖子的就在于算力与计算资源,包括算力、内存与带宽。这门课似乎需要 40GB GPU内存,不够就不行。其实,对于原理教学来说,没必要搞这么大。以 LLama 3 八十亿参数的模型为例,它有32层多头注意力层,每层32头,其中K-V各为8头。每一层的结构是完全相同的。附图中的代码中,我用kv cache机制,直接进行矩阵运算测试,发现只使用其中27层也得出了与32层类似的输出。可见要做个可以接受的大语言模型教学示范,有很多压缩空间。毕竟这是原理教学,而不是生产。
另外值得一提的是,LLama 3 以及现在流行的很多模型中都用到了一个中国研究团队的2021年的一篇论文(http://t.cn/A6HdOXh9),叫做 RoPE (旋转位置编码)。这个中国研究团队来自一家叫“追一”的公司。在 Attention is All You Need 的开创性论文中(http://t.cn/RSrwyml),词(token)的位置编码是在原向量各个纬度叠加与位置对应的角度的正弦、余弦量。而 RoPE 编码则是在不同的子空间进行与位置对应的角度的旋转。RoPE 编码更能把握词之间的相对位置。根据谷歌学术数据,这篇 RoPE 论文已经被引用了至少841次。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 18:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社