科学出版社分享 http://blog.sciencenet.cn/u/sciencepress 中国最大的综合性科技出版机构之一,科学家的出版社!

博文

大模型芯片与系统专题出版 | 特邀编辑:尹首一、唐漾、涂锋斌

已有 361 次阅读 2024-12-18 15:23 |个人分类:《中国科学》论文|系统分类:论文交流

无标题1.jpg

大模型给人工智能发展带来了历史性变革已经在机器翻译、人机交互、医学诊断、自动驾驶等智能任务中取得重大突破大模型巨大的计算量和参数量对芯片与系统的算力需求也急剧增加为了应对这一挑战学术界和工业界纷纷将目光投向大模型芯片与系统的研究以期突破传统计算架构的瓶颈实现更高性能解决方案以及更高效的设计方法大模型芯片与系统是推动人工智能技术进一步发展的关键技术之一被多个国家和地区列为未来科技发展的重要方向SCIENCE CHINA Information Sciences 202467卷第10期组织出版了大模型芯片与系统专题” (Special Topic: AI Chips and Systems for Large Language Models).

 01 Review of chiplet-based design: system architecture and interconnection

Liu, Yafei; Li, Xiangyu; Yin, Shouyi

Sci China Inf Sci, 2024, 67(10): 200401

基于芯粒的设计方法将系统芯片分解成多个较小的芯粒并通过先进封装重新组装成一个新的系统芯片是实现高算力大模型芯片与系统的重要技术这种方法在后摩尔定律时代备受关注其在成本、性能和敏捷设计方面具有明显的优势尽管芯粒设计作为一种新兴技术受到了广泛关注但仍然面临诸多挑战清华大学尹首一和李翔宇团队的综述论文“Review of chiplet-based design: system architecture and interconnection”从芯片设计者的角度全面综述了现有的芯粒设计对基于芯粒的系统架构设计问题的国际研究现状和最新进展归纳并给出关于发展趋势的分析该论文系统性地总结了芯粒设计的系统架构、互连拓扑和路由方案并对芯粒的发展趋势进行了展望如异构MPSoC设计将受益于芯粒设计方法、芯粒设计的平台化设计趋势以及封装—架构—互连的协同优化趋势等与以往专注于底层技术或某一单一领域的分析不同本综述采用了一种更全面、系统性的策略来研究这些方法旨在为设计人员提供系统性的、纵向比较的观点.

 02 Large circuit models: opportunities and challenges

Chen, Lei; Chen, Yiqi; Chu, Zhufei; et al.

Sci China Inf Sci, 2024, 67(10): 200402

成电路的EDA技术是全球范围内极具专业化和技术密集度的行业高性能芯片短生命周期和严格的性能、功耗、面积要求给EDA设计带来了挑战大模型技术的发展为解决这些挑战带来了新的机遇大模型能够分析大量设计案例在广阔的设计空间中进行预测和分析这有望对EDA工具产生革命性的影响尽管目前“AI for EDA”已经成为EDA领域的研究热点之一但这些方法大多专注于单一任务的优化未能充分考虑电路设计的整体连贯性和多阶段复杂性限制了“AI for EDA”对设计流程的整体提升香港中文大学徐强、北京大学、东南大学黄如院士团队与华为等合作的观点文章“Large circuit models: opportunities and challenges”本文提出构建一个专为电路设计与优化的大模型:大电路模型(Large Circuit Model, LCM本文将EDA设计流程视为一个多模态转换过程从自然语言规格说明到模块化架构设计再到硬件描述语言编写的RTL代码直至最终的物理设计布局大电路模型将专注于解决EDA流程中最为重要的优化与验证问题推动EDA工具的能力向前迈进一大步.

 03 TSCompiler: efficient compilation framework for dynamic-shape models

Luo, Xiang; Zhang, Chen; Geng, Chenbo; et al.

Sci China Inf Sci, 2024, 67(10): 200403

为更好地从海量数据中学习到特征分布, 神经网络的的计算开始呈现动态性, 即模型执行过程随输入数据变化而变化. 这种动态性为神经网络编译器的编译优化带来巨大挑战. 复旦大学尚笠、上海交通大学张宸团队的研究论文“TSCompiler: efficient compilation framework for dynamic-shape models”提出了面向动态神经网络的编译框架TSCompiler, 采用基于参数的张量形状表示, 并将算子拆解、规约为基本算子, 基于基本算子语义构建数据流分析框架进行参数形式张量形状传播. 同时, TSCompiler提出基于硬件架构约束构建的调度空间, 并采用基于信赖域的贝叶斯优化算法快速搜索高性能的调度组合生成张量程序. 相较于现有系统, TSCompiler在编译生成张量程序的执行效率上有显著提升, 同时在端到端时延方面也表现出较大优势.

 04 Hardware-oriented algorithms for softmax and layer normalization of large language models

Li, Wenjie; Lyu, Dongxu; Wang, Gang; et al.

Sci China Inf Sci, 2024, 67(10): 200404

目前已经有大量关于神经网络中非线性模块硬件架构设计的研究但大多局限于卷积神经网络和小规模的Transformer,对于当前热门的大模型中最常见的softmax和层归一化模块仍缺乏充分的研究特别是关于层归一化的硬件架构设计因其同时需要计算平方根与除法且近似层归一化对模型性能的影响大于softmax,导致其高效通用硬件架构设计成为难题上海交通大学贺光辉和徐宁仪团队的研究论文“Hardware-oriented algorithms for softmax and layer normalization of large language models”提出了面向硬件的近似softmax和层归一化算法然后设计出相应的高效硬件架构相较于已有的同领域最优设计本文提出的架构在面积和功耗方面具有显著节省这些设计无需微调几乎不影响模型性能能够作为大模型芯片的即插即用非线性单元有助于加速整体硬件设计与部署.

 05 CMN: a co-designed neural architecture search for efficient computing-in-memory-based mixture-of-experts

Han Shihao, Liu Sishuo, Du Shucheng, et al.

Sci China Inf Sci, 2024, 67(10): 200405

在边缘计算的快速发展中存内计算(Computing-In-Memory, CIM)技术以其卓越的能效比和计算并行性成为推动智能设备发展的关键力量然而面对边缘场景对运算精度、模型密度和能耗效率的不同需求如何实现在不同应用场景的神经网络架构定制化仍然是当前亟待解决的问题与此同时混合专家(Mixture of Experts, MoE)模型作为大模型算法的新兴研究方向其在边缘端部署仍待优化南方科技大学王中锐和中国科学院微电子所尚大山团队的研究论文“CMN: a co-designed neural architecture search for efficient computing-in-memory-based mixture-of-experts”提出了一种软硬件协同优化的神经网络架构搜索框架CMN. 该框架以实现高效计算存储为目标通过软件层面的MoE模型设计与硬件层面的CIM系统配置的紧密协同在软件层面针对MoE结构的专家位置、数量和维度进行优化搜索在硬件层面针对存算阵列大小、外围电路设计等进行优化搜索两者构成嵌套搜索以适应各边缘场景下的不同需求.

 06 SpikingMiniLM: energy-efficient spiking transformer for natural language understanding

Zhang Jiayu, Shen Jiangrong, Wang Zeke, et al.

Sci China Inf Sci, 2024, 67(10): 200406

随着大规模预训练Transformer模型的迅速发展神经网络在自然语言处理领域取得了显著的进展然而这些模型的成功往往依赖巨大的计算资源和能源消耗因此开发低能耗、高效率的计算模型成为了研究者们关注的重点浙江大学唐华锦团队的研究论文“SpikingMiniLM: energy-efficient spiking transformer for natural language understanding”提出了一种适用于自然语言理解的脉冲Transformer模型—SpikingMiniLM. 该模型通过一系列创新性的方法包括多步脉冲编码、改进的注意力机制和残差连接、稳定脉冲发放速率的参数初始化以及人工神经网络到脉冲神经网络的知识蒸馏技术克服了训练脉冲神经网络语言模型的挑战展示了脉冲神经网络在自然语言理解任务上的可行性. SpikingMiniLM有效降低了自然语言理解任务所需的整体能源开销特别是在计算功耗上具有显著的优势

无标题2.png



https://blog.sciencenet.cn/blog-528739-1464912.html

上一篇:方小敏院士 | 中亚黄土粉尘与冰冻圈演化、太平洋生产力和全球变化的联系
收藏 IP: 124.17.27.*| 热度|

1 姚远程

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 00:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部