JOS的个人博客分享 http://blog.sciencenet.cn/u/JOS

博文

半导体十大研究进展候选推荐(2025-071)——基于计算与访存双重密集型负载感知的软硬协同AI芯片

已有 109 次阅读 2026-1-16 14:58 |系统分类:论文交流

image.png

工作简介

         ——基于计算与访存双重密集型负载感知的软硬协同AI芯片

随着人工智能技术的不断发展,模型架构正以前所未有的速度演进。从卷积神经网络(CNN)到基于注意力机制的Transformer,再到如今广泛采用的CNN-Transformer混合模型,算法创新不断拓展自动驾驶、具身智能等关键端侧场景的性能边界。然而,这些新型模型在推理过程中计算与访存密集型负载动态交替出现,给硬件部署带来巨大挑战。当前,算法与芯片设计仍处于相对割裂的发展范式。算法开发者通常依赖GPU等通用平台,其压缩策略受限于固定架构,难以充分释放定制化潜力,而芯片设计受制于漫长的开发周期与高昂的流片成本,往往滞后于算法的快速迭代,无法及时响应多样化的负载需求。为此,亟需一种以计算与访存双重密集型负载感知为核心的软硬协同AI芯片计算范式。算法与硬件围绕新型模型的计算和访存特性协同探索,联合定义兼顾精度、性能与开发效率的压缩策略与架构,同时让编译器深度耦合二者,针对不同应用场景下,不同模型阶段的负载特性,实现高效调度优化。这种双向协同机制,使得芯片不再被动追赶算法,而是在设计过程中协同优化,在保障精度的同时实现极致能效。  

基于此,由香港科技大学郑光廷副校长领导的香港智能晶片与系统研发中心(ACCESS)协同设计研究团队,提出一款商业级以计算与访存双重密集型负载感知为核心的软硬协同AI芯片AC-Transformer(如图1所示)。针对模型不同阶段的计算与访存特性差异,算法、硬件与编译器三方协同,共同设计负载感知的压缩算法及训练方案、可重构硬件压缩单元以及面向层融合调度的编译器和硬件单元协同优化方案。在高分辨率语义分割任务中,实现超过90%的计算与访存开销压缩率和超过80%的硬件资源利用率,同时精度也近乎无损。

image.png

图1. AC-Transformer芯片的整体架构。

AC-Transformer 芯片基于 TSMC 28 nm 工艺成功流片,支持多类主流神经网络架构,并可高效加速新型 CNN-Transformer 混合模型的推理任务。其芯片显微照片与关键硬件指标如图2所示。经软硬协同优化,AC-Transformer 在典型语义分割任务中实现 52.90 TOPS/W 的INT8能效,相较同类Transformer或CNN加速器,每Token推理能耗减少74.1%-90.8%。

image.png

图2. AC-Transformer芯片的显微照片和硬件指标。

得益于负载感知的软硬协同架构,AC-Transformer 芯片已在多种端侧场景成功部署(如图3所示),包括实时车载语义分割、面向心脏疾病评估的实时超声图像分割,以及基于姿态估计的老年人健康分析系统、便携式视网膜疾病分析设备。其中,便携式视网膜筛查设备在可携式装置上实现即时高精度医学图像分割,其原型机能效较传统数字芯片提升达10倍,显著增强了边缘医疗场景下的诊断能力。该成果荣获第50届日内瓦国际发明展金奖,彰显了其在普惠医疗与边缘智能领域的突破性价值。

image.png

图3. AC-Transformer芯片实际应用场景展示:(a) 高分辨实时车载语义分割,(b) 老年人实时健康分析系统,(c) 实时心脏超声图像分割,(d) 便携式视网膜疾病筛查设备,(e) 第50届日内瓦发明展金奖证书。

随着近年算法的快速发展,模型中的计算与访存负载的动态性已成为AI芯片设计的核心挑战,传统的AI芯片和软件框架开发难以满足日益复杂的模型的高效部署需求。基于计算和访存负载感知的软硬协同AI芯片设计和计算范式,可以在设计与运行时,让软件和硬件协同探索优化方案,根据应用和负载针对性快速优化,解决了传统芯片架构无法应对负载多变的核心矛盾,带来了能效、精度与灵活性的协同最优,为AI芯片开辟了一种新的协同计算和开发范式。

该研究成果于2025年3月,以“A 28nm 0.22 μJ/Token Memory-Compute-Intensity-Aware CNN-Transformer Accelerator with Hybrid-Attention-Based Layer-Fusion and Cascaded Pruning for Semantic-Segmentation”为题,发表于集成电路领域顶级会议IEEE International Solid-State Circuit Conference(ISSCC),且为香港首个在ISSCC发表的大型AI芯片工作。香港科技大学郑光廷教授和涂锋斌教授为论文通讯作者,香港科技大学董平成和谭雍昊博士生为论文共同第一作者。 

主要作者简介

image.png

共同第一作者

董平成,香港科技大学电子及计算机工程系在读博士生,香港政府奖学金获得者。

2022年本科毕业于南方科技大学,曾获国家奖学金。他的研究方向包括计算机视觉、模型压缩算法和软硬协同AI芯片设计,以第一/共一作者在ISSCC、ESSERC、ASSCC、DAC、TCAS-I等集成电路和体系结构领域权威会议和期刊发表多篇学术论文。

image.png

共同第一作者

谭雍昊,香港科技大学电子及计算机工程系在读博士生。

2023年本科毕业于南方科技大学。他的研究方向包括软硬协同AI芯片设计,大语言模型与三维重建加速,以第一/共一作者在ISSCC、DAC、TCAS-II等集成电路与体系结构领域会议期刊发表多篇学术论文。

image.png

通讯作者

涂锋斌,香港科技大学电子及计算机工程学系助理教授,集成电路与系统研究所副所长,香港科技大学-英特尔联合实验室副主任,国家优秀青年科学基金获得者。

涂博士于2019年在清华大学微纳电子系获得博士学位,同年获北京市优秀毕业生及清华大学优秀博士学位论文奖。他于2019~2022年在加州大学圣塔芭芭拉分校SEAL Lab担任博士后研究员,2022~2023年在香港智能晶片与系统研发中心(ACCESS)担任博士后研究员。他的研究方向包括AI芯片设计和存算一体架构,已发表2部专著和70余篇学术论文,包括ISSCC、JSSC、ISCA、MICRO等集成电路和体系结构领域顶级会议和期刊。他设计的AI芯片ReDCIM和Thinker分别荣获2023年度中国半导体十大研究进展和2017年国际低功耗电子与设计会议ISLPED设计竞赛奖。他曾入选2025年麻省理工科技评论“35岁以下科技创新 35 人”(TR35)亚太区榜单,获得2025年日内瓦国际发明展评审团特别嘉许金奖和2024年世界人工智能大会·云帆奖“璀璨明星”等奖项。

image.png

通讯作者

郑光廷,香港科技大学副校长(研究及发展), 讲座教授,香港智能晶片与系统研发中心(ACCESS)主任。

1988年获加州大学伯克利分校电机工程及计算机科学博士学位,为电机及电子工程师学会院士 (IEEE Fellow), 国际计算机学会院士 (ACM Fellow) 及香港工程科学院院士。郑光廷1988年后任职于AT&T贝尔实验室,1993年起任加州大学圣塔芭芭拉分校教授,历任计算机工程学课程创办主任、电机及计算机工程学系系主任、协理校长(研究)等职。2016年5月出任香港科技大学工学院院长,2022年4月任副校长(研究及发展)。其研究涵盖超大规模集成电路设计、测试及设计验证、电子设计自动化、计算机视觉等领域,发表论文逾600篇,合著书籍5部,获近20项美国专利及11项国际最佳论文奖和1项优秀论文引文奖。2020年领导成立智能晶片与系统研发中心,获香港特区政府超过8亿港元资助。2024年获中国计算机学会“CCF海外科技人物奖” ,2025年获国际计算机协会下设计自动化组“2025先驱成就奖”,并主导港科大与比亚迪、微众银行联合实验室建设。

原文传递

详情请点击论文链接:

https://ieeexplore.ieee.org/document/10904499 



https://blog.sciencenet.cn/blog-3406013-1518711.html

上一篇:半导体十大研究进展候选推荐(2025-070)——低延迟高精度电容传感器读出芯片设计
下一篇:半导体十大研究进展候选推荐(2025-072)——面向复杂噪声环境的超低功耗离线语音控制AI芯片
收藏 IP: 223.71.16.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-1-17 07:20

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部