zbluebird的个人博客分享 http://blog.sciencenet.cn/u/zbluebird

博文

[转载]片上并行边缘提取算子加速光子卷积神经网络

已有 275 次阅读 2024-12-5 08:04 |系统分类:论文交流|文章来源:转载

片上并行边缘提取算子加速光子卷积神经网络

专家视点

在人工智能领域对具有更高计算速度和最低功耗的硬件系统的追求激增。光子计算的出现,利用光子作为信息载体,提供了传统电子计算的部分替代方案。在此,Ouyang等人实验建立了一个基于具有可扩展并行性的3×3十字微环谐振器阵列的光子复用架构,依靠硅光子学来实现光子卷积神经网络图像的并行边缘提取。具体地,研究人员引入了四组通用边缘提取算子,实现了在不改变硬件比例和功耗的情况下,同时处理四个特征映射的并行边缘提取。这也导致4×for的最大加速卷积计算。精确地说,在相同的光子硬件结构和功耗下,通过同时提取4个特征映射,实现了高达4倍的更快的卷积计算速度,其中微环谐振器阵列芯片的最大计算能力为0.742 TOPS,能量成本为48.6 mW,卷积精度为95.1%。研究表明,在相同的计算时间内,该系统使用并行边缘提取算子代替通用算子,可将CIFAR-10数据集的图像识别精度提高6.2%,最高可达78.7%。这项研究展示了并行边缘提取芯片的高可扩展性和高效率,提供了一种新的提高光子计算速度的方法。该工作发表在Optics Letters上。

Hao Ouyang, Zeyu Zhao, Zilong Tao, Jie You, Xiang'ai Cheng, and Tian Jiang, Parallel edge extraction operators on chip speed up photonic convolutional neural networks, Opt. Lett. 49(4): 838-841 (2024).

在人工智能领域,对具有更高计算速度和最低功耗的硬件系统的追求激增。光子计算的出现,利用光子作为信息载体,提供了传统电子计算的部分替代方案。光子计算利用光子在信息处理中的超低功耗特性,理论上在最佳条件下提供高达几太赫兹的更高带宽。然而,这些优势的实际实现受到大规模集成和硅光子学工业的新生状态的阻碍。

最近,一个高度关注的焦点指向减轻人工智能应用中光子计算固有能量消耗和速度限制。尤其是,随着机器视觉和智能驾驶的蓬勃发展,图像相关任务的重要性也随之飙升。卷积神经网络起着在图像分类和识别中的关键作用。值得注意的是,矩阵向量乘法和卷积运算占整个计算工作量的80%,在传统的卷积神经网络训练过程中,在能量和时间上都面临着巨大的挑战。这引发了对光子卷积神经网络架构的大量创新科学努力,包括级联Mach-Zehnder干涉仪、波分复用以及用于矩阵线性运算的衍射单元结构。虽然上述体系结构在一定程度上缓解了计算功耗问题,但它们在解决计算速度挑战方面存在不足。为了提高光子系统处理其他特定应用的计算速度,研究人员也提出了相应的解决方案,包括光子伊辛机的组合优化、期权定价等金融操作、图像任务中的加密和解密等。然而,提高计算速度的主流方法是在现有架构的基础上扩大光子硬件的规模,这可能会加剧信号光损失等问题,并损害准确性和精度。

 

克服这一瓶颈的关键策略是在不扩展硬件规模的情况下扩大核心计算单元的并行性。这需要在同一个计算核心上同时执行多个操作。例如,在光子计算系统中并行完成卷积运算Y=W⊗X将大大提高光子卷积神经网络的效率。然而,目前的主要研究是增加输入向量X的维数进行并行运算,这对光源提出了相对严格的要求。

 

image.png

 

1 光子平行边缘提取装置的原理图和显微照片。(a) 平行边缘提取系统示意图。四个卷积操作可以一次完成。(b) 3×3微环谐振器阵列芯片光学整体照片。(c) 微环谐振器阵列结构的显微镜放大图像。

 

光子芯片的总占地面积为7.9×4.3 mm2,微环谐振器阵列的核心处理单元面积为1.2×1.2 mm2,如图1(b)所示。该制造工艺在220 nm标准绝缘体上硅平台上采用180 nm工艺技术节点。在图1(c)中,不同直径的微环谐振器策略性地分布在不同的行和列中,以防止波长之间的串扰。图1(a)所示的配置增强了系统的整体性能。

image.png 

2 不同直径核磁共振成像显微镜图像。(a) D=30 µm,(b) D=22 µm, (c) D=14 µm。(d) 直径为30 µm, (e) 直径为22 µm, (f) 直径为14 µm的磁阻对应的归一化透射曲线。(g) 30 µm微环谐振器的共振峰随着施加到加热器上的电压而移位。(h) 三个核磁共振峰的共振峰值位移随加热器功率的变化。(i) 在微环谐振器5位精度下的32个可区分的透光率等级。

不同直径微环谐振器的详细显微镜图像,如图2(a)-(c)所示。明亮的细直线和环形圆分别代表母线波导和工作磁阻比。此外,深色不规则的多组曲线表示加热电阻,用于修改微环谐振器内波导的有效折射率,从而使其共振峰的中心波长转向。根据共振相位匹配条件,微环谐振器半径与波长的关系。

 

总之,研究人员展示了一种利用微环谐振器阵列作为主处理器的硅光子计算芯片,该芯片采用并行边缘提取策略来加速光子卷积神经网络。具体来说,3×3十字形微环谐振器阵列包含三种不同直径的微环谐振器(即14 µm22 µm30 µm)。可以同时提取4个特征图,卷积速度可达4倍。此外,任意卷积运算的精度可达到95.1%,精度为5位。同样重要的是,光子芯片达到了0.742 TOPS的峰值计算速度,功耗仅为48.6 mW。最后,研究人员加载了CIFAR-10数据集来验证我们系统实现的光子卷积神经网络的性能,其中最高准确率达到78.7%,与以前的光子方案相比具有很大的优势。这项研究为在硬件规模有限的情况下提高光子芯片的计算速度奠定了重要的基础。

 

本文转自: 刘敬明 郭波    光学前沿评论 2024年12月04日 09:00 黑龙江

 

 

 



https://blog.sciencenet.cn/blog-575857-1462985.html

上一篇:[转载]清华北大和哈弗耶鲁斯坦福的学生,最喜欢借阅的书,都是什么? (本文闪光点:人生的智力巅峰就这么几年,读几流...
下一篇:[转载]为什么美国的基础教育倒数,科技却冠绝全球?
收藏 IP: 116.1.3.*| 热度|

6 高宏 宁利中 杨正瓴 孙颉 池德龙 段德龙

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 09:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部