zhouchichun的个人博客分享 http://blog.sciencenet.cn/u/zhouchichun

博文

深度学习到底在做什么?它究竟可以做什么?——2023年组内工作梳理

已有 1068 次阅读 2023-12-26 14:06 |系统分类:科研笔记

时间:2023-12-27 上午9点30开始

地点:腾讯会议


      深度学习是人工智能的重要组成部分,它的出现带来了全新的建模范式,为不同领域的重要问题提供了“全新”的解决方案。因此,它已经成为了公认的‘研究热点’。

     但是能够从数学原理出发,结合不同领域的应用案例诠释“它是什么?”“它到底在做什么?”“它为什么可以做这些事情?”的讨论仍然是重要的。加之年关之时,我的好友千里迢迢前来拜访,给我了一个艰巨的任务——让我用通俗的语言给他系统的介绍人工智能。尽管对于这个问题我有一些基于实践得到的‘答案’,但是由于它极其复杂,因此准确的回答这个问题仍然是一项艰巨的任务。我想,就将我们组这些年做的工作进行一次梳理,通过这些具体的案例,从原理和应用上让好友对这个问题有一些直观的,深入的了解。

                                                                                                    周池春

                                                                                                2023-12-26


一、生物信息类:

1)      基于无监督最优匹配木质纤维素与酶鸡尾酒的新方法

     汇报人:余卓航(研三,已发表,包括参与发表2篇1区)

简介:多种木质纤维素分解酶混合物与结构复杂的木质纤维素底物有效配对是一项重要问题。 目前,广泛的试错是主要方法,主要由于实验数据有限,没有开发出深度学习方法来解决这个问题对酶-鸡尾酒-底物结构-动力学-功能关系的专家级知识不完整。这里,我们设计了一种新颖的模型来以高效、成本效益和高通量的方式解决这个问题。它不需要预先标记数据集,而是利用简单的特征和多源异构的数据形式,消除了对反应机制专家级先验知识的依赖。

关键困难:如何利用简单的多源异构数据建模找到最优匹配方式。

核心解决思路:构建一个强大的特征提取模块,再用对比学习拉近同类别样本之间的距离,反则拉远不同样本间的距离,最后聚类获得结果。

2)      基于隐藏数据的pattern识别在蛋白质-配体结合亲和力预测的新方法

      汇报人:余卓航(研三)

简介:由于蛋白质-配体相互作用是生物分子功能理解的基础,因此,有效的预测亲和力能帮助理解细胞信号传导机制,提升生物反应,如酶催化的效率;更重要的是,准确的识别结合位点是蛋白质或配体反向设计的基础,对加速药物设计、蛋白质工程具有重要意义。目前,大多数方法都是在规则结构数据和不规则结构数据上研究,没有人开发出潜在结构数据如仅序列上精确预测亲和力。这里,我们设计了一种反向暴露潜在蛋白质-配体结合位点的方法。它不需要提供蛋白质和分子的图结构或结点信息,消除了对部分先验的依赖。

关键困难:如何找到蛋白质序列-配体序列之间的潜在pattern。

核心解决思路:1)构建双线性注意力矩阵暴露所有可能的位点在从中找到pattern,2)再利用CNN和Transformer做特征采样。

 

3)      基于统计算法的蛋白质突变热稳定性研究

汇报人:张守昌(研二,已发表,包括参与发表1篇1区)

简介:这项研究致力于运用统计算法来探究蛋白质的热稳定性,即蛋白质在高温下保持其结构和功能的能力。蛋白质热稳定性是生物技术和药物设计中的一个关键参数,影响着蛋白质在不同环境条件下的应用潜力。传统的热稳定性研究依赖于实验方法,这些方法耗时且成本高昂。而统计算法提供了一种高效的替代方法,可以快速分析和预测蛋白质的热稳定性。该研究的核心在于解决传统蛋白质热稳定性研究方法的局限性。通过利用统计模型和算法,研究者可以无需进行繁琐的实验即可对大量蛋白质的热稳定性进行快速预测和筛选。这不仅减少了实验成本,还加快了新稳定蛋白质的发现过程,对于生物医学和生物工程领域具有重要的应用价值。

       关键困难:在仅用序列的情况下判断氨基酸的突变热稳定性。

       核心解决思路:统计10亿以上的氨基酸序列,统计词频根据词频越多越稳定的性质判断氨基酸序列的稳定性。

 

4)      基于多源异构数据的二氧化钛降解污水的方法

     汇报人:张守昌(研二)

简介:这项研究专注于利用多源异构数据来优化二氧化钛(TiO2)降解污水的过程。二氧化钛作为一种高效的光催化剂,已被广泛应用于水处理领域,特别是在降解有机污染物方面表现出色。然而,为了提高二氧化钛的降解效率和处理能力,需要对大量复杂的数据进行分析,这些数据包括水质参数、光照条件、TiO2的浓度和特性等。多源异构数据的分析能够为二氧化钛降解污水提供更深入的洞察和优化策略。

关键困难:多源异构数据的建模如何找到数据内的潜在信息。

核心解决思路:先利用机器学习算法找出数据之间的相关性,在利用对比学习等技术学习样本之间的差异从而对样本进行分类。

 

5)基于无监督深度聚类在生物信息序列分类的应用研究

      汇报:杜启蒙(研三,投稿3区一篇)

       简介:本研究旨于应用无监督学习对氨基酸序列进行高效的聚类分析。随着测序技术的快速发展,生物信息学领域急需处理和解释大量复杂的氨基酸序列数据。面对这一挑战,传统的序列分析方法,依赖于已有的生物学注释和实验数据,在处理未知或高度复杂的数据时显示出局限性。例如在嗜热和嗜冷蛋白质分类这类研究中,这些方法往往需要耗费大量时间和实验资源。为了克服这些限制,我们设计并实施了一种创新的无监督学习方法。该方法首先利用预训练的大模型对氨基酸序列进行编码,深入挖掘其深层特征。随后,通过非线性降维技术,如UMAP,有效减少数据维度,同时保留了关键的生物信息。综上所述,这种无监督学习方法为氨基酸序列的分类和分析提供了一种新颖且有效的工具,特别是在处理具有特殊生物学特性的序列,如嗜热和嗜冷蛋白质时,展现出了卓越的性能优势。

关键困难:降低人工实验成本实现无监督序列分类,实现生物信息序列的特征对齐以及特征提取 。

核心解决思路:通过大模型编码加上非线性降维实现。

 

二、无监督图像分类与检索类:


6)      基于电子围栏的无监督掌纹检索方法

      

      汇报人:刘张地(研二)


简介:这项研究集中于开发一种基于电子围栏技术的无监督掌纹检索方法。掌纹识别作为一种生物识别技术,广泛应用于安全验证和身份认证领域。尽管现有的掌纹识别方法效率较高,但它们通常依赖于有监督的学习模式,需要大量预标注的数据。电子围栏技术,作为一种地理定位系统,能够提供关于设备位置的实时数据。该研究主要解决了传统掌纹识别方法在数据依赖性和安全性方面的局限。通过结合电子围栏技术,可以实现对行人检索位置的精确控制,从而提高识别过程的可靠性。

关键困难:在没有标注数据的样本中实现高精度的检索。

核心解决思路:构建多个正样本利用权重融合技术和对比学习找到不同样本之间的潜在差异从而拉开样本之间的距离。

 

7)      基于强化学习优化个性化癌症治疗策略

      汇报人:刘召聪(研三,投稿2区,1区各一篇)

简介:随着癌症患者人数在全球范围内持续上升,人们迫切需要有效和负担得起的癌症治疗方法。除了追求开发昂贵的新治疗方法之外,个性化的癌症治疗策略(PCTS)可能是一个新的答案。它根据患者的身体状况、癌症类型和阶段定制治疗方法,同时考虑不同治疗方法之间的相互作用,以在抑制癌症和最大限度地减少损害之间取得平衡。然而,试验机会的稀缺性给通过临床实验找到最佳PCTS带来了巨大挑战。我们提出了一个将强化学习(RL)与PCTS相结合的综合框架。通过模拟,我们证实了RL识别最佳PCTS的能力,超过了医生的决定,提高了患者的生存率。这为利用人工智能做出明智的PCTS决策奠定了关键一步,并为进一步的研究和临床实施铺平了道路。

关键困难:缺少完整且统一的肿瘤发展框架;缺少真实且有效的临床数据

解决思路:1,采用细胞动力学模型以及一系列的参数来建立一个简单且完整的肿瘤发展框架,尽可能全面考虑肿瘤治疗过程中的各种因素。2,在缺少真实且有效的临床数据情况下,通过调整参数拟合现有的且有限的临床数据,保证框架内各种参数的相对合理性。

 8)      简单而有效的专业图像无监督分类:以真菌图像为例

汇报人:刘召聪

简介:获得高质量的标注数据集是深度学习方法发挥作用的前提。传统的人工标注不仅成本昂贵、效率不高。尤其当涉及到专业领域的数据时,这种方法还要求标注者具备相关的专业知识。缺少标注数据的专业图像领域迫切需要新方法实现数据的自动分析。我们发展出一种无监督自动分类新方法。我们以真菌图像数据为例,验证了提出方法的效果。结果表明,我们方法超过了有监督方法,媲美了专家的分类精度。该方法降低了对于人工标注数据集的依赖,可以快速形成高精度的无偏差分类数据集,并可以以此训练线上有监督模型,实现数据自动分析的完整闭环,大大加快人工智能技术在专业图像领域的应用。

关键困难:在尽可能减少对人工依赖以及领域偏差的情况下,提高专业图像数据的分类精度和效率。具体:1,如何不依赖人工标注的情况下得到图像的有效特征表达;2,在得到有效的特征表示的基础上如何尽可能提高分类精度;

解决思路:1,数据的有效特征潜藏于大量的冗余特征中,可以采取双步降维的方法提取有效的特征表示。首先采用预训练大模型对样本自身进行降维进而提取有效的特征表达,其次采取流形学习的降维方法进一步去除冗余特征拉开不同样本之间的差异。 2,采取多聚类方法投票,事后标签对齐的机制提高分类精度。采用不同原理的聚类方法,从不同的视角出发获得不同的聚类结果,根据投票的机制保留‘意见‘一致的样本,去除有争议的样本。综合多个聚类方法的结果可以进一步提高聚类精度。事后采用人工对聚类的簇进行标签对齐,相较于事前标注训练有监督模型可以大大减少了人力成本。

 

9)      开发无监督方法检测引力透镜现象

     汇报人:毛安琪(研二)

简介:这项研究专注于探索一种无监督的机器学习方法,用于检测宇宙中的引力透镜现象。引力透镜是由于大质量天体(如星系或黑洞)引起的空间扭曲现象,能够放大或扭曲从更远天体传来的光线。传统上,检测这些透镜效应依赖于复杂的观测策略和有时是主观的图像分析方法,这些方法通常需要大量的监督和预先标注的数据。目前,引力透镜的识别通常需要专家的介入和大量的标注数据,这限制了检测效率和可能发现的透镜数量。通过使用无监督学习方法,研究者能够自动化引力透镜的检测过程,从而识别更多未被发现的透镜,增进我们对宇宙结构和大质量天体的理解。

关键困难:如何在少量引力透镜样本的情况下准确判断是否为引力透镜。

核心解决思路:利用自编码和异常检测技术,训练大量非引力透镜样本,进而准确找出引力透镜样本。

 


10)      基于双编码模型构造正负样本的对比学习方法在掌纹检索中的应用

     汇报人:巴朔(研三,已发表,包括参与发表2篇2区,1篇1区)

简介:构造与输入数据相似的正样本和不相似的负样本是对比学习研究中的关键问题。通过对比正负样本与输入数据特征的距离,对比学习模型在不依赖数据标签的情况下高效地学习同类数据的共同特征,并以此筛选出同类数据。传统构造方法,如旋转裁剪等数据增强虽能提高模型分类准确率,但在缺乏先验的情况下效果不佳。因此,如何探索出适用性更广的构造方法成为提高对比学习模型效果的关键。我们使用两种基于预训练模型的特征编码模块对掌纹数据进行特征提取并作为正负样本,并在数据量大且难以标注的掌纹检索领域检验了新构造方法的效果。

关键问题:高适用性的对比学习正负样本构造方法。

解决思路:基于双预训练特征编码模块的正负样本构造。

 


11)      探索特征对齐对人脸匹配准确率的影响

     汇报人:成琳(研二,投稿1区1篇,参与)

简介:这项研究聚焦于特征对齐技术,它是机器学习和图像处理领域的一个关键概念。特征对齐指的是通过算法调整和对齐数据特征,以提高后续处理的准确性和效率。本研究的重要性在于,它提供了对特征对齐在人脸匹配准确率上的影响的深入分析。特征对齐是一种技术,通过对齐面部特征点来增强匹配的准确性。

关键困难:未对齐的图像可能导致模型提取错误的特征,从而影响识别的准确性,特征对齐有助于减少这种误差。

核心解决思路:通过预训练的大模型对单幅图像进行特征提取和PCA进行样本间特征降维,验证了特征编码应该与任务高度相关,在人脸匹配任务上,相较于通用大模型,应该选择专用的大模型进行人脸面部的关键区域(如眼睛、鼻子、嘴巴)进行特征提取和对齐。

 

三、基础物理与深度学习类:


12)      利用优化算法寻找自旋玻璃的基态

      汇报人:李新辉(研三)

简介:这项研究专注于应用优化算法来寻找自旋玻璃的基态。自旋玻璃是一种物理学中的复杂系统,其特点是无序和长程的磁性相互作用。这种材料的磁性行为极其复杂,理解其基态(即系统能量最低的状态)对于深入探索凝聚态物理学和材料科学具有重要意义。传统的方法在处理自旋玻璃基态的搜索时往往效率低下,因为这涉及到高度复杂的计算问题。本研究的核心在于解决自旋玻璃基态搜索中的高复杂性问题。通过应用优化算法,研究者可以更快速、更精确地找到自旋玻璃的基态,从而加深对这种复杂物质的理解。

关键困难:自旋玻璃的基态搜索涉及到高度复杂的计算问题。

核心解决思路:利用数据驱动的方法,如神经网络等,来学习和预测自旋玻璃的基态行为。

 


13)      基于机器学习涌现能力的研究

      汇报人:倪桂庆(研二)

简介:涌现是指系统中的量变行为导致的质变。涌现能力的研究有助于开发更高效、更智能的机器学习模型。这些模型能够自我优化、适应新环境,甚至能在未经明确训练的任务上表现出色,从而推动技术在各个领域的应用。通过对Ising模型的相变,常微分方程函数的预测,矩阵特征值的预测以及偏微分方程的解,来研究不同模型的涌现能力。它目的是理解和提高机器学习模型在各种任务中的创造性、适应性和多样性,以推动人工智能的发展。这个领域的研究在解决现实世界中的复杂问题和应用中具有重要意义。

关键问题:机器学习模型可能在训练数据上表现良好,但在新的、未见过的数据上表现不佳,并且目前对于机器学习中涌现行为的理论理解还不够充分。

核心解决思路:采用更多样化和全面的训练数据,应用正则化技术,以及开发更强的元学习和转移学习策略,并且加强基础理论的研究,深入探索机器学习和复杂系统理论。

 




https://blog.sciencenet.cn/blog-3453120-1415416.html

上一篇:图神经网络的节点分类和图分类 (成琳)
下一篇:数据中相关性模式的探讨——传统卷积和图卷积的实验报告 (余卓航)
收藏 IP: 223.104.238.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 04:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部