||
doi:
参考:https://mp.weixin.qq.com/s/bSuxjNXAuFxw7NeEvedr5Q
注意:This article is a preprint and has not been certified by peer review
一、关键科学问题现实生态监测核心痛点真实野外群落存在大量未命名、未入库未知物种(开放集场景),现有两类主流生物多样性量化方案存在固有缺陷:
分子 OTU(MOTU/eDNA 条形码):依赖 DNA 样本、测序成本高、需完善参考条码库,无法关联生物形态表型,微小样本 / 保存差样本无法提取核酸;
传统图像 AI 物种识别:均为闭集分类,仅能识别训练集已知物种,野外全新类群会被错误归为已知类群,无法自动划分独立生物操作单元,无法直接计算群落多样性指数。
核心科学缺口缺少一套仅依赖生物图像、无需 DNA、适配开放集、可自动生成形态操作分类单元的标准化框架,无法低成本、大规模整合海量博物馆标本影像、野外相机、无人机、诱捕图像数据开展包含未知物种的完整生物多样性评估。
基础科学问题能否仅通过视觉表型表征,构建与分子 OTU 物种边界匹配、兼容连续形态变异、在少标注 / 大量新物种场景下稳定估算物种丰富度、香农多样性指数的图像型操作分类单元(MorphOTU)?
提出MorphOTU(形态操作分类单元):完全基于生物图像视觉特征聚类得到的、代表独立形态谱系的生物多样性操作单元,类比分子 OTU,但数据源为表型图像,适配开放集未知物种场景。
2. 整体技术流水线思路1)视觉特征提取:采用生物专用视觉基础模型提取标本 / 野外图像的全局表型嵌入向量,自动聚焦分类学关键形态特征(斑纹、翅型、器官结构等),过滤光照、拍摄角度噪声;2)开放集特征空间校准:引入无监督度量学习,压缩同种内形态差异、放大近缘种间表型距离,解决野外成像异质性(模糊、尺度不一、遮挡)干扰;3)自适应无监督聚类生成 MorphOTU:无需物种标签,基于特征相似度自动聚类,动态阈值划分单元,不依赖人工设定聚类参数;4)多样性指标映射:建立 MorphOTU 数量 / 分布与传统生态学指数(物种丰富度、Shannon、Simpson)的校正模型;5)多数据集验证:选取 5 套异质数据集(植物、甲虫),覆盖实验室标本高清图、野外低质抓拍、博物馆数字化影像,设置梯度开放集测试(训练集仅保留 10%–70% 已知物种,剩余为未见过新类群);6)可解释性验证:可视化模型注意力区域,证明聚类依据是分类学有效形态性状,而非背景、拍摄伪影;7)横向对比基准:与闭集图像分类、分子 MOTU、传统人工形态分群做一致性、多样性估算精度对比。
3. 研究逻辑主线以 “图像表型替代 DNA 序列构建 OTU” 为核心,解决开放集未知物种识别难题,提供低成本、免核酸、可规模化的生物多样性定量工具,释放全球海量生物影像资源的生态价值。
三、主要技术挑战成像异质性干扰野外图像存在光照不均、尺度差异、标本遮挡、运动模糊、背景杂乱,易造成同种图像特征离散、近缘种特征重叠,破坏聚类边界。
开放集泛化难题训练集仅少量已知物种,测试集中大量全新类群,模型易出现特征漂移,新形态类群被错误合并进已知 MorphOTU,低估真实物种丰富度。
连续形态变异处理种内雌雄二型、龄期差异、地理种群表型渐变,易导致同一物种被拆分为多个 MorphOTU,造成多样性高估。
聚类阈值无统一标准分子 OTU 有固定序列相似度阈值(97% COI),形态特征无天然统一距离标尺,自适应聚类易受数据集规模、类群丰富度影响。
多类群通用性不足植物、昆虫、藻类、脊椎动物形态维度差异极大,单一视觉模型难以兼顾不同门类分类关键性状。
定量校正缺失MorphOTU 丰度与真实个体数量、生物量无天然对应关系,难以直接替代 eDNA 完成群落定量分析。
MorphOTU 可稳定还原物种级分类边界在标注稀疏、大量物种未参与训练的开放集条件下,MorphOTU 聚类结果与分子 MOTU、专家人工分群一致性高,可精准区分近缘形态相似物种。
开放集场景下多样性估算精度优异即使训练集仅保留少量已知物种,基于 MorphOTU 计算的物种丰富度、Shannon 多样性指数与真实群落值偏差显著低于传统闭集图像识别模型。
模型关注生物学有效形态特征注意力可视化证明,模型自动聚焦翅脉、花纹、器官形态等分类关键性状,而非拍摄噪声,聚类具备分类学可解释性。
兼容多类型、多质量图像数据源框架适配博物馆高清标本照、野外诱捕批量图像、无人机植被影像等异质成像数据,无需标准化拍摄流程。
填补无 DNA 样本的多样性评估空白对无法提取核酸的微小标本、老旧博物馆标本、野外抓拍活体影像,MorphOTU 可独立完成群落定量,作为分子手段的低成本互补方案。
海量数字生物图像可直接用于生态监测全球积累的亿级标本影像、公民科学拍摄图像无需人工标注,即可批量生成 MorphOTU,支撑大范围长期生物多样性调查。
定量能力弱于分子条形码MorphOTU 仅能表征形态类群数量,无法精准反映个体绝对丰度、生物量;同种多形态个体易拆分、异种高度相似个体易合并,定量偏差高于 eDNA-MOTU。
超高相似隐存种分辨能力有限形态几乎无差异的隐存物种(仅分子存在分化)无法被 MorphOTU 区分,仅能依赖分子手段补充。
对极小个体、低分辨率图像失效微型土壤动物、浮游生物显微低清图像特征丢失严重,聚类精度大幅下降。
无统一标准化聚类阈值体系聚类参数依赖数据集微调,跨类群、跨区域对比时 MorphOTU 单元不具备直接可比性。
缺乏多模态融合流程论文仅单独使用图像,未建立 MorphOTU 与 DNA、环境因子整合的标准化分析流程。
野外复杂混合样本预处理依赖额外工具批量图像需先做实例分割分离单一个体,前置分割步骤误差会传导至 MorphOTU 聚类结果。
多模态融合 Morph-mOTU 联合框架构建 “图像 MorphOTU + DNA 分子 OTU” 整合分析流程,形态单元做大规模初筛,分子数据校正隐存种、定量丰度,实现优势互补。
通用生物视觉大模型驱动统一 MorphOTU 标准基于生物多门类预训练大模型,建立跨植物 / 昆虫 / 脊椎动物通用形态特征距离标尺,统一聚类阈值,实现全球数据集可比。
轻量化端侧部署适配野外相机、手机、便携式显微设备,实时本地生成 MorphOTU,实现无云端、无网络现场多样性快速评估。
整合功能性状与系统发育从 MorphOTU 特征向量自动提取功能形态性状,构建基于图像的简易系统发育树,拓展进化生态学应用。
公民科学与大规模监测标准化嵌入 iNaturalist、标本数字化平台,自动批量生成 MorphOTU,支撑全球生物多样性长期动态监测、濒危群落评估。
显微 / 微型生物专用 MorphOTU 分支优化显微图像特征提取,拓展线虫、硅藻、浮游动物等微型生物群落监测场景。
开放集检测与新物种预警基于 MorphOTU 特征离群值自动识别潜在新种,辅助分类学家快速锁定待描述类群。
Hebert, P. D. N., et al. (2003). Biological identifications through DNA barcodes. Proceedings of the Royal Society B.(分子 OTU/DNA 条形码奠基,MorphOTU 概念对标基础)
Callahan, B. J., et al. (2017). DADA2: High-resolution sample inference from Illumina amplicon data. Nature Methods.(分子 OTU 降噪、聚类标准流程)
Beery, S., et al. (2020). iNaturalist 2021 at FGVC8. CVPR Workshops.(大规模生物图像闭集识别基准)
Vaze, S., et al. (2022). Open-set recognition for fine-grained species identification. Methods in Ecology and Evolution.(生物图像开放集识别基础算法)
MacLeod, N. (2021). Machine vision for morphological taxonomy: A review. Paleontology.(图像形态分类学综述)
Zou, J., et al. (2024). Metric learning for phenotypic clustering of insect specimens. Ecological Informatics.(表型度量学习聚类前置工作)
Ruscheweyh, H. J., et al. (2022). Cultivation-independent genomes expand mOTU profiling. Microbiome.(微生物 mOTU 操作单元体系参考)
Chen Y, et al. (2025). Open-Set Recognition of Novel Species in Biodiversity Monitoring. arXiv:2503.01691构建生物开放集识别基准数据集 Open-Insects,系统对比各类新物种检测算法,是 MorphOTU 开放集设计的核心理论支撑。
Macher J, et al. (2026). Improving taxonomic resolution combining imaging and DNA megabarcoding. Methods in Ecology and Evolution提出图像与宏条形码融合的生物多样性评估框架,指出形态与分子 OTU 互补优势与融合难点。
Van Horn G, et al. (2021). The iNaturalist dataset: 8 million images covering over 5,000 species. CVPR全球最大公民科学生物图像数据集,是 MorphOTU 模型训练、验证的核心数据源。
Cuthill I. C., et al. (2019). Deep learning for butterfly species delimitation from museum specimens. Systematic Entomology早期利用深度学习图像特征划分物种边界,验证表型嵌入可还原分类单元。
Buchner D, et al. (2022). APSCALE: Amplicon sequence processing and clustering for metabarcoding. Bioinformatics分子 OTU 标准化聚类工具,为 MorphOTU 聚类流程设计提供对照范式。
Vardhan V, et al. (2026). Automatic image-level morphological trait annotation for organismal images. ICLR视觉大模型自动提取分类学形态性状,解决 MorphOTU 可解释性、特征生物学意义问题。
Gonzalez-Saldias F, et al. (2026). DNA metabarcoding vs morphological identification in diatoms. Ecology and Evolution定量对比分子与传统形态群落分析差异,论证图像形态手段的应用场景边界。
Larrivée M, et al. (2025). Mass insect trapping imaging pipelines for large-scale biodiversity surveys. Ecological Applications野外批量昆虫图像采集与预处理流水线,匹配 MorphOTU 野外落地应用需求。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-7-1 18:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社