||
目前国内和国际市场尚未形成成熟的人工智能项目研发工作量评估方法,有个客户需要,为此参照COSMIC软件项目工作量评估方法,制定人工智能项目研发工作量评定稿。请各位朋友拍砖。
一、原理
性能指标是通过训练数据量、数据复杂度、生成模型数量和现有算法改进度来度量。
二、度量过程
该方法的度量分为三个阶段:
1、度量策略阶段
确定度量目的
确定度量范围
确定性能指标
确定需求描述详细程度
2、映射阶段
识别功能处理
识别训练数据与测试数据
识别算法功能
识别模型性能
3、度量阶段
新增需求计数
变更需求计数
本地化规则计数
离线/实时计数
生成度量报告
三、性能指标
1、训练数据量
训练数据量是标注工作的直接计数指标。按照数据类型分为图像数据、文本数据、语音数据和数值数据。
2、数据复杂度
数据复杂度是数据清洗和现有算法以及模型适用度的计数指标。数据复杂度按照数据结构可以分为离散结构、线性结构、树形结构、图形结构。
3、生成模型数量
每个场景按照功能切分为多个人工智能模型的叠加。项目整体性能指标的计量,按照生成模型数量进行计量。
4、现有算法改进度
使用现有算法对领域数据生成模型,并进行工程部署,按照工程部署进行计量。对现有算法根据领域数据的特性进行算法改进,按照创新工程,按照创新型工作计量。创新型工作按照解决当前场景所带来的经济效益计量。
四、示例
1、训练数据量
图像数据按照每个标注对象的标注点的量级计数。每个目标的标注点在10个以下为1级;20个以下为2级;50个点以下为3级。1级对象标注对象每天按照100个左右计数。
文本数据按照每句标注对象的标注点的量级计数。每个目标的标注点在10个以下为1级;50个以下为2级;100个点以下为3级。1级对象标注对象每天按照200个左右计数。
2、数据复杂度
如文本数据单条是线性结构的,复杂度为O(n)。根据场景如果需要考虑单条数据之间的关联关系,则复杂度为O(n^2)。如果考虑句与句的全遍历关系进行推理,则复杂度为O(n!)。
数据复杂度每增加一个量级,实施计数增加一个量级。
3、生成模型数量
如图像识别中的安全生产场景,需要判别哪个人没有带安全帽的功能。拆解成模型包括:“1)多目标识别模型来切割场景中有几个人脸?2)人脸识别模型来确定某个对象是谁?3)安全帽识别模型来判别当前这个人是否带安全帽?”
4、现有算法改进度
如某个工业质检的图像识别创新项目,按照该项目投产后,能够对某产线节省的人力以及质量整体提升来计量。如按照工业产线投产后10年的产出量*提升质量收益百分比计量。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 13:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社