育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

DMU-遗传参数评估-学习笔记1

已有 8259 次阅读 2018-11-11 20:56 |个人分类:数量遗传学|系统分类:科研笔记

DMU软件介绍

DMU是一个数量遗传学工具包,主要功能包括估计方差组分和固定效应,预测育种值。在丹麦动物育种研究中,DMU是一个主要的统计研究工具(估计和预测)。此外,DMU也应用于丹麦牛,羊,貂和马等常规遗传评估研究。“DMU”名称最初来自于程序包中用来进行初始化的过程名字缩写。这些过程利用约束最大似然法(REML),通过Derivative-free方式执行MUltivariate analysis,因此得名DMU。

DMU安装包有很多模块,如DMU1、DMU4、DMU5、DMUAI和RJMC。DMUAI模块可利用平均信息限制最大似然(AI-REML) (Jensen et al. 1997)算法进行(协)方差组分的估计。AI是通过平均观察和预期信息的信息矩阵得到的。该模块还可以使用期望最大化(EM)算法来最大化约束似然函数。被估计的(协)方差组分的渐近标准误是从平均信息矩阵中获得的。

学习DMU初衷

想试试DMU处理一批数据, 发现这个软件, 竟然没有一个合适的操作说明文档, 我手头上有苏国生老师的PPT中文版DMU操作说明, 但看起来还是费劲.

刚好自己在学习这个软件, 用实际数据来演示如何使用这个软件进行数据分析.

我想从四部分进行:

  • 1, DMU语法介绍

  • 2, 单性状动物模型

  • 3, 单性状重复力模型

  • 4, 多性状动物模型

其它内容, 包括测定日模型(随机回归模型), 母体效应模型, GBLUP模型, 显性上位性模型, 一步法GS模型等等以后再做总结.

说明文档是作者写的, 一般来说作者都想通过逻辑的构建, 让读者了解软件的方方面面, 但是读者一开始接触软件时, 迫切的是想解决问题, 不是来学理论, 不是来学知识, 只是想解决问题. 但是大多数文档无法满足这些迫切的需求. 所以, 最好的操作说明, 就是有数据, 有模型, 有结果说明, 可以很快上手. 我写此操作说明的目的就在于此.

DMU语法介绍

软件组成, 主要包括四类程序

  • DMU1
    这个主要是为了整理数据和模型, 相当于预处理程序, 其它三个程序都要经过它的处理才能分析. 类似BLUPF90的renumf90程序.

  • DMUAI
    这个主要估算方差组分的程序

  • DMU4和DMU5
    DMU4主要是求解混合线性方程组, 它不估算方差组分, 只求解. 类似BLUPF90包中的blupf90程序.DMU5功能和DMU4类似, 也是求解方程组, 适用于大数据

  • RGMC
    主要是贝叶斯抽样, 估算方差组分, 计算育种值.

数据和系谱及逆矩阵格式

  • 全部数据, 不要有行头

  • 数据中不能含有字符, 字母, 都必须是数字

  • 逆矩阵可以是下三角或者上三角矩阵的三列形式

  • 系谱数据包括四列: ID, Sire, Dam, Birth

  • 数据中, 因子(ID, Sex…)放在前面, 观测值(y1, y2, y3)放在后面, 因子用整数表示, 不能含有字母

因此, 在进行分析之前, 首先需要对数据进行转化, 比如系谱要变为整数, 要有第四列信息出生信息, 如果没有, 就写成2018年就行. 数据中也要重新编号, 特别是某些因子含有字母, 需要转化为数字. 可以使用R语言进行转化, 将系谱的所有水平编号为1…n, 然后替换. 将数据的所有水平, 重新编码.

参数文件
文件名为name.DIR, 其中name为程序名称, DIR必须要有, 并保持大写.

  • $COMMENT
    文件注释, 一般是解释你所使用的模型

  • $ANALYSIS
    分析所使用的模型, 如果你需要估算方差组分, 那么简单写为:
    $ANALYSIS 1 1 0 0

  • $DATA
    指定数据格式, 因子数目, 观测值数目, 缺失值, 和数据位置
    如果你是txt文件, 有5个因子, 4个观测值, 缺失值-999, 在D盘根目录
    $DATA ASCII(5,4,-999) d:/dat.txt

  • $VARIABLE
    写出因子和变量的名称, 第一行为因子, 第二行为变量
    ID Loc Year Herd Sex Hy
    y1 y2 y3 y4

  • $MODEL
    指定分析模型中, 观测值个数, 固定因子, 随机因子
    比如单性状, 正态数据
    1 1 0 0 0
    比如二性状, 正态数据
    2 2 0 0 0

固定因子: 每个性状一行, 包含若干整数
单性状中, y1 = Loc + Year + Herd + Sex, random = ID
1 0 5 1 2 3 4 5
随机因子: 每个性状一行, 包含若干整数
1

  • $VAR_STR
    定义方差协方差结构
    可以支持系谱, 和自定义关系矩阵inv
    定义系谱文件:
    $VAR_STR 2 PED 2 ASCII ped.txt
    定义逆矩阵:
    $VAR_STR 1 GRELASCII ginv

  • $PRIOR
    定义初始值, 如果不定义, 默认是方差组分为1, 协方差组分为0, 定义格式, 下三角行列形式.
    比如两性状, Vg和Ve
    1 1 1 Vg11
    1 2 1 Vg12
    1 2 2 Vg22
    2 1 1 Ve11
    2 2 1 Ve21
    2 2 2 Ve22

  • $VAR_REST(可选项, 主要是固定初始值)

文件输出

  • lst
    描述统计, 模型迭代, 方差组分估计

  • PAROUT
    方差组分估计(行列形式显示)

  • PAROUT-STD
    方差组分及标准误(计算遗传力)

  • LLIK
    最后一次迭代情况

命令行文件执行

  • run_dmuai
    运行dmuai程序

  • run_dmu4
    运行dmu4程序

  • run_dmu5

  • run_rjmc

公众号.png



https://blog.sciencenet.cn/blog-2577109-1145725.html

上一篇:JWAS: 基于Julia开发的一款基于贝叶斯的GWAS和GS软件
下一篇:DMU-个体动物模型-学习笔记2
收藏 IP: 106.39.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 01:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部