Lande的个人博客分享 http://blog.sciencenet.cn/u/Lande

博文

关联分析步骤个人总结,还一些问题待解决

已有 18124 次阅读 2013-2-6 20:34 |个人分类:科学笔记|系统分类:科研笔记| 安装, style, 软件, 个人总结

 

希望查看此贴的同仁们对步骤提出改进,指出不足,谢谢!

 

 

一、软件安装和存放

 

1.       plink文件直接放在D ;将mapped文件拷贝到plink文件下面,保证和在一起;

2.       Ped文件的格式和map文件都是先弄成txt文件,再直接更改文件后缀。可以在excel里先将需要的格式把数据排列好,再将excel保存为txt,再改txt后缀为pedmap.

1 (.PED) 文件的前六列是强制的格式,依次为:

ped文件包含内容的顺序依次为以下

信息备注

Family ID

可以用1,2,3,4……表示

Individual ID

用入库编号表示

Paternal ID

可以用0表示

Maternal ID

可以用0表示

Sex

1=male; 2=female; other = unknown

Phenotype

control设定为1case设定为2

Genotype

A T,中间空一格,缺失用0补平

2 (.MAP) 文件包括以下的四项:

map文件包含内容的顺序依次为以下

信息备注

chromosome

1-22, X, Y or 0 if unplaced

rs# or snp identifier

rs

Genetic distance (morgans) 

可以用0代替

Base-pair position (bp units)

NCBI上的染色体起始位置

3)协变量信息: 协变量先单独建立一个文件,要txt格式的,比如有10个协变量,我命名为var01.txt

这个文件必须放在和pedmapplink.exe文件一起。Var文件是先在excel格式里面整理好,删除第一行协变量的表头,但自己要单独记下来每列代表的意思,然后转化成txt文本格式,就是另存为txt

顺序依次为family ID,个体ID,后面就是协变量了(number1-10),空缺的信息的用-9补全。

 

二、软件启动

开始——运行——cmd

C:Documents and settingsAdministrator>cd

C:Documents and settingsAdministrator

C:Documents and settingsAdministrator>d:

D:>cd plink

 

三、软件运行的命令 前提是冠心病数据文件分别为1.ped1.mapfile1 bfile 3的结果相似,那些限制性条件只是去掉了3个对照;单倍型分析,在同一染色体上且位置较近的SNP分析单倍型才有效,不同染色体上SNP的分析那是联合效应分析

运行命令

功能

plink --file 1 --make-bed --out 2

转成二进制文件,2即为二进制文件了

plink --bfile 2 --maf 0.01 --geno 0.05 --mind 0.05 --hwe 0.001 --make-bed --out 3

设定过滤数据

plink --bfile 3 --filter-controls –hardy

计算controlhwhwe<0.05的位点过滤掉,23SNP又去掉了2SNP

plink --bfile 3 --assoc --adjust --out assoc1

等位基因的关联分析,每运行后及时更改文件名称(assoc1+时间)

plink --bfile 3 --filter-females –assoc --adjust --out 333

女性样本关联分析

plink --bfile 3 --filter-males –assoc --adjust --out 444

男性样本关联分析

plink –bfile 3 –assoc–perm  

permutation检验,就是模特卡罗模拟分析经验性的P

plink –bfile 3 –all --missing

缺失率或得出率(call rate)分析,查看log文件结果

plink –bfile 3 –model –out model 1

默认是卡方检验

plink –bfile 3 –model –fisher

fisher检验,但是结果比卡方检验差

plink –bfile 3 –logistic--ci 0.95 --covar var01.txt

分析所有的协变量

plink –bfile 3 –logistic –covar var01.txt –covar-number 1,3,5

只分析1,3,5这几个协变量

plink –bfile 3 –logistic –sex

 

plink –file 1 –logistic –ci 0.95

加性模式下分析

plink –file 1 –logistic –ci 0.95 –dominant

显性模式下分析

plink –file 1 –logistic –ci 0.95 –recessive

隐性模式下分析

plink –file 1 –logistic –ci 0.95 –genotypic         

基因型分析

plink --file 1 –logistic –ci 0.95 –covar var01.txt –covar-number 1,2,4-6

加性模式下分析

plink --file 1 –logistic –ci 0.95 –covar var01.txt –covar-number 1,2,4-6 –dominant

显性模式下分析

plink –file 1 –logistic –ci 0.95 –covar var01.txt –covar-number 1,2,4-6 –recessive

隐性模式下分析

plink –file 1 –logistic –ci 0.95 –covar var01.txt –covar-number 1,2,4-6 –genotypic

基因型下分析

plink –bfile 3 –hap-snps rs653667,rs2261434 –hap-assoc

单倍型分析

Plink –bfile 3 –filter-cases

只包含cases

Plink –bfile 3 –filter-controls

只包含controls

Plink –bfile 3 –filter-males

只包含males

Plink –bfile 3 –filter-females

只包含females

plink –bfile 3 --filter-females –logistic –ci 0.95

默认加性模型

plink –bfile 3 --filter-females –logistic –ci 0.95 –dominant

 

plink –bfile 3 --filter-females –logistic –ci 0.95 –recessive

 

plink –bfile 3 --filter-females –covar var01.txt --covar-number 1,2,4,8,9 --logistic –ci 0.95

默认加性模型

 

plink –bfile 3 --filter-females –covar var01.txt --covar-number 1,2,4,8,9 ––logistic –ci 0.95 –dominant

 

plink –bfile 3 --filter-females –covar var01.txt --covar-number 1,2,4,8,9 ––logistic –ci 0.95 –recessive

 

 

四、结果查看

可以先用notepad打开看一下,也可以用excel打开,打开步骤:

excel的文件打开——分隔符号——下一步——空格——完成,再另存为即可。

看到unjust对应的P值是未校正的,plink默认Bonf校正,非常严格,校正后基本没有显著的了。如果文章中不用plink校正后的结果的话,前面的分析也不要用plink的结果,不然别人会问你为什么不用plink校正。Log文件是保存运行过的命令,如果不及时更名,就被后面的log文件给覆盖掉了。

 

五、关于单倍型的分析过程

 

分型数据结果出来后,首先要做的是按照染色体将SNP位点分类(在位点位于不同染色体的情况下),

1)如上图所示,按照不同染色体分好位点数;

 

2)首先分析的是control数据里的LD,如果存在LD,即D接近1r2大小似乎关系不大,就可以判定有LD,这个在Haploview软件里面分析。分析时的数据格式整理成Linkage format

可以把一个数据弄成ped,一个是map的。(奇怪的是我用plink format,系统总说我少SNP column,给ped加head,genotype那里换成rs号或SNP1,SNP2之类的都不行,map文件是标准的plink格式,headless),有时间再找出问题在哪。

 

Map的文件:只有2列,一列是rs号,一列是染色体上的起始位置,至于这个位置,我用的是Hapmap数据库上的。不同数据库之间的相差不大,起始需要的是每2SNP之间的相对距离,估计软件自己会计算。

 

Ped文件:

6列是固定的,一次为FIDIIDfather IDmother IDsex(1 male; 2 female)phenotype1 control2 case),后面就是基因型的了。按照SNP号排列好,但是不要表头。注意在map文件中,SNP的顺序要和这个对上。

 

3)结果可以看到LD,右键点击,可以看到Dr2;点Haplotype,不知道怎么有的没有结果出来,可能是没有单倍型???对于有单倍型的,比如,对照中有这样的结果,我再计算case中的单倍型结果。得出这些数据后,我是再把数据导入到SPSS,运用卡方分析case control中数据是否有差异。可惜今天分析的结果都没有差异,奇怪为什么直接用plinkhaps命令结果有一个是单倍型显著的呢?(P=0.045)。

 

 



https://blog.sciencenet.cn/blog-797870-660094.html

上一篇:excel---txt--excel ---udedit 文件打开方式
下一篇:论文中可能用到的标点符号
收藏 IP: 125.90.59.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-28 03:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部