崔垚的GIS分享 http://blog.sciencenet.cn/u/cui99515158

博文

[转载]DesktopGarp User Manual

已有 6546 次阅读 2010-8-5 15:19 |个人分类:小软件|系统分类:教学心得|关键词:DesktopGarp| DesktopGarp |文章来源:转载

DesktopGarp User Manual 翻译(-)
2009年11月24日 星期二 22:46
GARP,Genetic Algorithm for Rule-set Production. 遗传算法.
最早由ERIN Unit of Environment Australia 的David Stockwell开发出来,并由San Diego Supercomputer Center予以完善.可以Biodiversity Species Workshop网站找到相应的版本.
GARP是一种可用于创建物种的生态位模型的遗传算法.它可以描述出物种维持其种群数所需的相应的环境条件.GARP需要的输入文件包括:已知物种分布点坐标,代表环境参数的地理图层).
GARP用迭代法按照各种不同的规则,寻找某区域物种存在与否与环境参数值间的非随机相关关系.每个规则都以不同的方法来构建物种预测模型.当前有四种规则:atomic(微粒?这个是什么), logistic regression(逻辑斯蒂回归), bioclimatic envelope(生物气候包络) 和负(非)生物气候包络规则. (在GARP Technical Manual and Users Guide)中,有对这四种规则的详细介绍,(没找见)
DesktopGarp用户界面(简称DG)相对简单.它只有一个窗口需要用户指定所需的参数和数据.如图:
 
点击upload data point按钮来加载物种分布数据.DesktopGarp支持三种数据格式:以逗号作为分隔符的txt、xls和SHP.
其中txt和xls文件需要包括至少三列:物种名,经度,纬度.在读取文件时会忽略掉第一行,因此可以在第一行中写下列名.(三列的顺序不能颠倒,否则不能识别).每一行代表一个分布点位,同一物种的分布点放在一起.下图例:
 
其中ESRI的SHP中需要有物种名属性字段,并且应该是点SHP.
在list box中会列出已加载的所有物种分布数据以及它们所包含的点数.勾选在实验时需要使用的数据即可.
在list box的右边可以对物种数据进行拆分, 输入训练数据百分数值或者同时输入最少训练数据即可.(训练数据指用于构建模型的数据,对应于测试test数据,即不参与模型构建,但参与模型效果评估).如果输入100%的训练数据则模型结果不进行显著性检验.最小训练数据数比百分比数据更具优先性,在n*x%<最小数时,参加模型构建的点数量以最小数为准.通常最小训练数不应该小于20,否则将无法取得较好的结果.
最优参数(optimization parameters)
该项用以指定控制遗传运算的参数.示例如下:
 
Runs per experiment:每个任务运行的次数。如对两个物种每个任务运行10次,那么总运行次数就是20
Convergence limit:收敛限制,即任务终止的条件。该参数根据问题的难易而异。通常取0.01-0.1之间的值。如果将该参数设为0,则在任务重复次数达到最大值的时候才停止。
Max iterations: 最大重复次数,任务终止的另一参数,当运行次数达到该值时,就算未达到收敛限制值,任务也将强制停止。重复次数越多,获得的结果将越稳定,通常取100-1000之间的值。
rule type用于指定以何种规则来运行物种模型。在David Stock well的GARP Technical Manual and Uers Guide中有各种规则的详细说明。
勾选all combinations项,则表示上述选中的规则的各种组合方式都运行一次。如选了1(range),2(logit),3(atomic)三种规则,则将运行的规则组合有:1、2、12、13、23、123。每种规则运行n(n为由optimization parameters决定的运行次数)次。
Environmental layers: (环境图层)(又叫native range datasets)
在该界面选择要引入模型的环境变量图层。运算法则将会寻找物种存在点数据和这些环境变量间的关联来进行最后的预测。
在layers to used框中勾选需要的图层。显示的图层可以通常菜单栏中datasets->scan directory来打开。
Desktop带有示例数据Sample Dataset,其默认存储路径为:c:Program FilesDesktopGarpSampleDataset.
在how layer will be used项可以选择图层的使用规则:
1)  all selected layers:强制使用所有选中的图层。
2)  all combinations of selected layers:每个任务都要对每种图层组合运行一次;如果图层组合方式有m种,则上例中,运行次数将增加到n*m.
3)  all combinations of size():限制每个任务运行时使用的固定的图层数;
其中后两项可用来查找对物种最重要的环境变量。如分析线性多元回归的预测误差值(omission and commission),决定是否把某环境变量层作为自变量引入任务。(The last two alternatives using combinations of layers are useful for determining which layers are important to a species. A method for analyzing that would be using linear multiple regression to predict the error values (omission and commission), using the information on whether a particular layer was used on a task as an independent variable.)[PS:根据最后输出结果的xls的指标值查找结果较好的图层组合]
Note: 选用图层组合可能会导致每次实验的任务运行数过大。在选定组合数后可查看到需要运行的总次数。经测试发现DesktopGarp可支持每次实验中运行10,000次任务。
Output parameters:指定输出的文件格式,有:bmp(纯图片格式), ascii栅格,ARC/INFO Grid,可复选,并为每种格式设置不同的路径。如果没有装ESRI library的GRID I/O library,则最后一项不可用。修复步骤为:
1)  安装ESRI ArcView GIS.
2)  安装ESRI 空间扩展模块(Spatial Analyst Extension),在自定义安装时注意选中GRID I/O项。
3)  把GRID I/O添加到系统路径中:
XP系统:右击“我的电脑”/环境变量/,在“系统变量”项,选中PATH双击。把ESRI ArcView bin32的目录添加进来,用;与已有的路径隔开。以默认安装路示例,把  ;C:ESRIAV_GIS30ARCVIEWBIN32  添加。注意不要删除已有的路径,否则可能会导致某些软件不可用。
在输出目录DG还会保存一个重要的文件.xls。该文件记录了所有任务的统计值,错误信息,统计检验、精度等等。在Results Table项中会详细解说。
输出bmp和asc格式的文件直接存储在指定路径。而对ARC/INFO GRID文件,由于受到ESRI限制,会分存到多个子文件夹中,每个子文件夹最多存储100个GRID文件,子文件夹分别以grid000000,grid00100,grid00200….命名,如grid00100子文件夹中存储的是第100到200个任务的运行结果。
Projection datasets:指定实验数据的投影。
在每个任务运行完后,DG(DesktopGarp)将使用获得的规则对指定区域进行预测。同时,它对环境变量所在的区域会自动进行预测.可以通过add 和remove钮来添加和移除要预测的区域。该项使得DG在查找入侵种,气候变化或时间序列分析时,能取得很好的效果。
--------------------------------------------------
自此,开始DG的另一部分:Data Manager(DM),创建自定义数据集
Data Manager的界面如下:
 
Dataset info:数据集信息。用户自定义输入关于各数据集的描述信息。其中最重要的信息是identifier和Tile。主要用于浏览时对数据集(dataset)进行识别。Envelope和matrix显示的是选中数据的范围和栅格大小,行列数。
环境图层信息用以给当前数据集(dataset)的每个图层(layer)设置单独的遗传元数据。
Layer list显示当前数据集中所有可用的图层。有两个常规的图层和一个mask图层(估计这里说的是示例数据?)。可以通过下方的上下按钮手动调整图层顺序。
要创建DG数据集,则图层应该是以ASCII Raster Grid格式的数据。并且所有的.asc图层必需要放在同一目录,有相同的地理范围和单元格大小。因为当各图层进行叠加时,需要它们的单元格能完美匹配。
Note : 可以用DG安装包里自带的ESRI ArcView的扩展模块将ArcView的栅格转为DG可识别的ASCII Raster grids文件。该扩展模块的默认路径是:C:Program FilesDesktopGarp。将目录下的GarpDatasets.avx复制到ESRI ArcView ext32所在的目录(默认路径是:C:ESRIAV_GIS30ARCVIEWEXT32。现在arcgis的toolbox里有Raster to ascii功能可以直接用来转出asc文件,貌似就不用复制这个东西了)。然后在arcview中的project的file/extensions菜单下勾选上GarpDatasets扩展。这样在view下会多出一个Garp 项。
将环境变量(asc),从Data Manager的load layers->from Ascii Raster Grids菜单进行加载,将自动把asc转换成DG可识别的格式。 [PS:不要用下边的‘+’,会弹出run time error‘5’: Invalid procedure call or argument~~因为用ArcGIS转出的asc还必须经过一次加载,自动转换成.raw才可用的缘故],加载进来的文件可以在layer list中看到。文件加载转换的时间依据文件大小而定。
Note:为了对研究区域进行限定,必须创建一个mask.asc文件,在研究区外取no_data值。如果你的layer本来在研究区域外就没有值,则可以将其复制并重命名为mask.asc。Dataset Manager会自转将其转换并作为其它图层转换的mask使用。
在加载进所有图层后,点击file->save,存储为一个dataset,并输入文件名。存储路径与原asc文件必须一致。这样,自定义的dataset就可以在DG中使用了。
DesktopGarp User Manual 翻译(二 )2009年11月24日 星期二 22:47Results: (终于进入结果讲解,鼓掌):执行完后,DG会根据设置的不同而输出不同的结果,主要包括预测图和结果表格。(在前文已经说过)

无论是哪种输出格式(bmp, asc,grid),都是对物种地理分布预测的图形表达。

Note:对输出结果往往还需要进一步的分析处理以获得更高精度更可信的结果。虽然每个任务都可以生成一个好的预测结果图,但也有因为某些结果取的是局部最优从而降低了预测质量。为避免该缺陷,可以用下文将会提到的方法进行处理:

Bmp格式的图片是不附带地理信息的,不适合做进一步分析。但可以用图形查看工具查看各任务的结果。

其它两种格式的文件都可以直接在ESRI或者别的GIS软件中查看分析。(所有格式的文件存储文件夹应该事先创建好。)

Results Table.(结果表)

实验包括它每个任务(task)的所有信息都存储在结果表里。如图示例:





第一行是列名,其下每一行都记录一次任务的信息。表中每列的解释如下:

Task:每次任务的序列号(或者说ID)。对应于每张预测图名。

Run:一组任务中以同样的输入参数运行的任务的序列号,例:如果在optimization parameters界面输入的run per experiment输入数为5,则每个任务(即相同的输入参数)将重复运行5次。而这5次任务每次都将获得一个序列号,分别为1-5。在该列的信息即是这个序列号,当运行时使用的参数相同时,run的值代表的序列号就相同,但task则是每运行一次,序列号自动加1.

Species:物种名。

Atomic Rules: 表明实验中是否有使用atomic 规则。0(false,否)1(true,是)

Range Rules、 Negated Rules、Logit Rules(同上)

Iter. 每一任务的重复数。通常由optimization parameter中的maximum number决定。但如果先达到了收敛限制值的话,该值将低于最大重复值。Because the final iteration sums up optimization results, this column often brings the maximum number of iterations plus one.---在完成重复数(run per experiment值)后会将所有最优结果求合再运行一次,所以该列的值实际上是最大数+1!

Conv. 每一任务结束时的收敛控制变量值。如果任务结束时达到了限制值,则该值会比收敛限制值略小。如果任务结束是因为先达到了最大重复次数,则会比收敛限制值大。

[也就是说收敛限制和最大重复数谁先达到就以谁为准]

CEF: 未使用(@_@,晕菜,帮助文档居然给这种解释~如果使用了的话它代表的是什么?N/A代表的是未使用的意思?)

Train Acc:根据训练数据点计算的精度值。计算式为:(a+b)/(a+b+c+d),式中各字母的含义在下文会解释;

Pr :Pr/Ac :Pr 输入的物种存在点(实际存在点)文件中,被模型预测结果为有的点数。(分别代表 预测:有/真实:有)即此时模型成功预测。该值就是上式中的a值。[相当于实际为有,预测也为有的单元格数值]

Pr :Ab/Ac :Pr (预测:无/真实:有)。即,模型的预测结果错了。该值代表的是真实错误(real error)由模型模拟质量太差,或者是对物种记录的错误引起。这是当前DG版本只能使用存在数据所容易产生的数据。该值即上式中的c值。

Pr :Pr/Ac :Ab(预测:有/真实:无)。这种情况粗下结论的话是代表模型错误。但是,在只能使用物种存在数据的情况下,这种情况的出现也可能是因为研究区域内样点数据不足而引起。如预测为有的点确实适合物种生存,但该点的信息无法采集。该值是上式中的d值。

Pr :Ab/Ac :Ab (预测:无/真实:无)即上式中的b值。

Test Acc :测试精度。即使用测试数据计算出的精度。计算式子同训练精度。

Total area : 非masked区的总单元格数。

Presence Area :预测图中为“有”的单元格数

Absence Area :预测图中为“无”的单元格数(PS:单元格数*cellsize即面积)

Non-predicted Area : 运算规则无法确定是否有物种存在的区域的单元格数,即,没有找到能适用于该区域的规则,则未进行预测的区域面积.

Yes : 落在“有”区域的测试点数。

No :落在“有”区域外的测试点数。即判断预测结果图上,测试数据是否落在"有"区域的判断

ChiSq:计算卡方检验值的中间值(what’s this ?卡方值,查表可以得出卡方检验的显著性,即查P值.)。

P: 可能是随机预测的卡方检验概率,即,由每次任务生成的,与随机生成的,预测图,具有相似的正确预测点值的概率(我没懂,有人看懂了请帮忙解释下):Chi-square test. Probablility of a random predictions being similar, that is, having the same number of correct predicted points as the one generated by GARP on that task.(由于GARP预测的不稳定性,同一任务会重复多次(在Ite里有记录)然后将多次的结果综合,最后得到该任务的结果,而这个P值则是作为这些多次结果的相似性的一个评定值,总的来说,越大越好)

Commisssion:百分比值,应该是预测为"有"的单元格里,非记录值/预测为有的值的百分比。(Percentage of the prediction area that exceeds the recorded occurrence)

Omission(int): 内在冗余,训练数据被预测忽略的百分比。即实际记录为有但预测为无的百分比。

Omission(ext): 外在冗余,测试数据被预测忽略的百分比。即测试数据中有而预测为无的百分比。(omission值反正是越小越好.int和ext接近,则表明它较稳定吧?)

Status: 任务状态,有“waiting to be processed, 待运行”、“Successfully, 完成”、“faild: 运行失败”

Message: 相当于备注信息,对状态进行解释的文字。

Layers: 用以指明该任务所使用的是哪些图层。分别在图层名后标出0(false)或1(true)

 

Methods(终于轮到弥补DG缺点的方法上场了)

该节介绍了生态或者生物学方面使用DG进行的研究方法。更全面和正式的DG应用讨论可查看bibliography.

Native Range Distribution(这个是指区域分布,即上文的环境变量?)

DG主要用于预测物种的分布区域,有多种不同的方法:

首先,设置DG参数运行一个任务(一个task代表一组参数组合)。该结果将得到一张预测图。类似于David Stockwell在San Diego Supercomputer center的GARP web interface(即网页版的GARP)。

这样做的缺陷是,GARP可能在执行时会由于侧重于局部最优,而导致总的预测质量降低。因为DG运行的时候取的是算法最优。

解决方法之一是设置每个任务重复运行数。(即runs per experiment值。)这样DG将对每个任务(每一固定参数组合)都会产生一系列结果。然后再将这一系列结果在GIS中叠加求和。虽然有时GARP可能会不稳定,但当同一任务运行多次后,对一些区域的预测结果会非常稳定。而其它的区域预测则不那么频繁。对多个结果求和可以降低由最优问题而引起的预测偏斜。[Then, using a GIS, the user can stack the results together, summing the resulting grids into a result dataset. Although GARP can be unstable sometimes, when the same task is run several times, GARP often predicts values for some areas in a very stable manner. Other areas are predicted with less frequency. Adding up many results decreases the chance of skewed results because of optimization problems.]

也有其它更好的方法来预测物种分布区。如,由A.T. Peterson提出的最佳亚选择方法(best subset selection)以及其它由E.Wiley和McNyset提出的统计方法ROC分析。详见bibliography。

环境变量选择(environmental layers selection)

DG的另一个功能是可以找出对指定物种更为重要或影响更为显著的环境变量。该操作被称作environmental layer jackknifing.(具体做法居然是在DG的enviromental layers界面的下方那三个选择不同环境变量图层的组合项!)

通过对各图层组合运行多个任务(使用所有图层或部分图层),用户可以用多元线性回归对实验结果进行分析,查看各环境变量是否对物种分布有显著影响(即各变量的t检验)

DG结果输出的文件格式进行多元线性回归分析非常方便。详细参见layers 列(说的是那个xls表的layers列,0或1代表有没使用,取出使用的图层的属性值作自变量)通过多元线性回归可进一步查看预测模型中各自变量的精度和误差。When the experiment is finished, DesktopGarp stores values on the layers columns, which can be 0 or 1, indicating whether the specific layer was used on the task. Those values can be used as independent variables on a multiple linear regression analysis. These values can be used to predict some of the accuracy and error values.

通常使用commission和omission作为因变量,而不用精度值作因变量。因为精度值混合了commission和omission值,而它们反应的是不同的误差。

接下来逐个图层分析,看引入某图层是否有显著的正/负相关关系(与误差errors)

然后用上述分析的结果(即对误差有显著影响的图层,最小的omission, 能把commission保持在相对合理的水平)再次实验。

在bibliography或links中有关于omission和commission误差和物种的预测模型概念更详细地讨论。

Note: 当图层数量很多时,如果再选用不同图层组后,则会导致运行次数剧增为图层的指数/对数倍。要注意的是目前的DG版本在标准的工作站中一次实验只能支持最多2000-10000次。(要运行更多次数敬请关注下一新版本,嘿嘿)

Rule Type Selection(规则类型选择)

要选择好重要的图层后,接下来对各物种最适用的规则(rule)进行筛选:

在开发DG期间,进行过很多次试验,用该方法来辨别各规则相对不同物种分布预测的重要性。结果显示atomic rules在多数情况下比其它三种规则的效果差,但并不能否认很多情况下atomic rule仍是可以取得很好结果的。

DG存在的问题:1)在某些系统DG无法正常安装和使用。通常是因为缺少动态链接。如win98。目前正在开发补丁-_-..2)实验运行时出现内存溢出导致系统内存浪费(win98上出现)。通常是运行次数大于2000以后出现的。解决方法:在实验需要过多的系统内存时,强行中断实验,并关闭应用程序再打开,点击model菜单下的Run unfinished experiment即可。

Bibliography
GARP Algorithm
Stockwell, D. R. B. 1999. Genetic algorithms II. Pages 123-144 in A. H. Fielding, editor. Machine learning methods for ecological applications. Kluwer Academic Publishers, Boston.

Stockwell, D. R. B., and D. P. Peters. 1999. The GARP modelling system: Problems and solutions to automated spatial prediction. International Journal of Geographic Information Systems 13:143-158.

Stockwell, D. R. B., and I. R. Noble. 1992. Induction of sets of rules from animal distribution data: A robust and informative method of analysis. Mathematics and Computers in Simulation 33:385-390.

Application

Anderson, R. P., M. Laverde, and A. T. Peterson. 2002a. Geographical distributions of spiny pocket mice in South America: Insights from predictive models. Global Ecology and Biogeography 11:131-141. (*)

Anderson, R. P., M. Laverde, and A. T. Peterson. 2002b. Using niche-based GIS modeling to test geographic predictions of competitive exclusion and competitive release in South American pocket mice. Oikos 93:3-16. (*)

Anderson, R. P., D. Lew, and A. T. Peterson. In press. Evaluating predictive models of species' distributions: Criteria for selecting optimal models. Ecological Modelling, v. 162, p. 211 232. (*)

Chen, G., and A. T. Peterson. 2000. A new technique for predicting distributions of terrestrial vertebrates using inferential modeling. Zoological Research 21:231-237.

Chen, G., and A. T. Peterson. In press. Prioritization of areas in China for biodiversity conservation based on the distribution of endangered bird species. Bird Conservation International.

Feria, T. P., and A. T. Peterson. 2002. Using point occurrence data and inferential algorithms to predict local communities of birds. Diversity and Distributions 8:49-56.

Godown, M. E., and A. T. Peterson. 2000. Preliminary distributional analysis of U.S. endangered bird species. Biodiversity and Conservation 9:1313-1322.

Papes, M., and A. T. Peterson. In press. Predictions of the geographic course of the invasion of Ageratina adenophora in China. Journal of Wuhan Botanical Research. (*)

Peterson, A. T. 2001. Predicting species' geographic distributions based on ecological niche modeling. Condor 103:599-605.

Peterson, A. T., L. G. Ball, and K. C. Cohoon. 2002a. Predicting distributions of tropical birds. Ibis 144:e27-e32.

Peterson, A. T., and K. C. Cohoon. 1999. Sensitivity of distributional prediction algorithms to geographic data completeness. Ecological Modelling 117:159-164.

Peterson, A. T., M. A. Ortega-Huerta, J. Bartley, V. Sanchez-Cordero, J. Soberon, R. H. Buddemeier, and D. R. B. Stockwell. 2002b. Future projections for Mexican faunas under global climate change scenarios. NATURE 416:626-629.

Peterson, A. T., V. Sanchez-Cordero, C. B. Beard, and J. M. Ramsey. 2002c. Ecologic niche modeling and potential reservoirs for Chagas disease, Mexico. Emerging Infectious Diseases 8:662-667. (*)

Peterson, A. T., V. Sanchez-Cordero, J. Soberon, J. Bartley, R. H. Buddemeier, and A. G. Navarro-Siguenza. 2001. Effects of global climate change on geographic distributions of Mexican Cracidae. Ecological Modelling 144:21-30.

Peterson, A. T., J. Soberon, and V. Sanchez-Cordero. 1999. Conservatism of ecological niches in evolutionary time. Science 285:1265-1267.

Peterson, A. T., D. R. B. Stockwell, and D. A. Kluza. 2002d. Distributional prediction based on ecological niche modeling of primary occurrence data. Pages 617-623 in J. M. Scott, P. J. Heglund, and M. L. Morrison, editors. Predicting Species Occurrences: Issues of Scale and Accuracy. Island Press, Washington, D.C. (*)

Peterson, A. T., and D. A. Vieglais. 2001. Predicting species invasions using ecological niche modeling. BioScience 51:363-371.

Stockwell, D. R. B., and A. T. Peterson. 2002a. Controlling bias in biodiversity data. Pages 537-546 in J. M. Scott, P. J. Heglund, and M. L. Morrison, editors. Predicting Species Occurrences: Issues of Scale and Accuracy. Island Press, Washington, D.C.

Stockwell, D. R. B., and A. T. Peterson. 2002b. Effects of sample size on accuracy of species distribution models. Ecological Modelling 148:1-13.





http://blog.sciencenet.cn/blog-448359-350243.html

上一篇:[转载]全球高精度DEM免费下载
下一篇:[转载]ArcInfo workstation命令行列表

0

发表评论 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-12-15 03:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部