英论阁Enago官方博客分享 http://blog.sciencenet.cn/u/Enago

博文

从图表制作到数据设计和分析的数据处理实战能力

已有 874 次阅读 2022-7-20 15:39 |个人分类:学术科研|系统分类:科研笔记

数据处理包括图表制作能力和数据的设计和分析能力。它是科研人员的基本功,也是学术素养的重要组成部分。科研成果可以通过定量的(quantitative)数据和定性的(qualitative)内容(例如概念、方法、流程)予以反映。因此,数据处理方法涵盖定量化数据定性化示意图表这两大类别。数据的展示方式通常包括插图和表格。数据图表处理的原则包括准确、快速、提炼。数据图表处理方法包括示意图、Excel电子表格、MATLAB编程等。数据设计方法主要包括试验设计和蒙特卡罗模拟。数据分析方法包括误差分析、方差分析、统计分析、回归(拟合)分析、寻优、数据挖掘等。本文简要总结数据处理的种类、原则和方法

数据图是基于定量的数据做出的插图,包括散点图、折线图、柱形图、条形图、饼图、面积图、曲面图、气泡图、雷达图等。示意图是指不具备定量数据关系而仅具备定性内容的插图。示意图、数据图和照片构成了插图的全部种类。理工农医类学科多使用数据图表,而文史哲等学科则更多地使用示意图表。

数据图与数据表的主要区别在于数据图偏重展示数据之间的比较关系和走向趋势,而非强调显示数据的具体数值。数据表则偏重展示数据的具体数值,或展示比较不同类别或不同单位的数据。与文字相比,图表由于在形状、色彩、线条、指向和位置关系等方面具有优势而非常直观,能够让读者用最短的时间将内容理解得最为透彻。

数据图表处理的三大原则是准确、快速、提炼。准确不仅是指工作态度认真仔细,更多地是指在数据处理的操作方法上具有良好的习惯,从而在机制上消除出错的根源,具体包括分组对应的数据在位置分布上格式统一和整齐可比、数据说明齐全、公式采用蓝色标记等。快速不仅是指操作手法上的敏捷,更多地是指在数据作图的操作方法上需要制作插图模板,甚至编写Excel宏(Macro)指令,使得能够在一秒钟内快速生成几十张插图,并且在数据变更后能够快速反复使用作图模板出图。提炼是指不拘泥于原始数据的作图表达,而能够从数据中提炼出更为本质的或带有总结性的数据作为论据去支持论点。

在数据处理形式上,示意图和数据图是两类最常用的形式。示意图和数据图均须遵循学术图表的七大使用原则,即科学性、精选性、简洁性、自明性、辅助性、规范性、美观性(含清晰性)凡是遇到无需展示精确数字的场合,都可以考虑使用示意图来直观有力地表达,达到精简文字描述的目的。示意图主要包括PowerPoint中的SmartArt图形所涵盖的7类图形:列表(Blocks),流程(Flowchart),循环(Circulation),层次结构(Hierachy),关系(Relationship),矩阵(Matrix),棱锥图(Pyramids);以及其余4种使用专用软件制作的图形:词云图(Word Clouds),时间轴图(Timelines),节点网络图(Node-Link Network),地理图(Geovisualization)。示意图除了可以使用PowerPoint制作外,还可以使用Adobe Illustrator制作。

数据图的处理方法主要包括Excel电子表格和MATLAB编程作图。MATLAB具有强大的计算和作图能力,具体内容不在此赘述。需要指出的是,能够通过MATLAB编程将大量数据和插图自动生成到Excel文件中,极大地提高数据处理速度。由李云雁和胡传荣编著的、由化学工业出版社于2005年出版的高等学校教材《试验设计与数据处理》的第10章“Excel在试验数据处理中的应用”简要系统地总结了Excel的数据处理功能,包括图表制作、内置函数计算(用于统计计算,避免查表的麻烦)、方差分析工具和回归分析工具及其分析工具库等。

数据处理能力除了前述的图表制作能力外,还包括数据设计能力数据分析能力。数据设计主要包括试验设计(Design of Experiments,简称DoE)和蒙特卡罗模拟(Monte Carlo simulation)。数据分析具体包括误差分析、方差分析、统计分析、回归(拟合)分析、寻优、数据挖掘等。作图能力着重于可视化表达。数据设计和分析能力着重于试验策划、揭示数据之间的因果依变关系和寻找最优解;它们是最重要的科研能力之一。

数据可以分为确定性数据非确定性数据(概率性数据)。确定性数据由一个值代表,例如无随机误差的模拟计算数据或经过3次平均的带有误差的实验数据。概率性数据由一条曲线代表,横轴是参数值,纵轴是概率密度(即参数值出现的概率)。概率性数据可以由拟合原始数据的概率分布函数的因子值确定(例如正态分布的均值和标准差)。概率性数据比确定性数据更为复杂,但在揭示数据发生的可能性方面更加科学合理,能够根据事件发生的概率进行分析,避免过度设计或设计不足。蒙特卡罗模拟是设计和分析概率性数据的主要手段。

数据设计的目的是用最少的数据(即最小的代价)获取足够多的信息,建立因子与响应之间的关系,并寻找最优值。因子是输入的自变量,包括可以人为改变的控制因子和无法人为改变的噪声因子。响应是输出的因变量。数据分析的目的是揭示误差根源和模型的准确性,并建立数据之间的依变关系,从而达到预测或寻优的目的。试验设计是确定性数据设计的主要手段,包括全析因设计和部分析因设计。部分析因设计包括正交设计、传统设计、拉丁超立方设计、均匀设计。拟合方法主要包括具有明确的函数关系式的响应曲面方法和“黑箱式”的神经网络等。

方差分析(ANOVA)是一种统计假设检验,广泛用于数据分析。统计假设检验是一种根据数据进行决策的方法。测试结果(通过原假设进行计算)如果不仅仅是因为运气,则在统计学上称为显著。统计显著的结果(可能性的p值小于临界显著值)可以推翻原假设。原假设是假设所有数据组都是整体测试对象的完全随机抽样,即假设所有方法都具有相同的效果(或无效果)。

数据挖掘(data mining)是与数据设计相反的概念,是指从已有的因果关系不明的数据(例如互联网大数据)中通过统计概率、专家系统、决策树、神经网络、遗传算法、关联规则、聚类分析、自然语言处理、模式识别、异常检测等人工智能和机器学习算法归纳出因果关系,从而达到预测和寻优的目的。简而言之,数据挖掘就是从一堆数据中找出输入与输出之间的关系,然后根据新的输入预测输出。数据设计则是基于预设因子来人为设计试验并产生响应数据,然后拟合假设的模型。相比之下,数据挖掘是在预先并不知道控制因子和噪声因子是什么却已经获得响应数据的情况下(例如电商销售数据),通过算法自动寻找因子,对数据进行聚类和分类,搜索数据中隐藏的因果关联规律,并建立拟合模型进行预测和寻优。可以这样说,数据设计是主动的因果关联构造,而数据挖掘则是被动的因果关联搜索。数据设计更多地发生在容易控制的科学试验中(例如发动机的排放研究),而数据挖掘更多地发生在无法控制的客观行为或自然现实中(例如销售数据或自然灾害数据)。

最后,所谓的数据融合(data fusion)是将多个信息系统的数据融合在一起,形成更加完整而准确的模型,例如融合两个卫星搜集到的导弹运动轨迹数据。数据融合主要用于图像或网络领域,例如多源影像复合、机器人和智能仪器系统、战场和无人驾驶飞机、图像分析与理解、目标检测与跟踪、自动目标识别等。


*除了数据处理外,还需要清晰明了的学术表达。学术中的语言难题就交给英论阁博士硕士学科专家,2000+名母语编辑、平均19.4年经验,为您的SCI发表之路保驾护航!科学网读者专属润色9折

115425h2d2xd8vjtq3sv28.png

英论阁英文润色 术翻译  期刊投稿支持

请关注英论阁微信公众号
EnagoChina

image.png

更多科研出版干货就在
SCI论文学术交流平台
EnagoAcademy


EnagoSubscription.jpg




https://blog.sciencenet.cn/blog-681387-1348118.html

上一篇:盘点11种示意图在学术论文中的用法
下一篇:科研经费申请的预算制订原则及申请失败的十大原因
收藏 IP: 118.247.185.*| 热度|

1 强涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-9-30 23:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部