随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

十年课程的教材终于出版:《数字人文实战:网络数据库编程技术》(前言)

已有 1205 次阅读 2024-11-10 21:33 |个人分类:Computational Linguistics|系统分类:教学心得

640.png

这本书是在文学院汉语言(语言信息处理)专业开设了十年的课程《数字人文与数据库编程》的讲义修改而成。这门课由陈小荷教授到南师大任教后开设,采用的是号称数据库界瑞士军刀FoxPro 9.0。这个软件将数据库和编程完美结合,可惜微软在收购后停止更新,缺少大字符集和联网功能。从2013年开始讲授这门课以来,在编程语言和数据库做了大幅升级。笔者接手该课程后,不得不将将软件更新为Access2013,但其编程依赖Visual Basic,也有些小众,只适合作为数据的简单统计分析。为了解决编程需求,又引入了网络数据库MySQL和网站编程语言PHP,加上网页语言HTML和前端特效脚本语言Java Script,可以很好地完成数据库的构建、编程与可视化设计。在打磨了几年之后,基本上形成了以Access数据库入门,MySQL数据库进阶,SQL语言进行查询与统计分析,HTML进行网页设计,PHP进行数据库和网页交互,JS实现可视化特效并调用百度地图、ECharts做可视化的整体架构。

在课程的教学内容上,强调了语言信息处理,特别是中文古籍处理的需求,增加了汉字的字符集等内容。在练习素材上,选用文学院的学生喜欢的文史经典,例如《全唐诗》《诗经》《左传》等。学生在学习的时候,可以步步为营,从喜爱的作品入手,设计数据库的雏形,根据教学内容不断完善,从设计结构到丰富数据、标注数据、数据分析、可视化等。整个学期下来,每位同学都可以自己建设出一个功能较为完整的交互式查询与可视化网站。依托上课的内容,学生们申请了十多项大学生创新创业项目,其中优秀的成果也进行了转化,发表了十多篇论文,申请软件著作权十多项。

此番将讲义整理为教材出版,希望能为中文古籍的数字人文教学与研究带来一些参考,培养学生的数据整理、加工、分析与可视化的能力,并让他们在学习的过程中感受到从无到有地创造一个网站的乐趣。对于这本书的学习,想强调以下几点。

1)读者对象:以文科背景的学生为主。在教学内容上,不过多涉及计算机领域的复杂技术和术语,以原理和方法的介绍为主。

2)破除误解:文科学生进入计算语言学或数字人文之前,一定要先学好数学、语言学和编程能力,否则很难很难。如果按照这种思路,一个人必须得先拿到数学的研究生学历、计算机的本科学历和语言学研究生学历,甚至还要有一个文学或者历史方面的学位。这样算下来至少得三十岁才能掌握这些知识。笔者当年也面临着这样的困惑,陈小荷教授用一句话来点拨,人类的知识犹如大海,是学不完的。沧海一粟我取一瓢饮,根据你需要解决的问题来采撷。

3)学习方法:我们都希望尽可能地扩大自己的知识工具和技能,但这些能力并不是一定要经过非常系统地学习的。从道理上说,系统地学习效果会更好,但是从可行性的角度上来看这样非常耗时,即使各种知识都学会了,等到三四十岁的时候,可能问题本身都已经变化了,知识陈旧了、落伍了,而且缺乏应用驱动,我们可能早就心灰意冷、烦躁不堪了。所以,本书以操练为主,如果需要更多的编程技术,请参考书后的推荐书目。

笔者遇到过很多不同学科的研究生抱怨,不知道现在学这么多课,将来有什么用?这世界变化快,况且我们还需要升学,需要写硕士论文和博士论文。我们最需要的能力其实是能够快速地把握各种学科的最新进展,并且将很多新的思路和技术运用到自己的研究中去。即使理论和技术并不到位也可以通过合作的方式来进行研究。况且我们拥有计算机这样一个非常好的工具,许多学科的知识都已经形成了数据库和各种编程的工具包,不像十几年前很多东西都要自己从头开始写代码。

从专业背景上看,文科生更适合人文数据库的构建工作。数据库技术本身不是最难的,而是文理结合的方法与理路。计算机背景的学生,看似比文科学生更容易做好数据表的设计和编程工作,却由于缺乏领域知识而难以下手。在现实层面上看,文科背景的学者和学生才能建设出高质量的人文数据库。所以,文科生不必胆怯,也不必妄自菲薄,都可以做得很好。

在本书基本成形之后,20241月,我们在线上举办了数字人文系列讲坛·数据库编程应用八次免费课程,以本书的精简版作为授课内容,来自海内外43所高校的90多位同仁参加了课程,并且取得了很好的教学效果。经过十天的课程,学员们在线上汇报了40多个数据库平台,解决了很多文科博士生、硕士生在数据构建与软件平台搭建方面遇到的问题。感谢参加讲坛的主讲老师,北京大学王军教授、社科院民族所龙从军教授、华中科技大学唐旭日教授、南京大学邱伟云副教授、南京农业大学刘浏副教授。感谢参加课程的所有同仁,你们在很大程度上给了我们出版这本书的信心,能应用实践,能解决科研中的问题,方为出教材的初衷。感谢袁毓林教授给与的诸多指点,让我得以在澳门大学访问期间得以最后完稿。

感谢在本书的教学和写作课程中,为本书提供思路和反馈的所有老师和同学。感谢20132024学年数据库编程”“数据库应用”“数字人文与数据库应用三门课程的所有汉语言专业本科生、应用语言学研究生和旁听课程的同学。感谢诸位师生共同撰写、整理和校对书稿

笔者能力有限,也限于时间和精力,如有任何错误疏漏之处,还望读者海涵,可以发邮件进行讨论,非常感谢!

 2024610

金陵随园·澳大氹仔



https://blog.sciencenet.cn/blog-39714-1459425.html

上一篇:语言资源与计算人文研讨会总结
下一篇:参会心得——“五跨”语法研究会议开一派新风
收藏 IP: 121.225.210.*| 热度|

2 郑永军 史晓雷

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 10:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部