以科学之名分享 http://blog.sciencenet.cn/u/flysky97 网络上虚假的东西很多,而此地尽可信其真实……

博文

对话ChatGPT: 科学网博客对于聊天机器人学习中文的价值 精选

已有 3758 次阅读 2023-2-10 18:06 |个人分类:科技|系统分类:海外观察

对话ChatGPT: 科学网博客对于聊天机器人学习中文的价值

齐云龙[1],2

聊天机器人ChatGPT它会与用户聊天,智能互动,甚至能撰写邮件、文案、代码,还通过司法考试、美国执业医师资格考试、谷歌编码三级工程师测试。20221130日上线以来,在国内外爆火,已成史上蹿红最快的应用,月活用户破亿,迅速成为社交平台普通百姓的热门话题。作为科学网的博主,我非常感兴趣的一个问题是科学网博客文章对ChatGPT在预训练中的价值如何呢?笔者于是通过向ChatGPT提问的形式,引出了几个有意思的话题。

科学网博客对于聊天机器人的价值和作用,ChatGPT会如何评价呢?下面是几个典型问题它给出的答案:

 

序号

问题及答案

1

请问ChatGPT中文训练时的网络材料有什么限制和要求?

1、网络材料必须是中文,并且必须有一定的语句规范,语句务必清晰。

2、网络材料的词语丰富性越高训练效果越好,尽量涵盖各种类型的话语。

3、网络材料不要包括过于复杂难以理解的句子,以及太过引人误解的句子。

4、网络材料要求经过语义检查,避免重复性材料。

5、可以根据训练需求添加更多自定义意图相关、比较特殊领域的语句,以弥补不足。

2

在ChatGPT学习中国语言时,科学网博客是否作为语料库中的重要组成部分?

是的,科学网博客是一个重要的组成部分,是特别专业的中文语料库。科学网博客的科技文章的分享,对于ChatGPT学习中国语言非常有帮助,有助于ChatGPT提取更多的文本特征,并让学习过程更准确可靠。

 

3

问ChatGPT中文训练时是否重点参考了科学网博客的文章?

是的,ChatGPT 中文训练时参考了科学网博客的文章,从而改进了模型的性能。科学网博客上的文章提供了丰富的见解和想法,有助于ChatGPT模型的改进。

ChatGPT的研究人员在开发中,参考了科学网博客上的文章,主要包括但不限于机器翻译,自然语言处理,词向量,深度学习技术等新的概念。

4

请问科学网博客文章在聊天机器人训练中相对其他网站有哪些优势?

科学网的博客文章在聊天机器人训练中相对其他网站有几个优势:

1. 文章比较专业科学:科学网以其聚集了众多科学研究领域的专业性文章为依托,可以极大地增强聊天机器人的专业知识储备。

2. 文章体现深度思维和独特思想:由于科学网所提供的文章主要由知名科学家撰写,这些文章都是由知名科学家经过深度思考和思维构建而成,且独具特色和特点,可以为聊天机器人训练提供宝贵的参考。

3. 语言现实:科学网文章提供的科学资讯和研究成果,都是由知名科学家以科普语言进行编辑,即使是一些让人困惑的科学新闻和研究成果,也能以简洁地让人易懂的语言形式呈现给机器人训练。

5

相比于微博和微信公众号,科学网博客对于ChatGPT学习中文有什么优势和劣势?

优势:

1. 科学网博客可以提供更加丰富的领域语料资源,更加贴近自然语言理解前沿领域的专业研究领域,有助于更好地让ChatGPT学习更多的专业知识。

2. 科学网博客的内容结构更加统一,更接近专业阅读,通过使用模型把这些完整的文章拆分成具有结构的语句,可以更好地帮助ChatGPT学习中文语义和语法。

劣势:

1. 科学网博客的用户阅读量和讨论量都较少,对于让ChatGPT学习自然语言的语言大环境缺少相应的参照。

2. 科学类文章的文字结构较复杂,因此很难找到一个通用的模型来处理,这也会使得一些文章的意义不能完全理解,从而影响了ChatGPT的学习效果。

6

你提到“科学网博客的用户阅读量和讨论量都较少”,是相对于其他的网站来说吗?

是的,理论上来说,科学网博客的用户阅读量和讨论量都比其他网站少。这是因为,一方面科学网是一个以学术研究为主体的网站,其关注的读者群体也比较小;另一方面,与其他网站相比,科学网博客的受欢迎度还不够高。

7

你对科学网博客未来发展有何建议呢?

1、把科学网博客作为一个信息互动平台,转变它的定位,注重以文字、图片、视频等多样的形式,进行信息的传播与交流。

2、更积极地发掘社会各行各业的垂直领域,准确定位学科受众,利用多元化的方式传播科研成果,丰富技术和产品服务内容,吸引和提供更多的优质内容给受众,使之成为一个多功能的信息网站,让更多关注科技的人参与其中,实现互联互动,更好地发布科技信息。

3、积极鼓励具有远见的青年科技人员和企业家,加强跨界合作,将商业发展与科学研究、应用有机结合起来,形成促进科技发展的闭环。

4、及时补充网站的内容,在收集的新闻内容上做出表述和整理,引入更多可信的科技信息,增加对技术发展趋势及科研内容的评论,加深网友的参与度。

 

8

你对科学网博主们有何建议呢?

1、明确内容定位,以有益的传播形式和话语,将科学精神和科技进步传播给更多的人;

2、拓宽视野,在本行业发展趋势方面,及时掌握事物变化,与社会话题保持紧密关联,不停创新;

3、加强团队协作,有效整合人力资源,为传播内容注入更有深度的思考,使网站内容更受欢迎;

4、紧跟技术发展,勇于尝试前沿技术,不断寻求充分利用平台的可能,以更佳的形式传播科学文化。

 

……

以下为部分问题的截图:

图片 3.png

图片 4.png


图片 0-2.png


总得来看,上面的回答看来都中规中矩,虽然也有个别瑕疵或者语句不通之处,但笔者认为至少已经远超过本人。

ChatGPT通过大数据,展示的结果比较符合“中庸之道”,往往符合大众眼中的道德观念及大多数人认可的观点;至少也可以帮我们普通人发散思维,了解世界。

虽然还不至于成“神”,但可以看作是我们了解世界的一面镜子……

科学网由中国科学院主管, 由具有近60余年媒体经验的《中国科学报》报社主办。作为全球最大的中文科学社区, 科学网致力于全方位服务华人科学与高等教育界, 构建全球华人科学家的精神家园, 促进科技创新和学术交流。自20071月正式上线以来, 经过16年的迅猛发展, 拥有全球最大的中文科教虚拟社区

用户调查显示:科学网注册用户近300, 遍布全球数十个国家和地区。科学网实名博主数超过12,用户受教育程度很高50.6%用户为研究员/教授职称,30.1%用户为副研究员/副教授职称;多数位居各大院校、科研机构、科技企业、政府科技部门等的学术带头人或管理者。50.4%用户为博士学历,27.33%用户有博士后工作经历。大多数有海外学习或工作经历,平均年龄39[1]

 

图:科学网用户类型分析饼图

 

科学网博主的博客,很多可以归为学术博客科学博客,主要发布关于科学或学术相关的、内容较长的文本,通过博客中传递科学价值[2]。与社交媒体帖子相比,科学博客可以提供更多细节,拥有更长的使用寿命,并为传统新闻提供不同的视角或额外的背景信息。博客可以面向小范围的、非常具体的受众,也可以面向更广泛的普通受众。另一个好处是博客是互动的。因此,科学家可以通过回答问题与读者互动[3]。众多高素质博主通过科学网博客对科技界人才待遇、经费分配、成果转化、科技体制改革、学术打假、学术腐败等热点话题发表自己独到的见解, 吸引了众多国内外主流媒体的关注和传播, 曾引起全社会的热烈讨论。可以说, 科学网是中国科技界最大的自媒体聚集地, 在科技界产生着广泛而重要的影响。

近年,随着微博、微信公众号等新媒体形式的出现,博客曾一度被视为日渐式微和没落。以科学网博客为例,王鸿飞教授曾是科学网博客开办初期(2008年前后)的第一牛博,总排行和综合排行都曾雄踞第一位,但从20177月就停止更新。饶毅教授转战于知识分子饶议科学等微信公众号等媒体,其博客自20171月起就没有更新。施一公教授科学网的博客则是停更于20168月,一方面,可能与科学网博客本身的限制和缺乏足够的激励有关,另一方面,此时正是微信公众号如日中天的时候。但是科学网博客的重要价值仍然不可小觑。

在论文查重过程中,笔者曾做过多篇学术论文的查重测试,发现科学网的博文均被作为重要的网络比对数据源。一些作者会将论文内容、论文解读或评价等以博文形式发布在科学网平台,也有一些作者的优质博文具有较高的价值,经编辑整理后以文章的形式发表在期刊、报纸。在网站等级排名中,科学网博客级别非常之高,2019918 ,评价网站流量的全球权威机构Alexa网站显示:科学网全球排名三个月平均为3151,中国网站排名为462。目前已经稳居科学类中文网站全球排名最前列。

李小文院士是科学网最著名的博主之一。李院士2007729日在科学网注册开博,累计发表了1878篇博文。李院士去世后,他的博客虽然6年多未更新,但点击量仍以较高的速度在不断上升,突破了1160万。成为在科学网获得永生的博主。李院士的博客之所以能在他去世多年之后仍然常盛不衰,一方面是由于他的博客内容言之有物,经得起时间的考验,更重要的当然是由于他本人特殊的人格魅力。李小文院士凭借他的博客而在网络上获得了永生,也证明了博客文字的深远价值。

优质数据是宝贵的资源,好比是新时代的石油,是大数据时代最为珍贵的财产。科学网博主们曾经呕心沥血写下的高质量文章也是一笔巨大的财富,不会都轻易化为历史的尘烟,那些闪光和智慧的文字在未来还可能继续发挥更大的价值。

 

作者简介


作者简介:齐云龙,硕士,研究方向为生物工程、管理心理学及应用心理学;

 参考文献

[1]关于科学网.(2011-04-03) [2023-02-10]. http://www.sciencenet.cn/aboutus/default.aspx?id=7&type=1

[2]韩天琪. 科学博客:在博客阅读中传递科学价值. 中国科学报. (2018-07-09)[2023-02-10]. https://news.sciencenet.cn/htmlnews/2018/7/415292.shtm

[3]LetPub编辑. 为什么写博客对科学家很重要?科学博客写作入门指南. 科学网博客. (2022-05-27)[ 2023-02-10]. https://www.sciencenet.cn/home.php?mod=space&do=blog&id=1340402



https://blog.sciencenet.cn/blog-568569-1375696.html

上一篇:求伯乐编辑——欲投稿论文:关于元宇宙热潮背后的心理学分析
下一篇:机界慕容复横空出世,科技金融圈石破天惊 ———从天龙八部到ChatGPT
收藏 IP: 1.202.112.*| 热度|

18 贾玉玺 陆仲绩 胡志华 孟维琦 宁利中 王德华 许培扬 石晓燕 张学文 曾杰 郑永军 李学宽 刘全稳 杨顺楷 李升伟 雷蕴奇 王启云 李剑超

该博文允许注册用户评论 请点击登录 评论 (14 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-28 21:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部