以科学之名分享 http://blog.sciencenet.cn/u/flysky97 网络上虚假的东西很多,而此地尽可信其真实……

博文

对话ChatGPT: 科学网博客对于聊天机器人学习中文的价值 精选

已有 5381 次阅读 2023-2-10 18:06 |个人分类:科技|系统分类:海外观察

对话ChatGPT: 科学网博客对于聊天机器人学习中文的价值

齐云龙[1],2

聊天机器人ChatGPT它会与用户聊天,智能互动,甚至能撰写邮件、文案、代码,还通过司法考试、美国执业医师资格考试、谷歌编码三级工程师测试。20221130日上线以来,在国内外爆火,已成史上蹿红最快的应用,月活用户破亿,迅速成为社交平台普通百姓的热门话题。作为科学网的博主,我非常感兴趣的一个问题是科学网博客文章对ChatGPT在预训练中的价值如何呢?笔者于是通过向ChatGPT提问的形式,引出了几个有意思的话题。

科学网博客对于聊天机器人的价值和作用,ChatGPT会如何评价呢?下面是几个典型问题它给出的答案:

 

序号

问题及答案

1

请问ChatGPT中文训练时的网络材料有什么限制和要求?

1、网络材料必须是中文,并且必须有一定的语句规范,语句务必清晰。

2、网络材料的词语丰富性越高训练效果越好,尽量涵盖各种类型的话语。

3、网络材料不要包括过于复杂难以理解的句子,以及太过引人误解的句子。

4、网络材料要求经过语义检查,避免重复性材料。

5、可以根据训练需求添加更多自定义意图相关、比较特殊领域的语句,以弥补不足。

2

在ChatGPT学习中国语言时,科学网博客是否作为语料库中的重要组成部分?

是的,科学网博客是一个重要的组成部分,是特别专业的中文语料库。科学网博客的科技文章的分享,对于ChatGPT学习中国语言非常有帮助,有助于ChatGPT提取更多的文本特征,并让学习过程更准确可靠。

 

3

问ChatGPT中文训练时是否重点参考了科学网博客的文章?

是的,ChatGPT 中文训练时参考了科学网博客的文章,从而改进了模型的性能。科学网博客上的文章提供了丰富的见解和想法,有助于ChatGPT模型的改进。

ChatGPT的研究人员在开发中,参考了科学网博客上的文章,主要包括但不限于机器翻译,自然语言处理,词向量,深度学习技术等新的概念。

4

请问科学网博客文章在聊天机器人训练中相对其他网站有哪些优势?

科学网的博客文章在聊天机器人训练中相对其他网站有几个优势:

1. 文章比较专业科学:科学网以其聚集了众多科学研究领域的专业性文章为依托,可以极大地增强聊天机器人的专业知识储备。

2. 文章体现深度思维和独特思想:由于科学网所提供的文章主要由知名科学家撰写,这些文章都是由知名科学家经过深度思考和思维构建而成,且独具特色和特点,可以为聊天机器人训练提供宝贵的参考。

3. 语言现实:科学网文章提供的科学资讯和研究成果,都是由知名科学家以科普语言进行编辑,即使是一些让人困惑的科学新闻和研究成果,也能以简洁地让人易懂的语言形式呈现给机器人训练。

5

相比于微博和微信公众号,科学网博客对于ChatGPT学习中文有什么优势和劣势?

优势:

1. 科学网博客可以提供更加丰富的领域语料资源,更加贴近自然语言理解前沿领域的专业研究领域,有助于更好地让ChatGPT学习更多的专业知识。

2. 科学网博客的内容结构更加统一,更接近专业阅读,通过使用模型把这些完整的文章拆分成具有结构的语句,可以更好地帮助ChatGPT学习中文语义和语法。

劣势:

1. 科学网博客的用户阅读量和讨论量都较少,对于让ChatGPT学习自然语言的语言大环境缺少相应的参照。

2. 科学类文章的文字结构较复杂,因此很难找到一个通用的模型来处理,这也会使得一些文章的意义不能完全理解,从而影响了ChatGPT的学习效果。

6

你提到“科学网博客的用户阅读量和讨论量都较少”,是相对于其他的网站来说吗?

是的,理论上来说,科学网博客的用户阅读量和讨论量都比其他网站少。这是因为,一方面科学网是一个以学术研究为主体的网站,其关注的读者群体也比较小;另一方面,与其他网站相比,科学网博客的受欢迎度还不够高。

7

你对科学网博客未来发展有何建议呢?

1、把科学网博客作为一个信息互动平台,转变它的定位,注重以文字、图片、视频等多样的形式,进行信息的传播与交流。

2、更积极地发掘社会各行各业的垂直领域,准确定位学科受众,利用多元化的方式传播科研成果,丰富技术和产品服务内容,吸引和提供更多的优质内容给受众,使之成为一个多功能的信息网站,让更多关注科技的人参与其中,实现互联互动,更好地发布科技信息。

3、积极鼓励具有远见的青年科技人员和企业家,加强跨界合作,将商业发展与科学研究、应用有机结合起来,形成促进科技发展的闭环。

4、及时补充网站的内容,在收集的新闻内容上做出表述和整理,引入更多可信的科技信息,增加对技术发展趋势及科研内容的评论,加深网友的参与度。

 

8

你对科学网博主们有何建议呢?

1、明确内容定位,以有益的传播形式和话语,将科学精神和科技进步传播给更多的人;

2、拓宽视野,在本行业发展趋势方面,及时掌握事物变化,与社会话题保持紧密关联,不停创新;

3、加强团队协作,有效整合人力资源,为传播内容注入更有深度的思考,使网站内容更受欢迎;

4、紧跟技术发展,勇于尝试前沿技术,不断寻求充分利用平台的可能,以更佳的形式传播科学文化。

 

……

以下为部分问题的截图:

图片 3.png

图片 4.png


图片 0-2.png


总得来看,上面的回答看来都中规中矩,虽然也有个别瑕疵或者语句不通之处,但笔者认为至少已经远超过本人。

ChatGPT通过大数据,展示的结果比较符合“中庸之道”,往往符合大众眼中的道德观念及大多数人认可的观点;至少也可以帮我们普通人发散思维,了解世界。

虽然还不至于成“神”,但可以看作是我们了解世界的一面镜子……

科学网由中国科学院主管, 由具有近60余年媒体经验的《中国科学报》报社主办。作为全球最大的中文科学社区, 科学网致力于全方位服务华人科学与高等教育界, 构建全球华人科学家的精神家园, 促进科技创新和学术交流。自20071月正式上线以来, 经过16年的迅猛发展, 拥有全球最大的中文科教虚拟社区

用户调查显示:科学网注册用户近300, 遍布全球数十个国家和地区。科学网实名博主数超过12,用户受教育程度很高50.6%用户为研究员/教授职称,30.1%用户为副研究员/副教授职称;多数位居各大院校、科研机构、科技企业、政府科技部门等的学术带头人或管理者。50.4%用户为博士学历,27.33%用户有博士后工作经历。大多数有海外学习或工作经历,平均年龄39[1]

 

图:科学网用户类型分析饼图

 

科学网博主的博客,很多可以归为学术博客科学博客,主要发布关于科学或学术相关的、内容较长的文本,通过博客中传递科学价值[2]。与社交媒体帖子相比,科学博客可以提供更多细节,拥有更长的使用寿命,并为传统新闻提供不同的视角或额外的背景信息。博客可以面向小范围的、非常具体的受众,也可以面向更广泛的普通受众。另一个好处是博客是互动的。因此,科学家可以通过回答问题与读者互动[3]。众多高素质博主通过科学网博客对科技界人才待遇、经费分配、成果转化、科技体制改革、学术打假、学术腐败等热点话题发表自己独到的见解, 吸引了众多国内外主流媒体的关注和传播, 曾引起全社会的热烈讨论。可以说, 科学网是中国科技界最大的自媒体聚集地, 在科技界产生着广泛而重要的影响。

近年,随着微博、微信公众号等新媒体形式的出现,博客曾一度被视为日渐式微和没落。以科学网博客为例,王鸿飞教授曾是科学网博客开办初期(2008年前后)的第一牛博,总排行和综合排行都曾雄踞第一位,但从20177月就停止更新。饶毅教授转战于知识分子饶议科学等微信公众号等媒体,其博客自20171月起就没有更新。施一公教授科学网的博客则是停更于20168月,一方面,可能与科学网博客本身的限制和缺乏足够的激励有关,另一方面,此时正是微信公众号如日中天的时候。但是科学网博客的重要价值仍然不可小觑。

在论文查重过程中,笔者曾做过多篇学术论文的查重测试,发现科学网的博文均被作为重要的网络比对数据源。一些作者会将论文内容、论文解读或评价等以博文形式发布在科学网平台,也有一些作者的优质博文具有较高的价值,经编辑整理后以文章的形式发表在期刊、报纸。在网站等级排名中,科学网博客级别非常之高,2019918 ,评价网站流量的全球权威机构Alexa网站显示:科学网全球排名三个月平均为3151,中国网站排名为462。目前已经稳居科学类中文网站全球排名最前列。

李小文院士是科学网最著名的博主之一。李院士2007729日在科学网注册开博,累计发表了1878篇博文。李院士去世后,他的博客虽然6年多未更新,但点击量仍以较高的速度在不断上升,突破了1160万。成为在科学网获得永生的博主。李院士的博客之所以能在他去世多年之后仍然常盛不衰,一方面是由于他的博客内容言之有物,经得起时间的考验,更重要的当然是由于他本人特殊的人格魅力。李小文院士凭借他的博客而在网络上获得了永生,也证明了博客文字的深远价值。

优质数据是宝贵的资源,好比是新时代的石油,是大数据时代最为珍贵的财产。科学网博主们曾经呕心沥血写下的高质量文章也是一笔巨大的财富,不会都轻易化为历史的尘烟,那些闪光和智慧的文字在未来还可能继续发挥更大的价值。

 

作者简介


作者简介:齐云龙,硕士,研究方向为生物工程、管理心理学及应用心理学;

 参考文献

[1]关于科学网.(2011-04-03) [2023-02-10]. http://www.sciencenet.cn/aboutus/default.aspx?id=7&type=1

[2]韩天琪. 科学博客:在博客阅读中传递科学价值. 中国科学报. (2018-07-09)[2023-02-10]. https://news.sciencenet.cn/htmlnews/2018/7/415292.shtm

[3]LetPub编辑. 为什么写博客对科学家很重要?科学博客写作入门指南. 科学网博客. (2022-05-27)[ 2023-02-10]. https://www.sciencenet.cn/home.php?mod=space&do=blog&id=1340402



https://blog.sciencenet.cn/blog-568569-1375696.html

上一篇:求伯乐编辑——欲投稿论文:关于元宇宙热潮背后的心理学分析
下一篇:机界慕容复横空出世,科技金融圈石破天惊 ———从天龙八部到ChatGPT
收藏 IP: 1.202.112.*| 热度|

19 贾玉玺 陆仲绩 胡志华 孟维琦 宁利中 王德华 许培扬 石晓燕 张学文 曾杰 郑永军 李学宽 刘全稳 杨顺楷 李升伟 雷蕴奇 王启云 李剑超 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (16 个评论)

1/0 | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳婀遍埀顒傛嚀鐎氼參宕崇壕瀣ㄤ汗闁圭儤鍨归崐鐐差渻閵堝棗绗掓い锔垮嵆瀵煡顢旈崼鐔叉嫼闂佸憡绻傜€氼噣鍩㈡径鎰厱婵☆垰鐏濇禍鍦磼椤旇偐澧︾€规洖銈搁幃銏㈢矙閸喕绱熷┑鐘愁問閸犳銆冮崨顓囨稑螖閸涱厾顦梺鎸庢礀閸婂綊鎮¢妷锔剧瘈闂傚牊绋掗敍宥嗕繆閹绘帗鎲哥紒杈ㄥ浮閹晠鎮滃Ο鐓庢锭濠电儑绲藉ú銈夋晝椤忓懍绻嗛柛顐f礀濡炰粙鏌涢幇銊︽珕闁哄棔鍗冲缁樻媴閸涘﹥鍎撻梺褰掓敱閸ㄥ湱妲愰悙瀛樺闁告挸寮剁紞搴ㄦ⒑閹呯妞ゎ偄顦悾閿嬪緞閹邦厾鍘繝鐢靛仜閻忔繈宕濆⿰鍫熺厽婵犻潧瀚悘鍙夋叏婵犲啯銇濋柟顔惧厴瀵爼骞愭惔顔兼暏闂傚倷鑳堕幊鎾诲吹閺嶎厼绠柨鐕傛嫹:0 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋婵愭綗闁逞屽墮閸婂潡骞愭繝鍐彾闁冲搫顑囩粔顔锯偓瑙勬磸閸旀垵顕i崼鏇炵闁绘瑥鎳愰獮銏ゆ⒒閸屾瑦绁版い顐㈩槸閻e嘲螣鐞涒剝鐏冨┑鐐村灦绾板秹顢曟禒瀣厪闁割偅绻冮崯鎺楁煛閸愩劎澧涢柡鍛叀閺屾稑鈽夐崡鐐茬濠电偛鐗婇悡鈥愁潖閾忓湱鐭欐繛鍡樺劤閸撴澘顪冮妶鍡楃仴妞わ箓娼ч锝嗙節濮橆厽娅滈梺鍛婄☉閸婂宕版惔銊ョ厺閹兼番鍔岀粻姘辨喐鎼搭煈鏁婇柛鏇ㄥ灡閻撴稑顭跨捄鐑橆棡婵炲懎妫涚槐鎺旀嫚閼碱剙顣哄銈庡亜缁绘﹢骞栭崷顓熷枂闁告洦鍋嗛敍蹇涙⒒娓氣偓濞佳勭仚闂佺ǹ瀛╅悡锟犲箖閻㈢ǹ顫呴柕鍫濇閹锋椽姊洪懡銈呮瀾婵犮垺锚閳绘捇鍩¢崨顔惧幍闂佸憡鍨崐鏍偓姘炬嫹 | 婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈攻閸欏繘鏌i幋锝嗩棄闁哄绶氶弻鐔兼⒒鐎靛壊妲紒鐐劤椤兘寮婚敐澶婄疀妞ゆ帊鐒﹂崕鎾绘⒑閹肩偛濡奸柛濠傛健瀵鈽夐姀鈺傛櫇闂佹寧绻傚Λ娑⑺囬妷褏纾藉ù锝呮惈灏忛梺鍛婎殕婵炲﹤顕f繝姘亜闁稿繐鐨烽幏濠氭煟鎼达絾鏆╅弸顏勨攽閳ヨ尙鐭欐慨濠冩そ瀹曨偊宕熼鈧▍銈囩磽娴g瓔鍤欓柣妤佹尭椤曪絾绻濆顑┾晠鏌曟径鍫濈仾闁哄倵鍋撻梻鍌欒兌绾爼宕滃┑瀣櫔缂傚倷鐒﹂崝鏍儎椤栨凹娼栨繛宸簻瀹告繂鈹戦悩鎻掝劉闁伙絿鍏橀幃妤呭礂婢跺﹣澹曢梻浣哥秺濡法绮堟担铏逛笉闁哄秲鍔嬬换鍡涙煏閸繂鈧憡绂嶆ィ鍐┾拺閻庡湱濮甸ˉ澶嬨亜閿旇鐏﹂柛鈹垮灩椤撳ジ宕卞Ο鑲┬ら梻渚€娼ц噹闁告侗鍨扮敮鎺旂磽閸屾艾鈧绮堟笟鈧畷鎰板传閵壯呯厠闂佸湱铏庨崰鎾诲磻閹存緷褰掑礂閸忚偐绋囬梻浣稿船濞差參寮婚敐澶婃闁圭ǹ瀛╅崕鎾绘倵濞堝灝鏋熷┑鐐诧工椤繒绱掑Ο璇差€撻梺鎯х箳閹虫挾绮垾鏂ユ斀闁绘劖褰冪痪褔鏌eΔ鍐ㄐ㈤柣锝囧厴楠炲洭寮堕幐搴$ザ婵$偑鍊栭幐鑽ょ矙閹寸偟顩查柣鎰靛墯閸欏繑淇婇婊冨付濞存粓绠栭幃妤€顫濋悙顒€顏� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧湱鈧懓瀚崳纾嬨亹閹烘垹鍊為悷婊冪箻瀵娊鏁冮崒娑氬幈濡炪値鍘介崹鍨濠靛鐓曟繛鍡楃箳缁犲鏌″畝鈧崰鎾舵閹烘顫呴柣妯虹-娴滎亞绱撻崒娆掑厡濠殿噣绠栭敐鐐村緞閹邦儵锕傛煕閺囥劌鐏犵紒鐘崇洴閺屾盯顢曢敐鍡欘槰濡炪倕楠哥粔鐟邦潖閾忓湱鐭欐繛鍡樺劤閸撶偓绻涚€涙ḿ鐭ゅù婊庝簻椤曪絿鎷犲ù瀣潔闂侀潧绻掓慨鍫ュΩ閿旇桨绨婚梺鍝勫€搁悘婵堢礊閺嶃劍鍙忛悷娆忓濞堟粓鏌熼鐓庢Щ妤楊亙鍗冲畷銊╊敇瑜庡В澶愭⒑濮瑰洤鐒洪柛銊╀憾閵嗗啯绻濋崒銈呮闂佸搫琚崕杈╃不閻熸噴褰掓晲閸涱喛纭€闂佸憡鐟ュΛ婵嗩潖閾忓湱纾兼俊顖濆吹椤︺儵姊虹粙鍖″伐婵犫偓闁秴鐒垫い鎺嶈兌閸熸煡鏌熼崙銈嗗

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-3-20 10:28

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部