求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[笔记,小资料,惊悚] “线性模型稳健性” vs 《颠覆认知:AI大模型不可靠,越大越不可靠?!》

已有 264 次阅读 2024-9-29 22:47 |个人分类:科学 - 艺术 - 社会|系统分类:科研笔记

[笔记,小资料,惊悚] “线性模型稳健性” vs 《颠覆认知:AI大模型不可靠,越大越不可靠?!》 

         

人工智能: AI

更不可靠: less reliable

稳健: robust

                                    

                    

一、颠覆认知:AI大模型不可靠,越大越不可靠?!

   看到《科普中国》2024-09-28的“颠覆认知:AI大模型不可靠,越大越不可靠?!”

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=530141

   人工智能(AI)模型的参数规模越大,生成的答案就越准确?就更加可信?

   还真不一定!

   日前,一项发表在权威科学期刊 Nature 上的研究表明:相比于小参数模型,大参数模型不会承认它们的“无知”,而更倾向于生成错误答案。

   值得关注的是,人们并不善于发现这些错误。

   以上结果表明,大参数模型在简单任务上可能会出现过度拟合或错误估计的风险,反而更不可靠。

                     

   其余请看《科普中国》里的全文。

                     

二、线性模型的稳健性

https://blog.sciencenet.cn/blog-107667-1441611.html

https://blog.sciencenet.cn/blog-107667-1369135.html

                     

   范剑青、姚琦伟老师的《Nonlinear Time Series: Nonparametric and Parametric Methods》。在第 448 页“10.1.5 Nonlinear versus Linear Prediction”里,两位老师说:

   But empirical studies indicate that linear methods often work well despite their simplicity, and the gain from nonlinear prediction is not always significant and sometimes is not even guaranteed; see §3.4.1 of Chatfield (2001) and the references therein. Although we should not take numerical comparisons on faith (see, §6.6.3 of Chan and Tong 2001), the robust performance of linear forecasting methods is undeniable.

   但在实际应用中,线性方法尽管简单,但通常效果良好,非线性预测的收益并不总是显著的,有时甚至无法保证有用;参见 Chatfield (2001) 的 §3.4.1 及其参考文献。尽管我们不应基于信念进行数值比较(见 Chan 和 Tong 2001 的§6.6.3),但线性预测方法的稳健性能是不可否认的。

                     

   大约 2005年(实在记不准了),我们用误差传播的“多元函数微分”给予了一定解释:

   线性模型的误差,独立于变量自身。这是线性模型可靠性的一种解释。

   至少某些类型的“非线性”模型不是稳健的,如“高阶非线性”等。

   “低阶非线性”模型,在某下条件下表现有可能比“线性模型”更稳健。

                    

   上面这些问题太复杂,我没有条件进一步研究。同时,我的智商估计也不够

                     

三、坎贝尔定律,钱穆制度陷阱

   上面的两类“科技”问题,在“社会科学”里也有类似的对应物:坎贝尔定律,钱穆制度陷阱。

                     

3.1  坎贝尔定律/Campbell’s Law(Donald Thomas Campbell, 1916–1996),1976:

   “The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.” Put simply: “When a measure becomes a target, it ceases to be a good measure.”

   “任何定量社会指标用于社会决策的次数越多,它就越容易受到腐败压力的影响,也就越容易扭曲和腐败其旨在监测的社会进程。”简单地说:“当一项措施成为目标时,它就不再是一项好措施。”

                     

   Goodhart’s law 5: “When a measure becomes a target, it ceases to be a good measure”

                     

3.2  钱穆制度陷阱

张鑫. 走出“制度陷阱”(人民论坛)[N]. 人民日报, 2013-09-24 04版:要闻

http://opinion.people.com.cn/n/2013/0924/c1003-23009069.html

http://cpc.people.com.cn/pinglun/n/2013/0924/c78779-23011350.html

   一个制度出了毛病,再定一个制度来防止它,相沿日久,一天天繁密化,往往造成前后矛盾。在这个意义上,制度容易成为陷阱。

                    

                     

附录:喜爱“简单”的人

   阿诺德Vladimir Igorevich Arnold,1937-06-12 ~ 2010-06-03)说:

   推导的链(即所谓的“证明”)越长越复杂,最后得到的结论可靠性越低。复杂的模型几乎毫无用处。

   特斯拉Nikola Tesla,1856-07-10 ~ 1943-01-07)说:

   Today’s scientists have substituted mathematics for experiments, and they wander off through equation after equation, and eventually build a structure which has no relation to reality.

   今天的科学家们用数学替换了实验,并且他们从方程到方程来回地推导,最终建立了一个和现实世界没有任何关系的数学结构。

   对四色定理计算机证明的批评:

   一个好的数学证明应当像一首诗——而这纯粹是一本电话簿!

   A good mathematical proof is like a poem - this is a telephone directory!

                    

参考资料:

[1] 科普中国,2024-09-28,颠覆认知:AI大模型不可靠,越大越不可靠?!

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=530141

[2] Lexin Zhou, Wout Schellaert, Fernando Martínez-Plumed, Yael Moros-Daval, Cèsar Ferri, José Hernández-Orallo. Larger and more instructable language models become less reliable [J]. Nature (2024). 

10.1038/s41586-024-07930-y

https://www.nature.com/articles/s41586-024-07930-y

[3] 2023-06-02,思维与存在的同一性/identity of thinking and being/仲佰,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=727619&Type=bkzyb&SubID=137881

   思维和存在的同一性问题是人类实践活动中的普遍性问题,解决思维和存在的同一性的基础也只能是实践。在社会实践中,一方面存在可以转化为思维,即客观现实通过实践反映在人脑中成为观念形态;另一方面,思维也可以转化为存在,即思想、观念通过实践变为客观现实。在这种相互转化的过程中,实践产生关于存在的思维,检验关于存在的思维,发展关于存在的思维,使思维和存在不断在新的水平上达到具体的、历史的统一。

[4] 2023-07-18,实践/practice/仲佰,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=727625&Type=bkzyb&SubID=137882

   通过实践概念的历史演变可以看出,对实践含义的理解主要有两种:一是本体论的思路,即把实践理解为人的存在方式;另一种是认识论的思路,即把实践理解为技术实践,实践成为理论的应用。

   ①在理论与实践对置的意义上来使用实践,突出了“行”的含义,把它理解为人的“感性活动”。

   ②把实践“生产化”了,即把实践理解为一种生产性的对象化活动。

   ③把实践看作是一种自由的、以自身为目的的活动,看作是人的“生命活动”或“类生活”。

   一旦生产力发展到一定水平,实践就会展示出自主、自由的性质,就会成为人的第一需要。

[5] 科普中国,2021-12-31,抽象思维

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=334248

   可见,抽象思维与具体思维是相对而言、相互转换的。只有穿透到事物的背后,暂时撇开偶然的、具体的、繁杂的、零散的事物的表象,在感觉所看不到的地方去抽取事物的本质和共性,形成概念,才具备了进一步推理、判断的条件。没有抽象思维,就没有科学理论和科学研究。然而,抽象思维不能走向极端,而必须与具体思维相结合,由抽象上升到具体

   抽象思维本身已不是尽善尽美的思维方法,它和现实的本来面目已存在距离,在社会科学领域比比皆是的逻辑混乱的做法,更让以抽象思维为基础的“社会科学”远离了科学范畴。

   研究客体的能动性和社会性导致的复杂加大了社会科学的抽象思维的困难,但社会科学的抽象思维的低水平主要还是因为人们忘了严密的抽象思维都有哪些要求。

   思维方法抽象思维方法在形而上学的初期阶段只知道用概念代表现实事物,只知道用不同的概念去代表不同的现实事物以及用概念和概念之间的演绎关系去代表现实事物之间的实际联系。至于这种方法在多大程度上偏离了现实世界的实际状况则不闻不问。

   概念所概括的那些事物,从静态看本身就不是完全相同而是存在着区别和差异;从动态看还都在发生着变化,有些变化大一些有些变化小一些。

   当抽象思维方法到了辨证法的阶段时,面对事物间的差异性和事物的变化性,不仅会在差异巨大时或变化巨大时用不同的概念去代表不同的事物(象抽象思维方法在形而上学的阶段所做的那样),而且会在事物间的差异或事物的变化还没有足够大时,用概念内涵的数量属性去描述这些差异和变化,并用概念内涵的数量属性作为对概念本身的补充和修正,从而在一定程度上减少了抽象思维方法用概念代表现实事物和用概念间的关系代表现实事物之间的实际联系所引起的误差和偏离。

[6] Jianqing Fan, Qiwei Yao. Nonlinear Time Series: Nonparametric and Parametric Methods [M]. New York: Springer Science+Business Media, Inc, 2005.

https://fan.princeton.edu/fan/nls.html

[7] 张鑫. 走出“制度陷阱”(人民论坛)[N]. 人民日报, 2013-09-24 04版:要闻

http://opinion.people.com.cn/n/2013/0924/c1003-23009069.html

http://cpc.people.com.cn/pinglun/n/2013/0924/c78779-23011350.html

   人们期待制度“包治百病”,但现实情况往往并不如愿。制度规章一箩筐,却并不见完全奏效。“几百个文件管不住一张嘴”,“下文件,一层一层往下念。念完文件进饭店,政策就是不兑现”。一旦出了事故,制度又被当作反思对象。于是,新一轮的“制度制造”又开始了。国学大师钱穆谈到历代政治得失时说,中国政治制度演绎的传统是,一个制度出了毛病,再定一个制度来防止它,相沿日久,一天天繁密化,往往造成前后矛盾。在这个意义上,制度容易成为陷阱。在公共治理过程中,我们应注重制度建设,更应避开“制度陷阱”。

   制度能否发挥功效,还得看人的作用。制度由人设计,但制度设计的目的不会自动实现,必须通过人的行为实践。偏废了制度执行,制度难免遭遇“稻草人”的尴尬。如果人人为制度鼓与呼,执行时却耍花样,“不把制度当依据,只把制度当工具”,“制度归制度,工作归工作”,那么制度的生命力在设计完成时就耗竭了。因此,要使制度起到实效,就需全力推动制度不走样不打折地执行。这种制度执行力,从深层次上说,就是培育一种认同制度、敬畏制度的文化,让制度和人形成良性互动。文化构成了制度运行的基础,没有文化内核,空有制度一堆,到头来制度也只是在文件中落实、在实际中落空。

              

相关链接:

[1] 2024-07-09,往日(20):“线性模型稳健性”2023-06-16 终于正式出现

https://blog.sciencenet.cn/blog-107667-1441611.html

   这应该是2005年之前了。因为我们 2006-12 投稿的论文《短期负荷预测的Ensemble 混沌预测方法》里,已经引用了范剑青、姚琦伟的专著。

   似乎是从2005年之前开始思考这个问题的。头两年根本无从下手,没有任何可以思考的线索。大约两年之后,忽然想到傻属于“天津大学 控制科学与工程”学科,里面有不少老师研究“传感器”。于是乎,恍然大悟!

[2] 2022-12-25,往日(17):小忆“线性模型的稳健性”

https://blog.sciencenet.cn/blog-107667-1369135.html

   转眼到了大约 2007年(眼下一时想不起是那年了),

[3] 2021-08-30,[小感想] 线性模型的稳健性与全误差计算

https://blog.sciencenet.cn/blog-107667-1302103.html

[4] 2022-10-14,[小资料] 阿诺德原理、复杂的模型几乎毫无用处:出自 1998年《On teaching mathematics》

https://blog.sciencenet.cn/blog-107667-1359459.html

[5] 2017-01-09,复杂方法在实际中往往用途不大(在有噪声的情况下)

https://blog.sciencenet.cn/blog-107667-1026473.html

[6] 2024-05-16,[请教,讨论] 同一律与柯尔莫哥洛夫 Kolmogorov 的数学观

https://blog.sciencenet.cn/blog-107667-1434414.html

[7] 2022-10-19,[想不明白] 几十页、上百页长的数学证明,真的可靠吗?(阿诺德、Chaitin)

https://blog.sciencenet.cn/blog-107667-1360078.html

[8] 2024-07-02,[偶感,随笔,科普] 抽象(逻辑)思维的局限性(关联:丘奇-图灵论题 The Church-Turing thesis )

https://blog.sciencenet.cn/blog-107667-1440701.html

[9] 2020-07-18,[随感] 原创有多难?从福泽谕吉、黑格尔的“抄袭”说起

https://blog.sciencenet.cn/blog-107667-1242533.html

[10] 2020-07-17,黑格尔抄袭了杜牧的《阿房宫赋》?

https://blog.sciencenet.cn/blog-107667-1242412.html

   呜呼,灭六国者六国也,非秦也。族秦者秦也,非天下也。嗟乎!使六国各爱其人,则足以拒秦;使秦复爱六国之人,则递三世可至万世而为君,谁得而族灭也?秦人不暇自哀,而后人哀之;后人哀之而不鉴之,亦使后人而复哀后人也。

[11] 2019-12-25,2018-11-26,福泽谕吉抄袭了褚少孙?

https://blog.sciencenet.cn/blog-107667-1211437.html

https://blog.sciencenet.cn/blog-107667-1148329.html

   褚先生曰:地形险阻,所以为固也;兵革刑法,所以为治也。犹未足恃也。夫先王以仁义为本,而以固塞文法为枝叶,岂不然哉!

            

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1453265.html

上一篇:感谢《电气工程学报》《Chinese Jof Electrical Engineering》2023年度优秀审稿专家通知
收藏 IP: 202.113.11.*| 热度|

3 王涛 宁利中 高宏

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-30 02:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部