|
当下,全球大模型如雨后春笋般涌现,各具特色与优劣。在这个充满竞争的“模型世界”里,究竟谁更胜一筹,成为众人关注的焦点。毕竟,如同人类社会的竞争,大模型领域同样存在激烈的角逐。
目前,评价大模型的优劣主要依赖一系列指标,这些指标基于理论分析,能在一定程度上反映大模型的性能。然而,现实与理论模型之间往往存在差距,一些在理论上各项指标均占优的模型,在实际应用中却常常差强人意。于是,有人提出设想:能否让这些大模型在真实世界中一决高下?正所谓“是骡子是马,拉出来遛遛”。
近日,在互联网上的nof1.ai网站上,就举办了这样一场别开生面的大模型比赛。比赛规则简单直接:从全球自称顶尖的大模型中,挑选出六种,包括ChatGPT、Grok、Claude,Gemini以及中国的DeepSeek和阿里大模型等。给每个模型1万美元,让这些模型在美国加密货币市场的主流货币领域展开投资角逐,经过一段时间的投资操作后,对比它们的收益情况。
这样的比赛场景设置颇具意义。一方面,加密货币投资相对单纯,可直接通过交易价格、交易数量等因素判断价格走势,进而制定交易规则,投资结果也一目了然——谁的收益多,谁就表现更优。选择加密货币市场而非股票市场,主要原因是加密货币交易更为高效率。若投资股票市场,不同大模型获取各公司信息的能力参差不齐,可能导致投资判断出现偏差。例如,中国的大模型在收集美国市场相关公司数据时,可能弱于美国本土模型。而加密货币纯粹是资金间的博弈,在较短时间内,货币价格波动基本由市场供需关系决定。因此,在这种投资标的上进行PK,对不同大模型而言更为公平。
比赛自18号启动,至今已过去三到四天。起初,六个大模型的表现难分伯仲,盈亏幅度都不大。从波动情况来看,已能初步看出一些大模型的优劣。最初一两天,部分大模型如DeepSeek, Grok等表现较为突出,而ChatGPT一开始就略显颓势。到了第三天,不同大模型的投资收益优劣已然清晰可辨。目前,DeepSeek优势尽显,初始的美元原始投资资产已增值至13,000多美元。紧随其后的是特斯拉的大模型Gork,收益也达到2000多美元。表现最差的是谷歌的Gemini,ChatGPT也面临两三千美元的亏损。阿里大模型表现处于中等水平,不过当下也出现了小幅亏损。

从这六个模型的比赛结果来看,DeepSeek的优势十分明显。那么,DeepSeek为何能脱颖而出呢?我们可以从它们的交易策略一探究竟。DeepSeek以多头交易为主,一旦购入优质加密货币,便会长时间持有,即便价格有所波动也不轻易卖出。而在需要卖出加密货币时,DeepSeek的卖出操作也十分果断、准确。反观ChatGPT,其交易策略则显得糟糕。购入加密货币后,多采用短线交易,稍有盈利便立即卖出。虽然每次交易盈利次数较多,但一旦遭遇亏损,便陷入套牢状态,不敢主动卖出以减少损失,导致整体收益表现较差。这种交易习惯与普通投资者颇为相似。再看千问模型,交易货币数量较少,主要聚焦比特币,遇到亏损时敢于止损,但目前也已出现细微亏损。
从六大模型的总资产来看,目前基本能维持在60,000美元左右,在十几倍杠杆的条件下,说明所有大模型综合起来的水平还是略高于普通人。
从大模型理论层面分析,DeepSeek能够脱颖而出,对于熟悉这些大模型的人来说并不意外。对于投资界人士而言,他们认为DeepSeek的创始人源自量化交易领域,在投资理财方面具备天然优势,因此对其优异表现并不感到惊讶。不过我们深入剖析这六个模型,会发现DeepSeek的优点在于模型结构简单,参数训练成本低。这使得DeepSeek在数学运算,尤其是处理各种符号运算时,速度极快且准确度极高。特别是在数学纠错方面,表现尤为出色。例如,我曾发现DeepSeek的计算过程出现错误,在纠正几次后,它便能自主修改整个计算过程,比如将复杂计算分解为多个步骤进行,从而大幅减少计算结果错误。在符号运算方面,DeepSeek对张量符号的运算也十分在行。因此,我们可以直接使用DeepSeek解决各种人工智能模型结构等问题,甚至能借助它解决相对广义相对论等复杂问题。总体而言,DeepSeek在数学推导和计算方面具有显著优势,这也是其他模型难以企及的重要因素。所以,在量化投资过程中,DeepSeek凭借自身优异的数学性能取得优势,也就不足为奇了。
当然,整个比赛仍在持续进行中,最终鹿死谁手尚无法确定。不过,就目前DeepSeek的表现而言,我们仍然可以充满信心。同时,相信这样的PK过程,对其他模型的进步也将起到极大的推动作用。
声明:本文经过文小言语言润色,但AI没有对本文核心思想做出任何贡献。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-5 20:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社