||
DeepSeek-V3 是近期人工智能领域的热门话题,其发布引发了广泛关注和讨论。DeepSeek-V3 于 2024 年 12 月 26 日正式发布,并同步开源。该模型采用混合专家(MoE)架构,拥有 6710 亿参数,激活参数为 37 亿,预训练数据量达 14.8 万亿 token。在多项基准测试中,DeepSeek-V3 表现优异,尤其在数学、代码和长文本处理任务上,超越了 Llama-3.1-405B 和 Qwen2.5-72B 等开源模型,并与 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型不相上下。
DeepSeek-V3 在训练成本上实现了显著突破,仅花费 557.6 万美元,远低于 GPT-4o 等模型的训练成本。其成功得益于多项技术创新,包括无辅助损失的负载均衡策略、多令牌预测(MTP)目标、FP8 混合精度训练以及高效的跨节点通信优化。这些技术不仅降低了训练成本,还提升了模型性能和推理速度,生成速度达到每秒 60 个 token,是前代模型的 3 倍。
对了,今天的题目就DeepSeek-V3起的,大家觉得怎么样?
首先使用DeepSeek-V3 编写脚本,具体的对话信息如下图所示:
这是第一次的尝试,后续又提示通过命令行接收参数,以及加入翻译功能,出现报错,API调用错误,从DeepSeek-V3官网提供api调用示例给它,最终生成了可正常执行的程序, 如下:
生成的效果如下:
这里需要将api_key替换自己的api_key, 官网申请即可。具体的代码,上传到百度网盘。
链接: https://pan.baidu.com/s/1PuX8aX8TDAiT3dsKZEKngg?pwd=d5vg 提取码: d5vg 。
需要的python环境和包,请自行安装。环境配置完毕,脚本运行方式如下:
python3 new.search.paper.py "wheat" "rust" wheat.txt
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 11:34
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社