目前Hugging Face上已经有了Deepseek-v3(Base)的开源权重✿★,只不过还没上传模型介绍卡片✿★。
为了进一步了解Deepseek-v3的升级程度安齐美绪✿★,机器学习爱好者Vaibhav (VB) Srivastav(以下简称瓦哥)还深入研究了配置文件金宝搏网址✿★,并总结出v3与v2金宝搏网址✿★、v2.5的关键区别✿★。
第一✿★,在MOE结构中金宝搏网址✿★,v3使用了sigmoid作为门控函数金宝搏网址✿★,取代了v2中的softmax函数✿★。这允许模型在更大的专家集合上进行选择✿★,而不像softmax函数倾向于将输入分配给少数几个专家✿★。
简单理解✿★,MoE模型通常需要一个辅助损失来帮助训练✿★,主要用于更好地学习如何选择Top-k个最相关的专家来处理每个输入样本✿★。
而新方法能在不依赖辅助损失的情况下✿★,直接通过主要任务的损失函数来有效地选择Top-k个专家安齐美绪✿★。这有助于简化训练过程并提高训练效率安齐美绪✿★。
这是一种基于群体的专家选择算法✿★,通过将专家划分为不同的小组✿★,并在每个小组内部选择最优秀的k名专家安齐美绪✿★。
第三✿★,v3增加了一个新参数e_score_correction_bias金宝搏188BET188金宝搏✿★。✿★,✿★,用于调整专家评分✿★,从而在专家选择或模型训练过程中获得更好的性能✿★。
此外✿★,v3与v2.5(本月10日官宣开源)的比较也出炉了安齐美绪金宝搏网址✿★,后者主要支持联网搜索功能✿★,相比v2全面提升了各项能力✿★。
具体而言✿★,v3在配置上超越了v2.5✿★,包括更多的专家数量金宝搏网址✿★、更大的中间层尺寸✿★,以及每个token的专家数量188bet金宝搏官网登录✿★。
关于v3的实际表现✿★,另一独立开发者Simon Willison(Web开发框架Django的创始人之一)也在第一时间上手测试了✿★。
不过不管怎样✿★,还未正式官宣的Deepseek-v3已在LiveBench坐上最强开源LLM宝座✿★,在一些网友心中金宝搏网址金宝搏网址✿★,这比只搞期货的OpenAI遥遥领先✿★。(手动狗头)