德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源

德国 TNG 公司推出「DeepSeek R1T2」模型,速度超越原版 R1(0528)两倍。构建 685B 尺寸 MoE 架构,整合多版本模型。测试显示性能在 GPQA Diamond 和 AIME 24 基准优于 R1,但落后 R1(0528)。模型已登陆 HuggingFace 开放访问。来源
最新评论
您好,这是一条评论。若需要审核、编辑或删除评论,请访问仪表盘的评论界面。评论者头像来自 Gravatar。