
在R2官员R2到达之前,它始于一个“狂野”变体,其速度更快,并且性能弱!在过去的两天中,一种称为“ DeepSeek R1T2”的模型变得流行了!该模型比R1-0528快200%,比R1快20%。除了高于速度的显着优势外,它还超过了R1到相同的GPQA钻石(专家对Q&A基准的理解水平)和AIME 24(数学警告基准),但未达到R1-0528。在技术层面上,开发了专家组装(AOE)技术,并集成了官方V3,R1和R1-0528的三个主要模型。当然,遵循麻省理工学院协议并在拥抱脸上开放权重。拥抱面孔地址:https://huggingface.co/tngtech/deepseek-tng-r1t2-奇玛拉经过进一步的了解,我们发现DeepSeek R1T2是由德国咨询公司“ TNG”推出的。整个型号称为“ DeepSeek-Tng R1T2 Chimera”(来自然后称为R1T2)。除了上述智能和产出效率水平之间的完美平衡外,与公司的第一个模型“ R1T嵌合体”相比,该模型已经完全跳入了智能,并取得了突破。不仅如此,即使没有任何系统信号,该模型也可以稳定地发挥作用,并提供自然的对话和互动体验。在评论部分中,有些人错误地认为该模型来自DeepSeek官员,并认为他们也采用了相同的路线:给模型不同的名称,不仅使用主系列版本的下一个代理版本吗?越来越多的人发现,该模型是“纳塔氏素是智力与代币长度的智能和输出之间的最佳平衡,并提高速度”,并且对现实世界中模型性能的期望充满了期望。 R1T2的拥抱面部主页中的模型详细信息概述是建立在DeepSeek R1-0528,R1和V3-0的AOE Chimera模型324型。 DeepSeek-Moe的建筑变压器,参数量表为671b。升级到三链融合体系结构,添加了一个新的基本模型R1-0528.la,可以完全开发改进,但是第一代R1T的令牌一致性的缺陷也得到了充分解决。该小组表示,与其他模型相比,R1T2具有以下优点和缺点:与DeepSeek R1:R1T2相比,预计将是R1的良好替代品。两者几乎都是通用的,R1T2具有更好的性能,可以直接替换。与R1-0528:R1T2相比,相比之下,如果您不必达到最高水平的智能0528。与R1T:R1T2相比,通常推荐使用R1T:R1T的特定个性是最佳选择,而是考虑到代币问题,则不重要,或者速度完全要求。与DeepSeek V3-0324:V3相比,V3更快,如果您不关注智能,则可以选择V3;但是,如果kinrequires a有道理的是,R1T2是首选。此外,即使R1-0528持续更长的理由,R1T2限制也可以看到它,它在高差异基准测试中甚至比R1T2更好。在通过SpeechMap.ai分析(由XLR8HARDER提供)后,R1T2响应革兰am系统(保留)高于R1T,但小于R1-0528。暂时不支持功能调用:受R1基本模型的影响,在此阶段不建议呼叫密集型功能方案(可以调整后续版本);基准测试更改:开发版本已从AIE24+MT基础台上更改为AIME24/25+GPQ-DIAMOND评估系统,而新系统下R1和第一代R1T之间的差异大于以前发布的数据。最后,有关R1T2中重要的AOE技术,请参阅以下论文。纸张标题:专家组装:带有嵌合LLM变体的线性时间构建和适应性纸张地址:https://arxiv.org/pdf/2506.14794参考链接:https://x.com/tngtech/status/194053104545432283412