中文翻译
一项新基准显示,中国AI模型(Kimi、Minimax、DeepSeek)落后于西方前沿AI模型的程度远超市场预期。 Opus、Gemini和GPT的大语言模型(LLM)被证明处于领先地位。 名为SWE-rebench的新基准使用了新的GitHub任务: -> Minimax声称在原始SWE-bench上得分为80.2%。 -> 在未污染的SWE-rebench上,其得分暴跌至39.6%。 结论: 中国实验室已有效以极低成本解决了单提示推理和离散编码任务。 然而,长期行为所需的架构和高质量数据仍是严重瓶颈,蒸馏和优化基准无法伪造。 研究表明,中国模型在超大规模云服务商拥有的深度、适应性推理方面存在滞后。