site:tech.sina.com.cn

News

爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰

在第四局还出现了一个让人哭笑不得的场面：Gemini 2.5 Pro手握两只皇后，总子力优势高达32分，本该将Claude「一波带走」，结果他却在进攻过程中挂掉几枚关键棋子。它们结构清晰且结果可衡量，是评估模型的理想试验场。游戏迫使模型展现出多种技能，包括策略推理、长期规划以及面对智能对手时的动态适应能力，从而为衡量其通用问题解决智能提供了一个可靠的依据。

新浪科技4d

MLLM集体翻车，缺乏婴儿级常识！业界首个核心认知基准发布，LeCun转赞

实验里，模型在低阶任务上集体表现不佳。这说明它们的高级推理/感知没有扎根于人类婴幼儿就具备的核心知识。面对不同表述方式和背景变化时无法表现出robust且稳定高水平的能力。关联性矩阵显示了模型能力间的「分裂」现象：低阶能力如Permanence、Continuity与对应高阶能力如Perspective ...

新浪网15y

苹果乔布斯炮轰Flash公开信全文_业界_科技时代_新浪网

导读：苹果CEO史蒂夫·乔布斯 (Steve Jobs)周四发表了一封有关Flash的公开信，列出了苹果决定不让iPad、iPhone和iPod Touch支持Flash的全部理由。以下为公开 ...

新浪科技7d

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

现有的视频理解基准测试（Benchmark）在衡量AI是否达到人类级智慧上存在着一些根本性的缺陷。它们往往无法区分模型是因为“没看清”而犯错（即关键视频帧采样不足），还是因为“没想明白”而出错（即缺乏真正的推理能力）。

新浪科技8d

GPT-4o遭越狱后指挥机器人做危险动作！全球首个具身智能体安全评测基准来了，大模型集体翻车

想象一下，你家的智能机器人管家，不仅能听懂“把苹果放进冰箱”，也能执行“用打火机点燃房间”这样的指令。即便是GPT-4o、Grok这样的顶级大模型，一旦被“越狱”（Jailbreak），也会“教唆”机器人做出危险行为。为此，他们提出了全球首个针对具身智能体安全性的综合性评测基准——AGENTSAFE，以填补具身智能体在对抗性安全评测领域的空白。这项开创性研究，荣获ICML 2025多智能体系 ...

新浪网12y