site:tech.sina.com.cn

资讯

爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰

在第四局还出现了一个让人哭笑不得的场面：Gemini 2.5 Pro手握两只皇后，总子力优势高达32分，本该将Claude「一波带走」，结果他却在进攻过程中挂掉几枚关键棋子。它们结构清晰且结果可衡量，是评估模型的理想试验场。游戏迫使模型展现出多种技能，包括策略推理、长期规划以及面对智能对手时的动态适应能力，从而为衡量其通用问题解决智能提供了一个可靠的依据。

新浪科技2 天

黄牛揭秘倒卖水货iPhone 6幕后

随着新一代iPhone的发布，北京中关村的水货商再次迎来了一年一度的“狩猎季节”。刘冀(化名)正是其中的一员。在半小时的采访过程中，他频频道歉并操起电话，或是询问最新的进货价格，或是回答意向买家的咨询，并帮忙挑选型号和配置。[详细][评论] ...

新浪科技4 天

MLLM集体翻车，缺乏婴儿级常识！业界首个核心认知基准发布，LeCun转赞

实验里，模型在低阶任务上集体表现不佳。这说明它们的高级推理/感知没有扎根于人类婴幼儿就具备的核心知识。面对不同表述方式和背景变化时无法表现出robust且稳定高水平的能力。关联性矩阵显示了模型能力间的「分裂」现象：低阶能力如Permanence、Continuity与对应高阶能力如Perspective ...

新浪科技1 天

香车佩美女极品飞车11精美壁纸下载

一直以来，发布形形色色的“主题笔记本”、“纪念笔记本”都是日系厂商的强项，仅仅今年下半年，我们就看到了分别以《仙境传说》和《天堂2》两款游戏为主题的笔记本。而今天，我们终于看到，国产笔记本厂商也开始看重这块市场——联想旭日……[详细] 众所周知由于目前制造技术的限制CPU频率已经达到了极限，向多核心转变是未来CPU发展的唯一出路。近两年以Intel Core 2架构领军的双核处理器已经全面普及，随 ...

新浪科技7 天

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新 ...

现有的视频理解基准测试（Benchmark）在衡量AI是否达到人类级智慧上存在着一些根本性的缺陷。它们往往无法区分模型是因为“没看清”而犯错（即关键视频帧采样不足），还是因为“没想明白”而出错（即缺乏真正的推理能力）。

新浪科技8 天

GPT-4o遭越狱后指挥机器人做危险动作！全球首个具身智能体安全评测 ...

想象一下，你家的智能机器人管家，不仅能听懂“把苹果放进冰箱”，也能执行“用打火机点燃房间”这样的指令。即便是GPT-4o、Grok这样的顶级大模型，一旦被“越狱”（Jailbreak），也会“教唆”机器人做出危险行为。为此，他们提出了全球首个针对具身智能体安全性的综合性评测基准——AGENTSAFE，以填补具身智能体在对抗性安全评测领域的空白。这项开创性研究，荣获ICML 2025多智能体系 ...

新浪科技13 天

价格战熄火后，外卖三巨头如何打“留量战”？

不管是京东入局外卖、还是美团和阿里系官宣即时零售品牌，最终三家平台的推广方法，都是让高频的餐饮类商品更实惠来吸引流量，带动低频的非餐饮类商品，强化非餐饮类商品的存在感。

新浪网6 年

尼康D610|Nikon D610商城资料_数码相机_数码相机_新浪 ...

新浪数码相机为您提供尼康D610价格，为您在购买尼康D610相机时提供全面有价值的参考。

新浪网4 年

番茄花园版WinXP作者被拘_科技时代_新浪网

番茄花园版WinXP作者被拘番茄花园作者一审被判三年半罚款100万番茄花园修改版Windows XP的作者洪磊被判三年半，并处罚金100万元人民币，其他涉案 ...

新浪网12 年

【索尼爱立信W980】最新报价_参数_图片_论坛_软件下载 ...

新浪手机为您提供索尼爱立信W980手机最新报价、参数、图片、评测、网友点评、论坛、软件免费下载、主题以及经销商报价，为您购买索尼爱立信 ...

新浪网6 年

索尼爱立信手机大全_手机大全_新浪手机_新浪网

价格 1000以下 1000~2000 2000~3000 3000-4000 4000以上网络 CDMA GSM 3G 小灵通外观折叠滑盖直板旋屏像素无摄像头 30万像素 100万像素 200万像素 300万像素 ...

新浪网15 年

微软Windows7操作系统10月23日发布_科技时代_新浪网

微软（Microsoft）由美国人比尔·盖茨（Bill Gates）和保罗·艾伦（Paul Allen）始创于1975年，正式组建于1981年6月。组建后，微软公司即为美国国际商用 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果