🔦 今日速览
微软Build 2026 Day 2 发布自研推理模型 MAI-Thinking-1、端侧模型 Aion 1.0、Windows Agent Framework,将Windows重新定义为"智能体操作系统"。腾讯微信AI智能体进入测试引爆港股,单日市值增超4100亿港元。阿里Qwen3.7-Plus登顶Vision Arena中国第一。
趋势1:操作系统级Agent成为新战场。 趋势2:国产多模态Agent从"能看图说话"迈向"能看图做事"。 趋势3:AI版权治理进入实质执法阶段。
🌍 国际动态
1. 微软Build Day 2:自研推理模型MAI-Thinking-1与Windows全面Agent化
事件简述:微软在Build 2026第二天发布一系列旗舰产品,核心是将Windows和Microsoft 365从应用容器重塑为"智能体操作系统"。MAI-Thinking-1是微软首个完全自研的推理模型,由Mustafa Suleyman发布,在盲测中达到与Claude Sonnet 4.6的人类偏好度持平;Aion 1.0 Plan(14B参数)是专为本地Windows设备运行的推理与工具调用模型,配合Windows Agent Framework (WAF)和DirectML 2.0构成完整的端侧AI栈;Scout是跨应用OS级Agent API,可监控桌面会话中所有打开的应用、剪贴板和跨应用工作流。
关键数据:Surface RTX Spark Dev Box提供1 petaflop AI算力(当前高端RTX工作站的3-5倍);Maia 200已在美国爱荷华州和亚利桑那州投产,并扩展至意大利、澳大利亚和韩国;MRC开放网络协议预计减少大规模训练作业因网络故障造成的15-25%算力浪费。
影响分析:微软正通过"自研模型+自研芯片+自研网络协议"构建垂直整合的AI栈,MAI-Thinking-1若通过Azure AI Foundry以企业折扣价提供,将直接威胁Anthropic Sonnet 4.6的企业API市场地位。Windows的Agent化意味着AI将从侧边栏聊天进化为异步后台同事。 📅6月2日
2. NVIDIA Computex发布RTX Spark与NemoClaw,构建全栈Agent帝国
事件简述:NVIDIA在Computex 2026期间发布RTX Spark PC芯片,算力达1 Petaflop,与微软Windows深度集成,标志着AI PC算力进入Petaflop时代。同时推出JetPack 7.2 SDK和NemoClaw物理AI框架,使边缘设备能在无云端往返的情况下执行多步自主决策。开源的Cosmos 3物理AI基础模型覆盖视觉语言理解、世界模型模拟和机器人规划三大能力,与Isaac GR00T人形机器人参考平台配合提供从感知到行动的全栈方案。
关键数据:RTX Spark算力1 Petaflop;开源Nemotron 3 Ultra拥有550B参数;Cosmos 3面向物理AI全模态场景。
影响分析:NVIDIA的战略清晰呈现"从数据中心Vera Rubin到PC端RTX Spark,每层都收过路费"的全栈垄断格局。分析人士警告,这种从GPU到CPU到网络到软件的完全垂直整合将使客户迁移成本极高——当Anthropic或OpenAI标准化在Vera生态上,他们买的不仅是芯片,而是一整套运行时和调试工具链。 📅6月2日
🇨🇳 国内动态
1. 微信AI智能体进入测试,腾讯股价单日暴涨10.46%
事件简述:据《金融时报》6月2日报道,腾讯正在微信中测试内置AI智能体原型,已被列为最高战略优先级。用户在微信主界面向右滑动即可调出智能体对话窗口,该智能体可自动调用微信内数以百万计的小程序完成信息查询、服务办理、内容创作等一站式任务。腾讯计划最快本月启动合规审批,通过后先面向小范围用户灰度测试。
关键数据:腾讯控股股价6月2日大涨 10.46%,市值单日增加超 4100亿港元,创下自2021年1月以来最大单日涨幅。微信月活跃用户约14亿。
影响分析:这将重新定义国民级应用的交互范式——从"人找服务"变为"智能体帮人完成服务"。但腾讯面临算力供给不足(芯片禁令前囤货不足)和阿里、字节先发竞争的双重压力。若微信智能体全量上线,Agent将从开发者工具走向全民普及,用户基数呈数量级跃升。 📅6月2日
2. 阿里发布Qwen3.7-Plus:Vision Arena中国第一,可自主运行11小时完成APP开发
事件简述:6月2日,阿里Qwen团队正式发布Qwen3.7-Plus,核心定位是将视觉理解与语言推理统一于同一模型,面向多模态智能体场景。该模型在Vision Arena榜单跻身全球前五、中国第一。实测中,基于Qwen3.7-Plus的Hybrid-Agent系统可连续自主运行11小时以上,调用工具超1000次,生成超10000行代码,在无人工干预的情况下完成完整APP的全流程开发。模型已通过阿里云百炼和Qwen Studio对外开放。
关键数据:Vision Arena榜单中国第一、全球前五;Agent连续运行 11+ 小时,调用工具 1000+ 次,生成代码 10000+ 行。
影响分析:Qwen3.7-Plus标志着多模态模型从"能看图说话"向"能看图做事"的关键跃迁。视觉理解+GUI操作+CLI交互的统一,意味着Agent可以像人类一样同时"看屏幕"和"敲命令",这是走向通用计算机使用智能体的关键一步。阿里在开源模型上的持续投入也在构建生态壁垒。 📅6月2日
3. "剑网2026"启动:AI版权治理首次纳入国家级执法框架
事件简述:6月2日,国家版权局、工业和信息化部、公安部、国家互联网信息办公室四部门联合宣布启动"剑网2026"专项行动,时间为6月至11月。这是四部门第22次聚焦网络侵权盗版开展专项治理,首次将AI生成内容的版权治理纳入重点执法范围,包括:AI训练数据的版权合规、AI生成内容的权利归属、利用AI技术进行盗版内容传播的打击。
关键数据:专项行动持续 6个月(6月-11月);四部门第22次联合执法。
影响分析:AI版权治理从学术讨论和行业倡议进入了实质性的执法阶段。对大模型厂商和AI应用开发者的直接影响包括:训练数据合规审查风险、生成内容版权标注义务、以及Agent抓取网络内容的法律边界。这标志着AI行业从"野蛮生长"走向"规则治理"的关键一步。 📅6月2日
📄 今日论文
1. Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models
作者/机构:Mahtab Bigverdi, Lindsey Li, Weikai Huang et al. 核心贡献:现有视觉语言模型在空间推理任务中表现不佳,尤其是当关键信息无法直接观测时。本文提出"想象感知令牌"(Imaginative Perception Tokens),让模型能够对不可见区域进行合理推断,从而显著提升多模态语言模型的空间推理能力。 为什么重要:为多模态Agent在复杂物理环境中的导航与操作提供了新的表征方法,直接影响机器人与具身智能应用。 📄 arXiv:2606.03988 📅6月2日
2. Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
作者/机构:Zekun Qi, Xuchuan Chen, Dairu Liu et al. 核心贡献:将GPT风格的因果Transformer架构引入人形机器人全身控制,在十亿级运动语料库上训练,实现了零样本(zero-shot)运动跟踪。与传统受限于稀缺数据的浅层MLP跟踪器不同,该模型通过规模化数据和结构泛化到未见过的运动模式。 为什么重要:为通用人形机器人控制提供了可扩展的基础模型路径,与NVIDIA Isaac GR00T等机器人平台形成技术互补。 📄 arXiv:2606.03985 📅6月2日
3. Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
作者/机构:Ali Behrouz, Farnoosh Hashemi, Vahab Mirrokni 核心贡献:受人类睡眠与记忆巩固机制启发,提出让大语言模型在"睡眠"阶段进行自我修改和记忆整合的框架。模型在非活跃期间主动巩固已有知识并更新参数,从而提升长期学习和持续适应能力,减少对持续外部训练的依赖。 为什么重要:为LLM的持续学习(continual learning)和灾难性遗忘问题提供了受生物启发的新范式,可能影响下一代模型训练架构设计。 📄 arXiv:2606.03979 📅6月2日
4. QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards
作者/机构:Rongzhi Zhang, Rui Feng, Zhihan Zhang et al. 核心贡献:现有基于评分标准的强化学习方法将查询分布视为固定,仅优化评分标准。本文提出联合协同设计查询(Queries)和评分标准(Rubrics),将强化学习的适用范围从可验证奖励任务扩展到开放式创作、评价等复杂场景。 为什么重要:解决了RLHF在开放式任务中的奖励稀疏难题,为AI写作、代码生成、创意内容等难以自动验证质量的场景提供了更可靠的训练信号。 📄 arXiv:2606.03968 📅6月2日
5. Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
作者/机构:Yu Xia, Zhouhang Xie, Xin Xu et al. 核心贡献:针对Chain-of-Thought推理中token消耗低效且缺乏推理时控制的问题,提出Agentic Steering机制。该方法允许在推理过程中动态调整思维链的方向和深度,在保持准确率的同时显著减少不必要的token生成。 为什么重要:在AI推理成本日益敏感的背景下,为企业和开发者提供了"用更少的token获得同等推理质量"的实用技术,直接降低API调用成本。 📄 arXiv:2606.03965 📅6月2日
💡 值得关注
1. 微软与NVIDIA的"共生式竞争":微软Surface RTX Spark Dev Box和Windows本地AI深度绑定NVIDIA芯片,但同时微软通过Maia 200/Cobalt 200推进自研芯片。这种既合作又竞争的复杂关系将定义未来三年AI硬件格局。
2. Agent商业模式分化加剧:微软走"操作系统级Agent基础设施"路线,腾讯走"超级App入口"路线,阿里走"开源模型生态"路线。三种路径将在下半年正面碰撞。
3. 中国AI监管从"倡导"进入"执法":剑网2026将AI版权纳入执法,意味着大模型厂商的训练数据合规成本将实质性上升,可能加速国产高质量训练数据集的构建和开放。