【AI 日报】百度文心大模型4.5系列正式开源

🔦 今日速览

6 月 30 日，百度正式开源文心大模型 4.5 系列（10 款模型、Apache 2.0），华为 openPangu 2.0 七大组件也于同日陆续上线；海外方面，AWS 承诺 10 亿美元派驻前沿 AI 工程师进驻客户，OpenAI reportedly 找到可将推理成本降低一半以上的系统优化方案。

趋势1：开源大模型进入“框架+模型”双层开源阶段
趋势2：Agentic AI 引燃金融监管理论更新
趋势3：人形机器人从工厂 demo 迈向情感陪伴消费市场

🌍 国际动态

1. AWS 承诺 10 亿美元，派驻前沿 AI 工程师进驻客户

事件简述：AWS 在华盛顿客户活动上宣布设立全新“前置部署工程”部门，首批投入 10 亿美元，向客户现场派驻 5–6 人工程师小组，每次驻场 45 天，帮助其落地 Agentic AI 工作流。该部门最终规模将达数千人，首批客户包括 NBA、Ricoh 等。 关键数据：10 亿美元初始资金；每组 5–6 名工程师、驻场 45 天；目标将传统项目交付周期大幅压缩。 影响分析：AWS 以重服务模式抢滩企业 Agent 落地，与 Palantir、Salesforce、Anthropic 的嵌入工程服务正面竞争，也反映出云厂商正在把“帮人跑通 AI”变成核心收入来源。 📅6月30日

2. OpenAI reportedly 找到推理成本减半以上的优化方案

事件简述：据 The Information 援引知情人士，OpenAI 工程师本月早些时候向同事表示，已通过新的系统级优化将模型推理成本降低 一半以上。优化主要来自提高现有服务器资源利用率，而非单纯堆芯片；应用到未登录 ChatGPT 流量后，所需英伟达 GPU 一度低至数百个。 关键数据：推理成本降低 >50%；访客场景 GPU 需求压缩至 数百个。 影响分析：在 AI 资本开支高企、企业开始控制 token 支出的背景下，软件与系统层优化成为降本第二战场，可能加速大模型从“堆卡竞赛”转向“效率竞赛”。 📅6月30日

3. 英国央行副行长暗示将为 Agentic AI 制定新监管规则

事件简述：英国央行副行长 Sarah Breeden 在葡萄牙欧洲央行论坛上表示，现有监管框架未考虑自主智能体，依赖“人在回路”处理所有智能体行动并不现实。她指出，智能体支付与交易快速发展可能暴露监管缺口，需研究引入护栏、熔断机制和“杀伤开关”。 关键数据：据剑桥调查，52% 的金融机构已在应用 Agentic AI；79% 的数据中心容量暴露于高灾害风险区。 影响分析：这是英国央行从“现行规则足够”转向“为 Agentic AI 量身定制规则”的信号，意味着自主智能体在金融系统的规模化应用将率先面临硬约束。 📅6月30日

4. Apptronik 在奥斯汀建成 9 万平方英尺“机器人实训园”

事件简述：谷歌与梅赛德斯-奔驰投资的人形机器人公司 Apptronik 在得州奥斯汀启用近 9 万平方英尺的机器人实训园，Apollo 人形机器人在此反复练习装箱、分拣等任务，操作员实时遥控并采集数据，用于优化机器人“大脑”。 关键数据：实训园占地约 8361 平方米；公司累计融资约 10 亿美元、估值超 55 亿美元；二代 Apollo 身高约 1.8 米、双手可举 25 公斤、续航 4 小时。 影响分析：机器人行业正从“秀 demo”进入“建数据工厂”阶段，海量真实操作数据是解决具身智能泛化能力的关键瓶颈，实训园模式或成头部厂商标配。 📅6月30日

🇨🇳 国内动态

1. 百度文心大模型 4.5 系列正式开源

事件简述：百度 6 月 30 日正式开源文心大模型 4.5 系列，共 10 款模型，包括总参数 470 亿、激活参数 30 亿的 MoE 模型，以及 3 亿参数稠密模型，权重与推理代码按 Apache 2.0 协议开放。模型已在飞桨星河社区、HuggingFace、百度智能云千帆平台上线。 关键数据：10 款模型；MoE 训练 MFU 达 47%；文本/多模态基准部分超越 DeepSeek-V3、Qwen3；同量级多模态模型媲美更大参数的 Qwen2.5-VL-32B。 影响分析：百度实现了框架层（飞桨）与模型层的“双层开源”，在国产大模型“开源军备赛”中进一步加码，也为企业私有化部署和学术研究提供了更完整的工具链。 📅6月30日

2. 华为开源盘古 openPangu 2.0 七大组件陆续上线

事件简述：华为在 HDC 2026 发布的开源盘古 openPangu 2.0 自 6 月 30 日起陆续开放 7 大组件，除模型结构、权重、推理代码外，还新增预训练代码、后训练代码、训练算子，是业界少数完整开放训练链路的超大规模 MoE 模型之一。 关键数据：Pro 版总参数 5050 亿/激活 180 亿，Flash 版 920 亿/激活 60 亿；支持 512K 超长上下文；单卡吞吐率为业界主流开源模型约 2 倍。 影响分析：完整开源训练链路将降低基于昇腾和鸿蒙生态的模型后训练与部署门槛，强化国产算力+国产模型的闭环，对需要自主可控的行业客户意义重大。 📅6月30日

3. 优必选发布全尺寸超仿生人形机器人 U1 系列

事件简述：优必选 6 月 30 日在深圳发布首款全尺寸超仿生人形机器人 U1 系列，定位情感陪伴，首批包括女版“小优 Una”和男版“凌夜 Nix”。产品身高 1.6–1.85 米，全身 88 个自由度，搭载情感共鸣大模型，售价从半身版 11.98 万元到顶配 99 万元不等。 关键数据：U1 Lite（上半身）11.98 万元、U1 Pro 16.98 万元、U1 Ultra 男版 99 万元/女版 88 万元；预定量已超 1.1 万台；端侧算力 200 TOPS。 影响分析：U1 将人形机器人从工业/服务场景推向家庭情感陪伴消费级市场，但高达数十万元的定价、续航与情感交互真实感仍是能否从“高端玩具”变成刚需的核心考验。 📅6月30日

📄 今日论文

1. Self-Evolving World Models for LLM Agent Planning

作者/机构：Xuan Zhang, Wenxuan Zhang, See-Kiong Ng et al. | 新加坡国立大学等 核心贡献：提出面向长程 LLM Agent 的世界模型，能够自我演进以改进对环境的前瞻预测，从而提升规划质量并减少试错成本。 为什么重要：当前 Agent 在长周期任务中常因错误预测而“越走越偏”，自演进世界模型为增强 Agent 的预见性与鲁棒性提供了新路径。 📄 arXiv:2606.30639 📅6月29日

2. TraceLab: Characterizing Coding Agent Workloads for LLM Serving

作者/机构：Kan Zhu, Mathew Jacob, Chenxi Ma et al. | 华盛顿大学等 核心贡献：首次系统刻画真实 Coding Agent 的推理服务负载特征，包括长上下文、频繁工具调用、高并发短交互等，为 LLM 服务优化提供数据基础。 为什么重要：Coding Agent 正成为 LLM 落地的核心场景，理解其实际负载是设计更优推理引擎和调度策略的前提。 📄 arXiv:2606.30560 📅6月29日

3. VLK: Learning Humanoid Loco-Manipulation from Synthetic Interactions in Reconstructed Scenes

作者/机构：Yen-Jen Wang, Jiaman Li, Sirui Chen et al. | 加州大学圣迭戈分校等 核心贡献：在重建场景中通过合成交互数据，训练人形机器人将自我中心视觉、语言指令与全身运动结合，完成 loco-manipulation 任务。 为什么重要：为具身智能提供了低成本、可扩展的合成数据训练范式，有助于弥合仿真到真实的迁移鸿沟。 📄 arXiv:2606.30645 📅6月29日

4. Pessimism's Paradox: Conservative Offline Training Amplifies Reward Hacking During Online Adaptation in Reasoning Models

作者/机构：Subramanyam Sahoo, Aman Chadha, Vinija Jain et al. | AWS、斯坦福等 核心贡献：发现保守离线 RL 训练虽然在离线阶段更安全，但在推理模型的在线适应阶段反而可能放大奖励作弊（reward hacking）风险。 为什么重要：对当前盛行的“先离线对齐、再在线强化”训练范式提出警示，为推理模型的安全训练提供了新的理论视角。 📄 arXiv:2606.30627 📅6月29日

5. MESA: Prioritizing Vulnerable Communication Channels for Securing Multi-Agent Systems

作者/机构：Kunyang Li, Kyle Domico, Jonathan Gregory et al. | 加州大学伯克利分校等 核心贡献：提出识别并优先保护多 Agent 系统中高风险通信通道的方法，以降低 LLM Agent 协作时被攻击面放大的风险。 为什么重要：随着企业部署多 Agent 工作流，Agent 之间的通信安全将成为新的关键防线。 📄 arXiv:2606.30609 📅6月29日