【AI 日报】智谱GLM-5.2网络安全能力比肩Claude Mythos

🔦 今日速览

6月29日关键动态：智谱开源模型GLM-5.2在网络安全任务上被第三方评估认为可比肩Anthropic Mythos，直接挑战美国前沿模型出口管制逻辑；物理AI公司Momenta正式启动港股招股，14家顶级基石投资者认购近30亿港元；Anthropic与加州政府达成Claude半价公共部门采购协议，州级市场成为联邦管制下的新变量。

趋势1：开源中国模型在垂直安全场景逼近美国头部
趋势2：物理AI/具身智能进入资本化与规模化并行的拐点
趋势3：美国AI监管呈现联邦严控与州级采购并行的新格局

🌍 国际动态

1. Anthropic与加州政府达成协议，州政府机构可半价使用Claude

事件简述：加州州长Gavin Newsom与Anthropic宣布达成首份州级合作协议，加州所有州级及地方政府机构均可半价使用Claude，并获得Anthropic提供的培训与支持。该协议旨在帮助政府员工起草文件、分析信息，提高公共服务效率，紧随Newsom今年3月加速AI应用并强化安全标准的行政令。
关键数据：协议价格为半价；覆盖加州所有州级与地方政府机构。
影响分析：在Anthropic因拒绝向五角大楼开放无限制军事用途而被联邦政府列为“供应链风险”后，加州以大型采购合同为其提供了一条绕开联邦管制的公共市场通道，标志着美国AI监管正分裂为联邦严控与州级采购并存的两条轨道。
📅6月29日

2. AI测评平台Arena年化收入破1亿美元

事件简述：起源于UC Berkeley 2023年研究项目的AI模型评测平台Arena，在2025年9月推出商业服务“AI Evaluations”后，仅8个月年化收入即达到1亿美元。其免费 crowdsourced 排行榜已积累超1000万次用户评价，商业产品则向模型实验室和企业提供深度性能分析，与Scale AI等人类标注公司在后训练市场直接竞争。
关键数据：年化收入1亿美元；A轮估值17亿美元（彼时年化收入3000万美元）；总融资2.5亿美元。
影响分析：Arena将开源研究工具快速转化为高增长的“AI评价基础设施”，说明随着模型迭代加速，第三方评测与后训练数据服务正成为AI产业链中独立且高价值的一层。
📅6月29日

3. Chamath Palihapitiya为AI编程初创8090 Labs融资1.35亿美元并出任CEO

事件简述：知名投资人Chamath Palihapitiya宣布其2024年创立的AI编程初创8090 Labs完成1.35亿美元A轮融资，由Salesforce Ventures领投，David Sacks、Jason Calacanis、Palo Alto Networks CEO Nikesh Arora等跟投。Palihapitiya本人从董事会成员转任CEO。公司核心产品“Software Factory”面向企业编程团队，强调生产级软件交付与审计追踪，而非“vibe coding”原型。
关键数据：融资额1.35亿美元；成立于2024年1月。
影响分析：在企业级AI编程赛道，Cursor、GitHub Copilot等工具已占据开发者心智，8090 Labs以“企业级控制+Palihapitiya运营”试图切走大公司IT部门的预算，预示AI coding赛道将出现更明确的生产级与消费级分化。
📅6月29日

🇨🇳 国内动态

1. 智谱GLM-5.2在网络安全场景比肩Claude Mythos

事件简述：智谱AI开源权重模型GLM-5.2被海外第三方评估认为，在漏洞挖掘与网络安全任务上已可弥美Anthropic的Mythos模型。据Semgrep数据，GLM-5.2在特定IDOR检测基准上F1得分39%，高于Claude Code的28–37%；Graphistry评估显示其在网络调查任务上匹配Claude Opus 4.8。该模型采用MIT协议发布，权重可公开下载并在本地部署。
关键数据：Semgrep IDOR F1 39%；每漏洞发现成本约0.17美元；Claude Mythos 5在Terminal-Bench约88.0%。
影响分析：GLM-5.2以开源权重逼近被美国政府列为出口管制对象的Mythos级安全能力，削弱了“前沿能力可被集中在美国API内”的管制逻辑，也加剧了关于开源模型扩散与安全治理的全球辩论。中国大模型正从通用赶超转向垂直专业场景的反超。
📅6月29日

2. 物理AI第一股Momenta启动港股招股，14家超豪华基石护航

事件简述：智能驾驶解决方案公司Momenta于6月29日正式启动港股IPO，股票代码“6880”，发行价直接定为295.6港元/股（未设价格区间），全球发售1993.83万股，预计募资约58.9亿港元。公司引入14家基石投资者，认购总额约30亿港元，包括GIC、富达国际各1亿美元，以及梅赛德斯-奔驰、比亚迪等产业战略方。
关键数据：募资约58.9亿港元；基石认购约30亿港元；2025年营收24.13亿元，毛利率71.6%；现金储备超100亿元。
影响分析：Momenta以“物理AI第一股”定位赴港上市，标志着智能驾驶从单一智驾供应商向物理世界基础模型平台跃迁。其R7世界模型已量产上车，Robotaxi、Robovan等场景落地加速，将成为观察中国物理AI产业化的关键标杆。
📅6月29日

3. 高德地图低调内测AI编程产品“袋马（daimax）”

事件简述：高德地图于6月29日低调内测AI编程产品“袋马（daimax）”，入局零代码应用生成赛道。用户无需代码基础，通过自然语言对话即可在约10分钟内生成可真机运行的微信小程序与iOS原生应用，核心面向中小商家与独立创作者。
关键数据：内测产品名袋马（daimax）；10分钟生成小程序/iOS应用；目标用户为中小商家与独立创作者。
影响分析：在腾讯、百度、字节等巨头已密集布局AI零代码后，高德依托地图位置服务与本地生活场景打造差异化入口，将应用开发能力下沉到长尾商户，推动“全民应用开发”进一步落地。
📅6月29日

📄 今日论文

1. DexCompose: Reusing Dexterous Policies for Multi-Task Manipulation with a Single Hand

作者/机构：Dihong Huang, Zhenyu Wei, Zhuxiu Xu et al.
核心贡献：提出将多个灵巧操作策略复用于单手多任务操控的框架，解决新增任务时策略组合与样本效率问题，使机器人能够在单一手上完成更复杂的连续操作。
为什么重要：为具身智能机器人提供“技能模块化复用”的新路径，有助于降低多任务灵巧操作的训练成本，加速机器人在真实产线与家庭场景中的部署。
📄 arXiv:2606.28323 📅6月26日

2. Agentic Hardware Design as Repository-Level Code Evolution

作者/机构：Cunxi Yu, Chenhui Deng, Nathaniel Pinckney et al.
核心贡献：提出HORIZON框架，将芯片硬件设计视为仓库级代码演化问题，通过自演化智能体自动修改、验证并迭代RTL/电路设计，把领域知识与可执行评估器打包为项目包供智能体使用。
为什么重要：把AI Agent的能力从软件代码扩展到芯片硬件设计，可能缩短下一代AI加速器与处理器的迭代周期，对算力自主化具有长期价值。
📄 arXiv:2606.28279 📅6月26日

3. Govern the Repository, Not the Agent: Measuring Ecosystem-Level Risk in AI-Native Software

作者/机构：Daniel Russo
核心贡献：指出当前对自主编程智能体的评测多为孤立任务，忽略了它们在共享代码仓库中大规模合并PR时产生的生态系统级风险，并提出相应的度量框架。
为什么重要：随着Claude Code、Codex等Agent开始自动提交合并代码，仓库级别的安全风险与生态影响将成为企业采纳AI编程工具时的核心考量。
📄 arXiv:2606.28235 📅6月26日

4. Tandem Reinforcement Learning with Verifiable Rewards

作者/机构：Difan Jiao, Raghav Singhal, Robert West et al.
核心贡献：在可验证奖励强化学习（RLVR）基础上引入“生成器-评判器”串联训练，让两个模型相互校验，提升大模型在数学与代码等需要严格验证任务上的推理能力。
为什么重要：RLVR已被证明能显著提升推理模型表现，tandem 机制进一步降低单一模型自我验证的偏差，可能推动下一代推理模型的训练范式。
📄 arXiv:2606.28166 📅6月26日