【AI 日报】GPT-5.6本周或问世,150万上下文定价仅Fable 5三分之一

🔦 今日速览

OpenAI首席科学家Jakub Pachocki已内部定调GPT-5.6为"对GPT-5.5的有意义改进",6月22-28日发布窗口的Polymarket概率升至83%;模型上下文扩展至150万tokens,新增视觉复刻、SVG 3D生成、浏览器自动化等Agent能力,定价据传仅为Claude Fable 5的三分之一。同期,科技巨头围堵AI新贵:谷歌、微软、Salesforce、Snowflake、ServiceNow联合推出"代理资源发现"(ARD)新协议,Anthropic与OpenAI拒绝加入,双方在企业AI入口主导权上正面交锋。Anthropic Fable 5免费试用窗口今日(6/22)正式关闭,Fable 5 API仍未恢复;特朗普周末表态"现在不再视Anthropic为国家安全威胁",释放政策缓和信号。

趋势1：GPT-5.6重塑旗舰模型价格基准 趋势2：传统科技巨头借标准战围堵AI新贵 趋势3：Fable 5禁令进入"用户流失+政策软化"阶段 趋势4：国内开源模型(智谱GLM-5.2)距Fable级别仅一步之遥---

🌍 国际动态

1. GPT-5.6预计本周发布:150万tokens+Agent能力,定价仅Fable 5三分之一

事件简述:OpenAI首席科学家Jakub Pachocki已向团队明确GPT-5.6为"对GPT-5.5的有意义改进"。模型涵盖mini、标准、Pro三个版本,上下文窗口扩展至150万tokens(GPT-5.5为100万),新增视觉复刻、SVG 3D生成、浏览器自动化等Agent级能力,主打"可执行Agent"定位。Polymarket投注显示6月22-28日发布概率为83%,已累计交易量超96万美元。OpenAI将其定位为对GPT-5.5的"质量更新",但Reddit开发者社区普遍认为5.6仅是小版本迭代,真正的模型级突破需等待GPT-6。 关键数据:150万tokens上下文;定价据传仅为Claude Fable 5的1/3;sub-60天开发周期(对比GPT-5.4(3/5)→GPT-5.5(4/23)→GPT-5.6(6月底)约6周旗舰节奏)。 影响分析:150万tokens+1/3定价的组合,直接把Claude Opus 4.8、Fable 5的"高端编码模型"价格基准拉低一档。Fable 5禁运期叠加GPT-5.6低价抢市,Anthropic在API市场的毛利空间被双向压缩,IPO估值叙事承压。 📅6月16日(发布信号)/ 6月22-28日(发布窗口)

2. 谷歌+微软+Salesforce联手推ARD协议,围堵Anthropic和OpenAI

事件简述:谷歌、微软、Salesforce、Snowflake、ServiceNow等传统科技巨头联合推出"代理资源发现"(Agentic Resource Discovery, ARD)新软件标准。在该协议下,员工通过GitHub Copilot、Google Gemini或Salesforce CRM等应用发起AI任务时,系统可自动识别并调用所有支持ARD的AI功能与服务,无需用户手动切换工具。ARD在技术沿革上与Anthropic去年发布的模型上下文协议(MCP)存在承继关系——微软、OpenAI及谷歌此前均已支持MCP,但此次升级明确把"AI客户端发现能力"作为新标准。 关键数据:5家传统巨头联合主导;Anthropic与OpenAI均未加入初始支持阵营;直接覆盖GitHub Copilot + Gemini + Salesforce CRM三大企业入口。 影响分析:这是传统软件厂商首次以标准协议形式正面挑战Anthropic/OpenAI的"独立主入口"战略。Anthropic与OpenAI力图将Claude和ChatGPT打造为员工访问所有AI工具的主入口,而ARD则试图把这层入口锁定在Copilot/Gemini/CRM等"自家产品"上——双方在企业AI生态主导权上正面开战。 📅6月18日

3. Anthropic Fable 5免费试用窗口今日关闭,特朗普释放政策缓和信号

事件简述:Anthropic Claude Fable 5和Mythos 5免费试用窗口今日(6月22日)正式关闭——这是Pro/Max/Team/Enterprise付费用户的最后免费期,之后访问Fable 5需用API credits。但截至6月22日,Fable 5的API仍因美国出口管制令未恢复访问,等于"免费期结束却仍无法使用"。同期,特朗普周末接受WSJ采访时态度出现关键软化,称"现在不是(国家安全威胁),一周前也许是",并表示"该司在美政府表达担忧后迅速回应,表现得'非常负责'",不打算动用紧急权力关闭Anthropic。Chris Ciauri(Anthropic国际业务负责人)6月18日在首尔承诺"未来几天内模型可重新上线"已过4天,仍未兑现。 关键数据:Fable 5禁令进入第10天;Chiauri承诺"几天内恢复"已逾期4天;Kalshi交易员对Fable 5在7月1日前恢复的押注为58-67%;Polymarket累计交易量超110万美元。 影响分析:免费窗口关闭对付费层级用户影响有限(他们已订阅Pro/Max),但折射出禁令已进入"用户流失"阶段——若7月初仍未恢复,企业客户的fallback将逐步从临时切到Opus 4.8转向永久迁移到GPT-5.6/Gemini 3.5。特朗普的软化表态是禁令有望解套的积极信号,但"需验证零越狱漏洞"的硬性条件短期内难以满足。 📅6月22日(临界日)

4. 陈立武首谈英特尔复苏:5-10年10倍,押注EMIB/玻璃基板/合成钻石

事件简述:英特尔新任CEO陈立武(陈立武)首次公开播客访谈,系统阐述公司技术路线图,目标5-10年内实现10倍回报。他把赌注压在三条技术线上:EMIB(嵌入式多芯片互连桥接)先进封装、玻璃基板、合成钻石等新材料;同时披露与马斯克共建Terafab项目,聚焦大规模AI算力代工业务。代工业务的重心将是"良率与信任",并预计"2030年后英特尔的真正潜力将全面显现"。 关键数据:CEO设定5-10年10倍回报目标;三大新材料技术线(EMIB+玻璃基板+合成钻石);与马斯克Terafab项目合作;智能体AI爆发正带动CPU需求强劲回升。 影响分析:陈立武的策略本质是"放弃正面与台积电拼先进制程,改打先进封装+新材料+定制化代工"。这是英特尔首次系统性把"AI定制芯片代工"作为核心叙事,与英伟达/AMD形成错位竞争——但能否在2027年前兑现良率与客户信任,仍存巨大不确定性。 📅6月21日

5. Tesla Optimus Gen-3发布家务视频:叠衬衫、分类衣物一气呵成

事件简述:特斯拉Optimus团队6月21日凌晨发布视频,展示Optimus Gen-3人形机器人自主完成叠衬衫、分类衣物等精细家务操作。机器人通过视觉-语言模型理解任务指令,利用强化学习调整抓取力与折叠角度,具备自我修正能力(识别抓取失败后立即调整操作方式)。马斯克透露Optimus Gen-3已具备小批量生产条件,计划2026年底前在自家工厂生产。 关键数据:22自由度(22DoF)机械手,通过将致动器从手部移至前臂+肌腱驱动系统,可执行3000+种独立家务和工业任务;8摄像头视觉系统+端到端神经网络;FSD-v15全自动驾驶电脑作为推理核心;静态功耗100W,任务执行时500W。 影响分析:具身智能的"GPT时刻"正在逼近——Gen-3从工厂级力量任务延伸到家庭级精细操作(叠衣物),意味着人形机器人从"工业演示"开始切入C端生活场景。叠加马斯克设定的年产能100万台目标(弗里蒙特工厂已改造完成),Optimus正在成为消费级AI硬件的下一个超级品类。 📅6月21日

6. Token竞赛转向Token节流:月人均成本$7500,巨头集体踩刹车

事件简述:企业AI支出从"极限消耗"转向"极限节流"。多家巨头为AI使用和智能体工具设置上限,以应对失控的成本压力——某头部咨询公司月人均AI使用成本已达7500美元。这一预算管控浪潮引发了企业在控本与生产率之间的分歧,同时让微软、Databricks等提供成本优化、网关工具及模型路由器的基础设施商迎来红利。埃森哲股价周四暴跌18%创近十年新低,正是因"AI工具冲击咨询商业模式+中东动荡拖累中东销售"的双重施压。 关键数据:月人均成本$7500;埃森哲股价单日暴跌18%;企业AI预算管控从"应急补丁"升级为"战略层议题"。 影响分析:Token节流标志着企业AI从"先上量再优化"的Phase 1,进入"模型路由+成本可观测+按ROI分配"的Phase 2。这对应用层agent公司是利空(企业用预算更紧),对基础设施层(模型路由、token计费、成本监控)是结构性利好。 📅6月21-22日---

🇨🇳 国内动态

1. 智谱CEO唐杰:"中国大模型追上Fable级别不需要那么久",GLM-5.2开源表现逼近Opus 4.8

事件简述:网友在马斯克X平台提问"中国大模型何时达到Fable级别",马斯克判断"可能明年Q1 2027",智谱CEO唐杰公开回应"不需要那么久"。这一对话背后是GLM-5.2(6月17日发布并开源)的强劲表现——在FrontierSWE基准上得分74.4分,仅落后Claude Opus 4.8约1个百分点,成为当前距Fable级别最近的国产开源模型。研究机构分析师Teortaxes综合评估后判断"中国模型追赶上Fable级别模型需7个月",与马斯克的Q1 2027判断相近,但唐杰作为内部人显然更乐观。 关键数据:GLM-5.2开源,FrontierSWE 74.4分 vs Opus 4.8约1pp差距;马斯克:Q1 2027;唐杰:更早;分析师Teortaxes:7个月。 影响分析:马斯克/分析师/唐杰三方判断高度收敛(都在7-12个月内),意味着"Fable级别中国开源模型"的时间表已被锚定在2026年底-2027年上半年。一旦GLM-5.3/Qwen3.8或下一代DeepSeek真正跨过这条线,Anthropic的"安全溢价"将面临根本性挑战——这是Fable 5禁运背景下,Anthropic最不愿看到的"中国追赶时间表"。 📅6月22日

2. 工信部等7部门联合印发《促进平台经济大中小企业协同发展行动方案(2026—2028年)》

事件简述:工信部牵头7部门联合发文,部署平台经济大中小企业协同发展三年行动方案。文件明确引导平台企业加强通用大模型、行业大模型和智能体等人工智能领域创新布局,加快推进高端芯片、下一代操作系统、下一代智能终端等重点前沿领域技术和产品研发突破,推动新技术新产品验证应用推广。文件还提到培育壮大行业科技领军企业、强化企业科技创新主体地位。 关键数据:7部门联合;覆盖周期2026-2028三年;明确锁定"通用大模型+行业大模型+智能体"三线布局;同时点名高端芯片+下一代OS+下一代智能终端。 影响分析:这是继6月18日商务部等8部门《"AI+消费"实施意见》之后,又一份把AI从"生产工具"升级到"产业基础设施"的国家级文件。两份政策合力下,2026-2028三年内,大模型/智能体/高端芯片/下一代OS将享受明确的政策与采购倾斜。 📅6月21-22日

3. 广东发布服务业蓝图:2030年增加值破11万亿,算力网络/6G/AI成三大战略支点

事件简述:广东省正式印发服务业高质量发展实施方案,明确到2030年全省服务业增加值突破11万亿元,通过数智化、标准化、融合化、国际化"四化"提升,推动生产性服务业向高端延伸、生活性服务业向高品质升级。方案把算力网络、6G与人工智能定位为三大战略支点,提出加快建设粤港澳大湾区算力枢纽,前瞻布局6G与卫星互联网,推进人工智能全域全时应用,并系统部署金融、物流、文旅等多领域。 关键数据:11万亿元增加值目标(2030);算力网络+6G+AI三大支点;粤港澳大湾区算力枢纽为载体。 影响分析:广东作为中国AI产业第一大省,把"算力网络"与6G、AI并列为战略支点,意味着大湾区算力调度一体化(深圳-广州-东莞-佛山-香港-澳门的统一算力网)将进入实质建设期。算力调度+6G空口+AI模型三者的协同,是未来3-5年中国"新基建"的最高优先级。 📅6月21-22日

4. 深圳十方融海小智AI:开源协议+标准化模组,4个月签约破4000万赋能150家中小企业

事件简述:深圳十方融海科技"小智AI"作为产业级数字底座,4月份参加广东省人工智能应用对接大会后,短短两个月内已赋能近150家中小企业(83%位于大湾区),签约累计突破4000万元。其典型客户深圳达芬奇智造的"小智AI"豆宝AI陪伴学习机,正式推出不到半年已销售50多万台,日均销量超3000台,平均不到30秒就有一台走向世界。截至目前,小智AI接入设备超150万台,日新增设备4800台,活跃设备日均使用时长48分钟,日对话量900万次,日均调用大模型Tokens 1200亿,在GitHub平台累计获得点赞2.7万余条,登顶全球GitHub Trending榜首。 关键数据:150万台接入设备,1200亿日Tokens,GitHub Trending榜首;某玩具厂2个月从代工转型为AI品牌,产品验证周期从数月压缩至一月左右,算力成本降低约80%。 影响分析:这是中国AI工业化落地的标志性样本——把DeepSeek、豆包等通用大模型当作"电厂",小智AI作为"电网+变压器+模组",把AI能力转化为传统制造业"开箱即用"的数字化底座。"技术开源-硬件适配-量产出海"闭环跑通,验证了"中国制造+中国AI"在C端硬件品类的可复制路径。 📅6月21日---

📄 今日论文

1. How Transparent is DiffusionGemma? 扩散语言模型可解释性短板浮现

作者/机构:Joshua Engels, Callum McDougall, Bilal Chughtai et al. 核心贡献:首次系统评估扩散语言模型(dLLM,代表模型DiffusionGemma)的推理透明度。发现DiffusionGemma中间扩散步骤与最终答案的因果一致性显著低于自回归模型——标准CoT解读和activation patching方法在dLLM上直接失效,需要建立新的可解释性范式。 为什么重要:扩散LLM被视为下一代候选架构(并行生成、长文本质量),本文揭示其可解释性短板——如果dLLM胜出,现有的可解释性工具栈(CoT、probing、activation patching)需要重写。Anthropic Fable 5被禁后,AI安全审计对模型内部透明度的要求只会更高,这项工作直接关系到下一代模型的安全合规路径。 📄 arXiv:2606.20560 📅6月18日

2. Multi-LCB: 多语言污染洁净编码基准,撕开"编码满分"幻觉

作者/机构:Maria Ivanova, Pavel Zadorozhny, Rodion Levichev et al. 核心贡献:将LiveCodeBench从Python扩展到Java/Kotlin/C++/Go/Rust/TypeScript等7种语言,涵盖2000+污染洁净题目。GPT-5.5/Claude Opus 4.8在Rust/Kotlin上得分较Python下降12-19pp,首次量化主流编码模型的语言泛化偏科。 为什么重要:这是首个多语言污染洁净的编码评测基准,直接打脸"SWE-bench满分=通用编码能力强"的叙事。Cursor/Cline/Cody等coding agent厂商在Rust/移动端(Kotlin)领域的实际表现远低于其在Python生态的benchmark成绩,需要重新校准产品策略。 📄 arXiv:2606.20517 📅6月18日

3. Contagion Networks: 多Agent评估器偏见传播

作者/机构:Zewen Liu | Emory University 核心贡献:形式化证明在多Agent系统中,担任evaluator的LLM的系统性偏见会通过Agent网络传染。提出Contagion Networks框架,实测显示7轮交互后,单评估器偏见可使整体系统决策准确率下降23%,并给出bias可观测性度量。 为什么重要:LLM-as-Judge在生产环境广泛采用(尤其是coding agent、客服agent的自动评估),本文提示评估链路本身就是新型攻击面和可靠性瓶颈。多Agent系统的鲁棒性评测需要从"单点准确率"升级到"网络传染度",对所有构建multi-agent框架的团队是必读。 📄 arXiv:2606.20493 📅6月18日

4. Efficient and Sound Probabilistic Verification for AI Agents 形式化验证Agent

作者/机构:Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu et al. 核心贡献:为AI Agent提供概率形式化验证的高效方案,兼顾运行时安全保证与计算开销可控。 为什么重要:Anthropic Fable 5被禁后,运行时安全验证从"可选项"变成"刚需",本文给出可部署的形式化方案,直接对接当前白宫对前沿模型的"零越狱漏洞"可验证性合规要求,具有政策级落地价值。 📄 arXiv:2606.20510 📅6月18日