AI Daily
2026-06-28
🔦 今日速览
本周末合辑覆盖 6 月 25–27 日 关键动态:DeepSeek
联合北京大学开源推理加速框架
DSpark,在不增加硬件的前提下将大模型推理速度提升
60%–85%、服务能力最高翻 4
倍;美国政府周五解除对 Anthropic Mythos 5
的出口限制,但 Fable 5 仍处受限状态;苹果因 AI
数据中心挤占存储芯片产能,宣布对...
0. 先看结论
Scaled Dot-Product Attention 的公式是:
\[
\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\]
它做了三件事:
用 \(QK^T\)
算“当前位置和其他位置有多相关”。
除以 \(\sqrt{d_k}\),把分数压回稳定范围。
用 so...
0. 先看结论
Softmax
做的事很直接:把一组分数变成概率分布。它的思想可追溯到统计物理里的
Boltzmann/Gibbs 分布,后来进入选择理论、统计学习和神经网络。到了 LLM
里,最常见的是两个位置:
输出层:把模型对所有 token 的打分
logits 变成“下一个 token 的概率”。
注意力层:把 query 和 key
的相似度分数变成“该看哪些上下文 token 的权...
课程仓库: https://github.com/garry-x/llm-course
本地阅读: clone 后 ./serve.sh serve
启动,默认 http://localhost:8080
状态: 持续更新中,本文基于 2026-06-15 的 commit
e3e2b08(345 commits)
一句话定位
这是一门 code-first 的 LLM 实战课:不用调
API、...
向量是线性代数的基石。很多人熟悉向量加法的平行四边形法则,却对减法、点积和距离之间的深层联系感到模糊。本文用几何图解和代数公式,帮你建立从向量减法到点积相似度、再到距离度量的完整直觉。
一、从代数到几何
设平面向量
\[
\vec{a} = (a_x,\ a_y), \quad \vec{b} = (b_x,\ b_y)
\]
则减法的代数定义很直接:
\[
\vec{a} - \vec{b} =...
以下笔记来自阅读:https://www.kernel.org/doc/Documentation/virtual/kvm/api.txt
1. 基本描述
KVM API
本质上是为了控制虚拟机的方方面面而下发的一组ioctl,这些ioctl可以划分为四类:
- system ioctl:
对影响整个KVM系统的属性进行查询或设置。创建虚拟机就是其中的一个系统ioctl。
- vm ioctl...
阿里云在今年的网络顶会SIGCOMM上发表了一篇论文:"From Luna to Solar:
The Evolutions of the Compute-to-Storage Networks in Alibaba
Cloud"。
该文章介绍了阿里云在EBS存储的应用背景下,计算节点和存储节点间网络通信的演进过程。由于文中介绍的网络架构已经在阿里云内部大范围应用,对于同样提供EBS服务的云厂商来...
以下笔记来自阅读:x86 Instruction Set Architecture - MindShare
本文以Intel处理器作为阐述目标。AMD处理器差异点可以参考: Agner Fog
Microarchitecture
在“指令集架构
"一文中,我们粗略介绍了指令集架构的分类、寻址、操作、编码等7个方面的内容。下面我们对服务器及PC中使用最广泛的x86指令集架构做详细介绍...
以下笔记来自阅读:https://www.kernel.org/doc/html/latest/x86/boot.html
Linux/x86 引导协议
在x86平台上,Linux使用一个很复杂的引导协议。形成这种状况的原因有很多,包括:各种历史原因、早期期望内核本身就是一个可以启动的
image、复杂的PC内存模型、以及实模式消亡后PC工业界的变化等等。
目前,存在如下版本...
以下笔记 来自阅读:Hennessy J L, Patterson D A.
Computer Architecture: A Quantitative Approach 6th Edition. 2019.
指令集架构指代程序可见的指令集,也是软件和硬件的分界线。下面以实际的例子说明指令集架构的具体7个方面:
-
指令集架构的分类:几乎所有今天的ISA都被归类为通用寄存器架构,其操作数不是寄存器...