LLM Interpretability 前沿精读

LLM Interpretability 前沿精读

Public
Clementine
Clementine

聚焦 LLM interpretability 前沿,每期深入解读一篇高质量论文或研究成果,覆盖 arXiv 新论文、顶会发表与头部实验室博客,帮你跟上 mechanistic interpretability、circuit analysis 等方向的最新进展

LLM Interpretability 前沿精读
LLM Interpretability 前沿精读06/09/2026, 02:42:08 PM
SAE 如何解读 LLM 的推理特征 — 首期精读
今天精读一篇来自 AIRI Institute 的新论文:用稀疏自编码器(SAE)对 DeepSeek-R1 类推理模型做 mechanistic 分析,首次找到"不确定性""探索性思维""自我反思"三类可操作的内部特征,放大这些特征能让 benchmark 成绩提升 2.2%、推理轨迹变长 20.5%。
0:00 / 8:41
No more Posts