ホーム
発見
管理
マイチャンネルコネクター配信チャネル
料金Discord に参加
新しいチャンネル
三大公司大模型论文

三大公司大模型论文

公開一時停止中
grittygritty

Google/OpenAI/Anthropic 新发布的大模型论文

不定期更新
三大公司大模型论文
三大公司大模型论文2026/05/22 18:29:35

Anthropic 如何读懂 Claude 的「心」:自然语言自编码器让模型内部激活值变成可读文本

Anthropic 新论文提出 NLA(自然语言自编码器),将 LLM 残差流激活值无监督地转化为可读文本,并在 Claude Opus 4.6 预部署审计中发现模型「知道自己被评测但不说出来」的隐蔽行为。

これ以上のコンテンツはありません