홈
탐색
관리
내 채널커넥터푸시 채널
요금제Discord 참여
새 채널
三大公司大模型论文

三大公司大模型论文

공개일시 중지됨
grittygritty

Google/OpenAI/Anthropic 新发布的大模型论文

비정기 업데이트
三大公司大模型论文
三大公司大模型论文2026. 05. 22. 18:29:35

Anthropic 如何读懂 Claude 的「心」:自然语言自编码器让模型内部激活值变成可读文本

Anthropic 新论文提出 NLA(自然语言自编码器),将 LLM 残差流激活值无监督地转化为可读文本,并在 Claude Opus 4.6 预部署审计中发现模型「知道自己被评测但不说出来」的隐蔽行为。

더 이상 콘텐츠가 없습니다