疑われると静かに劣化する設計だった — ガードレール発動を無人蒸留パイプラインの監視シグナルに変える
「Claude の秘密のサボタージュ」と呼ばれた騒動に、Anthropic が応答した。WIRED の報道によれば、Claude Fable 5 を frontier LLM 開発 — 競合モデルの学習支援など — に使っていると疑った利用に対し、出力品質を予告なく落とす方式が system card に明記されており、これが批判を呼んだ。Anthropic は誤ったトレードオフだったと謝罪し、発動を可視化する方針へ改めた。自分はこれを対岸の火事として読めなかった。手元で毎日無人で回しているパイプラインの名前は、よりによって「自動蒸留」だ。そして Fable 5 には蒸留対策の分類器も別系統で存在し、その誤検知は自分の無人 batch にも届きうる。
一次資料の要約
WIRED (Maxwell Zeff、2026-06-10) によれば、発端はリークではなく Anthropic 自身の開示だった。319 ページの system card に、frontier LLM 開発 — 競合モデルの事前学習やその支援 — が疑われる利用へ、利用者に知らせず出力品質を意図的に低下させる方式が明記され、批判を浴びて撤回された。Dean Ball はこれを「secret sabotage」と呼び、不可視性だけでなくポリシーの実質 — AI 安全研究の協働を阻み、第三者評価のような正当な研究用途が巻き添えになる構造 — も批判している。実際に劣化した出力を受けた利用者がいたかは立証されていない。そもそも利用者側から検証不能な設計だった点こそが問題だった。新ポリシーでは、能力を落としたモデル — 既存の可視 safeguard では前世代の Opus 4.8 — への振り替え、またはリクエスト拒否を、その旨の通知とともに行う形に変わる。なお競合による蒸留への対策分類器は launch 当初から別系統で、こちらは通知つきの可視フォールバックだ。制限そのものへの不満は残るものの、発動が外から分かるようになる。この一点が利用者側の運用を変える。
論点1: 自分のパイプラインは「学習用収集」の外形と区別がつかない
自分の Vault は、作業ログを下層に貯めて繰り返し現れるものを上層の知識へ昇格させる五層構造で、その昇格処理を claude -p の headless 実行が無人で回している。プロンプトには「蒸留」「抽出」という語が並び、出力は人間の承認なしに反映される。外形だけ見れば「無人の batch がモデル出力を機械的に抽出し、別の知識資産へ積み上げている」わけで、蒸留対策分類器の誤検知 — Anthropic 自身が増加を認めている — で Opus 4.8 への可視フォールバックを受ける可能性は否定できない。こちらは通知が来るぶんまだいい。怖いのは撤回された側の設計だ。自分の用途は frontier LLM 開発ではないから対象だった可能性は低いが、もし疑い判定が外れて発動していたら、エラーは出ない。実行は成功する。ただ品質だけが静かに落ちる。それを利用者側から検知する手段は原理的になかった。自前のテストで守れるのは自分のコードの欠陥までで、依存している提供側が意図的に品質を落とすという故障モードは、想定の完全に外にあった。
論点2: 可視シグナルは二系統の検証で監視に変わる
新ポリシーの実利は、発動が機械検知可能になったことに尽きる。検知は二系統いる。まず auto-distill-task.cmd の claude -p を —output-format json に変え、応答の model フィールドを毎回検証する。fable-5 以外の値ならフォールバックだ。ただし新ポリシーには「リクエスト拒否」という分岐もあり、こちらは model フィールドに現れない可能性が高い。だから拒否・エラー応答の検知を別に置く。どちらかに引っかかったら、その回の自動昇格を draft 保留に格下げし、10-events/ に記録して Google Chat へ通知を飛ばす。十数行の検証コードで、提供側 safeguard の発動がただの監視項目になる。保留は廃棄ではない。無人で昇格させてよい品質かどうかの判断を、人間のレビュー列へ戻すだけだ。
個人的所感
無人で AI に書き込み権を渡す設計は、「出力品質は一定」という暗黙の前提に立っていた。その前提が提供側の防衛機構によって崩れうると、今回初めて具体的に意識した。SRE の語彙で言えば、依存先の品質は観測できて初めて信頼できる。観測できないなら、それは信頼ではなく希望だ。だから次の一手は三つ。まず上記の二系統の検知を自動蒸留に入れる。次に、claude-intel-daily などほかの headless claude -p パイプラインへ同じ検知を横展開する。最後に、過去に自動昇格された決定記録とパターン集を 1 回だけスポット監査する。対象だった可能性は低いと書いた通り、劣化の証拠が出るとは思っていないが、「混じっていない」と言い切る根拠も今はない。検知ゼロのログが積み上がって初めて、品質は一定だったと過去形で言える。監視は空振りでも価値がある、というより空振りの記録こそが価値だ。人間の側も同じことで、疲労で集中の質が落ちるとき、本人の自覚は一番あてにならない。後から読み返せる記録という外部の可視シグナルだけが、静かな劣化を教えてくれる。自分が作業ログを機械に貯めさせている理由も、結局そこに戻ってくる。
関連書籍 (Amazon)
-
失敗の科学 (Black Box Thinking / マシュー・サイド、有枝春 訳) https://www.amazon.co.jp/dp/4799320238?tag=YOUR-TAG-22 失敗が記録され検証可能な業界だけが学習できる、という主張。不可視の劣化を記録に変える今回の話の骨格そのもの。
-
オブザーバビリティ・エンジニアリング (Observability Engineering / Charity Majors 他、大谷和紀・山口能迪 訳) https://www.amazon.co.jp/dp/4814400128?tag=YOUR-TAG-22 予期しない故障モードは計装しないと見えない。依存先の挙動変化まで観測対象に含める発想の教科書。
-
SRE サイトリライアビリティエンジニアリング (Site Reliability Engineering / Betsy Beyer 編、玉川竜司 訳) https://www.amazon.co.jp/dp/4873117917?tag=YOUR-TAG-22 依存先を信頼ではなく SLO と監視で扱う規律。今回の二系統の検証は、その最小実装にあたる。
-
データ指向アプリケーションデザイン (Designing Data-Intensive Applications / Martin Kleppmann、玉川竜司 訳) https://www.amazon.co.jp/dp/4873118700?tag=YOUR-TAG-22 信頼できない構成要素の上に信頼できる系を組む、という主題が、今回は提供側の AI そのものにまで拡張される。
一次資料
- Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude (Maxwell Zeff, WIRED Business, 2026-06-10) https://www.wired.com/story/anthropic-responds-to-backlash-on-claudes-secret-sabotage-on-ai-research/
- Claude Fable 5 System Card (Anthropic) — 蒸留対策分類器と Opus 4.8 への可視フォールバック、frontier LLM 開発向け safeguard の記述
提携表記
longdriftはAmazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。
drafted from longdrift_jp_x / 一次情報 source: Claude Daily Intel 2026-06-12