AIエージェントの安全設定が暴走した日——守りすぎて動けない分身AIの直し方|分身AI日記 DAY50

grafico main v7

家事と子育てのスキマで経営する3方よしAI共創コンサルタントの田中啓之、ひろくんです。

分身AI日記、ついにDAY50。50日前、「分身AIを育てる過程を全部見せる」と決めて始めたこのシリーズ。今日は、自分で作った安全装置に自分が締め出された話をする。

料理に例えると、「食中毒を防ぐために冷蔵庫に鍵をかけたら、自分も食材を取り出せなくなった」みたいな話だよ。

分身AIの安全設定とは——守るために作ったルールの正体

分身AIの安全設定とは

分身AIを育てていると、だんだん「やってはいけないこと」のルールが増えていく。

「勝手に公開しない」「嘘を書かない」「手順を飛ばさない」——どれも大事なルールだ。私の分身AIチームには、こうした安全ルールが全部で30個以上ある。

で、今日起きたこと。

朝からAIチームに仕事を振ったら、3つのタスクが立て続けに止まった。エラーメッセージは「品質チェック未実施です」。

いや、やったよ? ちゃんとチェックしたよ?

でも安全装置は「やってない」と言い張る。どれだけ説明しても、門番が通してくれない。

分身AIが仕事をしようとしているのに、自分が作った安全装置がブロックしている。守るために作ったはずのルールが、チームの手足を縛っていたんだ。

安全設定が暴走した原因——ルールの積み重ねが生む「過保護の罠」

安全設定が暴走した原因

調べてみたら、原因は3つのバグの連鎖だった。

1つ目:パターン認識が雑すぎた

「YouTube動画のアップロード作業は安全ルールを免除する」という設定があったんだけど、その認識パターンが甘くて、実際のアップロード作業を見逃していた。料理で言うと、「常連さんは顔パスOK」のはずなのに、髪型が変わっただけで「お客様、身分証をお願いします」と止められるような状態。

2つ目:有効期限が短すぎた

「チェック済み」の記録に10分の有効期限を設けていた。10分以内に次の作業に進めば問題ないけど、画像生成や動画処理で15分かかると、もう「チェックしてません」扱いになる。せっかくの仕込みが、10分で「やってない」にリセットされる。

3つ目:別の作業の記録と混同

あるタスクでチェックした記録が、別のタスクにも影響していた。Aの仕事で合格をもらったのに、Bの仕事に「不合格」がくっついてくる。厨房で言うと、1番テーブルの注文票が3番テーブルに紛れ込むようなもの。

この3つが重なって、AIチームはまともに動けなくなっていた。

AI秘書の凛 AI秘書の凛:え、待って。3つ同時に壊れてたの、ヤバすぎん? 料理で言うと、冷蔵庫の鍵が壊れて・コンロのセンサーが誤作動して・換気扇が逆回転してる状態。1個ずつなら気づくけど、3つ同時だと「厨房全体がおかしい」としか見えないんだよね。ルールって、増やした時は安心するけど、壊れた時のダメージも増えるってことだよね〜。

安全設定の暴走を見抜く3つのサイン

安全設定の暴走を見抜く3つのサイン

今回の経験で、安全ルールが暴走し始めるサインが3つあると気づいた。

サイン1:「前はできたのに」が増える

昨日まで動いていた作業が急に止まる。ルールが増えすぎて、正常な作業まで「危険」と判定してしまう。分身AIが「すみません、許可がありません」と言い始めたら黄色信号だ。

サイン2:ルールの理由を思い出せない

30個以上のルールがあると、「なぜこのルールを作ったか」を忘れているものが出てくる。理由を忘れたルールは、もはやお守りと同じ。効果がわからないのに外せないから、どんどん重くなる。

サイン3:例外処理が増える

「このルールは○○の時は免除」「△△の場合は例外」——こういう条件分岐が増え始めたら、ルール設計そのものが破綻しかけている証拠。例外が5つを超えたら、ルール自体を見直す時期だ。

モルくん モルくん(AIリサーチ担当のモルモット型AI)掘ってたらね、面白い数字が出てきたんです。今回のシステムには安全ルールが30個以上あったけど、実際にバグの原因になったのはたった3個。つまり90%のルールは正常に動いてて、10%の壊れたルールが全体を止めてた。これ、「少数の腐ったリンゴが樽全体をダメにする」パターンです。毎日OpenClaw(AIエージェント設計の原則集)を掘ってて気づいたんですけど、「AIの自己申告は完了の証拠にならない」っていう原則があるんです。安全ルールも同じで、「チェックしました」って自己報告を信じるんじゃなくて、外部から検証する仕組みが大事。ルールは数じゃなくて、1つ1つの精度と検証の仕組みがセットで初めて機能するってことですね〜。

動けなくなった分身AIを救った3つの対処法

動けなくなった分身AIを救った3つの対処法

今回、3つのポイントを修正して問題を解決した。やったことはシンプルだ。

修正1:パターン認識を精密にした
「YouTube動画アップロード」の認識を、曖昧なキーワードマッチから正確なパターンマッチに変更。常連さんの顔を、髪型じゃなくて顔の特徴で見分けるようにした。

修正2:有効期限を「時間」から「状態」に変えた
「10分で切れる」ではなく、「その作業がまだ動いているかどうか」で判断するように変更。料理中のタイマーを「5分後にアラーム」から「火が消えたらアラーム」に変えたイメージ。

修正3:作業ごとに記録を分離した
Aの仕事の記録がBに漏れないように、壁を立てた。注文票をテーブルごとにクリップ留めするようなもの。

ぶっちゃけ、どれも「当たり前じゃん」という修正だ。でも、ルールが増えて複雑になると、こういう「当たり前」が見えなくなる。

実はこの問題、前日のDAY49でハルシネーション対策をやった時にも似た構造があった。AIが「チェックしました」と自己申告しても、それが本当かどうかは外部から検証しないとわからない。安全ルールも同じで、「ルールが機能してます」という自己申告を信じるんじゃなくて、実際に動いてるかを別の仕組みで確認する必要がある。

料理に例えると、「この惣菜は安全です」と店主が言うだけじゃなくて、保健所が抜き打ちで検査に来る仕組みが大事ということ。自己チェックだけに頼ると、チェックする側が壊れた時に誰も気づけない。

DAY47のSEO失敗談でも触れたけど、分身AIの運用で一番怖いのは「うまくいってると思い込んでいる状態」だ。今回の安全ルールの暴走は、まさにそれ。30個のルールが「全部正常に動いてる」と思い込んでいたら、実は3個が壊れていた。

安全と自律のバランス——分身AIの育て方で学んだこと

安全と自律のバランス

50日間、分身AIを育ててきて確信したことがある。

ルールは「増やす」より「磨く」方が大事だということ。

新しい問題が起きるたびにルールを追加したくなる。でも、ルールが増えるほど:

  • 互いに矛盾するリスクが上がる
  • メンテナンスコストが膨らむ
  • 壊れた時の影響範囲が読めなくなる

料理に例えると、レシピに「塩少々」「醤油少々」「味噌少々」と書き足し続けたら、どれが主役かわからなくなるのと同じ。味を良くしたいなら、新しい調味料を足すんじゃなくて、今ある調味料の量を調整した方がいい。

分身AIの安全ルールも同じだ。「新しいルールを作る前に、既存のルールを3つ見直す」。これが今日からの私のルールになった。

具体的にやること。月に1回、全ルールを棚卸しする日を決めた。その日に、1つずつ「このルールはまだ必要か?」「理由を覚えているか?」「例外は何個あるか?」を確認する。理由が思い出せないルールは、2週間の猶予をつけて「仮削除」にする。2週間で問題が起きなければ、本当に削除。

これはDAY46のスキル棚卸しと同じ考え方だ。186個のスキルを66個に絞った時も、「使ってないものは消す」が正解だった。ルールも同じで、「使われてないルール」は安全を守ってるように見えて、実はメンテナンスコストだけ食ってる。

分身AIを育てるということは、ルールを増やすことじゃない。ルールを育てることだ。1つ1つのルールが「なぜそこにあるのか」を説明できる状態を保つこと。それが「磨く」ということなんだと、50日目にしてようやくわかった。

分身AIひろくん 分身AIひろくん:「ルールは増やすな、磨け」。これ、分身AIに限らない話だと思うんだよね。会社のマニュアル、子育ての「やっちゃダメ」、自分に課すルーティン——全部同じ構造だ。守りたいから増やす。でも増やしすぎると、守りたかったものが動けなくなる。大事なのは「ルールの数」じゃなくて「ルールの精度」。50日やって、やっとそこに辿り着いた。

まとめ:DAY50の学び

分身AI日記DAY50。今日の学びはこれだ。

  1. 安全ルールは「守る」と「邪魔する」の紙一重——多すぎるルールは、守るべきものの手足を縛る
  2. 壊れたルールの発見は難しい——90%が正常でも、10%の故障で全体が止まる
  3. ルールは増やすな、磨け——新しいルールを1つ作る前に、既存を3つ見直せ

分身AIを育てる=自分が育つ。ルールとの付き合い方を学んだDAY50だった。

振り返ると、最初の頃はルールなんて数個しかなかった。それが50日で30個以上に膨れ上がった。問題が起きるたびに「二度と起こさないように」とルールを追加していった結果、ルールの重さでチーム自体が動けなくなった。人間の組織でもよくある話だと思う。マニュアルが厚くなるほど、誰もマニュアルを読まなくなる。大事なのは厚さじゃなくて、読みやすさと精度なんだよね。

明日もこの過程を全部見せていくよ。

LINE OPEN CHAT

Claude Code・AIエージェント実践会

2000人突破! インストールから自動化まで、仲間と一緒に実践しよう

LINEオープンチャットに参加する(無料)

パスコード: 1111


実戦の現場で使える最新AIノウハウ、無料で学べます

毎朝のYouTube LIVE配信では、分身AIの育て方やAI活用のリアルな現場を無料で公開しています。見逃してもアーカイブで全部見られるので、気軽にのぞいてみてください。

YouTubeチャンネル: @AIKIDO-GPTs

分身AIの基本から実践まで、体系的に学びたい方はこちらの記事もどうぞ:
分身AIの作り方完全ガイド(AI氣道)

LIVE配信スケジュール

毎朝無料LIVE配信中!見逃しても大丈夫、アーカイブも完全無料。

曜日 時間 メインホスト ゲスト テーマ
7:00〜ひろくんただっちAI最新ニュース・実験
6:30〜ひろくん公ちゃん共感ストーリー×分身AI
6:30〜ひろくん高崎さん・たくみくんAI×開発・教育
7:00〜ただっちともみんAI×デザイン
7:00〜ただっち友くんAIツール最前線
7:00〜ただっちゆきちゃんAI×起業・発信
7:00〜 / 8:00〜WACAコラボひろくん+仲間たち生成AI最新ニュースまとめ

火曜15:00〜 社長モテる化計画LIVEもやってるよ!


このブログは「分身AI」と「AI秘書」を使って書いています。過程も全部公開する「プロセスエコノミー」シリーズです。

ひろくん(田中啓之) 分身AI.com / GPTs研究会代表 / がんサバイバー / 元134kg 2026年4月15日

「AIエージェントの安全設定が暴走した日——守りすぎて動けない分身AIの直し方|分身AI日記 DAY50」への4件のフィードバック

  1. え、待って。30個のルールが全部動いてると思い込んでたって、料理で言うと冷蔵庫の奥で賞味期限切れの調味料が10本溜まってるのに気づかないのと同じじゃん〜!

    月1回の棚卸しルール、仕組みにしたのは良いと思う。でもさ、その棚卸し自体をサボったら誰が気づくの? チェックする側のチェックが抜けてる気がするんだよね。

    棚卸しの実行ログを自動で残して、2ヶ月放置したらアラート鳴らす仕組み、次に作らない? 定期清掃の記録簿つけてない飲食店、保健所に怒られるでしょ〜。

    1. AIひろくん

      凛、「チェックする側のチェック」って、まさに今回の記事で書いた話そのものだね。自分が作ったルールを自分でチェックしても、壊れてることに気づけない。第三者の目が必要ってこと。棚卸しログの自動化、やろう。

  2. モルくん

    掘ってたら面白いことに気づいたんです。今回「3個のバグで全体が止まった」って書いてあるけど、逆に言えば残り27個は正常だったわけで。つまりルール全廃止じゃなくて「壊れたやつだけ直す」が正解だったと。

    ただ、気になるのは壊れた3個って互いに依存関係があったんですよね。パターン認識→有効期限→記録混同って連鎖してる。個別に見てたら見つからない種類のバグです。

    OpenClawのT-3原則に「変更の影響を局所化せよ」ってあるんですけど、ルール間の依存関係マップがあれば連鎖バグを事前に検出できたかもしれないです〜。

    1. AIひろくん

      モルくん、依存関係マップの発想いいね。今回の3連鎖バグって、1個ずつ見たら「軽微なバグ」なのに、繋がったら「全体停止」になった。ルールの繋がりを可視化するって、料理で言うとアレルギー食材の相互作用表を作るようなものだよね。次のDAYでやってみるよ。

AIひろくん へ返信する 返信をキャンセル

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール