Koichi Nishizuka's banner
Koichi Nishizuka's profile picture

Koichi Nishizuka

@KoichiNishizuka1,992 subscribers

テクノロジーで魔法を実現させる

Shorts

これはLLM に「短距離走ではなく長距離走をさせるには、エージェントの外側に“ちゃんとした構造=ハーネス”を作らないと破綻する」という考えじゃな🧐✨ モデルはセッションを跨ぐと前回の作業内容を忘れ、コンテキスト圧縮だけでは進捗を安定して引き継げない。そこで Anthropic は、初期化・作業管理・進捗保存・テスト・コミットという工程を人間の代わりに支える“枠組み”を作り、エージェントが「昨日の続き」を確実に実行できるようにした。プロジェクトの最初に環境を整えて、機能を粒度の小さなタスクに分解し、その一覧を常に更新しながら一つずつ着実に実装する。そして各セッションが終わるたびにテストを走らせ、エラーのない状態でコミットし、どこまで完了しているのかを進捗ログとして残す。次のセッションではそのログとコードベースを読み取ることで、“前回までの自分”と同期が取れる。 この構造によって、LLM は長時間の開発作業でも破綻しにくくなる。単純なプロンプトだけで連日の大規模開発を行おうとすると、途中で文脈を見失い、作業完了を誤認したり、急に別解に走ったり、前回のバグを無視したりする。だが、明確なタスクリストと進捗ログ、そして毎回のクリーンなコミットを中心に据えたハーネスがあれば、人間のチーム開発と同じように“状態の継承”が可能になる。これは LLM を「一度きりのチャット相手」ではなく、複数日・複数工程にまたがる“長期プロジェクトの実働メンバー”に変える設計思想に近い。 ただし、この手法は万能ではない。実装されているのはフルスタック Web アプリ開発向けのプロトタイプであり、他分野でもそのまま通用するかは未確定であり、単一エージェントよりも複数エージェント分担のほうが高効率なケースも多い。また、創造的判断や大幅な方向転換では人間の補助が必要になる。それでも、この構造は“長期作業に耐える AI 開発パイプライン”を作るうえで重要なヒントになる。

これはLLM に「短距離走ではなく長距離走をさせるには、エージェントの外側に“ちゃんとした構造=ハーネス”を作らないと破綻する」という考えじゃな🧐✨ モデルはセッションを跨ぐと前回の作業内容を忘れ、コンテキスト圧縮だけでは進捗を安定して引き継げない。そこで Anthropic は、初期化・作業管理・進捗保存・テスト・コミットという工程を人間の代わりに支える“枠組み”を作り、エージェントが「昨日の続き」を確実に実行できるようにした。プロジェクトの最初に環境を整えて、機能を粒度の小さなタスクに分解し、その一覧を常に更新しながら一つずつ着実に実装する。そして各セッションが終わるたびにテストを走らせ、エラーのない状態でコミットし、どこまで完了しているのかを進捗ログとして残す。次のセッションではそのログとコードベースを読み取ることで、“前回までの自分”と同期が取れる。 この構造によって、LLM は長時間の開発作業でも破綻しにくくなる。単純なプロンプトだけで連日の大規模開発を行おうとすると、途中で文脈を見失い、作業完了を誤認したり、急に別解に走ったり、前回のバグを無視したりする。だが、明確なタスクリストと進捗ログ、そして毎回のクリーンなコミットを中心に据えたハーネスがあれば、人間のチーム開発と同じように“状態の継承”が可能になる。これは LLM を「一度きりのチャット相手」ではなく、複数日・複数工程にまたがる“長期プロジェクトの実働メンバー”に変える設計思想に近い。 ただし、この手法は万能ではない。実装されているのはフルスタック Web アプリ開発向けのプロトタイプであり、他分野でもそのまま通用するかは未確定であり、単一エージェントよりも複数エージェント分担のほうが高効率なケースも多い。また、創造的判断や大幅な方向転換では人間の補助が必要になる。それでも、この構造は“長期作業に耐える AI 開発パイプライン”を作るうえで重要なヒントになる。

29,726 просмотров

Videos

KoichiNishizuka's profile picture

やばい事が起きとる。Claude Code × Chrome DevTools MCPを使って「クリック」をAPI化して、再現出来た。 まず開いているタブを一覧取得し、Googleホームに遷移して「I'm Feeling Lucky」ボタンをクリックしてもらい、ページスナップショットを取得して要素を識別、その後JavaScriptを流し込んでスクロール操作を制御した。 これら一連の操作はワークフローとしてJavaScriptファイルに保存され、何度でも再利用できる形になっている。 人間がChromeで手作業していた「ページ遷移」「クリック」「スクロール」といった行為を、AIがスクリプトとして肩代わりできるようになった。 このワークフローをMCPサーバー化してGitHubにプッシュし、デプロイすれば、APIとして呼び出せる形に展開できる。そうすれば外部からリクエストを送るだけで「I'm Feeling Lucky」ワークフローを再現可能になる。Dockerやnpmでの配布、GitHub Actionsによるスケジュール実行やWebhookトリガー、そしてMCP Registryへの登録を通じて他のユーザーとも共有できる。 利用シーンは幅広い。Claude DesktopなどのMCPクライアントからの呼び出し、CI/CDパイプラインにおけるE2Eテスト、自動スクレイピングや監視といった場面で即戦力となる。 拡張性も高く、検索クエリやURLをパラメータ化すれば柔軟に応用でき、スクリーンショットの自動保存や複数ワークフローの連携、エラーハンドリングやリトライ機能の追加も可能。

Koichi Nishizuka

168,118 просмотров • 8 месяцев назад

Больше нет контента для загрузки