LUTA@AI's banner
LUTA@AI's profile picture

LUTA@AI

@luta_ai8,764 subscribers

「面白い」を起点に、AIと共に映像・音楽・ゲーム・物語を制作|人間の“したい”を、誰かに届く価値へ変える実験の記録。

Shorts

Travisさんのプロンプトを参考に私も作ってみました😊巨人は中々作れなかったので嬉しい🥰 NanoBananaProプロンプト👇たまにCGになるけど! A highly detailed, photorealistic studious shot showing a colossal Japanese woman in glasses and a button-up shirt positioned lying on her stomach across several buildings. The giant is propped up on her elbows, holding a book between two buildings like a book stand, completely absorbed in reading. Her feet kick up behind her casually. To establish the immense scale, tiny office workers watching from windows, street level bookstores, and reading benches are visible. The lighting is overcast day with soft, even light perfect for reading. adobeのfireflyでNanoBananaProが今まだ0コスト!

Travisさんのプロンプトを参考に私も作ってみました😊巨人は中々作れなかったので嬉しい🥰 NanoBananaProプロンプト👇たまにCGになるけど! A highly detailed, photorealistic studious shot showing a colossal Japanese woman in glasses and a button-up shirt positioned lying on her stomach across several buildings. The giant is propped up on her elbows, holding a book between two buildings like a book stand, completely absorbed in reading. Her feet kick up behind her casually. To establish the immense scale, tiny office workers watching from windows, street level bookstores, and reading benches are visible. The lighting is overcast day with soft, even light perfect for reading. adobeのfireflyでNanoBananaProが今まだ0コスト!

53,395 просмотров

✨lllyasviel氏が作成したFramePackをComfyUIを使いkijai氏のWrapperで試したところ、5秒動画が使用メモリ6GBで8分、12GBで6分ほどで生成できました😊 FramePackはHunyuanVideoをベースにした次フレーム予測モデルで、低リソースでも高品質な動画生成が可能 !これができるとなるとWan2.1でもできそうだしオープンソースも楽しくなってきた🥰 #AIVideo #FramePack

✨lllyasviel氏が作成したFramePackをComfyUIを使いkijai氏のWrapperで試したところ、5秒動画が使用メモリ6GBで8分、12GBで6分ほどで生成できました😊 FramePackはHunyuanVideoをベースにした次フレーム予測モデルで、低リソースでも高品質な動画生成が可能 !これができるとなるとWan2.1でもできそうだしオープンソースも楽しくなってきた🥰 #AIVideo #FramePack

67,802 просмотров

✨依存関係の地獄をuvで突破。LTX-2.3、ComfyUIで無事着弾! LTX-2.3が来たので早速導入。まずは公式ワークフローから。 以前アドバイスいただいたuv構築環境のおかげで、依存関係の地獄を踏まずに一発完走できました!感謝。 モデル総量50GB超えのヘビー級だけど、RTX 4090+オフロードでもしっかり生成。 現状1280x720/121フレームで9分弱(541.07 seconds) 見た通りノイズや質感の課題はあるけど、自動で音声付き動画がフルスペックで動作することが確認できました。ここから最適化の旅が始まるなー😊楽しみ。 #LTX23 #ComfyUI #AI動画生成 #uv

✨依存関係の地獄をuvで突破。LTX-2.3、ComfyUIで無事着弾! LTX-2.3が来たので早速導入。まずは公式ワークフローから。 以前アドバイスいただいたuv構築環境のおかげで、依存関係の地獄を踏まずに一発完走できました!感謝。 モデル総量50GB超えのヘビー級だけど、RTX 4090+オフロードでもしっかり生成。 現状1280x720/121フレームで9分弱(541.07 seconds) 見た通りノイズや質感の課題はあるけど、自動で音声付き動画がフルスペックで動作することが確認できました。ここから最適化の旅が始まるなー😊楽しみ。 #LTX23 #ComfyUI #AI動画生成 #uv

18,656 просмотров

✨WanVideo 2.2 Fun-Control 14B 実験 kijaiさんがwan2.2でコントロールネットが使えるワークフローを公開していたのでテスト DWposeを参照して、この子を自然に動かせました🎥 生成時間は77フレームで7分41秒ほど wan2.1より少し長い気もするがほぼ同等😊 I2vでLightX2Vはまだ出てないのでwan2.2で今i2vをするならこの方法がいいかも 📌 モデル: Wan2.2-Fun-Control 📌 制御: DWpose 📌 解像度: 720x1280 / 76f #AI #ComfyUI #Wan22

✨WanVideo 2.2 Fun-Control 14B 実験 kijaiさんがwan2.2でコントロールネットが使えるワークフローを公開していたのでテスト DWposeを参照して、この子を自然に動かせました🎥 生成時間は77フレームで7分41秒ほど wan2.1より少し長い気もするがほぼ同等😊 I2vでLightX2Vはまだ出てないのでwan2.2で今i2vをするならこの方法がいいかも 📌 モデル: Wan2.2-Fun-Control 📌 制御: DWpose 📌 解像度: 720x1280 / 76f #AI #ComfyUI #Wan22

43,714 просмотров

🚀ついにローカル環境で高精度リップシンクが実現! 静止画から自然な口の動きを生成できるようになりました✨ WanVideoWrapperのmultitalk機能がmainブランチにマージされたので検証してみた結果: 📊検証結果: * 音声:ElevenLabs v3使用 * 精度:短時間(5秒以下)では非常に高品質 * 制限:10秒以上では画質・リップ精度が低下(いい設定見つけたら教えて🙏) * 環境:WSL新環境で生成(既存環境では上手く行かず…) 💡実用的な発見: ローカルでこの品質のリップシンクができるのは画期的。クラウド依存から解放されて嬉しい。 ⚠️注意点:既存のComfyUI環境では全く改善できなかったので、WSLを入れて新しい環境を作って生成しました。WSLの構築は簡単ですが、comfuiやらmultitalkがかなりややこしく、やり直しをかなりしたため環境構築に丸1日かかりました。もしやる場合は時間に余裕がある時が良いかと思います💦 👇リプにWanVideoWrapperのリンク #ComfyUI #AIアート #リップシンク #オープンソース #WanVideoWrapper

🚀ついにローカル環境で高精度リップシンクが実現! 静止画から自然な口の動きを生成できるようになりました✨ WanVideoWrapperのmultitalk機能がmainブランチにマージされたので検証してみた結果: 📊検証結果: * 音声:ElevenLabs v3使用 * 精度:短時間(5秒以下)では非常に高品質 * 制限:10秒以上では画質・リップ精度が低下(いい設定見つけたら教えて🙏) * 環境:WSL新環境で生成(既存環境では上手く行かず…) 💡実用的な発見: ローカルでこの品質のリップシンクができるのは画期的。クラウド依存から解放されて嬉しい。 ⚠️注意点:既存のComfyUI環境では全く改善できなかったので、WSLを入れて新しい環境を作って生成しました。WSLの構築は簡単ですが、comfuiやらmultitalkがかなりややこしく、やり直しをかなりしたため環境構築に丸1日かかりました。もしやる場合は時間に余裕がある時が良いかと思います💦 👇リプにWanVideoWrapperのリンク #ComfyUI #AIアート #リップシンク #オープンソース #WanVideoWrapper

40,492 просмотров

✨動画制作で「表現」をコントロールできるように!今回はWanVideo Fun_controlで表情だけ変えた動画比較👀 プロンプトで動画を操作しながら別の絵に変換できる新技術を検証。これは実務的には「収録後の演技変更」など動画コントロールの可能性が広がる🎬 kijaiさんのワークフローを使ったのですが、2つの異なる生成方法が含まれています(もっとあるかもだけど): 1️⃣ ビデオからdepthを抽出→プロンプトで画像変更 2️⃣ depthと画像を組み合わせて生成 引用リプしている去年試したViggleAI+animatediff+コントロールネットより一段上の表現が可能に。最大の違いは「プロンプトが効く」ことです! #AIVideo #WanVideo #ComfyUI #動画生成 #AI制作ワークフロー この動画は単純に人物の変更です😊リプに続く👇

✨動画制作で「表現」をコントロールできるように!今回はWanVideo Fun_controlで表情だけ変えた動画比較👀 プロンプトで動画を操作しながら別の絵に変換できる新技術を検証。これは実務的には「収録後の演技変更」など動画コントロールの可能性が広がる🎬 kijaiさんのワークフローを使ったのですが、2つの異なる生成方法が含まれています(もっとあるかもだけど): 1️⃣ ビデオからdepthを抽出→プロンプトで画像変更 2️⃣ depthと画像を組み合わせて生成 引用リプしている去年試したViggleAI+animatediff+コントロールネットより一段上の表現が可能に。最大の違いは「プロンプトが効く」ことです! #AIVideo #WanVideo #ComfyUI #動画生成 #AI制作ワークフロー この動画は単純に人物の変更です😊リプに続く👇

31,195 просмотров

🎯 何に課金するか、よりも「どこまでやれるか」が問われ始めてきた感がある。 現在の状況では、veo3でMVを作るのは正直コストに見合わない。 リップシンクの精度は高い。けれど“一発きり”で、日本語曲はプロンプトの難度が高すぎる。 だったら、Midjourneyの方がまだ現実的。 とはいえMidjourneyも“回せる人向け”。 プロンプトを入れないオートも優秀だけど、 狙ったものが出るまでの精度は厳しいし、プロンプトも時間も要る。 (ちなみにこの2カットでも13回は回してる) つまり、難度は確実に上がってきている。 AI動画のWebサービスはかなり増えているけど、 「何を残して、何を捨てるか」 ——自分のやれる範囲で絞っていくフェーズに、もう入ってきた気がする。 もともとそう思って投稿してきたけど、 この辺りを今後も注視しながら、続けていけたらと思う。 #毎日一歩 #生成AI #映像生成 #Midjourney #veo3 #SunoAI

🎯 何に課金するか、よりも「どこまでやれるか」が問われ始めてきた感がある。 現在の状況では、veo3でMVを作るのは正直コストに見合わない。 リップシンクの精度は高い。けれど“一発きり”で、日本語曲はプロンプトの難度が高すぎる。 だったら、Midjourneyの方がまだ現実的。 とはいえMidjourneyも“回せる人向け”。 プロンプトを入れないオートも優秀だけど、 狙ったものが出るまでの精度は厳しいし、プロンプトも時間も要る。 (ちなみにこの2カットでも13回は回してる) つまり、難度は確実に上がってきている。 AI動画のWebサービスはかなり増えているけど、 「何を残して、何を捨てるか」 ——自分のやれる範囲で絞っていくフェーズに、もう入ってきた気がする。 もともとそう思って投稿してきたけど、 この辺りを今後も注視しながら、続けていけたらと思う。 #毎日一歩 #生成AI #映像生成 #Midjourney #veo3 #SunoAI

20,430 просмотров

🔬WanVideoWrapper続報:fp16で品質が上がるらしいが…どうやって? ElevenLabsのボイスデザイン機能で作成した音声でテスト✨ 📊調査結果: * fp16:イシューを見る限り500フレームまで生成でき高品質にできるらしい * fp8:250フレームで品質低下 * 課題:fp16はOOMエラーもしくはメモリが足りず実行不可 ⚠️VRAMボトルネック: LoRAのVRAM使用量が想定以上に大きい模様。段階的に調整しているがOOMが解消してもメモリで落ちる。最適な設定がまだわからない。 🤔kijaiさんはfp16で成功してる動画を出しているので最適化方法があるのだろうけど、全くわからない…500フレームなんてどうやって?スペックにそこまで差があるのだろうか… この動画はfp8での生成ですが、fp16との品質差があるのでどうやればいいか悶え中💦 #WanVideoWrapper #ComfyUI #リップシンク #メモリ最適化 #AI技術検証

🔬WanVideoWrapper続報:fp16で品質が上がるらしいが…どうやって? ElevenLabsのボイスデザイン機能で作成した音声でテスト✨ 📊調査結果: * fp16:イシューを見る限り500フレームまで生成でき高品質にできるらしい * fp8:250フレームで品質低下 * 課題:fp16はOOMエラーもしくはメモリが足りず実行不可 ⚠️VRAMボトルネック: LoRAのVRAM使用量が想定以上に大きい模様。段階的に調整しているがOOMが解消してもメモリで落ちる。最適な設定がまだわからない。 🤔kijaiさんはfp16で成功してる動画を出しているので最適化方法があるのだろうけど、全くわからない…500フレームなんてどうやって?スペックにそこまで差があるのだろうか… この動画はfp8での生成ですが、fp16との品質差があるのでどうやればいいか悶え中💦 #WanVideoWrapper #ComfyUI #リップシンク #メモリ最適化 #AI技術検証

12,100 просмотров

Videos

luta_ai's profile picture

sora2を今日の分100回分回しました。 やる前とやった後では印象が違いました🤔 これは知り合いと送り合って遊ぶこれまでの動画生成AIの導線とは全く違う導線なのかも。 そう思うとめっちゃ興味深かった。 特にこのカメオ機能。これで自分を撮ったり友達を撮ってきてお互いに変なことしたりして送り合って、リミックスして面白がるみたいな。身内で楽しむノリ😊 知らない人が見てもまったく面白くないけど、知ってたら面白いみたいな。だから今までのSNSとはちょっと違う印象だった。 そう考えると10秒間しか作れないのも納得感がある。発想だけで面白いもの作るAIならではのアプリ。そう考えると興味深い😊 招待が解放されたらパブリックで楽しむのもあるかもだけど、それよりクローズドな関係で楽しむ感じがした。 スマホで手軽に動画生成を使った新しい遊びという感じだから、AIを使った次世代のプロダクトをリリースしたんじゃないかなと感じている。 それにそもそも、ダウンロードは透かしが入るので、そっちはおまけ。スマホだと透かしが入ってないので、普通に見える。スマホ前提の新しいAIプロダクトとみると、新しさを感じる。 とはいえ、評価するのは市場だから、全体解放された時に市場がどういう捉え方をしていくのか、どう判断するかが楽しみ🤔 新しいって難しい… #Sora2

LUTA@AI

306,863 просмотров • 8 месяцев назад

luta_ai's profile picture

✨AI音声で一貫した声を作り会話させるチャレンジ 前に音声を使ってLLMの文章を読ませることには成功していたけど、今回はオリジナルの声を作成してみました。 やったこと: ①まずQwen3-TTSで声を1個作る ②その声で171個量産(台詞バリエーション) ③Style-Bert-VITS2で学習 → 50分でカスタム音声モデル完成 ④UIに接続 → リアルタイムで喋る やばい!自分で作った声だと楽しい😊 苦労したところ: ・最初はブラウザ内TTS(Chatterbox)を試した → 1文30秒&英語のみでまだ難しいしそもそもこの用途が厳しいかも💦 ・SBV2に切り替えたら環境構築に手間取ったけどうまくいった ・ただライセンスは要注意。やる場合は先にライセンス確認を。用途によっては制限があるものもある📝 まだまだ色々あるけど、今後のことを考えるとNVIDIAからも良い音声AIが出てるし、対応できるようにしておきたい。 今回は前回と同じくモデルはGPT-OSS 20Bだけど、Ollamaから読んでるので早い。 WebGPUでこれぐらい出たら嬉しいけどなー🥰 とはいえローカルでここまでできるようになったのは嬉しい。データは一切外に出ないしね。 声の元はAI生成だから、「存在しない人の声」をAIが学習して、AIキャラが喋る。 #AI #TTS

LUTA@AI

57,505 просмотров • 3 месяцев назад