LUTA＠AI's banner

LUTA＠AI

@luta_ai • 8,764 subscribers

「面白い」を起点に、AIと共に映像・音楽・ゲーム・物語を制作｜人間の“したい”を、誰かに届く価値へ変える実験の記録。

Shorts

Travisさんのプロンプトを参考に私も作ってみました😊巨人は中々作れなかったので嬉しい🥰 NanoBananaProプロンプト👇たまにCGになるけど！ A highly detailed, photorealistic studious shot showing a colossal Japanese woman in glasses and a button-up shirt positioned lying on her stomach across several buildings. The giant is propped up on her elbows, holding a book between two buildings like a book stand, completely absorbed in reading. Her feet kick up behind her casually. To establish the immense scale, tiny office workers watching from windows, street level bookstores, and reading benches are visible. The lighting is overcast day with soft, even light perfect for reading. adobeのfireflyでNanoBananaProが今まだ０コスト！

Travisさんのプロンプトを参考に私も作ってみました😊巨人は中々作れなかったので嬉しい🥰 NanoBananaProプロンプト👇たまにCGになるけど！ A highly detailed, photorealistic studious shot showing a colossal Japanese woman in glasses and a button-up shirt positioned lying on her stomach across several buildings. The giant is propped up on her elbows, holding a book between two buildings like a book stand, completely absorbed in reading. Her feet kick up behind her casually. To establish the immense scale, tiny office workers watching from windows, street level bookstores, and reading benches are visible. The lighting is overcast day with soft, even light perfect for reading. adobeのfireflyでNanoBananaProが今まだ０コスト！

53,395 просмотров

✨lllyasviel氏が作成したFramePackをComfyUIを使いkijai氏のWrapperで試したところ、5秒動画が使用メモリ6GBで8分、12GBで6分ほどで生成できました😊 FramePackはHunyuanVideoをベースにした次フレーム予測モデルで、低リソースでも高品質な動画生成が可能！これができるとなるとWan2.1でもできそうだしオープンソースも楽しくなってきた🥰 #AIVideo #FramePack

✨lllyasviel氏が作成したFramePackをComfyUIを使いkijai氏のWrapperで試したところ、5秒動画が使用メモリ6GBで8分、12GBで6分ほどで生成できました😊 FramePackはHunyuanVideoをベースにした次フレーム予測モデルで、低リソースでも高品質な動画生成が可能！これができるとなるとWan2.1でもできそうだしオープンソースも楽しくなってきた🥰 #AIVideo #FramePack

67,802 просмотров

✨WanVideo 2.2 Fun-Control 14B 実験 kijaiさんがwan2.2でコントロールネットが使えるワークフローを公開していたのでテスト DWposeを参照して、この子を自然に動かせました🎥 生成時間は77フレームで7分41秒ほど wan2.1より少し長い気もするがほぼ同等😊 I2vでLightX2Vはまだ出てないのでwan2.2で今i2vをするならこの方法がいいかも 📌 モデル: Wan2.2-Fun-Control 📌 制御: DWpose 📌 解像度: 720x1280 / 76f #AI #ComfyUI #Wan22

✨WanVideo 2.2 Fun-Control 14B 実験 kijaiさんがwan2.2でコントロールネットが使えるワークフローを公開していたのでテスト DWposeを参照して、この子を自然に動かせました🎥 生成時間は77フレームで7分41秒ほど wan2.1より少し長い気もするがほぼ同等😊 I2vでLightX2Vはまだ出てないのでwan2.2で今i2vをするならこの方法がいいかも 📌 モデル: Wan2.2-Fun-Control 📌 制御: DWpose 📌 解像度: 720x1280 / 76f #AI #ComfyUI #Wan22

43,714 просмотров

🚀ついにローカル環境で高精度リップシンクが実現！静止画から自然な口の動きを生成できるようになりました✨ WanVideoWrapperのmultitalk機能がmainブランチにマージされたので検証してみた結果： 📊検証結果： * 音声：ElevenLabs v3使用 * 精度：短時間（5秒以下）では非常に高品質 * 制限：10秒以上では画質・リップ精度が低下（いい設定見つけたら教えて🙏） * 環境：WSL新環境で生成（既存環境では上手く行かず…） 💡実用的な発見：ローカルでこの品質のリップシンクができるのは画期的。クラウド依存から解放されて嬉しい。 ⚠️注意点：既存のComfyUI環境では全く改善できなかったので、WSLを入れて新しい環境を作って生成しました。WSLの構築は簡単ですが、comfuiやらmultitalkがかなりややこしく、やり直しをかなりしたため環境構築に丸1日かかりました。もしやる場合は時間に余裕がある時が良いかと思います💦 👇リプにWanVideoWrapperのリンク #ComfyUI #AIアート #リップシンク #オープンソース #WanVideoWrapper

🚀ついにローカル環境で高精度リップシンクが実現！静止画から自然な口の動きを生成できるようになりました✨ WanVideoWrapperのmultitalk機能がmainブランチにマージされたので検証してみた結果： 📊検証結果： * 音声：ElevenLabs v3使用 * 精度：短時間（5秒以下）では非常に高品質 * 制限：10秒以上では画質・リップ精度が低下（いい設定見つけたら教えて🙏） * 環境：WSL新環境で生成（既存環境では上手く行かず…） 💡実用的な発見：ローカルでこの品質のリップシンクができるのは画期的。クラウド依存から解放されて嬉しい。 ⚠️注意点：既存のComfyUI環境では全く改善できなかったので、WSLを入れて新しい環境を作って生成しました。WSLの構築は簡単ですが、comfuiやらmultitalkがかなりややこしく、やり直しをかなりしたため環境構築に丸1日かかりました。もしやる場合は時間に余裕がある時が良いかと思います💦 👇リプにWanVideoWrapperのリンク #ComfyUI #AIアート #リップシンク #オープンソース #WanVideoWrapper

40,562 просмотров

✨依存関係の地獄をuvで突破。LTX-2.3、ComfyUIで無事着弾！ LTX-2.3が来たので早速導入。まずは公式ワークフローから。以前アドバイスいただいたuv構築環境のおかげで、依存関係の地獄を踏まずに一発完走できました！感謝。モデル総量50GB超えのヘビー級だけど、RTX 4090＋オフロードでもしっかり生成。現状1280x720/121フレームで9分弱（541.07 seconds）見た通りノイズや質感の課題はあるけど、自動で音声付き動画がフルスペックで動作することが確認できました。ここから最適化の旅が始まるなー😊楽しみ。 #LTX23 #ComfyUI #AI動画生成 #uv

✨依存関係の地獄をuvで突破。LTX-2.3、ComfyUIで無事着弾！ LTX-2.3が来たので早速導入。まずは公式ワークフローから。以前アドバイスいただいたuv構築環境のおかげで、依存関係の地獄を踏まずに一発完走できました！感謝。モデル総量50GB超えのヘビー級だけど、RTX 4090＋オフロードでもしっかり生成。現状1280x720/121フレームで9分弱（541.07 seconds）見た通りノイズや質感の課題はあるけど、自動で音声付き動画がフルスペックで動作することが確認できました。ここから最適化の旅が始まるなー😊楽しみ。 #LTX23 #ComfyUI #AI動画生成 #uv

18,656 просмотров

✨動画制作で「表現」をコントロールできるように！今回はWanVideo Fun_controlで表情だけ変えた動画比較👀 プロンプトで動画を操作しながら別の絵に変換できる新技術を検証。これは実務的には「収録後の演技変更」など動画コントロールの可能性が広がる🎬 kijaiさんのワークフローを使ったのですが、2つの異なる生成方法が含まれています（もっとあるかもだけど）： 1️⃣ ビデオからdepthを抽出→プロンプトで画像変更 2️⃣ depthと画像を組み合わせて生成引用リプしている去年試したViggleAI+animatediff+コントロールネットより一段上の表現が可能に。最大の違いは「プロンプトが効く」ことです！ #AIVideo #WanVideo #ComfyUI #動画生成 #AI制作ワークフローこの動画は単純に人物の変更です😊リプに続く👇

✨動画制作で「表現」をコントロールできるように！今回はWanVideo Fun_controlで表情だけ変えた動画比較👀 プロンプトで動画を操作しながら別の絵に変換できる新技術を検証。これは実務的には「収録後の演技変更」など動画コントロールの可能性が広がる🎬 kijaiさんのワークフローを使ったのですが、2つの異なる生成方法が含まれています（もっとあるかもだけど）： 1️⃣ ビデオからdepthを抽出→プロンプトで画像変更 2️⃣ depthと画像を組み合わせて生成引用リプしている去年試したViggleAI+animatediff+コントロールネットより一段上の表現が可能に。最大の違いは「プロンプトが効く」ことです！ #AIVideo #WanVideo #ComfyUI #動画生成 #AI制作ワークフローこの動画は単純に人物の変更です😊リプに続く👇

31,195 просмотров

🎯 何に課金するか、よりも「どこまでやれるか」が問われ始めてきた感がある。現在の状況では、veo3でMVを作るのは正直コストに見合わない。リップシンクの精度は高い。けれど“一発きり”で、日本語曲はプロンプトの難度が高すぎる。だったら、Midjourneyの方がまだ現実的。とはいえMidjourneyも“回せる人向け”。プロンプトを入れないオートも優秀だけど、狙ったものが出るまでの精度は厳しいし、プロンプトも時間も要る。（ちなみにこの2カットでも13回は回してる）つまり、難度は確実に上がってきている。 AI動画のWebサービスはかなり増えているけど、「何を残して、何を捨てるか」 ——自分のやれる範囲で絞っていくフェーズに、もう入ってきた気がする。もともとそう思って投稿してきたけど、この辺りを今後も注視しながら、続けていけたらと思う。 #毎日一歩 #生成AI #映像生成 #Midjourney #veo3 #SunoAI

🎯 何に課金するか、よりも「どこまでやれるか」が問われ始めてきた感がある。現在の状況では、veo3でMVを作るのは正直コストに見合わない。リップシンクの精度は高い。けれど“一発きり”で、日本語曲はプロンプトの難度が高すぎる。だったら、Midjourneyの方がまだ現実的。とはいえMidjourneyも“回せる人向け”。プロンプトを入れないオートも優秀だけど、狙ったものが出るまでの精度は厳しいし、プロンプトも時間も要る。（ちなみにこの2カットでも13回は回してる）つまり、難度は確実に上がってきている。 AI動画のWebサービスはかなり増えているけど、「何を残して、何を捨てるか」 ——自分のやれる範囲で絞っていくフェーズに、もう入ってきた気がする。もともとそう思って投稿してきたけど、この辺りを今後も注視しながら、続けていけたらと思う。 #毎日一歩 #生成AI #映像生成 #Midjourney #veo3 #SunoAI

20,430 просмотров

🔬WanVideoWrapper続報：fp16で品質が上がるらしいが…どうやって？ ElevenLabsのボイスデザイン機能で作成した音声でテスト✨ 📊調査結果： * fp16：イシューを見る限り500フレームまで生成でき高品質にできるらしい * fp8：250フレームで品質低下 * 課題：fp16はOOMエラーもしくはメモリが足りず実行不可 ⚠️VRAMボトルネック： LoRAのVRAM使用量が想定以上に大きい模様。段階的に調整しているがOOMが解消してもメモリで落ちる。最適な設定がまだわからない。 🤔kijaiさんはfp16で成功してる動画を出しているので最適化方法があるのだろうけど、全くわからない…500フレームなんてどうやって？スペックにそこまで差があるのだろうか… この動画はfp8での生成ですが、fp16との品質差があるのでどうやればいいか悶え中💦 #WanVideoWrapper #ComfyUI #リップシンク #メモリ最適化 #AI技術検証

🔬WanVideoWrapper続報：fp16で品質が上がるらしいが…どうやって？ ElevenLabsのボイスデザイン機能で作成した音声でテスト✨ 📊調査結果： * fp16：イシューを見る限り500フレームまで生成でき高品質にできるらしい * fp8：250フレームで品質低下 * 課題：fp16はOOMエラーもしくはメモリが足りず実行不可 ⚠️VRAMボトルネック： LoRAのVRAM使用量が想定以上に大きい模様。段階的に調整しているがOOMが解消してもメモリで落ちる。最適な設定がまだわからない。 🤔kijaiさんはfp16で成功してる動画を出しているので最適化方法があるのだろうけど、全くわからない…500フレームなんてどうやって？スペックにそこまで差があるのだろうか… この動画はfp8での生成ですが、fp16との品質差があるのでどうやればいいか悶え中💦 #WanVideoWrapper #ComfyUI #リップシンク #メモリ最適化 #AI技術検証

12,100 просмотров

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

sora2を今日の分100回分回しました。やる前とやった後では印象が違いました🤔 これは知り合いと送り合って遊ぶこれまでの動画生成AIの導線とは全く違う導線なのかも。そう思うとめっちゃ興味深かった。特にこのカメオ機能。これで自分を撮ったり友達を撮ってきてお互いに変なことしたりして送り合って、リミックスして面白がるみたいな。身内で楽しむノリ😊 知らない人が見てもまったく面白くないけど、知ってたら面白いみたいな。だから今までのSNSとはちょっと違う印象だった。そう考えると10秒間しか作れないのも納得感がある。発想だけで面白いもの作るAIならではのアプリ。そう考えると興味深い😊 招待が解放されたらパブリックで楽しむのもあるかもだけど、それよりクローズドな関係で楽しむ感じがした。スマホで手軽に動画生成を使った新しい遊びという感じだから、AIを使った次世代のプロダクトをリリースしたんじゃないかなと感じている。それにそもそも、ダウンロードは透かしが入るので、そっちはおまけ。スマホだと透かしが入ってないので、普通に見える。スマホ前提の新しいAIプロダクトとみると、新しさを感じる。とはいえ、評価するのは市場だから、全体解放された時に市場がどういう捉え方をしていくのか、どう判断するかが楽しみ🤔 新しいって難しい… #Sora2

sora2を今日の分100回分回しました。やる前とやった後では印象が違いました🤔 これは知り合いと送り合って遊ぶこれまでの動画生成AIの導線とは全く違う導線なのかも。そう思うとめっちゃ興味深かった。特にこのカメオ機能。これで自分を撮ったり友達を撮ってきてお互いに変なことしたりして送り合って、リミックスして面白がるみたいな。身内で楽しむノリ😊 知らない人が見てもまったく面白くないけど、知ってたら面白いみたいな。だから今までのSNSとはちょっと違う印象だった。そう考えると10秒間しか作れないのも納得感がある。発想だけで面白いもの作るAIならではのアプリ。そう考えると興味深い😊 招待が解放されたらパブリックで楽しむのもあるかもだけど、それよりクローズドな関係で楽しむ感じがした。スマホで手軽に動画生成を使った新しい遊びという感じだから、AIを使った次世代のプロダクトをリリースしたんじゃないかなと感じている。それにそもそも、ダウンロードは透かしが入るので、そっちはおまけ。スマホだと透かしが入ってないので、普通に見える。スマホ前提の新しいAIプロダクトとみると、新しさを感じる。とはいえ、評価するのは市場だから、全体解放された時に市場がどういう捉え方をしていくのか、どう判断するかが楽しみ🤔 新しいって難しい… #Sora2

306,863 просмотров • 9 месяцев назад

「自撮りガールズ雪山」 image3の素材をfluxでアップスケールしgen3で動画にしたものと、flux単独の素材をアップスケールした動画を合わせて作りましたやっぱアップスケールかけた方がgen3でも再現度が高いな😍 透明感がこれまでとは違う気がする🥰 #flux #ImageFX #gen3

「自撮りガールズ雪山」 image3の素材をfluxでアップスケールしgen3で動画にしたものと、flux単独の素材をアップスケールした動画を合わせて作りましたやっぱアップスケールかけた方がgen3でも再現度が高いな😍 透明感がこれまでとは違う気がする🥰 #flux #ImageFX #gen3

501,001 просмотров • 1 год назад

Qwen3-TTS × LTX2 × ComfyUIで音声付き動画生成できた！flybirdxxさんありがとう！・追加で pip install onnxruntime-gpu 必須・モノラル出力なのでLTX用にステレオ変換必要・VoiceDesignでテキスト指示から声を生成できて面白い導入30分くらいで動く👍 リプにflybirdxxさんのリポジトリ👇

Qwen3-TTS × LTX2 × ComfyUIで音声付き動画生成できた！flybirdxxさんありがとう！・追加で pip install onnxruntime-gpu 必須・モノラル出力なのでLTX用にステレオ変換必要・VoiceDesignでテキスト指示から声を生成できて面白い導入30分くらいで動く👍 リプにflybirdxxさんのリポジトリ👇

134,691 просмотров • 5 месяцев назад

Qwen3.5、RTX 4090で毎秒134トークン出た！喜んだのも束の間、翌日再構築💦 一昨日ローカルで初めて動かした後、最適化フラグを入れたら毎秒134トークンまで跳ねた。が、昨日UnslothさんがQwen3.5のGGUFを更新されたので入れて見たら急に重くなってしまった…💦 再調整をしてなんとか、毎秒95〜120トークン！結果、品質は上がった。速度も十分。素晴らしい！（使用モデル：Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf）ただ問題はVRAMがギリギリすぎて、他の作業はできない😨 モデルが大きくなった分、KVキャッシュの量子化をq8_0からq4_0に下げて VRAMを節約することなんとかスムーズに😊（添付の動画）この辺のヒリヒリ感が「一回入れて終わり」じゃなくていいまたさらに調整していこうかな楽しくなってきた🥰 この2日間の全記録をnoteにまとめました 👇リプにリンク #ai #Qwen35

Qwen3.5、RTX 4090で毎秒134トークン出た！喜んだのも束の間、翌日再構築💦 一昨日ローカルで初めて動かした後、最適化フラグを入れたら毎秒134トークンまで跳ねた。が、昨日UnslothさんがQwen3.5のGGUFを更新されたので入れて見たら急に重くなってしまった…💦 再調整をしてなんとか、毎秒95〜120トークン！結果、品質は上がった。速度も十分。素晴らしい！（使用モデル：Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf）ただ問題はVRAMがギリギリすぎて、他の作業はできない😨 モデルが大きくなった分、KVキャッシュの量子化をq8_0からq4_0に下げて VRAMを節約することなんとかスムーズに😊（添付の動画）この辺のヒリヒリ感が「一回入れて終わり」じゃなくていいまたさらに調整していこうかな楽しくなってきた🥰 この2日間の全記録をnoteにまとめました 👇リプにリンク #ai #Qwen35

95,070 просмотров • 4 месяцев назад

「自撮りガールズチアガール」今回はimageFX、Fluxで画像生成し、gen3で動画に。また今回はHailuoai(t2v)も使ってみました😄 制作時間についてコメントをいただいていたのですが、あんまり覚えてなかったこともあり、チアガールバージョンを作ってみました。生成を回している時間など私の稼働以外も含めて大体18時間ぐらい😋 一旦出来上がるまでは10時間ぐらいで、そこから詰めながら選定と生成を繰り返す感じで制作しています。 #AI #Hailuoai #imageFX

「自撮りガールズチアガール」今回はimageFX、Fluxで画像生成し、gen3で動画に。また今回はHailuoai(t2v)も使ってみました😄 制作時間についてコメントをいただいていたのですが、あんまり覚えてなかったこともあり、チアガールバージョンを作ってみました。生成を回している時間など私の稼働以外も含めて大体18時間ぐらい😋 一旦出来上がるまでは10時間ぐらいで、そこから詰めながら選定と生成を繰り返す感じで制作しています。 #AI #Hailuoai #imageFX

342,291 просмотров • 1 год назад

seedance2、参照を「役割分担」させたら一貫性の破綻がかなり減った😊 前回は「絵作りはseedanceに任せて自由度を持たせた方がコスパ良い」って書きましたが、あれからいろんなパターンで検証を進めてみたのですが、今回は aimikoda さんのワークフローを参考に、参照画像に役割を分けて渡す方式をじっくり検証してみました😊 ・キャラシート（GPT Image 2でターンアラウンド化）＝見た目を固定する係・絵コンテ（10パネル）＝構図と迫力を出す係・プロンプト＝動きと因果（誰を狙う／どう吹き飛ばす）を指示する係 1枚に全部やらせず分業させると、顔も崩れにくいし狙ったカットが出る確率が上がる。夜のビル屋上15秒のバトルで9回まわして確かめた手応えです🤔 ただ一発でバチッと決まったらラッキーで、数回まわして良いテイクを拾う前提なのは相変わらず💦 それでも成功度は上がってる。次の問題はカットの渡りだな🤔 #ai #seedance2 #runway

seedance2、参照を「役割分担」させたら一貫性の破綻がかなり減った😊 前回は「絵作りはseedanceに任せて自由度を持たせた方がコスパ良い」って書きましたが、あれからいろんなパターンで検証を進めてみたのですが、今回は aimikoda さんのワークフローを参考に、参照画像に役割を分けて渡す方式をじっくり検証してみました😊 ・キャラシート（GPT Image 2でターンアラウンド化）＝見た目を固定する係・絵コンテ（10パネル）＝構図と迫力を出す係・プロンプト＝動きと因果（誰を狙う／どう吹き飛ばす）を指示する係 1枚に全部やらせず分業させると、顔も崩れにくいし狙ったカットが出る確率が上がる。夜のビル屋上15秒のバトルで9回まわして確かめた手応えです🤔 ただ一発でバチッと決まったらラッキーで、数回まわして良いテイクを拾う前提なのは相変わらず💦 それでも成功度は上がってる。次の問題はカットの渡りだな🤔 #ai #seedance2 #runway

23,893 просмотров • 1 месяц назад

画像生成は最近あんまり触ってなかったけど、Krea2が出たと聞いて遊んでみたら裏側が面白かった😊 ・シンプルなプロンプトでもいい感じに出るのは、中のシステムプロンプトがQwen3-VL 4Bに元プロンプトを調整させてるから・VL＝画像も読めるので、ノードに画像をくっつけたら画像の内容まで反映された🤔 ・プロンプトで書いてないざっくりした部分を、画像から拾ってきてる感じスタイルのLoRAも作れるらしく、MidJourneyのスタイル指定みたいなことができるのかも。 #ai #comfyui

画像生成は最近あんまり触ってなかったけど、Krea2が出たと聞いて遊んでみたら裏側が面白かった😊 ・シンプルなプロンプトでもいい感じに出るのは、中のシステムプロンプトがQwen3-VL 4Bに元プロンプトを調整させてるから・VL＝画像も読めるので、ノードに画像をくっつけたら画像の内容まで反映された🤔 ・プロンプトで書いてないざっくりした部分を、画像から拾ってきてる感じスタイルのLoRAも作れるらしく、MidJourneyのスタイル指定みたいなことができるのかも。 #ai #comfyui

16,190 просмотров • 26 дней назад

ここのところrunwayのseedance2で遊んでいるけど、seedanceはある程度自由度がある方がコスパが良さそう🤔 ストーリーボードで固める方法もいろいろやったが、細かいところでのミスが目立ち後からの修正コストがかさみ、コストと時間両方で苦しい...💦 それよりもある程度絵作りはseedance2に任せた方が、結果が良いものが作れている😊 このカットのような「いる」ことが明確だと、一貫性も取りやすく破綻が少ない印象 #ai #seedance2 #runway

ここのところrunwayのseedance2で遊んでいるけど、seedanceはある程度自由度がある方がコスパが良さそう🤔 ストーリーボードで固める方法もいろいろやったが、細かいところでのミスが目立ち後からの修正コストがかさみ、コストと時間両方で苦しい...💦 それよりもある程度絵作りはseedance2に任せた方が、結果が良いものが作れている😊 このカットのような「いる」ことが明確だと、一貫性も取りやすく破綻が少ない印象 #ai #seedance2 #runway

23,663 просмотров • 1 месяц назад

✨AI音声で一貫した声を作り会話させるチャレンジ前に音声を使ってLLMの文章を読ませることには成功していたけど、今回はオリジナルの声を作成してみました。やったこと： ①まずQwen3-TTSで声を1個作る ②その声で171個量産（台詞バリエーション） ③Style-Bert-VITS2で学習 → 50分でカスタム音声モデル完成 ④UIに接続 → リアルタイムで喋るやばい！自分で作った声だと楽しい😊 苦労したところ：・最初はブラウザ内TTS（Chatterbox）を試した → 1文30秒＆英語のみでまだ難しいしそもそもこの用途が厳しいかも💦 ・SBV2に切り替えたら環境構築に手間取ったけどうまくいった・ただライセンスは要注意。やる場合は先にライセンス確認を。用途によっては制限があるものもある📝 まだまだ色々あるけど、今後のことを考えるとNVIDIAからも良い音声AIが出てるし、対応できるようにしておきたい。今回は前回と同じくモデルはGPT-OSS 20Bだけど、Ollamaから読んでるので早い。 WebGPUでこれぐらい出たら嬉しいけどなー🥰 とはいえローカルでここまでできるようになったのは嬉しい。データは一切外に出ないしね。声の元はAI生成だから、「存在しない人の声」をAIが学習して、AIキャラが喋る。 #AI #TTS

✨AI音声で一貫した声を作り会話させるチャレンジ前に音声を使ってLLMの文章を読ませることには成功していたけど、今回はオリジナルの声を作成してみました。やったこと： ①まずQwen3-TTSで声を1個作る ②その声で171個量産（台詞バリエーション） ③Style-Bert-VITS2で学習 → 50分でカスタム音声モデル完成 ④UIに接続 → リアルタイムで喋るやばい！自分で作った声だと楽しい😊 苦労したところ：・最初はブラウザ内TTS（Chatterbox）を試した → 1文30秒＆英語のみでまだ難しいしそもそもこの用途が厳しいかも💦 ・SBV2に切り替えたら環境構築に手間取ったけどうまくいった・ただライセンスは要注意。やる場合は先にライセンス確認を。用途によっては制限があるものもある📝 まだまだ色々あるけど、今後のことを考えるとNVIDIAからも良い音声AIが出てるし、対応できるようにしておきたい。今回は前回と同じくモデルはGPT-OSS 20Bだけど、Ollamaから読んでるので早い。 WebGPUでこれぐらい出たら嬉しいけどなー🥰 とはいえローカルでここまでできるようになったのは嬉しい。データは一切外に出ないしね。声の元はAI生成だから、「存在しない人の声」をAIが学習して、AIキャラが喋る。 #AI #TTS

57,505 просмотров • 5 месяцев назад

✨自作チャットゲームのTTSをIrodori-TTSに乗り換えたら、感情表現がかなり良くなった🔥 SBV2は配布NGで悩んでたけど、Irodori-TTSはMITで配布OK。ありがたい！しかもゼロショット音声クローン対応で、参照音声1つだけでキャラ声をかなり再現してくれる。ファインチューニングなしでもここまで出るのはかなり良い。実際、声も明らかに変わった💛 もともとminatoは少しシステム寄りというか、抑えたキャラとして作ってたんだけど、Irodori-TTSにしたら感情を抑えたままちゃんと“それらしく”なってきた感じがある。長文はそのままだと読みが崩れたので、80文字ごとに自動分割して結合する実装を入れて解決。動画は Gemma 4 E4B + Irodori-TTS。ローカル構成、かなりいい。ここからさらにファインチューニングしたら、もっと詰められそう。リプにリポジトリ👇 #ai #TTS

✨自作チャットゲームのTTSをIrodori-TTSに乗り換えたら、感情表現がかなり良くなった🔥 SBV2は配布NGで悩んでたけど、Irodori-TTSはMITで配布OK。ありがたい！しかもゼロショット音声クローン対応で、参照音声1つだけでキャラ声をかなり再現してくれる。ファインチューニングなしでもここまで出るのはかなり良い。実際、声も明らかに変わった💛 もともとminatoは少しシステム寄りというか、抑えたキャラとして作ってたんだけど、Irodori-TTSにしたら感情を抑えたままちゃんと“それらしく”なってきた感じがある。長文はそのままだと読みが崩れたので、80文字ごとに自動分割して結合する実装を入れて解決。動画は Gemma 4 E4B + Irodori-TTS。ローカル構成、かなりいい。ここからさらにファインチューニングしたら、もっと詰められそう。リプにリポジトリ👇 #ai #TTS

41,642 просмотров • 3 месяцев назад

表情を変えたい時は「ComfyUI-AdvancedLivePortrait」いいかも😍 画像生成で「もうちょっとだけこっち見て欲しい」と思うことが、よくありますが AdvancedLivePortraitでいい感じに修正できました🥰 限界はあるけど、無理のない範囲であれば調整できるしリアルタイムに制御できるのも嬉しいポイント💡 ただ少し画質が悪くなり、アップスケールしても荒れるところがあるので、この辺はちょっと工夫がいるかも😅 実は完全にこのノードのことは忘れてて、 Sylvain Filoniさんが出したデモをやってみて「comfyUIでないかな」と探したら AdvancedLivePortraitを再発見。「あ、これLivePortraitのやつか」と思い出し、やってみて価値に気が付いたのが今日でした💦 こういう再発見って、たまにあって嬉しい😄 ComfyUI-AdvancedLivePortrait #AI #comfyUI

表情を変えたい時は「ComfyUI-AdvancedLivePortrait」いいかも😍 画像生成で「もうちょっとだけこっち見て欲しい」と思うことが、よくありますが AdvancedLivePortraitでいい感じに修正できました🥰 限界はあるけど、無理のない範囲であれば調整できるしリアルタイムに制御できるのも嬉しいポイント💡 ただ少し画質が悪くなり、アップスケールしても荒れるところがあるので、この辺はちょっと工夫がいるかも😅 実は完全にこのノードのことは忘れてて、 Sylvain Filoniさんが出したデモをやってみて「comfyUIでないかな」と探したら AdvancedLivePortraitを再発見。「あ、これLivePortraitのやつか」と思い出し、やってみて価値に気が付いたのが今日でした💦 こういう再発見って、たまにあって嬉しい😄 ComfyUI-AdvancedLivePortrait #AI #comfyUI

154,172 просмотров • 1 год назад

✨LTX-2.3、アニメがいける…！しかも生成時間は衝撃の48秒台。 LTX-2の頃は厳しかったアニメが2.3で行けました！丸ごとそのまま生成できてる。リップシンクも、ElevenLabsの音声に合わせてちょっと「演技」してるし…💦 ただまだどのようなアニメでも行けるとは言い切れないけど！しかし大きな進歩を感じた。LTX2では話にならなかったんでね…💦 そして驚愕なのが、Kijai氏のFP8版モデル。 960x544 / 165フレームが、モデルロード後の純粋な生成時間でなんと 48.19秒。モデルロード込みでも179.65秒（約3分） Kijai版の最適化がやばすぎる…！🥰 リプにモデルのリンク👇 #LTX2 #LTX23 #ComfyUI #AI動画生成

✨LTX-2.3、アニメがいける…！しかも生成時間は衝撃の48秒台。 LTX-2の頃は厳しかったアニメが2.3で行けました！丸ごとそのまま生成できてる。リップシンクも、ElevenLabsの音声に合わせてちょっと「演技」してるし…💦 ただまだどのようなアニメでも行けるとは言い切れないけど！しかし大きな進歩を感じた。LTX2では話にならなかったんでね…💦 そして驚愕なのが、Kijai氏のFP8版モデル。 960x544 / 165フレームが、モデルロード後の純粋な生成時間でなんと 48.19秒。モデルロード込みでも179.65秒（約3分） Kijai版の最適化がやばすぎる…！🥰 リプにモデルのリンク👇 #LTX2 #LTX23 #ComfyUI #AI動画生成

38,730 просмотров • 4 месяцев назад

Linoyさんが作られたQwen Image Edit 2509 for Camera Controlをやってみました😊とても簡単でいいですね！comfyuiでいちいち入れなくてもこういう動きがサクッとできるのはありがたいプレビューとして動画も見れていい。動画はリアルタイムです👇 #ai #qwen

Linoyさんが作られたQwen Image Edit 2509 for Camera Controlをやってみました😊とても簡単でいいですね！comfyuiでいちいち入れなくてもこういう動きがサクッとできるのはありがたいプレビューとして動画も見れていい。動画はリアルタイムです👇 #ai #qwen

63,961 просмотров • 8 месяцев назад

Claude Fable 5に「ヴァンサバ系作って」と一発注文したら、本当に出てきた😳 このワラワラ感、単一HTMLファイル・素材ゼロ・外部ライブラリなし。・武器6種＋ボス2体＋BGMまで全部コード生成・敵400体で60fps維持・自分でブラウザを開いてテストプレイ→検証まで自走歴代LLMの中でもずば抜けてる。ゲーム制作でこれは魅力的。ただ6/23からはサブスク外の従量課金になるので使いどころが鍵（今は6/22までPro/Maxに無料同梱）。次の問題は、既存ジャンルの再現じゃなく「オリジナル仕様」でどこまで行けるか。実制作は試行錯誤の連続なので、そこが本当の試金石。 #claude #ai

Claude Fable 5に「ヴァンサバ系作って」と一発注文したら、本当に出てきた😳 このワラワラ感、単一HTMLファイル・素材ゼロ・外部ライブラリなし。・武器6種＋ボス2体＋BGMまで全部コード生成・敵400体で60fps維持・自分でブラウザを開いてテストプレイ→検証まで自走歴代LLMの中でもずば抜けてる。ゲーム制作でこれは魅力的。ただ6/23からはサブスク外の従量課金になるので使いどころが鍵（今は6/22までPro/Maxに無料同梱）。次の問題は、既存ジャンルの再現じゃなく「オリジナル仕様」でどこまで行けるか。実制作は試行錯誤の連続なので、そこが本当の試金石。 #claude #ai

14,096 просмотров • 1 месяц назад

RTX 4090でやっとLTX-2動いた！🎉 Gemma 3 12B + LTX-2 19Bの組み合わせ、24GB VRAMじゃ本来ギリギリだけど： ✅ --novram フラグ ✅ transformers 4.52.0にダウングレード ✅ comfy-kitchen インストール ✅ Enhancerノードはバイパスこれで完走できた。5秒が約7分で生成完了。音付きリリース直後ってこともあるけど、マジで面倒でした… リプに苦労話👇 #LTX2 #ComfyUI #AI動画生成

RTX 4090でやっとLTX-2動いた！🎉 Gemma 3 12B + LTX-2 19Bの組み合わせ、24GB VRAMじゃ本来ギリギリだけど： ✅ --novram フラグ ✅ transformers 4.52.0にダウングレード ✅ comfy-kitchen インストール ✅ Enhancerノードはバイパスこれで完走できた。5秒が約7分で生成完了。音付きリリース直後ってこともあるけど、マジで面倒でした… リプに苦労話👇 #LTX2 #ComfyUI #AI動画生成

39,055 просмотров • 6 месяцев назад

🔥ローカル生成＋nanobananaで3分20秒の長尺MVを3日で完成！🔊🎵 1枚の画像から差分を量産し、InfiniteTalkでリップシンク。曲を仕上げてから実質2日でフルバージョンに到達🎉 正直、普通に動画を繋ぐだけなら長尺も作れる。でも――「歌詞に合わせた意図的な演出」を入れようとすると、これまでは生成可能なレベルを探しつつ運要素も強く、せいぜい1分ぐらいが演出の限界だった💦 nanobananaは実写だと揺らぎが大きく差分に違和感も出やすいが、何度も調整してある程度まで形にできた。NGカットも“意図的に外す”段階に入れた結果、演出意図を通したままフル尺に到達。なおリップ以外のカットはwan2.2で生成。運任せではなく「狙って作る」段階に踏み込めたのは大きな前進です💡 これならNDAリスクも大幅に緩和できそう。ただしアップデートで壊れやすいので、環境は必ず分けて管理した方がいいかも😊 #nanobanana #ComfyUI

🔥ローカル生成＋nanobananaで3分20秒の長尺MVを3日で完成！🔊🎵 1枚の画像から差分を量産し、InfiniteTalkでリップシンク。曲を仕上げてから実質2日でフルバージョンに到達🎉 正直、普通に動画を繋ぐだけなら長尺も作れる。でも――「歌詞に合わせた意図的な演出」を入れようとすると、これまでは生成可能なレベルを探しつつ運要素も強く、せいぜい1分ぐらいが演出の限界だった💦 nanobananaは実写だと揺らぎが大きく差分に違和感も出やすいが、何度も調整してある程度まで形にできた。NGカットも“意図的に外す”段階に入れた結果、演出意図を通したままフル尺に到達。なおリップ以外のカットはwan2.2で生成。運任せではなく「狙って作る」段階に踏み込めたのは大きな前進です💡 これならNDAリスクも大幅に緩和できそう。ただしアップデートで壊れやすいので、環境は必ず分けて管理した方がいいかも😊 #nanobanana #ComfyUI

45,335 просмотров • 10 месяцев назад

googleAIStudioのBuild機能で nanobananaを使って画像を差し替えるWEBアプリを作ってみた。（Build機能を使った方がいらしたので私もマネしてみました）精度は意外といい。これは楽だわ😊いっぱい作ろ #nanobanana #ai

googleAIStudioのBuild機能で nanobananaを使って画像を差し替えるWEBアプリを作ってみた。（Build機能を使った方がいらしたので私もマネしてみました）精度は意外といい。これは楽だわ😊いっぱい作ろ #nanobanana #ai

42,625 просмотров • 10 месяцев назад

⚠️ ComfyUI更新時の罠やっちまった！昨日ACE-Step 1.5試したらQwen3-TTSが壊れた💦 依存関係の不整合が発生😨 原因👇 git pull 後の pip install -r requirements.txt --upgrade → ライブラリが最新版に上がる → 他のノードと互換性が崩れる comfyUIのアップデートはどこで引っかかるかは正直わからない。気を付けててもこればっかりは起きる時は起きる。だから大事なのは「戻れる準備」動画生成みたいに環境構築に手間がかかるものを安定稼働させた後は特に重要👇 - やっておくべきこと・更新前に pip freeze > backup.txt ・壊れたら差分見て戻す万が一に備えて環境を記録しておく。 ComfyUIはアップデートが多いからこそ、大事🤔 LTX-2やQwen3TTS使ってる人は特に気をつけて🙏 ※LTX-2単体では問題なかったので、問題はQwen3TTSとの互換です #ai #comfyui

⚠️ ComfyUI更新時の罠やっちまった！昨日ACE-Step 1.5試したらQwen3-TTSが壊れた💦 依存関係の不整合が発生😨 原因👇 git pull 後の pip install -r requirements.txt --upgrade → ライブラリが最新版に上がる → 他のノードと互換性が崩れる comfyUIのアップデートはどこで引っかかるかは正直わからない。気を付けててもこればっかりは起きる時は起きる。だから大事なのは「戻れる準備」動画生成みたいに環境構築に手間がかかるものを安定稼働させた後は特に重要👇 - やっておくべきこと・更新前に pip freeze > backup.txt ・壊れたら差分見て戻す万が一に備えて環境を記録しておく。 ComfyUIはアップデートが多いからこそ、大事🤔 LTX-2やQwen3TTS使ってる人は特に気をつけて🙏 ※LTX-2単体では問題なかったので、問題はQwen3TTSとの互換です #ai #comfyui

25,487 просмотров • 5 месяцев назад

🚀ローカルで41秒の実写の口パクが一発で出た！ InfinityTalkという新機能追加。見た感じmultitalkぽい感じですが、長尺なのにVRAMは少なく、生成速度も早い。正直ここまで来るとは思わなかった😳 （後半ちょっとずれた気もするけど、日本語でもすばらしい出来！） 640x640で41秒生成が約26分で生成完了😍 kijaiさんすごいわ…相変わらず… 👇リプにリンク #ComfyUI #WanVideoWrapper #リップシンク

🚀ローカルで41秒の実写の口パクが一発で出た！ InfinityTalkという新機能追加。見た感じmultitalkぽい感じですが、長尺なのにVRAMは少なく、生成速度も早い。正直ここまで来るとは思わなかった😳 （後半ちょっとずれた気もするけど、日本語でもすばらしい出来！） 640x640で41秒生成が約26分で生成完了😍 kijaiさんすごいわ…相変わらず… 👇リプにリンク #ComfyUI #WanVideoWrapper #リップシンク

43,289 просмотров • 11 месяцев назад

jtydhr88さんが作られた、ComfyUI-qwenmultiangleをやってみました。素晴らしいカスタムノード😊 3Dビューポートでアングルをリアルタイム操作できるのが直感的で使いやすいです。何度か試して分かったことを共有👇 ✅ モデルはfp8mixed推奨（20GB） bf16（40GB）だとVRAMオーバーで無理でした💦 ⚠️ 連続生成するとVAEデコードで止まることがある → Shift+R「Cleanup Of VRAM Usage」で解消 → 数回生成したらRestart推奨 📊 生成時間目安: 約50-80秒/枚（RTX 4090）いろんな場面で使える素晴らしいノード！リプに必要なモデルとリポジトリのリンク👇 #ComfyUI #QwenImageEdit #AI画像生成

jtydhr88さんが作られた、ComfyUI-qwenmultiangleをやってみました。素晴らしいカスタムノード😊 3Dビューポートでアングルをリアルタイム操作できるのが直感的で使いやすいです。何度か試して分かったことを共有👇 ✅ モデルはfp8mixed推奨（20GB） bf16（40GB）だとVRAMオーバーで無理でした💦 ⚠️ 連続生成するとVAEデコードで止まることがある → Shift+R「Cleanup Of VRAM Usage」で解消 → 数回生成したらRestart推奨 📊 生成時間目安: 約50-80秒/枚（RTX 4090）いろんな場面で使える素晴らしいノード！リプに必要なモデルとリポジトリのリンク👇 #ComfyUI #QwenImageEdit #AI画像生成

26,846 просмотров • 6 месяцев назад