
LUTA@AI
@luta_ai • 8,764 subscribers
「面白い」を起点に、AIと共に映像・音楽・ゲーム・物語を制作|人間の“したい”を、誰かに届く価値へ変える実験の記録。
Shorts
Videos

sora2を今日の分100回分回しました。 やる前とやった後では印象が違いました🤔 これは知り合いと送り合って遊ぶこれまでの動画生成AIの導線とは全く違う導線なのかも。 そう思うとめっちゃ興味深かった。 特にこのカメオ機能。これで自分を撮ったり友達を撮ってきてお互いに変なことしたりして送り合って、リミックスして面白がるみたいな。身内で楽しむノリ😊 知らない人が見てもまったく面白くないけど、知ってたら面白いみたいな。だから今までのSNSとはちょっと違う印象だった。 そう考えると10秒間しか作れないのも納得感がある。発想だけで面白いもの作るAIならではのアプリ。そう考えると興味深い😊 招待が解放されたらパブリックで楽しむのもあるかもだけど、それよりクローズドな関係で楽しむ感じがした。 スマホで手軽に動画生成を使った新しい遊びという感じだから、AIを使った次世代のプロダクトをリリースしたんじゃないかなと感じている。 それにそもそも、ダウンロードは透かしが入るので、そっちはおまけ。スマホだと透かしが入ってないので、普通に見える。スマホ前提の新しいAIプロダクトとみると、新しさを感じる。 とはいえ、評価するのは市場だから、全体解放された時に市場がどういう捉え方をしていくのか、どう判断するかが楽しみ🤔 新しいって難しい… #Sora2
LUTA@AI306,863 Aufrufe • vor 8 Monaten

Qwen3.5、RTX 4090で毎秒134トークン出た!喜んだのも束の間、翌日再構築💦 一昨日ローカルで初めて動かした後、 最適化フラグを入れたら毎秒134トークンまで跳ねた。 が、昨日UnslothさんがQwen3.5のGGUFを更新されたので入れて見たら急に重くなってしまった…💦 再調整をしてなんとか、毎秒95〜120トークン! 結果、品質は上がった。速度も十分。素晴らしい! (使用モデル:Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf) ただ問題はVRAMがギリギリすぎて、他の作業はできない😨 モデルが大きくなった分、KVキャッシュの量子化をq8_0からq4_0に下げて VRAMを節約することなんとかスムーズに😊(添付の動画) この辺のヒリヒリ感が「一回入れて終わり」じゃなくていい またさらに調整していこうかな 楽しくなってきた🥰 この2日間の全記録をnoteにまとめました 👇リプにリンク #ai #Qwen35
LUTA@AI95,070 Aufrufe • vor 3 Monaten

✨自作チャットゲームのTTSをIrodori-TTSに乗り換えたら、感情表現がかなり良くなった🔥 SBV2は配布NGで悩んでたけど、Irodori-TTSはMITで配布OK。ありがたい! しかもゼロショット音声クローン対応で、参照音声1つだけでキャラ声をかなり再現してくれる。ファインチューニングなしでもここまで出るのはかなり良い。 実際、声も明らかに変わった💛 もともとminatoは少しシステム寄りというか、抑えたキャラとして作ってたんだけど、Irodori-TTSにしたら感情を抑えたままちゃんと“それらしく”なってきた感じがある。 長文はそのままだと読みが崩れたので、80文字ごとに自動分割して結合する実装を入れて解決。 動画は Gemma 4 E4B + Irodori-TTS。ローカル構成、かなりいい。 ここからさらにファインチューニングしたら、もっと詰められそう。 リプにリポジトリ👇 #ai #TTS
LUTA@AI41,642 Aufrufe • vor 1 Monat

✨AI音声で一貫した声を作り会話させるチャレンジ 前に音声を使ってLLMの文章を読ませることには成功していたけど、今回はオリジナルの声を作成してみました。 やったこと: ①まずQwen3-TTSで声を1個作る ②その声で171個量産(台詞バリエーション) ③Style-Bert-VITS2で学習 → 50分でカスタム音声モデル完成 ④UIに接続 → リアルタイムで喋る やばい!自分で作った声だと楽しい😊 苦労したところ: ・最初はブラウザ内TTS(Chatterbox)を試した → 1文30秒&英語のみでまだ難しいしそもそもこの用途が厳しいかも💦 ・SBV2に切り替えたら環境構築に手間取ったけどうまくいった ・ただライセンスは要注意。やる場合は先にライセンス確認を。用途によっては制限があるものもある📝 まだまだ色々あるけど、今後のことを考えるとNVIDIAからも良い音声AIが出てるし、対応できるようにしておきたい。 今回は前回と同じくモデルはGPT-OSS 20Bだけど、Ollamaから読んでるので早い。 WebGPUでこれぐらい出たら嬉しいけどなー🥰 とはいえローカルでここまでできるようになったのは嬉しい。データは一切外に出ないしね。 声の元はAI生成だから、「存在しない人の声」をAIが学習して、AIキャラが喋る。 #AI #TTS
LUTA@AI57,505 Aufrufe • vor 3 Monaten

✨LTX-2.3、アニメがいける…!しかも生成時間は衝撃の48秒台。 LTX-2の頃は厳しかったアニメが2.3で行けました!丸ごとそのまま生成できてる。リップシンクも、ElevenLabsの音声に合わせてちょっと「演技」してるし…💦 ただまだどのようなアニメでも行けるとは言い切れないけど! しかし大きな進歩を感じた。LTX2では話にならなかったんでね…💦 そして驚愕なのが、Kijai氏のFP8版モデル。 960x544 / 165フレームが、モデルロード後の純粋な生成時間でなんと 48.19秒。 モデルロード込みでも179.65秒(約3分) Kijai版の最適化がやばすぎる…!🥰 リプにモデルのリンク👇 #LTX2 #LTX23 #ComfyUI #AI動画生成
LUTA@AI38,007 Aufrufe • vor 3 Monaten

表情を変えたい時は 「ComfyUI-AdvancedLivePortrait」いいかも😍 画像生成で 「もうちょっとだけこっち見て欲しい」 と思うことが、よくありますが AdvancedLivePortraitでいい感じに修正できました🥰 限界はあるけど、 無理のない範囲であれば調整できるし リアルタイムに制御できるのも嬉しいポイント💡 ただ少し画質が悪くなり、 アップスケールしても荒れるところがあるので、 この辺はちょっと工夫がいるかも😅 実は完全にこのノードのことは忘れてて、 Sylvain Filoniさんが出したデモ をやってみて「comfyUIでないかな」と探したら AdvancedLivePortraitを再発見。 「あ、これLivePortraitのやつか」と思い出し、 やってみて価値に気が付いたのが今日でした💦 こういう再発見って、たまにあって嬉しい😄 ComfyUI-AdvancedLivePortrait #AI #comfyUI
LUTA@AI154,172 Aufrufe • vor 1 Jahr

⚠️ ComfyUI更新時の罠 やっちまった! 昨日ACE-Step 1.5試したらQwen3-TTSが壊れた💦 依存関係の不整合が発生😨 原因👇 git pull 後の pip install -r requirements.txt --upgrade → ライブラリが最新版に上がる → 他のノードと互換性が崩れる comfyUIのアップデートはどこで引っかかるかは正直わからない。 気を付けててもこればっかりは起きる時は起きる。 だから大事なのは「戻れる準備」 動画生成みたいに環境構築に手間がかかるものを 安定稼働させた後は特に重要👇 - やっておくべきこと ・更新前に pip freeze > backup.txt ・壊れたら差分見て戻す 万が一に備えて環境を記録しておく。 ComfyUIはアップデートが多いからこそ、大事🤔 LTX-2やQwen3TTS使ってる人は特に気をつけて🙏 ※LTX-2単体では問題なかったので、問題はQwen3TTSとの互換です #ai #comfyui
LUTA@AI25,487 Aufrufe • vor 4 Monaten

🔥ローカル生成+nanobananaで3分20秒の長尺MVを3日で完成!🔊🎵 1枚の画像から差分を量産し、InfiniteTalkでリップシンク。 曲を仕上げてから実質2日でフルバージョンに到達🎉 正直、普通に動画を繋ぐだけなら長尺も作れる。 でも――「歌詞に合わせた意図的な演出」を入れようとすると、これまでは生成可能なレベルを探しつつ運要素も強く、せいぜい1分ぐらいが演出の限界だった💦 nanobananaは実写だと揺らぎが大きく差分に違和感も出やすいが、何度も調整してある程度まで形にできた。NGカットも“意図的に外す”段階に入れた結果、演出意図を通したままフル尺に到達。 なおリップ以外のカットはwan2.2で生成。 運任せではなく「狙って作る」段階に踏み込めたのは大きな前進です💡 これならNDAリスクも大幅に緩和できそう。 ただしアップデートで壊れやすいので、環境は必ず分けて管理した方がいいかも😊 #nanobanana #ComfyUI
LUTA@AI45,264 Aufrufe • vor 9 Monaten

jtydhr88さんが作られた、ComfyUI-qwenmultiangleをやってみました。 素晴らしいカスタムノード😊 3Dビューポートでアングルをリアルタイム操作できるのが直感的で使いやすいです。 何度か試して分かったことを共有👇 ✅ モデルはfp8mixed推奨(20GB) bf16(40GB)だとVRAMオーバーで無理でした💦 ⚠️ 連続生成するとVAEデコードで止まることがある → Shift+R「Cleanup Of VRAM Usage」で解消 → 数回生成したらRestart推奨 📊 生成時間目安: 約50-80秒/枚(RTX 4090) いろんな場面で使える素晴らしいノード! リプに必要なモデルとリポジトリのリンク👇 #ComfyUI #QwenImageEdit #AI画像生成
LUTA@AI26,846 Aufrufe • vor 4 Monaten

LongCat-Avatarをやってみました😊 kijaiさんがWanWrapperに追加してくれていたので、早速やってみましたが、InfiniteTalkよりも表現力が高い。 そしてこれは生成した画像をつないでいくことで長尺動画を生成可能。シードを変えなければその続きから生成できるので、最初からやり直しにはならないのもいいところ🥰 問題は生成時間が長いことかな 93フレームで500秒弱かかる。 ただ実はここに罠が…というか私がハマってしまった… 久方ぶりのアップデートをしたので、依存関係、環境、ComfyUI自体のアップデートと、なかなか複合的にトラブったあげく8時間経ってもうまく生成できない中、朝やっと原因がわかり生成できました。 これは私の環境における問題かもなので言い切れないですが、attention_modeをSDPAに変更することで上手く行きました。 久しぶりにやる方は時間のある時にやることをおススメします💦 引っかかる人もいるかもなのでまたnoteにでも書きます 👇リプにワークフローのリンクとリポジトリ #AI #ComfyUI #LongCatAvatar
LUTA@AI26,627 Aufrufe • vor 5 Monaten

LTX-2で音声別の動画生成ができると聞いてやってみた🎬 WSL環境だと不安定+メモリ問題があり、Windows環境に移行。 Kijaiさんのノードを使って生成できたけど、今度は顔が別人になる問題が発生😱 SageAttentionを疑ったのが迷い道の始まり… VSCodeまでさかのぼって丸1日。結局余計なことしてたと気づき解決💦 WSL2 → Windows直接実行で ⏱️ 246秒 → 204秒(17%高速化) SageAttentionなしでも速くて安定するならWindowsでよさそう👍 今始めるならWindowsの方が良いかもです 解像度テスト: ✅ 768x512: 3分半 ✅ 1280x720: 5分弱(実用的上限) ⚠️ 1920x1080: 約10分(ギリギリ) 問題は解像度高いと顔が濃くなること… エンハンサーかな?🤔 #LTX2 #ComfyUI #AIVideo
LUTA@AI23,524 Aufrufe • vor 4 Monaten

Grokで画面分割をどこかで見たのでテスト😊 以下のプロンプトをベースにいろいろ分割を変えて作れます。 プロンプト: The screen is divided into three diagonal sections forming an inverted V-shape (∧-shaped) layout. The split lines converge toward the bottom center, creating a descending, focused composition. The top section is a close-up. The middle section is the original shot. The bottom section is a wide view. 割と成功率は高いね🥰 #ai #Grok
LUTA@AI31,531 Aufrufe • vor 7 Monaten