Video yükleniyor...
Video Yüklenemedi
Qwen3.5、RTX 4090で毎秒134トークン出た!喜んだのも束の間、翌日再構築💦 一昨日ローカルで初めて動かした後、 最適化フラグを入れたら毎秒134トークンまで跳ねた。 が、昨日UnslothさんがQwen3.5のGGUFを更新されたので入れて見たら急に重くなってしまった…💦 再調整をしてなんとか、毎秒95〜120トークン! 結果、品質は上がった。速度も十分。素晴らしい! (使用モデル:Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf) ただ問題はVRAMがギリギリすぎて、他の作業はできない😨 モデルが大きくなった分、KVキャッシュの量子化をq8_0からq4_0に下げて VRAMを節約することなんとかスムーズに😊(添付の動画) この辺のヒリヒリ感が「一回入れて終わり」じゃなくていい またさらに調整していこうかな 楽しくなってきた🥰 この2日間の全記録をnoteにまとめました 👇リプにリンク #ai #Qwen35
95,070 görüntüleme • 3 ay önce •via X (Twitter)
0 Yorum
Yorum bulunmuyor
Orijinal gönderinin yorumları burada görünecek

