正在加载视频...
视频加载失败
`transformers` + `torchao` quantization + `torch.compile` for faster inference speed and less memory usage 🔥 Demo of "meta-llama/Meta-Llama-3.1-8B-Instruct" quantized in 4-bit weight-only :
0 条评论
暂无评论
原始帖子的评论将显示在这里
正在加载视频...
暂无评论
原始帖子的评论将显示在这里