正在加载视频...
视频加载失败
快10倍!卷完 Decoding 开始卷 Prefill 了 之前的 DFlash 已经很惊艳了,竟然又搞了 PFlash...... DFlash 是在 Decoding 阶段用小模型进行 Speculative 来提速,但是对于超长 Context, Prefill 阶段的时间也会很久。PFlash (Speculative Prefill) 推测预填充,用同样的思路,让 Prefill 结算实现了最快 10x 的提速!赶紧试试 项目地址点击:
49,186 次观看 • 1 个月前 •via X (Twitter)
0 条评论
暂无评论
原始帖子的评论将显示在这里
