清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

清华开源混合精度推理系统MixQ,实现大模型近无损量化并提升推理吞吐

9小时前

来源:量子位 编辑:硕博生活圈 “慧眼观世界,关注就要发声。大家好,这里是硕博生活圈。” 关注前沿情报👉 PACMAN实验室 投稿量子位 | 公众号 QbitAI 一键部署LLM混合精度推理,端到端吞 …