RAG 模型推荐

聚焦检索增强场景,平衡召回质量、响应延迟与显存效率。

本页要点

  • 按知识库规模匹配模型与上下文窗口。
  • 对比量化策略对回答质量的影响。
  • 给出高并发时的缓存与回退建议。