中文指南中心

围绕真实部署场景整理的核心指南，优先解决“能否跑、值不值、怎么稳”的问题。

编程模型推荐 RAG 模型推荐成本对比指南

编程模型推荐

面向代码生成、重构与调试场景，快速选择本地可用模型。

RAG 模型推荐

在检索质量、响应延迟和显存效率之间找到实用平衡。

本地成本 vs 云端成本

用统一口径比较本地部署与云推理总成本，避免拍脑袋决策。

本地集群网络指南

从单机到多机的网络与稳定性检查清单，适合运维落地。

Ollama vs vLLM 显存对比

对比两种后端在显存占用与运行策略上的关键差异。