Runner 健康

跟踪节点可用性、负载变化和超时风险。

排查清单

  • 确认节点在线与可调度状态。
  • 监控 GPU 温度与任务稳定性。
  • 发现异常时及时切换回退节点。