Ray Serve 模型部署实战:Deployment、DAG 编排与弹性伸缩2026-03-29·1772 字·9 分钟Ray Serve 是被很多团队忽视的模型服务框架。它在复杂 DAG、异构资源、弹性伸缩上的表现远超单纯的 FastAPI。本文讲清它的核心抽象和生产落地。
ClickHouse 生产运维实战:集群部署、副本分片、性能调优与故障排查2026-03-15·4233 字·20 分钟ClickHouse 高吞吐 OLAP 能力背后有一套独特的运维范式:ReplicatedMergeTree、ZooKeeper/Keeper、分布式表、物化视图、TTL、MergeTree 家族选型。本文按生产落地路径,从集群规划、副本分片、写入优化、查询调优、物化视图到慢查询排查,配套可直接复用的 SQL 与运维脚本。
vLLM 多机多卡分布式推理:Tensor Parallel 调优与踩坑实录2026-03-03·1959 字·10 分钟从单机 8 卡讲到多机多卡,把 vLLM 的 TP/PP 拆分、Ray 启动方式、NCCL 调优、PagedAttention 显存核算和常见翻车场景串成一条完整的落地路径。
ETCD 运维实战:部署、备份恢复与 K8s 集群数据管理2025-04-13·1158 字·6 分钟ETCD 是 Kubernetes 的命脉,所有集群状态都存储在这里。本文从实际运维角度梳理部署、备份、恢复和配置动态更新的完整操作链路,包含多个踩坑经验。
MongoDB 分片集群实战:从 shard key 设计到 chunk 均衡的全链路2024-11-20·1406 字·7 分钟很多团队把 MongoDB 分片当成"设个 shard key 就完事",结果上线半年后发现 80% 数据在一个 shard 上、balancer 每天搬几十 GB 却怎么都追不上、某个 collection 出现 jumbo chunk 无法分裂。这篇文章把我在几套 MongoDB 分片集群上的经验整理出来,希望能让你在分片之前少走一些弯路。