项目经历

# 项目经历

这页介绍我做过的一些项目：CephFS 元数据控制面增强、合规存储、性能分析与瓶颈归因、MDS 侧 QoS、文件存储容灾与产品化、DAOS 集群资源在线调整、NVMe 资源抽象和集群可观测性建设。

项目背景：面向监管留存、档案归档、日志留存等不可篡改场景，将文件保护能力下沉到 CephFS 元数据控制面。
我的职责：负责 WORM 需求拆解、方案设计和核心链路落地，覆盖客户端、协议层、MDS 控制面、OMAP 持久化和审计链路。
关键难点：保护期判断不能依赖节点本地时间；受保护文件需要同时防住客户端缓存路径、管理接口差异和 MDS 服务端绕过路径。
核心贡献：设计目录级 WORM 策略模型、生命周期状态机和逻辑 WORM 时钟；在 open、write、truncate、unlink、rename、link、setattr 等关键写路径接入校验；拆分 WormManager、WormClock、WormInfo、WormList、WormRecord 等 MDS 模块。
结果：为 CephFS 补齐面向合规存储场景的不可篡改能力闭环，提升保护期判定一致性、审计可追溯性和平台化运维接入能力。
详情入口：[CephFS 合规存储](55.CephFS 合规存储.md)

项目背景：面向 CephFS 高负载元数据场景，核心目标不是“做压测”，而是解释系统为什么在文件规模和并发上升后退化，以及扩 MDS 是否真的有效。
我的职责：负责构建压力模型、设计 MDS 内部指标采集与时序分析方法，并把外部性能现象转化为可执行的瓶颈归因结论。
关键难点：系统只能告诉你“吞吐降了、延迟高了”，但很难直接回答瓶颈落在多 MDS 协同、cache 压力、元数据池介质还是数据面写入；归因方法必须能把现象还原为内部机制。
核心贡献：构建 3 节点 / 192 并发 / 百万至千万级文件 的高负载场景，覆盖纯元数据和小文件读写；将 reply_latency、forward、dir_fetch、peer_lookupino、journal_latency 等 MDS 指标与 mdtest/fio 结果对齐，建立“压力建模 → 指标采集 → 时序分析 → 瓶颈归因”的分析链路。
结果：明确 multi-active MDS 的收益边界，识别 cache 容量拐点后的元数据路径退化机制，并能区分元数据瓶颈与数据面瓶颈，为扩 MDS、调 cache、目录打散和介质优化提供依据。
详情入口：CephFS 高负载性能分析与瓶颈归因

项目背景：面向多租户共享 CephFS 场景，治理热点 subvolume 高频元数据请求对 MDS 处理能力的抢占。
我的职责：参与需求拆解和方案设计，将“IOPS QoS”收敛为 CephFS MDS metadata request QoS，并负责 MDS 侧调度链路和运行态管理能力。
关键难点：限速对象是 MDS metadata request，不覆盖 OSD 数据读写；多客户端需要在同一 subvolume 维度共享 QoS 状态，多 MDS 场景需要在精度和热路径开销之间取舍。
核心贡献：新增 MDS dmClock 调度器，在 Server::dispatch() 的 client request 入口接入调度；基于 client session root 识别业务根路径并归一化到 subvolume root；通过 admin socket 暴露 dump qos、qos set、qos get、qos rm 等观测和管理入口。
结果：为 CephFS 增加 subvolume 维度的 MDS metadata request QoS 能力，支持按 reservation / weight / limit 对热点元数据请求排队调度。
详情入口：[CephFS IOPS QoS 限速](56.CephFS 目录级 IOPS QoS 限速.md)

项目背景：面向文件存储产品化交付，需要将 CephFS 多集群镜像同步、NFS 网关和容量治理能力纳入统一部署、配置、管理和验证流程。
我的职责：参与 cephfs-mirror 多集群镜像同步产品化，梳理灾备配置、同步关系管理、状态观测和故障处理流程；参与 NFS 网关管理交互设计和功能应用验证；参与 Ceph OSD 容量限制相关产品适配与验证。
核心贡献：补齐文件存储容灾、协议网关和容量治理场景下的产品侧配置管理、运行状态展示和交付验证能力，推动底层存储能力转化为可运维、可交付的产品功能。
结果：支撑 CephFS 跨集群容灾、NFS 协议接入和 OSD 容量控制等能力的平台化落地，增强文件存储产品在灾备、访问接入和资源治理方面的完整性。

项目背景：分布式存储系统需要在不停机前提下动态增加或回收节点、硬盘和容量，并保持数据安全、服务连续性和集群状态一致。
我的职责：负责中电云分布式存储系统控制侧与部分引擎侧能力开发，推动节点级、硬盘级扩容、缩容和换盘流程上线。
关键难点：资源调整发生在在线集群中，流程跨控制侧、节点侧和引擎侧；缩容和换盘涉及数据迁移、状态检查、异常回滚和资源释放，风险高。
核心贡献：实现扩容、缩容、换盘关键流程；打通控制侧 gRPC 通信、硬盘发现、状态同步、资源申请和引擎侧 SPDK blob / target 创建链路；设计失败重试、异常回滚与资源回收机制。
结果：在约 30 节点 / 600 磁盘规模完成验证，加盘、换盘关键流程整体耗时从约 60s 优化到 5s 内，将高风险人工操作沉淀为系统级在线能力。
详情入口：暂无独立详情页，当前以本页概览为主。

Last Updated: 2026/04/27, 14:22:08