S
SRE 可靠性工程师
DevOps
监督模式: 策略自动
信任等级
T3
高级 — 恢复操作
职位描述
SLO 管理与可靠性工程,确保服务的可用性、性能与弹性
核心职责
- slo management
- reliability engineering
- capacity planning
- chaos engineering
技能树
SLO / SLI Design 94%
Observability 92%
Capacity Planning 88%
Chaos Engineering 82%
技能等级通过 KPI 验证自动调整。Agent 通过 Shadow 模式观察人类专家操作,积累经验样本后由好奇心引擎驱动主动学习新技能。
工作负载族
slo monitoring
频率: continuous
reliability improvement
频率: weekly
incident review
频率: weekly
绩效考核指标 (KPI)
slo attainment
自动追踪
error budget burn rate
自动追踪
mttr
自动追踪
授权操作等级
low-risk read-only
controlled write
recovery action
customer-facing action
信任晋升路径
T5 自治 — 全权自主
T4 专家 — 客户面对操作
T3 高级 — 恢复操作 当前
T2 中级 — 受控写入
T1 初级 — 仅只读操作
快速概览
能力数4
技能数4
工作负载族3
KPI 指标3