资深运维工程师

Best Web3

15.8-21Kر.س[شهريًا]
في الموقع - الصين3-5 سنوات خبرةبكالوريوسدوام كامل
مشاركة

وصف الوظيفة

【岗位职责】

K8s生态与AWS云资源协同运维:

负责生产/测试环境Kubernetes集群(含EKS托管集群)的全生命周期管理,保障集群高可用(SLA≥99.95%);

优化AWS云资源(EC2、RDS、S3、ELB、VPC等)与K8s集群的资源调度,推动成本优化(如Spot实例使用、自动扩缩容策略);

主导EKS集群周边生态组件(如CoreDNS、Ingress Controller、AWS Load Balancer Controller)的版本迭代与稳定性调优,解决云原生场景下的网络、存储、计算资源异常。

监控与可观测性体系搭建:

基于 夜莺(Nightingale)+ Prometheus + Grafana + FlashDuty + AWS CloudWatch技术栈,构建覆盖容器、主机、中间件、AWS云资源的全链路监控与事件管理体系;

AWS监控侧:

负责AWS资源(EC2、RDS、S3、ELB、Lambda等)的监控配置,通过CloudWatch采集指标(如CPU使用率、内存占用、磁盘IO、请求延迟)与日志(CloudWatch Logs);

定制AWS专属告警规则(如RDS连接数超限、S3存储桶流量突增、Lambda函数错误率升高),并将告警同步至夜莺与FlashDuty,实现跨平台告警聚合;

分析AWS资源监控数据(如CloudWatch Metrics、Logs Insights),定位云资源性能瓶颈(如EC2实例CPU争用、RDS慢查询),推动优化方案(如调整实例类型、优化SQL索引);

夜莺+FlashDuty侧:

维护夜莺平台的时序数据库与告警规则引擎,对接Prometheus、AWS CloudWatch等多数据源,实现指标统一展示与告警收敛;

运营FlashDuty事件中心,定义AWS资源告警的分级(P0-P4)与分派策略(如EC2故障派至基础设施组、RDS问题派至数据库组),跟踪事件闭环并优化响应效率。

CI/CD流水线与AWS云原生工具链整合:

负责DevOps工具链(Jenkins/GitLab CI/Argo CD/FluxCD)与AWS服务(CodePipeline、CodeBuild、EKS)的集成,设计混合云场景下的CI/CD流程;

推动容器镜像构建(ECR)、制品存储(S3)、环境灰度发布(EKS Blue/Green Deployment)等环节的自动化,缩短发布周期;

优化流水线性能,结合AWS Spot实例、缓存策略降低构建成本,提升研发体验。

中间件与AWS服务稳定性保障:

维护MySQL/Redis/RabbitMQ/Kafka/Elasticsearch等核心中间件集群(含AWS托管服务如RDS for MySQL、ElastiCache for Redis),制定高可用架构方案;

监控中间件与AWS服务的交互状态(如RDS连接池使用率、Kafka与S3的消息同步延迟),提前预警并解决跨服务性能瓶颈;

推动中间件与AWS服务的标准化配置(如RDS参数组调优、ElastiCache节点类型选择),输出运维SOP与故障处理手册。

跨团队协作与AWS技术赋能:

对接研发、测试团队,提供AWS云资源使用规范(如IAM权限、安全组配置)、容器化上云及CI/CD流程等技术支持;

总结AWS监控与云原生运维经验,沉淀技术文档与最佳实践,定期开展内部培训(如CloudWatch指标解读、夜莺与AWS集成排障)。


【任职要求】

基础要求:本科及以上学历,计算机/软件相关专业,3年以上运维/DevOps相关经验,1年以上AWS云服务运维经验;

技术深度:

精通Kubernetes核心原理(调度、网络、存储),熟悉EKS托管集群的部署与运维(如eksctl、kubeadm for EKS),有大规模EKS集群(≥50节点)运维经验优先;

熟练使用 AWS CloudWatch进行指标采集、告警配置与日志分析(CloudWatch Logs Insights),掌握CloudWatch Metrics Explorer、Alarms、Dashboards的使用;

熟练使用 夜莺(Nightingale)搭建监控告警体系,具备多数据源(Prometheus、CloudWatch)集成与统一展示能力;

熟悉 FlashDuty的事件管理流程,掌握与AWS告警的联动配置(如通过Lambda触发FlashDuty事件);

熟悉Prometheus+Grafana+Alertmanager监控栈,掌握OpenTelemetry数据采集与Tracing链路追踪;

熟悉至少一种CI/CD工具链(如Argo CD/Jenkins),具备与AWS CodePipeline/CodeBuild集成的实战经验;

掌握MySQL/Redis/RabbitMQ等中间件与AWS服务(如RDS、ElastiCache)的协同运维,熟悉高可用架构设计;

问题解决能力:具备快速定位复杂问题的能力(如EKS节点网络丢包、RDS跨可用区同步延迟),能通过CloudWatch日志、夜莺指标与链路追踪串联根因;

AWS认证:持有 AWS Certified SysOps Administrator - Associate或 AWS Certified Cloud Practitioner认证优先;

软技能:良好的沟通协作能力,能推动跨团队技术落地;具备技术文档编写习惯,乐于分享经验。

Preview

Miko M

HR ManagerBest Web3

رد اليوم 0 مرات

موقع العمل

深圳市, 中国广东省深圳市

نشر بتاريخ 22 January 2026

الإبلاغ عن هذه الوظيفة

تذكير أمان Bossjob

إذا كانت الوظيفة تتطلب العمل خارج البلاد، يرجى أن تكون متيقظًا وأن تحذر من الاحتيال.

إذا واجهت صاحب عمل قام بالإجراءات التالية أثناء بحثك عن وظيفة، يرجى الإبلاغ عنه فورًا

  • يحجب هويتك،
  • يتطلب منك تقديم ضمان أو يجمع ممتلكات،
  • يجبرك على الاستثمار أو جمع الأموال،
  • يجمع فوائد غير قانونية،
  • أو حالات غير قانونية أخرى.
Tips
×

Some of our features may not work properly on your device.

If you are using a mobile device, please use a desktop browser to access our website.

Or use our app: Download App