Trabalho híbrido em Maringá-PR (terça e quinta presencial) Contrato PJ ou Cooperado Descrição • Será responsável por garantir a confiabilidade, escalabilidade e resiliência de nossas plataformas e produtos digitais, atuando de ponta a ponta em arquitetura, automação e operações. Suas principais atribuições incluem: • Disponibilidade e Performance: Garantir a disponibilidade, desempenho e escalabilidade dos sistemas e serviços em ambientes de nuvem, aplicando práticas de Site Reliability Engineering. • Observabilidade e Confiabilidade: Projetar e manter SLIs, SLOs e SLAs, criando mecanismos de monitoramento, logging e alertas proativos, prevenindo incidentes antes que afetem os usuários finais. • Automação e Entrega Contínua: Desenvolver e manter pipelines de CI/CD para automatizar deploys, testes e integrações contínuas, reduzindo riscos e aumentando a eficiência. • Gestão de Incidentes: Implementar processos de incident response e post-mortem para identificar, mitigar e aprender com falhas, garantindo melhoria contínua. • Segurança e Compliance: Implementar e manter práticas de segurança de alto nível para proteger dados e cumprir normas de privacidade e compliance (ex.: PCI-DSS, LGPD/GDPR). • Infraestrutura como Código: Utilizar ferramentas de automação e IaC (Infrastructure as Code) para provisionamento, configuração e manutenção de ambientes em AWS ou outras nuvens públicas. • Suporte e Orientação Técnica: Apoiar squads de desenvolvimento, fornecendo orientação sobre práticas de DevOps, infraestrutura e arquitetura, além de atuar como ponto técnico focal. • Otimização de Custos: Identificar oportunidades de redução de custos e otimização de recursos na infraestrutura e serviços em nuvem. Requisitos • Conhecimentos em Inteligência Artificial aplicada a operações (AIOps), incluindo uso de modelos para detecção de anomalias, previsão de incidentes e automação inteligente de respostas. Experiência com integração de serviços de IA (ex.: APIs de modelos de linguagem), uso de pipelines de dados para treinamento/consumo de modelos e entendimento de conceitos como Machine Learning, NLP e observabilidade orientada por IA. • Experiência sólida em administração de sistemas Linux e Windows, incluindo configuração, monitoramento e troubleshooting. • Proficiência em automação e IaC, utilizando ferramentas como Terraform, Ansible ou similares. • Experiência prática em cloud computing, preferencialmente AWS (EC2, VPC, RDS, S3, CloudFront, Load Balancer). • Vivência com contêineres e orquestração (Docker, Kubernetes). • Conhecimento em serviços web e servidores (Nginx, Apache, IIS, etc.). • Experiência em monitoramento e observabilidade, usando ferramentas como Grafana, Prometheus, Zabbix, Graylog, Datadog ou similares. • Forte compreensão de práticas DevOps e SRE (SLI/SLO, capacidade de resposta a incidentes, gestão de disponibilidade). • Experiência com pipelines de CI/CD (GitLab CI, GitHub Actions, Jenkins ou similares). • Habilidades de comunicação para colaborar com times multidisciplinares e interagir com clientes. • Certificações em AWS, DevOps, Kubernetes ou áreas correlatas são altamente desejáveis. Desejáveis • Experiência prévia em ambientes de alta disponibilidade (produtos de larga escala). • Atuação anterior em equipes de SRE ou como engenheiro responsável por confiabilidade de sistemas críticos. • Conhecimentos de FinOps para otimização de custos em cloud. • Experiência prévia em ambientes de alta disponibilidade (produtos de larga escala). • Atuação anterior em equipes de SRE ou como engenheiro responsável por confiabilidade de sistemas críticos. • Conhecimentos de FinOps para otimização de custos em cloud.