Voltar para vagas
Principal SRE – AI Agents Platform
Remoto
Nosso Modo de Fazer no Time:
Você será uma das principais referências técnicas na criação da plataforma estrutural de agentes de IA do iFood, um dos pilares estratégicos que vai permitir que múltiplos times desenvolvam agentes com rapidez, segurança e reuso extremo.
Seu Cardápio Diário:
- Liderar tecnicamente o desenvolvimento e a sustentação da plataforma de agentes de IA, garantindo confiabilidade, escalabilidade e governança dos agentes.
- Projetar padrões de execução, deploy, telemetria e monitoramento, contribuindo para decisões arquiteturais críticas e para a visão de longo prazo da plataforma.
- Criar automações e pipelines orientados a MLOps, com foco em observabilidade, métricas de performance, resiliência e uso eficiente de recursos.
- Definir e acompanhar SLOs, SLIs e mecanismos de proteção, trazendo clareza na comunicação de riscos e impacto para parceiros técnicos.
- Avaliar fornecedores e tecnologias do ecossistema de IA, comunicando trade-offs de forma objetiva e suportando decisões estratégicas.
- Colaborar com times de Engenharia e IA para integrar modelos, embeddings e componentes externos, construindo parcerias fortes e confiáveis.
- Identificar oportunidades de padronização — documentação, templates, automações e fluxos — trazendo visão sistêmica e capacidade de resolução de problemas em cenários complexos.
Ingredientes Que Buscamos:
- Experiência sólida como SRE em ambientes de alta escala, com forte capacidade analítica e tomada de decisão madura.
- Domínio de Kubernetes, observabilidade (Prometheus, OpenTelemetry, Grafana), infraestrutura como código (Terraform) e práticas SRE (SLO/SLI, incident response, troubleshooting avançado).
- Vivência com MLOps, pipelines de inferência ou plataformas que operam modelos de IA em produção.
- Experiência com AWS (EKS, IAM, mensageria, monitoramento), arquitetura distribuída, segurança e multi-tenancy.
- Comunicação clara e colaborativa, habilidade para navegar em ambiguidades e espírito de parceria com múltiplos times.
- Capacidade de priorização, gestão de risco e entrega consistente em ambientes complexos.
Para Realçar o Sabor:
- Experiência com arquiteturas de agentes (LLM Agents, orquestradores, ferramentas externas).
- Conhecimento de service mesh (Istio), API gateways e padrões avançados de rede.
- Familiaridade com vetores, embeddings e soluções de armazenamento de contexto.
- Experiência em otimização de custos e performance em workloads de IA.
Buscamos uma pessoa apaixonada por inovação e tecnologia, que esteja sempre em busca de novos aprendizados e que goste de desafios. Se você se identifica com este perfil, adoraríamos conhecer você!
Candidatar a esta vaga
*
indica um campo obrigatório