Ingénieur·e en fiabilité des sites - Site Reliability Engineer
La version anglaise suivra - English version will follow
Ingénieur·e en fiabilité des sites
À propos de nous
Toboggan Labs est une firme-conseil boutique qui œuvre à l'intersection de l'IA et de la santé. Nous résolvons des problèmes humains complexes en appliquant des technologies de pointe combinées à une solide compréhension du domaine.
À propos du poste
Nous sommes à la recherche d'un·e ingénieur·e en fiabilité des sites (SRE) pour aider nos clients à concevoir et exploiter des systèmes de production fiables, observables et sécurisés.
Dans ce rôle, vous travaillerez aux côtés des équipes d'ingénierie et d'exploitation de nos clients pour améliorer la fiabilité des systèmes, réduire les tâches manuelles répétitives et bâtir les fondations opérationnelles — pipelines de déploiement, surveillance, gestion des incidents, infrastructure — qui maintiennent les systèmes en production en bonne santé.
Veuillez noter que, bien que nous soyons spécialisés dans le secteur de la santé et les industries réglementées, tous nos projets ne relèvent pas de ces domaines. Vous pourriez donc être amené·e à travailler sur des projets variés dans différents secteurs, selon les besoins.
Vos responsabilités quotidiennes
- Ingénierie d'infrastructure et de sécurité — Concevoir et maintenir des infrastructures infonuagiques résilientes et sécurisées à l'aide d'outils d'infrastructure-as-code; implanter des contrôles de sécurité, des standards de durcissement et des guardrails de conformité dans les environnements clients.
- Observabilité et fiabilité — Concevoir et implanter des systèmes de surveillance, d'alertes et de journalisation; piloter les processus de réponse aux incidents et de post-mortems; définir et suivre les SLO/SLI.
- Automatisation et opérations de plateforme — Automatiser les pipelines de déploiement, le provisionnement d'infrastructure et les runbooks opérationnels pour réduire les tâches manuelles et améliorer la résilience des systèmes.
- Sur certains mandats, leadership technique — Piloter le volet fiabilité et infrastructure, guider les équipes clients sur les pratiques SRE et contribuer aux décisions architecturales.
- Soutien à l'équipe — Partager votre expertise en fiabilité et opérations, contribuer aux outils et à la documentation internes, mentorer des collègues et participer à la communauté Toboggan.
À propos de vous
Nous recherchons des personnes ayant un solide historique en infrastructure infonuagique, DevOps et ingénierie de la fiabilité, qui abordent tout ce qu'elles construisent avec un souci de la sécurité. La majorité de nos clients utilisent AWS, Terraform, GitHub Actions ou des outils CI/CD similaires. Vous devez être à l'aise pour travailler à la frontière entre la fiabilité, la sécurité et les opérations TI.
Quand nous parlons de fiabilité des systèmes, nous cherchons quelqu'un qui traite la fiabilité comme une fonctionnalité à part entière, et non comme une réflexion après coup — quelqu'un qui écrit du code pour éliminer les tâches répétitives, pense en termes de systèmes et construit des infrastructures aussi sécurisées qu'observables.
Nous vous encourageons à postuler si vous :
- Avez 5 ans ou plus d'expérience en infrastructure, DevOps ou ingénierie de la fiabilité des sites;
- Avez une expérience pratique avec des infrastructures AWS ou Azure et des outils d'infrastructure-as-code (Terraform, CloudFormation ou équivalents);
- Avez une solide expérience avec les pipelines CI/CD (GitHub Actions, ArgoCD, Jenkins ou équivalents) et l'automatisation des déploiements;
- Avez de l'expérience avec des outils d'observabilité (Prometheus, Grafana, Datadog, CloudWatch ou équivalents) et les processus de gestion des incidents;
- Êtes familier·ère avec les bonnes pratiques de sécurité pour l'infrastructure infonuagique, incluant la sécurité réseau, l'IAM, le chiffrement et la gestion des vulnérabilités;
- Possédez d'excellentes compétences en communication et êtes capable d'expliquer des concepts d'infrastructure et de fiabilité à des parties prenantes variées;
- Êtes adaptable, autonome et à l'aise dans des environnements clients dynamiques;
- Savez expliquer les compromis entre fiabilité et sécurité et les relier aux besoins d'affaires.
Atouts supplémentaires
- Expérience dans des rôles orientés client (consultation, ingénierie d'implantation, services-conseils);
- Expérience dans le secteur de la santé ou d'autres industries fortement réglementées;
- Expérience en développement logiciel au-delà du simple scripting (développement de fonctionnalités, d'API ou d'applications);
- Expérience avec l'orchestration de conteneurs (Kubernetes, ECS) et les outils de sécurité cloud-native;
- Expérience en automatisation d'infrastructure à l'aide de scripts (Python, Bash) ou d'outils de workflow;
- Détention de certifications pertinentes (AWS DevOps Professional, AWS Solutions Architect, CKA ou équivalentes).
Toutes nos offres d'emploi décrivent un peu une licorne. Si vous êtes plutôt un « narval », postulez quand même ! Il n'est pas nécessaire de répondre à toutes les exigences, ni aux critères bonus. L'expérience et les compétences sont importantes, mais le potentiel de croissance et l'attitude le sont tout autant. Nous sommes généralement flexibles quant aux niveaux ou pouvons vous orienter vers une offre plus appropriée lorsqu'elle sera ouverte.
Ce que nous offrons
Nous sommes une entreprise en télétravail d'abord, avec un espace de bureau à Montréal. Nous privilégions l'embauche au Québec, mais sommes ouverts aux candidatures partout au Canada dans les fuseaux horaires EST ±2.
Toboggan Labs valorise la diversité des personnes qu'elle embauche et qu'elle sert. Pour nous, la diversité signifie créer un milieu de travail où les différences de chacun·e sont reconnues, appréciées, respectées et prises en compte afin de développer et de mettre à profit les talents et les forces de chaque personne.
En plus :
- Budget pour le bureau à domicile et la technologie;
- Budget annuel de développement professionnel;
- REER avec contribution de l'employeur après 1 an;
- Dès le premier jour :
- Assurance santé et dentaire payée à 100 % par l'employeur, incluant un montant annuel pour les soins complémentaires (acupuncture, ostéopathie, massothérapie, naturopathie, psychologie, etc.);
- Assurance vie et assurance invalidité de courte et de longue durée;
- Complément de congé parental (8 semaines), disponible pour les employés ayant plus d'un an d'ancienneté, quel que soit le chemin vers la parentalité.
Site Reliability Engineer (SRE)
About Us
Toboggan Labs is a boutique consultancy building at the intersection of AI and healthcare. We solve challenging human problems by applying cutting-edge technology and domain understanding.
About the role
We're seeking a Site Reliability Engineer (SRE) to help our clients build reliable, observable, and secure production systems.
In this role, you will work closely with client engineering and operations teams to improve system reliability, reduce toil, and build the operational foundations — deployment pipelines, monitoring, incident management, and infrastructure — that keep production systems running smoothly.
Note that while we specialize in healthcare and regulated industries, not all our projects are in these fields, so you may work across different domains from time to time.
Your work will consist of:
- Infrastructure and security engineering — Design and maintain resilient, secure cloud infrastructure using infrastructure-as-code; implement security controls, hardening standards, and compliance guardrails across client environments.
- Observability and reliability — Design and implement monitoring, alerting, and logging systems; lead incident response and post-mortem processes; define and track SLOs and SLIs.
- Automation and platform operations — Automate deployment pipelines, infrastructure provisioning, and operational runbooks to reduce toil and improve system resilience.
- On some projects, technical leadership — Own the reliability and infrastructure workstream, guide client engineering teams on SRE practices, and contribute to architectural decisions.
- Supporting the team — Share SRE expertise with colleagues, contribute to internal tooling and documentation, mentor team members, and participate in the broader Toboggan community.
About you
We are seeking individuals with a strong background in cloud infrastructure, DevOps, and reliability engineering, who bring security mindedness to everything they build. Most of our clients run AWS, Terraform, GitHub Actions or similar CI/CD tooling. You should be comfortable working at the intersection of reliability, security, and IT operations.
When we say SRE we mean someone who treats reliability as a feature, not an afterthought — someone who writes code to eliminate toil, thinks in systems, and builds infrastructure that is as secure as it is observable.
We want you to apply if you:
- Have 5+ years of experience in infrastructure, DevOps, or site reliability engineering;
- Have hands-on experience with AWS or Azure infrastructure and infrastructure-as-code tools (Terraform, CloudFormation, or equivalents);
- Have strong experience with CI/CD pipelines (GitHub Actions, ArgoCD, Jenkins, or equivalents) and deployment automation;
- Have experience with observability tools (Prometheus, Grafana, Datadog, CloudWatch, or equivalents) and incident management processes;
- Are familiar with security best practices for cloud infrastructure, including network security, IAM, encryption, and vulnerability management;
- Have excellent communication skills and can explain infrastructure and reliability concepts to varied stakeholders;
- Are adaptable, self-directed, and comfortable in dynamic client environments;
- Can explain reliability and security trade-offs and connect them to business needs.
Bonus points if you:
- Have experience in client-facing roles such as consulting, implementation engineering, or advisory work.
- Have worked in healthcare or other heavily regulated industries.
- Have software development experience beyond scripting — experience building features, APIs, or applications.
- Have experience with container orchestration (Kubernetes, ECS) and cloud-native tooling.
- Have built infrastructure automation using scripting (Python, Bash) or workflow tools.
- Hold relevant certifications (AWS DevOps Professional, AWS Solutions Architect, CKA, or similar).
All of our job postings describe a bit of a unicorn. If you're kind of a "narwhal," please apply anyway. You don't need to meet all the requirements, let alone the bonus criteria. While experience and skill sets are valuable, growth potential and attitudes are equally important. We are usually flexible on levels or can advise you when a more relevant posting opens.
What we offer
We are a remote-first company with office space in Montreal. We prefer to hire in Quebec, but we are open to candidates anywhere in the EST±2 time zone in Canada.
Toboggan Labs values the diversity of the people it hires and serves. Diversity, for us, means fostering a workplace in which a person's differences are recognized, appreciated, respected and responded to in ways that fully develop and utilize their talents and strengths.
In addition:
- Home office/technology budget;
- Yearly professional development budget;
- Company matching RRSP after 1 year;
- From Day 1:
- 100% employer-paid health & dental insurance including a yearly bank of coverage for complementary medicine (Acupuncture, osteopathy, massage therapy, naturopathy, psychology, etc.);
- Life, long & short-term disability insurance;
- Parental leave top-up (8 weeks), available to employees with 1+ year of tenure, regardless of path to parenthood.
Mettre en place une alerte emploi
Vous souhaitez développer votre carrière chez TobogganLabs ? Demandez à recevoir directement dans votre boîte de messagerie les offres d’emploi à venir.
Postuler à ce poste
*
indique un champ obligatoire