
[AI Service Div.] Deep Learning Engineer - ML Ops (Infra) (5년 이상)
우리 팀(프로젝트)을 소개합니다.
[AI Service 본부 비전]
크래프톤 AI Service 본부는 사내외 여러 분야와 협업하여 다양한 문제에 대한 AI 솔루션을 제공하며, 자체 딥러닝 연구를 통해 우리만의 서비스를 개발합니다. 그 방향성은 크게 네 가지입니다.
- Production Cost Down : 게임 제작에 수반되는 많은 공정들에 딥러닝 기술을 투입하여 제작 과정을 단축하고, 게임 제작자들의 업무 경험을 혁신합니다.
- New Way to Create : 생성형 AI를 포함한 다양한 딥러닝 기술들로 게임 제작 전반에 걸쳐 창작자들의 크리에이티브를 확장합니다.
- Virtual Friends : 딥러닝 기술 기반 Virtual Friend를 개발하고 이를 게임 내/외 다양한 어플리케이션으로 적용합니다.
- Unique, Endless Gameplay : 딥러닝 기술을 통하여 유저들에게 매번 다른 경험을 선사하여 한계 없이 즐길 수 있는 게임 컨텐츠를 제공합니다.
[Culture Fit]
AI Service 본부 인원들은 다양한 프로젝트를 통하여 여러 분야의 팀원들과 교류하고 협업하며 다양한 문제에 창의적인 아이디어를 제시할 수 있습니다. 나이 및 직급에 관계없이 자유롭게 의견을 개진하는 분위기가 장려됩니다.
다양한 문화적 배경을 가진 인원들이 모여 팀을 이루고 있으며 활발한 소통을 위해 통·번역 등 언어적 장벽을 해소할 수 있는 방법들을 적극 지원하고 있습니다.
[팀 소개]
KRAFTON MLSys & Ops 팀은 본부 내 모델 개발을 위한 GPU 인프라와 ML 플랫폼을 설계·구축·운영합니다.
또한 게임 서비스에 투입되는 ML 모델의 서빙 및 모델 최적화와, 필요 시 온디바이스(엣지) 배포까지 지원합니다.
우리 팀과 함께할 미션을 소개합니다.
이번 채용 포지션은 1,000억 원 규모의 대규모 인프라 투자가 집행되는 차세대 GPU 플랫폼의 기술적 검증과 운영 고도화를 담당합니다.
담당 업무 (Infra/Platform 중심)
- 1,000억 규모 B-Series 기반 차세대 GPU 플랫폼 고도화 참여
- 차세대 GPU 아키텍처(B-Series) 도입에 따른 클러스터 최적화 과정 참여
- 성능 이슈 발생 시, Low-level(커널, 드라이버, 네트워크) 관점의 원인 파악 및 개선
- GPU Operator, DCGM, MIG/MPS 등을 활용한 GPU 리소스 할당 최적화 및 운영
- Kubernetes 기반 ML/GPU 클러스터 운영 및 보안 관리
- 대규모 노드 스케줄링, 워크로드 격리 및 멀티테넌시 리소스 효율화
- 정책 기반 보안 관리(OPA/Kyverno) 및 이미지 서명(Cosign) 등 런타임 보호 체계 운영
- 클러스터 라이프사이클(업그레이드/증설) 관리 및 안정성 확보
- ML 플랫폼 및 모델 서빙 인프라 운영
- 실험/학습 워크스페이스, 파이프라인(Argo Workflows), 아티팩트 저장소(Registry) 운영
- KServe/Triton/Ray Serve 기반 서빙 운영 및 SLO(지연/처리량/가용성) 관리
- 배포 자동화(Canary/Rollout) 구현을 통한 안정적인 서비스 서빙 지원
- 인프라 표준화, 자동화 및 관측성(Observability) 확보
- IaC/GitOps(Terraform, Argo CD) 기반의 재현 가능한 인프라 관리 및 변경 통제
- 로그/메트릭/트레이싱(OTel) 기반의 통합 관측성 체계 운영 및 장애 대응
- 고대역폭 네트워크(IB/RoCE) 및 스토리지(Ceph/MinIO)의 구성 검증 및 성능 최적화 참여
이런 경험을 가진 분과 함께 성장하고 싶습니다! (필수요건)
완벽한 스펙보다는, 확실한 깊이(Depth)를 가진 분을 찾습니다. AI/ML 인프라 경험이 다소 부족하더라도, 시스템 엔지니어링 역량이 탄탄하다면 나머지 퍼즐은 크래프톤에서 함께 맞출 수 있습니다.
- 프로덕션 Kubernetes 운영 전문성
- 멀티 노드/멀티 클러스터 환경에서의 실전 운영 및 장애 대응 경험
- K8s 아키텍처 및 리소스 스케줄링에 대한 깊은 이해
- AI/ML 인프라 및 GPU 환경에 대한 기초 이해
- AI/ML 워크로드(학습/추론)의 특성과 일반 웹 서비스의 차이를 이해하시는 분
- GPU 리소스 관리의 기본 개념(Driver, CUDA 등)을 알고 계신 분
- 관측성(Observability) 및 운영 자동화 경험
- Prometheus, Grafana, ELK 스택 등을 활용한 모니터링 환경 구축
- IaC (Terraform 등) 및 GitOps 기반의 효율적 운영 지향
- 문서화 및 협업 역량
- 운영 표준을 정의하고 기술적인 의사소통이 원활하신 분
- 해외 출장에 결격사유가 없는 분
이런 경험들이 있다면 저희가 찾는 그 분입니다! (우대요건)
필수는 아니지만, 아래 경험 중 하나라도 깊이 있게 파고든 경험이 있다면 팀에 큰 임팩트를 줄 수 있습니다.
- GPU 워크로드 심화 운영 경험
- NVIDIA GPU Operator, DCGM, MIG/MPS 등을 활용한 실무 운영 경험
- 대규모 GPU 클러스터 모니터링 및 성능 최적화 경험
- Linux 시스템 및 리소스 관리 심화 역량
- OS 커널 레벨(cgroups, NUMA, I/O)과 컨테이너 런타임에 대한 이해
- 시스템 병목 현상을 분석하고 해결할 수 있는 트러블슈팅 능력
- 클러스터/플랫폼 아키텍처 주도 경험
- 대규모 확장, 마이그레이션, 멀티테넌시 격리 환경 구축
- 모델 서빙 및 MLOps 파이프라인 경험
- KServe, Triton, Ray Serve 등을 활용한 서빙 인프라 운영
- Kubeflow, Argo Workflows 등을 활용한 파이프라인 오케스트레이션
- 고성능 네트워크 및 스토리지 최적화
- InfiniBand/RoCE 네트워크 및 Ceph/MinIO 등 분산 스토리지 운영
- 오픈소스 기여 또는 기술 공유 활동
크래프톤의 도전에 함께 하기 위해 아래의 전형 과정이 필요합니다.
- 서류 전형> 사전 인터뷰 (Phone Interview) > *직무 테스트 (Pre-Test) > 직무 면접 (Technical Fit Interview) > 종합 면접 (Culture Fit Interview) > 학/경력, 평판조회 > 처우협의 > 최종 합격 및 입사
*해당 전형은 포지션에 따라 변동될 수 있습니다. - 각 전형의 세부 진행 방식은 개별 안내드립니다.
- 필요 시 직무 테스트 또는 면접 전형이 추가될 수 있으며, 이에 대한 상세 내용은 개별 안내드립니다.
- 전형 결과는 지원서에 기재된 이메일로 2주 이내 발송되며, 내부 일정에 따라 다소 지연될 경우 별도 안내드립니다.
- 본 공고는 상시채용으로 진행되며, 우수 인재 채용 시 조기 마감될 수 있습니다.
필요 서류를 확인해주세요!
- 입사지원서 (자유 양식), 성적증명서, 자기소개서, 경력기술서, 포트폴리오(필수)
- 신입일 경우 자기소개서를, 경력일 경우 경력기술서를 중심으로 기술해 주시기 바랍니다.
- 포트폴리오 첨부 시, 하단 안내 사항을 확인해 주시기 바랍니다.
근무지
- 역삼 센터필드
고용형태
- 정규직 (단, 후보자 처우 협의 결과에 따라 고용형태가 변경될 수 있음)
아래 안내 사항을 확인해주세요!
- 장애인 및 국가 유공자 등 취업 보호 대상자는 관계 법령에 따라 우대합니다.
- 지원서 내용 중 허위사실이 있는 경우에는 합격이 취소될 수 있습니다.
- 5개월의 수습기간을 적용합니다. 회사는 수습기간에 대한 평가 결과에 따라 본채용을 거부할 수 있으며, 수습기간 중이라도 중간평가 결과에 따라 수습기간을 조기 종료하고 본채용을 거부할 수 있습니다. 수습기간 내 고용형태 및 급여 조정은 없습니다.
- 채용 전형 중 궁금하신 사항은 크래프톤 채용 FAQ 내에서 확인하실 수 있습니다.
BE BOLD, LEARN AND WIN! 크래프톤의 성장과 도전의 스토리를 알아가고 싶다면?
- 크래프톤 제작 스튜디오
- 크래프톤 게임
- 크래프톤 비전 & 핵심가치
- 크래프톤 라이프 & 복리후생
- 크래프톤 공식 유튜브 채널
- 배틀그라운드 공식 유튜브 채널
- 크래프톤 인스타그램
- 크래프톤 블로그
Please check the information below
- Those eligible for an affirmative action program such as individuals with disabilities or with distinguished service to the state will be given hiring preference according to relevant laws
- False statements in your resume may lead to the withdrawal of the employment offer
- A 5-month probationary period applies. Based on the mid-term evaluation, employment may be terminated early or not continued. No changes in employment type or salary during this period.
- Please contact career@krafton.com for other inquiries
BE BOLD, LEARN AND WIN! Would you like to explore KRAFTON’s growth and adventure stories?
이 직무 지원하기
*
필수 입력 필드를 나타냅니다