채용 정보로 돌아가기

LLM Inference Engineer

Gangseo-gu, Seoul, South Korea

팀 소개

Platform&Infra Team은 AI모델의 개발부터 서비스 운영을 위한 배포에 이르기까지 AI모델의 수명 주기를 최적화하고, 효율적으로 관리하기 위한 MLOps 파이프라인을 구축합니다. 또한 AI서비스의 안정적인 운영 지원을 위한 보안성 강화, 인프라 관리 및 자원 최적화 업무를 수행합니다.
팀 내에서 LLM Inference Engineer는 대규모 언어 모델(LLM)의 추론 성능을 최적화하고, 다양한 프레임워크에서 EXAONE모델을 안정적으로 서빙할 수 있는 엔진을 개발합니다. 또한, 오픈소스 프로젝트의 공식 채널을 통해 요청되는 기능 개선, 버그 수정, 성능 최적화 등의 요건에 대응하며, 다양한 환경에서 LLM이 안정적으로 동작할 수 있도록 기여합니다.

수행 업무

  • LLM 추론 성능 최적화: 대규모 언어 모델(LLM)의 추론 성능을 극대화하기 위한 개선 방안을 도출하고 설계에 참여합니다.
  • 서빙 엔진 개발: 다양한 프레임워크 상에서 엑사원 모델을 안정적으로 서빙할 수 있는 엔진을 개발합니다.
  • 오픈소스 기여: 오픈소스 LLM 서빙 프레임워크(vLLM, SGLang, Ollama 등)의 공식 채널을 통해 요청되는 기능 개선, 버그 수정, 성능 최적화 등의 요건에 대응하고 기여합니다.
  • 다양한 환경 지원: chat_template을 활용하여 다양한 언어와 환경에서 LLM이 올바르게 동작할 수 있도록 적용하고 개선합니다.
  • 모델 추론 가속화: NPU/GPU 기반의 Serving 전략을 설계하고, 모델 추론 가속화 알고리즘을 연구 및 구현합니다.


지원자격

  • 모델 추론 가속화 및 Inference Back-end 구현 경험: 모델 추론 성능을 높이기 위한 알고리즘 연구 및 구현 경험
  • NPU/GPU 기반 Serving 전략 및 개발 경험: NPU/GPU를 활용한 모델 서빙 전략 설계 및 구현 경험
  • 오픈소스 LLM Serving Framework 기여 경험: vLLM, SGLang, Ollama 등 오픈소스 LLM 서빙 프레임워크에 기여한 경험(contribution)


*우대사항 

  • 머신러닝 모델 수명 주기에 대한 이해: 모델 개발, 학습, 서빙, 배포 등 각 단계에 대한 경험과 이해
  • AI 및 머신러닝 기술에 대한 깊은 이해: Python, C++, TensorFlow, PyTorch, ONNX, CUDA, NPU 등 AI 및 머신러닝 관련 기술에 대한 숙련도
  • Transformer 기반 모델 및 LLM에 대한 이해: Attention 메커니즘, 대규모 언어 모델(LLM)의 구조와 동작 원리에 대한 깊은 이해
  • LLM 디코딩 전략 및 추론 기술에 대한 이해: Greedy Search, Beam Search, Top-k Sampling 등 디코딩 전략에 대한 이해
  • chat_template 활용 경험: 다양한 환경에서 LLM이 올바르게 동작할 수 있도록 chat_template을 설계하고 적용한 경험


전형절차

  • 서류심사 → 코딩테스트 → 1차  PT직무 인터뷰(온라인) → 2차  직무 인터뷰(온라인) → LG AI Fit Check(온라인) → 최종 합격

* 전형 절차는 변경될 수 있습니다. 서류 합격 시 전형 절차에 대해 별도로 안내 드립니다.

현재 LG AI연구원은 병역지정업체가 아니므로, 전문연구요원 채용 및 전직이 불가함을 알려드립니다.
지원시 문제가 있을 경우 careers@lgresearch.ai 로 문의 부탁드립니다.

채용 공고 알림 생성

LG AI Research 에서 경력을 쌓고 싶으신가요? 향후 채용 정보를 이메일로 바로 받아보세요.

이 직무 지원하기

*

필수 입력 필드를 나타냅니다

전화
이력서/CV*

허용되는 파일 형식: pdf, doc, docx, txt, rtf

커버 레터

허용되는 파일 형식: pdf, doc, docx, txt, rtf


선택...