지난 4월, 스켈터랩스가 엔비디아(NVIDIA)에서 개최한 프라이빗 해커톤에 참여하였습니다.
이번 해커톤은 엔비디아의 최신 기술인 TensorRT-LLM을 효과적으로 활용하고, 기업 도입을 촉진을 목적으로 마련되었는데요.
스켈터랩스는 두 가지 주요 목표를 가지고 이번 엔비디아 해커톤에 참여하였습니다.
첫째, 기술적으로 엔비디아와의 직접적인 협업을 통해 실시간으로 문제를 해결하고 피드백을 받을 수 있는 기회를 가지기 위함이었습니다. 둘째, 자체 개발 중인 sLLM 모델의 추론 속도와 효율성을 극대화할 수 있는 방안을 모색하고자 했습니다.
이번 블로그 글에서는 엔비디아 해커톤에 참여한 스켈터랩스 NLP 팀의 생생한 후기를 인터뷰 방식으로 전달합니다.
💡 먼저, 엔비디아-HPE 해커톤에 대해 생소한 분들이 많을 것 같은데, 간단히 소개를 부탁드립니다.
엔비디아와 Hewlett Packard Enterprise (HPE)이 협력하여 주최한 이번 해커톤은 특정 기업들을 대상으로 private하게 진행되었습니다.
이번 'TensorRT - LLM Enterprise' 해커톤의 핵심 목적은 엔비디아의 새로운 제품인 'TensorRT-LLM'을 더욱 효과적으로 사용할 수 있는 방법을 찾고, 이를 널리 홍보하여 더 많은 기업들이 도입하도록 장려하는 것이었는데요.
TensorRT-LLM은 처음 출시된 이래 지속적으로 새로운 LLM 추론 속도 가속화 기법을 반영하면서 발전해오고 있는데요, 다른 LLM 추론 라이브러리에 비해 활용 편의성이나 최선의 사용 방식 사례 발굴을 위한 노력이 좀더 필요하다는 인식이 있는 편입니다.
이에 이번 해커톤은 자체적으로 LLM 추론 서비스를 운용해야 하는 기업 고객 사용자가 자체 LLM 모델의 특성에 맞게 좀더 최적화된 형태로 TensorRT-LLM 제품을 효과적으로 활용할 수 있도록 돕기 위해 마련되었습니다.
💡 스켈터랩스가 이번 엔비디아 해커톤에 참여하게 된 목적은 무엇인가요?
스켈터랩스가 이번 엔비디아 해커톤에 참여하게된 목적은 두 가지가 있었습니다.
첫째, 기술적 협업을 통해 실시간으로 문제를 해결하고 피드백을 받을 수 있는 직접적인 기회를 확보하기 위함입니다. 이를 통해, 스켈터랩스는 엔비디아의 전문 지식과 노하우를 직접 체험하고, 최신 기술 및 연구 개발 동향을 이해할 수 있었어요. 이런 직접적인 교류는 자사의 제품과 서비스에 엔비디아 기술을 효과적으로 적용하는 방법을 탐색하는 데 큰 도움이 되었습니다.
둘째, 스켈터랩스는 자체 개발 중인 sLLM 모델의 추론 속도와 효율성을 극대화할 수 있는 방안을 모색하고자 하였습니다. 이 목표는 추론 속도의 향상이 필수적인 sLLM의 제품화를 지원하기 위해 세워졌는데요. 스켈터랩스의 스피치 팀이 엔비디아의 TensorRT를 활용하여 STT 모델의 추론 속도를 향상시켰던 사례를 바탕으로, 엔비디아의 TensorRT-LLM 기술을 적용하였을 때 자체 개발 중인 sLLM 모델에서도 추론 속도 향상 효과를 가져올 수 있을지 확인해보고자 하였습니다.
▲ NVIDIA-HPE 해커톤에서 스켈터랩스가 발표하는 현장
💡 해커톤의 전반적인 분위기가 어땠나요?
전반적인 분위기는 매우 협업적이고 생산적이었습니다!
스켈터랩스는 Mob 프로그래밍 방식을 활용해 모든 팀원이 동시에 하나의 화면을 보고 협력했는데요. 한 사람이 타이핑을 담당하고 나머지 팀원들이 아이디어를 제공하며 실시간으로 피드백을 주고받는 식이었습니다. 문제를 빠르게 해결하고 효율적으로 작업을 진행하는 데 효과적인 방법이었어요.
또한, 예정된 엔비디아 측 엔지니어가 팀에 합류하지 못한 상황에서도, 스켈터랩스는 현장에서 발생하는 상황을 메신저를 통해 실시간으로 전달하며 원활한 진행을 도모했습니다.
특히, 성과 발표 중에는 엔비디아 엔지니어들로부터 직접적인 버그 확인 및 피드백을 받는 상황이 발생하는 등 스켈터랩스의 효과적인 문제 해결 능력이 강조되는 뿌듯한 순간들도 있었죠.
💡 본격적으로 스켈터랩스가 엔비디아 해커톤에서 얻은 인사이트들에 대해 이야기 나누어보려고 합니다. 위에서 잠깐 언급하셨던 TensorRT-LLM이 무엇인가요?
TensorRT-LLM은 엔비디아가 제공하는 라이브러리로, LLM을 TensorRT 엔진으로 변환하여 AI 모델의 추론 속도를 향상시키기 위해 설계되었습니다. TensorRT는 이미 여러 AI 모델에서 성능 최적화를 위해 널리 사용되는 소프트웨어 라이브러리로, AI 네트워크를 최적화 하는 기술은 아래와 같습니다:
💡 해커톤을 본격적으로 시작하기 전, 기술적인 측면에서 많은 것들을 목표로 세우셨어요. 간략히 설명 부탁드립니다.
이번 엔비디아 해커톤에서 스켈터랩스가 세운 목표들은 여러가지가 있지만, 그 중에서 꼽아보자면:
💡 엔비디아의 TensorRT-LLM 기능을 저희 제품인 BELLA LLM에 적용해 보면서 어떤 새로운 점을 배울 수 있었나요? 우리 제품에 TensorRT-LLM를 활용할 수 있을까요?
TensorRT-LLM을 BELLA LLM에 적용해 보면서 스켈터랩스가 배울 수 있었던 주요 사항은 다음과 같습니다:
다양한 기술을 비교 분석한 결과, TensorRT-LLM이 가장 빠른 성능을 보였습니다. 동시에 여러 사용자의 요청을 처리하거나, 요청에 대한 응답 속도를 향상시키는 등 모든 면에서 우수한 결과를 보였기에 활용할 수 있을 것 같습니다.
💡 슬슬 인터뷰를 마무리하려고 하는데요. 인터뷰를 끝까지 읽으신 분들은 엔비디아 해커톤에서 인상 깊은 성과를 낸 주역들을 많이 궁금해할 것 같아요. 스켈터랩스에서는 어떤 일을 하고 있는지, 맡으신 업무를 가장 기억에 남았던 업무와 함께 소개해주실 수 있으실까요?
▲ (우측 하단) 멘토님과 함께
이렇듯 스켈터랩스는 혁신적인 기술을 활용해 새로운 도전을 지속적으로 추구하는 개발 문화를 장려합니다.
엔비디아 해커톤 참여 역시 바로 그러한 문화의 연장선상에서 이루어졌으며, 기술적 한계를 넘어서 새로운 가능성을 탐색할 수 있는 뜻깊은 기회였는데요. 이번 경험을 통해 NLP팀은 확실히 전문성을 강화하고 시야를 넓히는 계기가 되었다고 합니다 :)
기술은 끊임없이 진화하며, 스켈터랩스 엔지니어들의 학습 방식도 마찬가지여야 합니다.
때문에 앞으로도 스켈터랩스는 우리의 아이디어와 기술을 실제 문제에 적용해 볼 수 있는 기회의 장에 끊임없이 참여하며 성장을 지속하고, B2B향 대화형 AI 서비스를 제공할 수 있도록 전력투구 할 것 입니다.