스켈터랩스의 sLLM, 'BELLA LLM'이 제시하는 실질적인 비즈니스 가치와 우수 사례를 소개합니다.
스켈터랩스는 최근 경찰청의 'AI 음성인식 활용 조서 작성 시스템'에 소형 언어모델(sLLM) BELLA LLM의 요약 기능을 도입했습니다. 방대한 조서 데이터를 신속히 처리하면서도, 제한된 자원과 높은 보안 요구를 충족시키는 것을 목표로 했습니다.
이번 글에서는 스켈터랩스의 sLLM, ‘BELLA LLM’의 기술적 특징과 경찰청 프로젝트에서 얻은 인사이트를 다뤄보겠습니다.
📖 목차
• 경찰청 사업 개요
• BELLA LLM의 기술적 특징
• BELLA LLM 파이프라인 설계
• BELLA LLM 학습 방식
• BELLA LLM의 데이터 보안 알고리즘
• BELLA LLM 특장점 한 눈에 보기
💬 경찰청 사업 개요
경찰청 여성청소년과는 전국 시도 경찰청과 주요 경찰서, 해바라기센터 등 239개소에서 운영 중인 ‘AI 음성인식 활용 조서 작성 시스템’을 고도화하고 있습니다.
‘AI 음성인식 활용 조서 작성 시스템’은 성폭력 사건 피해자의 진술 작성, 범죄 사실 조사 등 방대한 텍스트 데이터를 다루는 업무를 지원하며, 효율성과 정확성을 개선하기 위해 스켈터랩스의 BELLA LLM을 도입했습니다.
💬 BELLA LLM의 기술적 핵심: LoRA와 양자화
BELLA LLM은 LoRA(Low-Rank Adaptation)와 양자화(Quantization) 기술을 활용해 모델을 경량화 하여 제한된 서버 환경에서도 최적의 성능을 발휘하도록 설계되었습니다.
→ LoRA: 필요한 부분만 효율적으로 학습
LoRA는 대규모 언어모델의 모든 파라미터(모델이 학습 결과 습득한 지식을 표현한 정보값)를 업데이트하지 않고, 꼭 필요한 부분만 학습하도록 설계된 기술입니다. 이를 통해 모델이 학습하거나 추론에 필요한 메모리와 자원을 크게 줄일 수 있습니다.
일반적으로 LLM의 모든 파라미터를 업데이트하면 메모리와 연산량이 폭발적으로 증가하지만, LoRA는 필요한 부분만 학습하여 리소스를 절약합니다. 다시 말해 전체 파라미터를 업데이트하는 대신, 일부 파라미터만 추가 학습하는 방식으로, 마치 거대한 건물 전체를 리모델링하는 대신 필요한 공간에만 인테리어 시공을 하는 것과 비슷합니다. 실제로, GPT-3 175B 모델이 LoRA를 적용해 VRAM 사용량을 1.2TB에서 350GB로 감소시킨 사례가 있습니다.
BELLA LLM은 LoRA를 활용해 경찰청 조서 데이터에 특화된 학습을 진행했으며, 제한된 리소스 환경에서도 고성능을 유지할 수 있었습니다.
→ 양자화: 모델 경량화의 핵심
양자화는 모델의 가중치를 낮은 비트 정밀도로 변환해 모델 크기를 줄이고 추론 속도를 향상시키는 기술입니다.
대규모 언어 모델은 수십억 개의 파라미터를 가지고 있어 일반 하드웨어에서 실행하기 어렵습니다. 이러한 문제를 해결하기 위해 양자화 기술이 주목받고 있는데요. 마치 고화질 영상을 약간의 품질 손실만으로 효율적으로 압축하는 것과 유사합니다. BELLA LLM은 양자화를 통해 모델 크기를 줄이면서도, 특정 태스크에서 처리 속도를 향상시켰습니다.
스켈터랩스는 제한된 환경에서 최고의 성능을 뽑아내기 위해 이러한 최신 기술들을 적극 활용했습니다. LoRA와 양자화의 결합을 통해 모델의 크기는 작게 유지하면서도 특정 태스크에 대한 성능은 극대화했죠.
💬 BELLA LLM의 파이프라인 설계: 단계적 문제 해결
BELLA LLM은 긴 진술 내용을 효율적으로 처리하기 위해 단계적 파이프라인 설계를 도입했습니다.
예를 들어, 30분 분량의 진술을 분석할 때 아래와 같은 방식으로 작업이 진행됩니다:
1. 주요 사건 추출: 진술 내용에서 핵심 정보를 선별합니다.
2. 세부 정황 분석: 사건의 시간, 장소, 행위 등 주요 구성 요소를 식별합니다.
3. 전체 요약 생성: 각 단계의 결과를 종합해 최종 요약문을 작성합니다.
이로써 "2025년 1월 32일 오후 10시, 피해자가 용의자와 충돌이 있었다"는 진술에서 시간, 장소, 그리고 행위를 추출하여 "2025년 1월 32일 오후 10시, 피해자와 용의자의 편의점 충돌 사건 발생"이라는 요약문을 생성합니다.
위와 같은 접근 방식은 인간 수사관의 사고 과정을 모방한 설계로, 제한된 컴퓨팅 자원에서도 높은 효율성과 정확성을 제공하는데요. Chain-of-Thought(생각의 사슬) 방식과 유사하게 복잡한 태스크를 단계별로 나눠 처리하여 성능을 극대화하는 방식입니다.
BELLA LLM의 이러한 단계적 설계는 조서 작성 속도를 단축하고, 데이터 처리의 정확도를 향상시키는 성과를 보여줍니다. 이를 통해 방대한 데이터를 신속히 요약하여 수사관들이 더 중요한 의사결정에 집중할 수 있도록 지원한 것이죠.
💬 BELLA LLM의 특화된 학습: 템플릿 기반 접근
BELLA LLM의 강점 중 하나는 특정 업무에 특화된 템플릿 기반 학습입니다.
템플릿 기반 학습은 데이터를 특정 형식으로 구조화해 모델이 작업의 맥락과 출력 형식을 더 잘 이해하도록 돕는 방법입니다. 말 그대로 AI에게 조서 작성의 '교과서'를 만들어주는 것 입니다. AI가 체계적인 형식을 통해 업무를 학습하게 한 것이죠.
BELLA LLM은 경찰청 조서 데이터를 분석해 '브리핑, 범죄행위 나열, 결론' 형식의 템플릿을 설계하고 이를 모든 학습 데이터에 적용했습니다:
BELLA LLM은 템플릿화된 데이터를 통해 모델은 조서의 각 부분이 어떤 의미를 가지는지 정확히 이해하게 되었으며, 작업의 요구사항을 더 잘 이해하도록 학습될 수 있었습니다.
더불어 경찰청 특유의 정확하고 체계적인 문서 형식을 완벽하게 유지할 수 있게 되었고, 처음 보는 사례도 능숙하게 다루며 10문장 이내로 간결하면서도 핵심을 놓치지 않는 조서를 작성할 수 있게 되었습니다.
💬 BELLA LLM의 데이터 보안과 품질
민감한 수사 데이터를 다루는 만큼, BELLA LLM은 데이터 처리 과정에서 보안을 최우선으로 고려했습니다.
스켈터랩스는 동국대학교 연구실과 협력하여 경찰청의 자문을 받은 모사 데이터를 생성했습니다.
모사 데이터란 실제 데이터를 모방하여 생성된 가상의 데이터로, 민감하거나 보호되어야 할 실제 데이터를 대체하기 위해 사용됩니다. 다시 말해, 개인정보를 보호하면서도 실제 데이터와 유사한 특성을 반영해 AI 모델 학습에 적합한 환경을 제공합니다.
BELLA LLM을 위한 모사 데이터 생성 시, 전문가의 분석을 통해 범죄 사실의 정확성과 맥락 유지에 중점을 두었습니다. 또한 모든 개인정보는 비식별화되었으며, 데이터 접근 권한은 필수 인원으로 제한되었습니다.
이러한 BELLA LLM의 보안 및 데이터 품질 관리 방식은 향후 의료 기록이나 법률 문서와 같은 민감한 정보를 다루는 다양한 산업에서도 유용하게 적용될 수 있습니다.
💬 BELLA LLM 특장점 한 눈에 보기
1. 소형 언어모델(sLLM)의 효율성
BELLA LLM은 제한된 컴퓨팅 리소스에서도 뛰어난 성능을 발휘하도록 설계된 소형 언어모델입니다. 이는 기업이나 공공기관처럼 예산과 자원이 한정된 환경에서 실질적인 가치를 제공합니다.
2. LoRA와 양자화 등 적용
최신 기술인 LoRA(Low-Rank Adaptation)와 양자화(Quantization)를 결합해 모델 크기를 줄이면서도 성능을 극대화, 고성능 GPU 없이도 효과적인 운영이 가능합니다.
3. 템플릿 기반 학습의 맞춤화
특정 업무에 특화된 템플릿 기반 학습을 통해 일관된 출력물을 생성하며, 처음 보는 데이터도 능숙히 처리할 수 있습니다.
4. 데이터 보안과 품질의 균형
민감 데이터를 비식별화하고 모사 데이터를 활용해 보안성과 품질을 동시에 확보했습니다.
5. 기업에 특화된 최적화
BELLA LLM은 기업 또는 공공기관의 고유한 요구를 충족하며, 의료, 법률 등 다양한 산업으로 확장 가능성을 제시합니다.
💬 마치며
BELLA LLM은 제한된 컴퓨팅 리소스에서도 뛰어난 성능을 발휘하는 소형 언어모델의 가능성을 보여주었습니다.
특히 LoRA와 양자화 기술의 결합, 업무에 특화된 템플릿 기반 학습, 그리고 철저한 데이터 보안 관리는 기업과 공공기관이 AI를 실질적으로 활용하는 데 있어 중요한 참고 사례가 될 것입니다.
AI의 실용화가 트렌드로 자리 잡은 2025년, 스켈터랩스의 BELLA LLM이 제시하는 실질적인 비즈니스 가치를 확인해보세요.
Reference
스켈터랩스 소병훈 님