AICC 도입을 고민하는 기업들에게 저비용 고효율 기술 선택은 중요한 과제입니다. 기업 상황에 맞는 효율적인 STT 솔루션 선택 방법을 상세히 알아봅니다.
오픈AI의 GPT-4o의 등장으로, 음성 AI 기술이 또 한 번 도약했습니다.
음성 AI 열풍과 함께 AICC(AI Contact Center) 분야가 차세대 기술 혁신의 핵심 동력으로 부상하며, 음성을 텍스트로 변환하는 STT(Speech-to-Text) 기술은 단연 AICC의 성장 엔진으로 주목받고 있습니다.
고객의 문의를 정확하게 텍스트로 변환하고 이를 AI가 분석해 텍스트로 변환하는 과정에서 STT의 성능이 전체 시스템의 효율성을 좌우하기 때문입니다.
이 분야에서 현재 가장 두드러지는 트렌드는 바로 '가성비'입니다. 대규모 투자 없이도 뛰어난 성능을 발휘하는 STT 모델들이 시장을 선도하고 있는 것이죠.
이러한 저비용 고효율 모델의 등장은 AICC 솔루션의 도입 장벽을 낮추며 AI 기술의 대중화를 가속화할 것으로 보입니다. 대기업뿐 아니라 중소기업, 스타트업들도 최신 AI 기술을 쉽게 활용할 수 있게 되면서, 기업의 AI 전환 또한 더욱 빨라질 전망입니다.
이번 블로그에서는 4가지 핵심 주제를 다루어 보겠습니다:
1. CPU와 GPU 기반 STT 기술의 비교
2. 주요 STT 모델들의 특징과 성능 분석
3. 저음질 환경에서의 STT
4. 저비용 고효율 STT 모델 도입 전략
CPU 기반 STT vs. GPU 기반 STT
AICC 도입을 고려하는 기업들은 어떤 STT를 선택해야 할까요?
CPU 기반 STT와 GPU 기반 STT 중 어떤 것을 선택할지는 기업의 규모, 예산, 기술 환경 등 다양한 요소를 따져봐야 합니다.
"우리 회사에 어떤 형식으로 STT 모델을 도입하는 게 좋을까?"라는 질문에 답하기 위해서는 CPU 기반 STT와 GPU 기반 STT의 특성을 제대로 이해해야 합니다. 두 가지 모델 모두 장단점이 있어, 어느 쪽이 무조건 좋다고 말하기는 어렵습니다. 결국 기업의 상황과 니즈에 따라 선택은 달라질 수밖에 없습니다.
우리 회사의 현재 IT 인프라는 어떤가?
예산은 얼마나 책정할 수 있는가?
실시간 대규모 처리가 필요한가, 아니면 소규모 처리로도 충분한가?
위와 같은 질문을 던지며 CPU 기반 STT와 GPU 기반 STT의 주요 특성을 비교한 표를 살펴보세요:
CPU 기반 STT 모델이 주목받는 이유
위 물음에 대한 해답은 '경제성'과 '접근성'에 있습니다.
GPU는 뛰어난 성능을 자랑하지만, 고가의 장비와 복잡한 설치 과정을 필요로 합니다. 이에 비해 CPU는 대부분의 컴퓨터에 이미 기본 사양으로 탑재되어 있어, 추가 비용 없이도 기존 장비를 활용해 AI 컨택센터를 구현할 수 있습니다. 이는 특히 중소기업과 스타트업에게는 큰 희소식입니다. 대규모 초기 투자가 필요 없기 때문에, 비용 부담을 최소화하면서도 AI 기술을 적극 활용할 수 있습니다.
CPU 기반 STT 모델의 또 다른 강점은 접근성(유연성)입니다. 기업 규모나 니즈에 따라 시스템을 탄력적으로 확장할 수 있죠. 소규모로 시작해 점진적으로 확대해 나갈 수 있으니, 리스크도 줄이면서 AICC의 혜택을 누릴 수 있는 셈입니다.
물론 GPU 대비 성능이 떨어지지 않을까 하는 우려도 있을 수 있습니다. 하지만 최근 CPU는 딥러닝 연산을 위한 모듈을 추가하는 등 추론을 효율적으로 할 수 있는 방향으로 발전하고 있습니다. 이러한 발전 덕분에 GPU가 아닌 CPU로도 충분한 성능을 발휘할 수 있게 되었습니다.
이렇듯 CPU 기반 STT 모델은 AICC 기술의 문턱을 크게 낮추고 있습니다. 이는 단순히 기술의 보급을 넘어, 기업의 경쟁력 강화와 산업 전반의 빠른 AI 전환으로 이어질 것으로 보입니다.
저음질 환경에서의 STT 모델 성능의 중요성
CPU, GPU와 같은 인프라도 물론 중요하지만, 실제 업무 환경에서는 또 다른 도전 과제가 있습니다.
바로 '음질'입니다.
AI 컨택센터 현장에서는 저음질 통화 환경과 마주하는 일이 비일비재합니다. 가령 고객들은 언제 어디서나 전화를 걸지만, 그 환경이 늘 이상적일 리 없습니다. 시끌벅적한 거리 한복판에서, 끊길 듯 말 듯한 산간 오지에서, 때론 어눌한 발음으로 말을 잇는 고객까지- 이런 상황들이 STT 모델의 성능을 시험대에 올리는 결정적 요인이기도 합니다.
따라서 AI 컨택센터를 구축하려는 기업이라면 STT 모델의 효율성뿐만 아니라, 열악한 음질 조건에서도 뛰어난 성능을 발휘하는지 여부에 주목해야 합니다. 이는 실제 비즈니스 상황에서 고객의 말을 정확하게 이해하고, 적절한 서비스를 제공하는 데 필수적인 요소입니다.
저음질 전화망 환경 데이터셋(실제 상담 환경을 가정하고 녹음된 데이터)에서 다양한 STT 모델들의 정확도를 측정한 결과입니다. (오류율이 낮을수록 모델의 정확도가 높습니다. 즉, 그래프에서 막대가 낮을수록 더 좋은 성능을 나타냅니다.)
- 스켈터랩스 STT 모델:
- 스켈터랩스 모델이 가장 낮은 오류율(약 5%)을 기록하여, 저음질 전화망 환경에서 매우 높은 정확도를 보여줍니다.
- OpenAI Whisper와 ETRI의 높은 오류율:
- OpenAI Whisper와 ETRI 모델은 약 14-15%의 높은 오류율을 보여, 저음질 환경에서 성능이 떨어집니다.
- Google API v2와 N사 Speech의 중간 성능:
- Google API v2와 N사 Speech 모델은 중간 정도의 오류율(약 10% 및 7%)을 기록하여, 저음질 전화망 환경에서도 안정적인 성능을 보여줍니다.
정리하자면, 가장 우수한 성능을 보인 스켈터랩스 모델은 약 5%의 오류율을 기록했으며, 가장 높은 정확도를 보여주었습니다. 반면, 14-15% 정도의 오류율을 기록한 모델들이 있었는데, 이는 저음질 환경에서 정확도가 상대적으로 낮았음을 의미합니다.
저음질 환경에서도 높은 정확도를 유지하는 STT 모델은 단순한 기술 그 이상의 가치를 지닐 수 있습니다. 고객의 목소리를 놓치지 않겠다는 기업의 의지이자, 어떤 상황에서도 최상의 서비스를 제공하겠다는 약속으로도 보여질 수 있겠죠.
스켈터랩스의 STT 모델
저음질 전화망 환경에서 뛰어난 성능을 보인 스켈터랩스의 STT 모델을 각 CPU에 동작시켰을 때의 성능 테스트 결과입니다.
AMD Genoa와 Intel Sapphire Rapids 같은 최신 CPU에서 STT 모델들이 우수한 성능을 보이고 있어, 고가의 GPU 없이도 효율적인 AICC 구축이 가능해지고 있습니다. 특히 고사양 설정에서도 240ms의 빠른 응답 시간을 기록한 점은 실시간 음성 인식의 실용화 가능성을 높여줍니다.
스켈터랩스 스피치 팀은 GPU보다 병렬 연산 능력이 제한적인 CPU 환경에서 높은 정확도를 유지하면서도 처리 속도를 높이는 것을 목표로 했습니다. 이를 위해 다음과 같은 접근 방식을 취했습니다:
- Transducer 모델 구조 채택: 실시간 음성 인식에 특화된 이 구조를 통해 빠른 응답 속도를 확보했습니다.
- NeMo 툴킷 활용: NVIDIA에서 제공하는 이 툴킷을 사용하여 다양한 모델 아키텍처를 빠르게 실험했습니다.
- 학습 파이프라인 자동화: 최근 스피치 팀은 MLFlow, Argo Workflow, Katib 클러스터를 전사적으로 사용 가능하도록 구축하고 문서화하였습니다. 이를 통해 Kubernetes 기반의 학습 파이프라인을 효율적으로 구축할 수 있었는데요. 이로 인해 모델 개발 주기를 효율적으로 관리할 수 있었으며, 다양한 실험을 자동으로 수행하고 관리하여 성능을 높일 수 있었습니다.
- OpenVINO 최적화: Intel의 CPU 최적화 기술을 활용하여 실시간 스트리밍에 적합한 짧은 지연 시간을 달성했습니다.
- Triton 서버 프레임워크 사용: NVIDIA의 프레임워크를 통해 빠르고 안정적인 모델 배포를 실현했습니다.
개발된 모델의 성능은 CER(Character Error Rate)과 청크 지연 시간을 통해 평가되었으며, 특히 AICC 관련 전화망 상담 도메인에 특화된 데이터셋 확보와 다양한 데이터 증강 기법 적용으로 CER이 크게 개선되었습니다.
더불어 언어 모델(LM)을 활용해 호텔 예약, 병원 예약 등 AICC의 세부 도메인에서도 우수한 성능을 달성했습니다. 특히 주목할 만한 점은 자체 AICC 테스트 데이터셋에서 타사 모델들과 비교했을 때 높은 정확도를 기록했다는 것입니다.
스켈터랩스는 고성능 GPU 모델도 제공하고 있습니다.
GPU 모델과 CPU 모델을 동시에 개발함으로써, 기업의 규모와 필요에 따라 선택할 수 있는 폭을 넓혔습니다.
대규모 처리가 필요한 기업은 고성능 GPU 모델을, 초기 비용과 유지보수를 고려하는 기업은 CPU 모델을 선택할 수 있습니다.
이러한 유연성은 AICC 기술의 진입 장벽을 낮추는 데 크게 기여하고 있습니다. 결과적으로, 다양한 규모의 기업들이 각자의 상황에 맞는 최적의 AICC 솔루션을 선택할 수 있게 된 것입니다.
마치며
STT 기술의 최근 발전은 AICC 분야에 새로운 가능성을 열고 있습니다. 특히 CPU 환경에서의 STT 성능 향상은 주목할 만합니다. 이는 고성능 하드웨어 없이도 효율적인 알고리즘과 최적화된 모델 설계로 뛰어난 결과를 얻을 수 있음을 보여줍니다.
물론 개선의 여지는 여전히 있습니다. 전력 효율성과 보안 측면에서 지속적인 발전이 필요하죠. 그럼에도 불구하고, 현재의 기술 수준은 이미 시장에 새로운 기회를 제공하고 있습니다.
이제 AICC 시장은 새로운 단계로 진입하고 있습니다. 각종 산업의 대기업뿐만 아니라 중소기업도 최신의 AI 기술의 혜택을 누릴 수 있게 되었습니다. AI 기술의 '대중화 시대'가 목전에 다가왔습니다.
-
references
스켈터랩스 스피치팀 정동욱 리더, 박지훈, 김진현, 이승규