‘더 크게, 더 빠르게'는 이제 AI 발전의 필수 조건 아닙니다. '더 효율적으로'라는 키워드를 제시한 딥시크가 하드웨어적 한계를 극복한 기술력과 그들의 전략, 그리고 AI 업계에 던진 숙제에 대해 살펴보도록 하겠습니다.
‘더 크게, 더 빠르게'는 이제 AI 발전의 필수 조건 아닙니다.
미국의 반도체 수출 규제로 중국 AI 기업들의 발전이 제한될 것이라는 전망이 지배적이던 시점에, 중국의 딥시크(DeepSeek)는 전혀 다른 해답을 제시한 것인데요.
바로 '더 효율적으로'라는 키워드입니다.
딥시크는 하드웨어 제약을 기회로 전환했습니다. FP8 저정밀도 연산의 전략적 활용, 최적화된 GPU 클러스터 설계, GPU 효율은 높이고 성능은 극대화한 고효율의 MoE 아키텍처까지. 기존 AI 개발의 패러다임을 근본적으로 뒤흔들고 있죠.특히 주목할 점은 이러한 혁신이 단순한 기술적 진보를 넘어선다는 것입니다. 딥시크의 접근 방식은 AI 대중화의 새로운 가능성을 보여주고 있습니다.
스켈터랩스의 이번 블로그 글에서는 딥시크가 하드웨어적 한계를 극복한 기술력과 그들의 전략, 그리고 딥시크가 AI 업계에 던진 숙제에 대해 살펴보도록 하겠습니다.
📖 목차
1. 딥시크(DeepSeek)란?
2. 딥시크 모델 연산 및 아키텍처
3. 지식 증류 모델 대유행
4. 딥시크 비용 구조와 비즈니스 전략
5. 윤리적·법적 고려사항
1. 딥시크(DeepSeek)란?
AI 업계에서 GPU는 단순한 하드웨어 그 이상의 의미를 갖습니다.
2020년, 이 점을 간파한 중국의 헤지펀드 'High Flyer'가 파격적인 행보를 보였습니다. NVIDIA A100 GPU를 처음 1,100대, 이후 10,000대까지 대규모로 확보한 것입니다. 당시 이는 한화로 약 2천억 원에 달하는 규모였는데요.
이후 High Flyer는 이 막대한 GPU 자원을 바탕으로 AI 연구개발에 집중하기 위해 별도 기업을 분사했고, 이것이 바로 오늘날의 딥시크입니다. 투자 회사에서 시작해 AI 기술 기업으로 확장한 독특한 이력을 가진 셈이죠.
하지만 더 주목해야 할 것은 다음 행보입니다.
딥시크는 NVIDIA가 제시한 표준 아키텍처인 DGX 시스템을 그대로 따르는 대신, 완전히 새로운 접근을 시도했습니다. 자체 개발한 'Fire-Flyer' 클러스터를 통해 GPU 간 통신 구조를 근본적으로 재설계했고, 곧 네트워크 장비 비용을 획기적으로 절감하는 결과로 이어졌죠.
더불어 기존 DGX 아키텍처가 GPU 클러스터 구성을 위해 복잡한 네트워크 스위치와 고가의 연결 장비를 필요로 했다면, Fire-Flyer는 네트워크 장비 비용을 최소화하여 DGX보다 비용효율적인 클러스터를 구축하고, 네트워크 연산에 GPU를 활용하는 방식으로 병목을 줄여 GPU 효율을 극대화했습니다.
한 마디로 단순한 비용 절감을 넘어 AI 인프라 구축의 새로운 패러다임을 제시한 것입니다.
2. 딥시크 모델 연산 및 아키텍처
딥시크의 혁신은 연산 최적화와 모델 아키텍처에서 가장 극명하게 드러납니다.
📍 정밀도 연산
특히 주목할 만한 것은 FP8 연산의 전략적 활용입니다. 기존 LLM들이 고정밀도 연산(FP64, FP32)에 의존해왔다면, 딥시크는 과감히 다른 길을 택한것인데요.
AI 모델의 연산은 마치 계산기로 따지면 소수점 몇 자리까지 계산할지를 정하는 것과 비슷합니다. 기존 AI 모델들은 15~16자리까지 정확한 숫자로 계산하는 매우 정교한 방식(FP64, FP32)을 사용했습니다. 반면 딥시크는 2~3자리 정도만 정확하게 계산하는 방식(FP8)을 도입했죠.
딥시크는 FP8과 같은 저정밀도 연산을 전략적으로 도입했습니다. 이를 통해 동일한 GPU 시간 내에 훨씬 더 많은 계산을 수행할 수 있게 되어, 결과적으로 학습 및 추론 속도를 극적으로 향상시킬 수 있었죠.
또한 무작정 정밀도를 낮추는 대신, 딥시크는 각 단계별로 최적의 정밀도를 조합했습니다. 특정 연산에서는 높은 정밀도를, 다른 연산에서는 낮은 정밀도를 사용하는 식입니다. 마치 엔비디아가 CUDA 소프트웨어를 통해 GPU의 병렬 연산 성능을 극대화시킨 것과 같이 새로운 알고리즘을 통해 GPU 활용도를 극대화한 사례로 볼 수 있습니다.
📍 GPU 클러스터와 비용 효율성
딥시크는 GPU 클러스터 구성에서도 관행을 깨는 선택을 했습니다. NVIDIA DGX와 같은 기존 솔루션 대신, 1만 장 이상의 GPU를 자체적으로 최적화한 구성으로 운영하고 있습니다.
기존 서버 구성에서는 GPU들을 연결하기 위해 복잡한 네트워크 스위치가 필요했고, 이는 막대한 비용으로 이어졌습니다.
하지만 딥시크는 이 문제를 독자적인 방식으로 해결했습니다. 최적화된 네트워크 설계를 통해 비용은 낮추면서도 성능은 극대화한 것입니다. 이처럼 하드웨어 인프라 최적화는 단순히 비용을 줄이는 것뿐 아니라, 학습 및 추론 속도를 극대화하는 핵심 요소로 작용합니다.
딥시크의 GPU 클러스터 구성 방식을 쉽게 풀어 설명하면, 마치 물류 센터(GPU 서버)에 자동화 기술(네트워크 데이터 처리 가속화)을 도입하는 것과 같습니다. 데이터(물류)를 GPU(자동화 기술)를 이용해 빠르게 처리하여 병목을 제거함에 따라 더 적은 네트워크 스위치(도로망)을 사용했음에도, 엔비디아의 DGX 클러스터보다 비용효율적으로 데이터(물류) 처리가 가능해진 것이죠.
📍 MoE 구조와 멀티-토큰 프리딕션
MoE는 문제 해결에 필요한 AI만 활성화하는 방식입니다.
딥시크의 모델 아키텍처는 MoE(Mixture of Experts) 구조의 장점을 유지하면서도, 기존 MoE와 달리 Shared Expert Isolation과 같은 핵심적인 요소들을 추가하여, 학습 시 GPU가 더 효율적으로 사용되어 더 빠른 학습이 되도록 하면서 성능까지 향상되는 두 마리 토끼를 다 잡는 모델을 구축했습니다.
MoE를 쉽게 설명하자면, 어떤 프로젝트에 모든 직원을 쓰는 대신 전문성을 가진 직원만 투입하는 하는 식입니다. 복잡한 질문에 대해 각각의 전문가 네트워크가 부분적인 답변을 도출하고, 이를 종합하여 최종 답변을 만들어내는 방식은 팀 프로젝트에서 여러 전문가가 각자의 전문 분야를 맡아 협력하는 모습과 유사합니다.
여기에 기존 멀티-토큰 프리딕션(multi-token prediction)과는 다른 딥시크만의 멀티-토큰 프리딕션을 구현했는데요. 멀티-토큰 프리딕션을 이용하여 학습시키면, 기존 LLM들이 학습 시에 한 번의 연산에 하나의 토큰만 예측하던 방식에서 벗어나, 한 번 연산할 때마다 2개 이상의 토큰을 예측하는 방식으로 모델을 학습시킬 수 있습니다. 이러한 기법을 통해 기존의 방법으로 학습시킨 LLM보다 더 성능이 좋은 LLM을 학습시킬 수 있었다고 합니다.
3. 지식 증류 모델 대유행
딥시크는 v1부터 v3, 그리고 R1을 공개한 현재까지 모든 모델을 공개하는 오픈 소스 전략을 추구하고 있습니다.
R1 모델부터는 기존과는 다르게 '지식 증류(디스틸레이션)'한 모델을 추가적으로 공개한 것이 돋보이는데요. 이 덕분에 최고의 성능을 보이는 6710억 파라미터 모델의 성능 저하는 최소화하면서도, 크기는 훨씬 작은 모델을 누구나 사용할 수 있게되어 AI 대중화의 가능성을 보여주었습니다.
거대한 6710억 파라미터 모델을 소형 경량 모델에 ‘증류’함으로써, 운영 비용은 낮추면서도 원천 모델의 뛰어난 성능을 최대한 보존할 수 있도록 했습니다. 쉽게 말해 6,710억 개의 파라미터를 가진 거대 모델의 능력을 소형 모델에 전수하는 방식입니다.
지식 증류 기술의 핵심은 '확률 분포 학습'에 있습니다. 대형 모델이 특정 입력에 대해 생성하는 확률 분포, 즉 다음 단어나 문장에 대한 예측 패턴을 소형 모델이 최대한 정확하게 모방하도록 하는 것입니다. 마치 오랜 경험을 가진 전문가가 자신의 노하우를 후배에게 전수하는 것과 같은 원리입니다.
주목할 점은 증류 과정의 효율성입니다.
대형 모델의 중간 확률 값(soft target)을 포착하여 소형 모델이 이를 모방하도록 학습시키는 방식을 채택한 것이죠. 이러한 방식을 통해 딥시크는 원본 모델의 정확도를 크게 희생시키지 않으면서도, 대중들도 접근 가능할 정도로 가벼운 모델을 학습시킬 수 있었습니다. 이로써 고성능 GPU 없이도 고품질의 AI 서비스를 제공할 수 있게 된 것이죠.
지식 증류 기술의 성공 사례는 국내에서도 찾아볼 수 있습니다.
스켈터랩스는 한국어 기계 독해 능력 평가 리더보드 'KorQuad'에서 주목할 만한 성과를 거둔 바 있습니다. 위키백과 페이지를 읽고 질문에 해당하는 답을 정확히 찾아내는 과제에서 100점 만점에 88.81점이라는 높은 점수를 기록하며 1위를 차지했죠.
하지만 이 모델에는 한계가 있었습니다. 문제 하나를 푸는 데 무려 10초나 걸렸기 때문입니다.
문제를 해결하기 위해 스켈터랩스는 지식 증류 기술을 적용한 새로운 모델을 개발했습니다. 이후 처리 속도는 1.1초로 대폭 단축되면서도, 성능은 82.93점이라는 높은 수준을 유지했습니다. 이는 당시 2초가 걸리면서 80점대를 기록하던 다른 모델들을 압도하는 성과였습니다.
딥시크 역시 이러한 지식 증류의 힘을 입증했습니다. 이 성과는 즉각적인 시장의 반응으로 이어졌습니다. 마이크로소프트는 2024년부터 '코파일럿 플러스 PC' 제품에 딥시크의 경량화 모델(R1 1.5B)을 탑재하기 시작했고, 이로써 일반 사용자들도 고성능 AI를 체험할 수 있게 되었습니다.
이처럼 지식 증류는 이제 단순한 모델 압축 기술을 넘어섰습니다. 대형 모델의 '지혜'를 효율적으로 전수하여, 제한된 하드웨어로도 고품질 AI 서비스를 구현할 수 있게 만드는 핵심 전략으로 자리잡고 있습니다.
4. 딥시크 비용 구조와 비즈니스 전략
AI 산업의 새로운 게임 체인저로 부상한 딥시크의 비즈니스 전략은 얼핏 보기에 파격적입니다. 100만 토큰당 1.10달러(V3 기준)라는 가격은 OpenAI의 절반 수준이니까요. 하지만 이 숫자 이면에는 더 복잡한 현실이 있습니다.
첫째로, H200 GPU 8장이 필요한 서버 한 대의 가격이 약 10억 원에 달하고, 여기에 네트워크 인프라, 전력비, 운영 인력 비용까지 더해집니다. 게다가 AWS의 GPU 인스턴스 임대료는 시간당 44달러에 달하죠. 이런 상황에서 딥시크의 가격 정책은 상당히 공격적인 전략임이 분명합니다.
또한 '투 트랙' 전략도 눈여겨 볼 만 합니다. 딥시크는 클라우드로 자사 모델을 저렴하게 제공하면서, 동시에 오픈 소스로 모델을 공개하였는데요. 이러한 오픈 소스 전략은 딥시크의 AI 시장 내 영향력을 확대하고, AI 생태계를 장악할 수 있는 지속적인 기술 우위를 확보하기 위한 의도로 보입니다. 앞으로 딥시크가 공개하는 기술들이 얼마나 빠르게 발전할 지 기대되는 이유이기도 합니다.
5. 윤리적·법적 고려사항
그러나 딥시크의 급속한 성장은 새로운 우려도 함께 불러오고 있습니다.
특히 국가 안보와 데이터 보안 측면의 우려가 두드러집니다. 한국의 주요 부처들(국방부, 외교부, 산업부)이 선제적으로 딥시크 서비스 접속을 차단했고, 이러한 움직임은 전 세계적 흐름이 되어가고 있습니다.
또 다른 우려사항은 AI 윤리 영역에서 발견됩니다. 딥시크 서비스의 이중적 행태가 대표적입니다. 가령 몇 가지 민감한 주제에 대해 접근 방식에 따라 다른 답변을 제시하는 것이 발견됐습니다. 이는 AI 모델의 일관성과 신뢰성에 의문을 제기합니다.
여기에 OpenAI가 제기한 의혹은 AI 업계에 더 큰 파장을 몰고 왔습니다. 딥시크가 OpenAI의 API를 대규모로 활용해 학습 데이터를 생성했다는 것입니다. 이는 단순한 기술적 문제를 넘어, AI 개발에서의 지적 재산권과 윤리적 경계에 대한 근본적인 질문을 던질 수 밖에 없습니다.
이러한 도전과제들은 비단 딥시크만의 문제가 아닙니다. AI 산업 전반이 마주한 숙제이기도 합니다. 기술 혁신의 속도만큼 윤리적 기준과 법적 프레임워크의 발전도 시급해진 것입니다.
마치며
딥시크가 보여준 혁신은 단순한 기술적 진보를 넘어섭니다. 지금까지 AI 업계는 '더 크게'라는 방향에 집중해왔지만, 딥시크는 '더 효율적으로'라는 새로운 패러다임을 제시했습니다.
특히 주목할 점은 딥시크의 전방위적 혁신입니다. 하드웨어 인프라 최적화, 연산 정밀도의 재해석, 지식 증류를 통한 오픈 소스 전략까지. 이러한 접근은 고성능 AI를 더 많은 기업과 개발자들이 활용할 수 있게 만들었습니다. 마치 컴퓨터가 메인프레임에서 퍼스널 컴퓨터로 진화하며 새로운 시장을 열었던 것처럼 말이죠.
하지만 동시에 우리는 중요한 갈림길에 서있습니다. 기술 혁신이 빠르게 진행될수록 윤리적 문제와 보안 우려도 커지고 있습니다. 개인정보 보호, 데이터 주권, AI 윤리는 더 이상 선택이 아닌 필수가 된 것입니다.
결국 AI 산업의 미래는 이 두 가지 과제의 균형에 달려있습니다. 기술적 혁신을 통한 AI 대중화와, 책임있는 발전을 위한 윤리적 기준의 정립. 딥시크는 우리에게 이 숙제를 던져주고 있습니다.
References
스켈터랩스 변규홍, 오윤명 님