최근 중국의 AI 기업 DeepSeek이 세계에서 가장 강력한 "오픈" AI 모델 중 하나로 평가받는 DeepSeek V3를 공개했습니다. DeepSeek V3는 개발자들이 무료로 다운로드하고 상업적 목적으로도 사용할 수 있도록 허가된 관대한 라이선스를 특징으로 합니다.
📈 DeepSeek V3의 주요 특징
DeepSeek V3는 다양한 텍스트 기반 작업을 처리할 수 있는 다재다능한 AI 모델입니다. 코딩, 번역, 에세이 작성, 이메일 작성 등에서 두각을 나타내며, 내부 벤치마크 결과에 따르면 여러 경쟁 모델을 뛰어넘는 성능을 보여줍니다.
💻 성능 평가
- 코딩 테스트(Codeforces):
- 프로그래밍 대회 플랫폼 Codeforces에서 Meta의 Llama 3.1 405B, OpenAI의 GPT-4o, Alibaba의 Qwen 2.5 72B를 능가.
- Aider Polyglot:
- 기존 코드와 통합할 새로운 코드를 작성하는 능력을 평가하는 테스트에서 뛰어난 성과.
- 파라미터 규모:
- 6710억 개의 파라미터(6850억, Hugging Face 기준)를 갖춘 대규모 모델.
- 이는 Meta의 Llama 3.1 405B보다 약 1.6배 큰 규모로, 더 정교한 예측과 결정을 가능하게 함.
📚 훈련 데이터
- 총 14.8조 토큰으로 학습, 약 112억 단어에 해당하는 방대한 데이터를 처리.
💡 훈련 비용
- DeepSeek V3는 약 550만 달러라는 비교적 저렴한 비용으로 훈련되었으며, 이를 위해 Nvidia H800 GPU를 활용.
- 2개월이라는 짧은 시간 동안 중국의 자체 데이터 센터에서 완성.
🌐 오픈 소스의 강점과 한계
DeepSeek V3는 오픈 소스로 제공되며, 개발자들은 이를 자유롭게 수정 및 응용할 수 있습니다. 하지만 특정 정치적 주제에 대해 답변을 회피하거나 "사회주의 핵심 가치"를 반영해야 한다는 중국 정부의 규제에 따라 제한된 응답을 제공하는 한계를 보입니다.
🛑 제한된 주제
- 예: "텐안먼 사건"과 같은 민감한 정치적 질문에 답변하지 않음.
- 이는 중국 내 AI 모델이 규제 기관의 검토를 받아야 하는 환경적 특성과 관련.
🚀 DeepSeek의 야망
DeepSeek는 중국의 양적 헤지펀드 기업 High-Flyer Capital Management의 지원을 받고 있으며, 이를 통해 고성능 서버 클러스터를 구축해 AI 모델 훈련에 집중하고 있습니다.
💡 High-Flyer의 비전
- 설립자 량원펑(Liang Wenfeng)은 "초지능 AI"를 목표로 DeepSeek를 설립.
- High-Flyer는 Nvidia A100 GPU 1만 대를 장착한 서버 클러스터를 포함해 약 1억 3800만 달러의 비용을 투자.
- Liang은 폐쇄형 AI(OpenAI 등)가 가진 경쟁력은 "일시적"일 뿐이며, 오픈 모델이 곧 따라잡을 것이라고 전망.
🧭 미래 전망
DeepSeek V3는 크기와 성능 면에서 AI 기술의 새로운 기준을 제시합니다. 특히 오픈 소스로 제공되며, 상업적 활용 가능성이 높아 글로벌 AI 생태계에서 중요한 역할을 할 것으로 기대됩니다.
하지만, 정치적 주제와 규제의 영향은 DeepSeek V3의 한계로 작용할 수 있으며, 이는 글로벌 경쟁에서 해결해야 할 과제로 남아 있습니다. DeepSeek와 같은 대규모 오픈 AI 모델이 AI의 민주화에 어떻게 기여할지, 그리고 이를 통해 AI 기술이 어떤 새로운 가능성을 열어갈지 주목됩니다.
'IT' 카테고리의 다른 글
CES 2025에서 주목받은 비트봇의 로봇 거북이 '로보터틀' (4) | 2025.01.08 |
---|---|
CES 2025: 타임케틀(Timekettle), 실시간 통화 번역 지원 이어버드 W4 Pro 공개 (2) | 2025.01.06 |
구글 Gemini, 연구 모드 지원 언어 확대: 총 40개 언어로 확장 (1) | 2024.12.22 |
OpenAI, 새로운 'o3' 모델 공개: AI의 새로운 진화 (4) | 2024.12.22 |
Tapestry: 하나의 앱으로 소셜 미디어와 뉴스를 통합하다 (2) | 2024.12.22 |