User-agent: * Allow: /

IT

중국 AI 모델, DeepSeek V3 공개: 오픈 소스 AI의 새로운 지평

ITnewB 2024. 12. 29. 18:12
728x90
반응형

최근 중국의 AI 기업 DeepSeek이 세계에서 가장 강력한 "오픈" AI 모델 중 하나로 평가받는 DeepSeek V3를 공개했습니다. DeepSeek V3는 개발자들이 무료로 다운로드하고 상업적 목적으로도 사용할 수 있도록 허가된 관대한 라이선스를 특징으로 합니다.


📈 DeepSeek V3의 주요 특징

DeepSeek V3는 다양한 텍스트 기반 작업을 처리할 수 있는 다재다능한 AI 모델입니다. 코딩, 번역, 에세이 작성, 이메일 작성 등에서 두각을 나타내며, 내부 벤치마크 결과에 따르면 여러 경쟁 모델을 뛰어넘는 성능을 보여줍니다.

💻 성능 평가

  1. 코딩 테스트(Codeforces):
    • 프로그래밍 대회 플랫폼 Codeforces에서 Meta의 Llama 3.1 405B, OpenAI의 GPT-4o, Alibaba의 Qwen 2.5 72B를 능가.
  2. Aider Polyglot:
    • 기존 코드와 통합할 새로운 코드를 작성하는 능력을 평가하는 테스트에서 뛰어난 성과.
  3. 파라미터 규모:
    • 6710억 개의 파라미터(6850억, Hugging Face 기준)를 갖춘 대규모 모델.
    • 이는 Meta의 Llama 3.1 405B보다 약 1.6배 큰 규모로, 더 정교한 예측과 결정을 가능하게 함.

📚 훈련 데이터

  • 14.8조 토큰으로 학습, 약 112억 단어에 해당하는 방대한 데이터를 처리.

💡 훈련 비용

  • DeepSeek V3는 약 550만 달러라는 비교적 저렴한 비용으로 훈련되었으며, 이를 위해 Nvidia H800 GPU를 활용.
  • 2개월이라는 짧은 시간 동안 중국의 자체 데이터 센터에서 완성.

🌐 오픈 소스의 강점과 한계

DeepSeek V3는 오픈 소스로 제공되며, 개발자들은 이를 자유롭게 수정 및 응용할 수 있습니다. 하지만 특정 정치적 주제에 대해 답변을 회피하거나 "사회주의 핵심 가치"를 반영해야 한다는 중국 정부의 규제에 따라 제한된 응답을 제공하는 한계를 보입니다.

🛑 제한된 주제

  • 예: "텐안먼 사건"과 같은 민감한 정치적 질문에 답변하지 않음.
  • 이는 중국 내 AI 모델이 규제 기관의 검토를 받아야 하는 환경적 특성과 관련.

🚀 DeepSeek의 야망

DeepSeek는 중국의 양적 헤지펀드 기업 High-Flyer Capital Management의 지원을 받고 있으며, 이를 통해 고성능 서버 클러스터를 구축해 AI 모델 훈련에 집중하고 있습니다.

💡 High-Flyer의 비전

  • 설립자 량원펑(Liang Wenfeng)은 "초지능 AI"를 목표로 DeepSeek를 설립.
  • High-Flyer는 Nvidia A100 GPU 1만 대를 장착한 서버 클러스터를 포함해 약 1억 3800만 달러의 비용을 투자.
  • Liang은 폐쇄형 AI(OpenAI 등)가 가진 경쟁력은 "일시적"일 뿐이며, 오픈 모델이 곧 따라잡을 것이라고 전망.

🧭 미래 전망

DeepSeek V3는 크기와 성능 면에서 AI 기술의 새로운 기준을 제시합니다. 특히 오픈 소스로 제공되며, 상업적 활용 가능성이 높아 글로벌 AI 생태계에서 중요한 역할을 할 것으로 기대됩니다.

하지만, 정치적 주제와 규제의 영향은 DeepSeek V3의 한계로 작용할 수 있으며, 이는 글로벌 경쟁에서 해결해야 할 과제로 남아 있습니다. DeepSeek와 같은 대규모 오픈 AI 모델이 AI의 민주화에 어떻게 기여할지, 그리고 이를 통해 AI 기술이 어떤 새로운 가능성을 열어갈지 주목됩니다.

 
 
 
 
728x90
반응형