문샷 AI(Moonshot AI) 또는 문샷(Moonshot, 중국어간체자: 月之暗面, 병음: Yuè Zhī Ànmiàn)은 중국 베이징에 본사를 둔 인공지능 (AI) 기업이다. 2024년 현재, 이 회사는 대규모 언어 모델 개발에 중점을 두면서 투자자들로부터 중국의 "AI 타이거" 기업 중 하나로 불리고 있다. 이 회사는 상당한 투자를 유치했으며 챗봇 Kimi와 빠른 기술 발전으로 주목을 받았다.
양즈린은 문샷 AI를 설립한 목표가 AGI를 달성하기 위한 기반 모델을 구축하는 것이라고 밝혔다.[3] 양즈린의 세 가지 이정표는 긴 컨텍스트 길이, 멀티모달 세계 모델, 그리고 인간의 개입 없이 지속적인 자체 개선이 가능한 확장 가능한 일반 아키텍처이다.[3]
2023년 10월, 이 회사는 대화당 최대 200,000자의 중국어 문자를 처리할 수 있는 챗봇 Kimi를 출시했다.[4]
2024년 6월, 문샷이 미국 시장 진출을 계획하고 있다는 보도가 있었다. 내부 관계자는 문샷이 Ohai라는 AI 역할극 채팅 애플리케이션과 Noisee라는 뮤직 비디오 생성기를 포함하여 미국 시장을 위한 제품을 개발하고 있다고 밝혔다. 이에 대해 문샷은 해외 제품을 개발하고 출시할 계획이 없다고 진술했다.[5]
자금 및 투자
문샷은 초기 자금 6천만 달러를 받았을 때 3억 달러의 가치로 평가되었고, 직원 수는 40명이었다.[2][6]
2024년 2월, 알리바바 그룹이 문샷의 10억 달러 규모 투자 라운드를 주도하여 회사 가치를 25억 달러로 끌어올렸다.[6] 양즈린과 관련 인물들이 4천만 달러 상당의 주식을 현금화했다고 보도되었는데, 이는 회사의 첫 해로는 이례적으로 큰 규모로 간주된다.[7]
2024년 8월, 텐센트와 가오롱 캐피털이 3억 달러 규모 투자 라운드에 투자자로 참여하여 문샷의 가치를 33억 달러로 평가했다.[8] 여러 회사가 계속해서 이 회사를 지원하는 동안, GSR 벤처스를 포함한 일부 투자자들은 주주 분쟁과 성급한 이익 챙기기 의혹과 관련된 우려 속에서 참여를 줄였다.[9] 2024년 11월, 일단의 투자자들이 회사의 공동 설립자이자 최고 기술 책임자를 상대로 중재를 신청했는데, 이는 일부 AI 중심 투자자들의 필수 동의를 얻지 않고 자금 조달 라운드가 진행되었다는 주장이었다.[9]
제품 및 연구
Kimi
2023년 10월, 문샷은 양즈린의 영어 이름에서 따온 첫 번째 AI 챗봇, Kimi를 출시했다. 이 챗봇은 바이두의 어니봇에 가장 근접한 경쟁자로 떠올랐다.[1][10]
2024년 3월, 문샷은 Kimi가 단일 프롬프트에서 2백만 자의 중국어 문자를 처리할 수 있다고 주장했는데, 이는 이전 버전의 20만 자에서 크게 향상된 것이다. 사용자 수 증가로 인해 3월 21일 Kimi는 이틀간 서비스 중단 사태를 겪었고, 문샷은 사과문을 발표해야 했다.[10][11]
2025년 1월 20일, Kimi K1.5가 출시되었다. 문샷은 이 모델이 수학, 코딩 및 멀티모달 추론 능력에서 오픈AI o1의 성능과 동등하다고 주장했다.[12]
2025년 7월, 이 회사는 총 1조 개의 매개변수를 가진 대규모 언어 모델인 Kimi K2의 가중치를 공개했다.[13] 이 모델은 추론 중 320억 개의 매개변수가 활성화되는 mixture-of-experts (MoE) 아키텍처를 사용한다. K2는 15.5조 개의 토큰 데이터로 훈련되었으며, 수정된 MIT 라이선스 하에 출시되었다.[14][15]
Kimi는 4일 사용에 5.2위안부터 1년 우선 사용에 399위안까지 6가지 요금제를 제공한다.[16]
문케이크 서빙 플랫폼
문케이크는 문샷의 Kimi 챗봇을 제공하고 매일 1천억 개의 토큰을 처리하는 플랫폼이다.[17] 문샷은 문케이크 아키텍처를 상세히 설명한 논문으로 USENIX FAST 컨퍼런스에서 Erik Riedel Best Paper Award를 수상했다.[17]
확장 뮤온 옵티마이저
문샷과 UCLA의 공동 논문 "Muon is Scalable for LLM Training"에서 연구원들은 이전에 작은 언어 모델 훈련에서 강력한 결과를 보인 것으로 알려진 뮤온 옵티마이저를 3B/16B 매개변수 혼합 전문가 대규모 언어 모델 훈련으로 성공적으로 확장했다고 주장한다.[18] 연구원들은 뮤온이 대규모 모델 훈련에서 표준 옵티마이저인 AdamW에 비해 계산 효율성을 2배 향상시킨다고 밝혔다.[18] 연구원들은 뮤온 옵티마이저 구현과 사전 훈련 및 지시 튜닝된 체크포인트를 오픈 소스로 공개했다.[3]
LLM을 사용한 강화 학습 확장
Kimi K1.5 모델에 대한 기술 보고서에서 문샷 연구원들은 모델이 오픈AI의 o1 모델과 동등한 최첨단 추론 능력을 달성하게 했다고 주장하는 강화 학습 방법을 설명한다.[19] 연구원들은 몬테카를로 트리 탐색, 가치 함수, 프로세스 보상 모델과 같은 복잡한 기술에 의존하지 않고 긴 컨텍스트 확장과 개선된 정책 최적화 방법이 핵심이었다고 언급한다.[19]