이 0.5기가바이트 AI 모델은 휴대폰에서 로컬 에이전트를 실행합니다

📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯6647 자

요약 - MiniCPM5-1B는 agentic 및 추론 벤치마크에서 평균 42.57점을 기록하며, 차순위 1B급 경쟁 모델의 35.61점을 앞섰다. - 이 모델은 MCP와 네이티브 tool calling을 기본 지원하여, 클라우드 연결 없이도 소비자용 하드웨어에서 로컬 에이전트 워크플로우를 구동할 수 있다. - 우리 테스트에서 이 모델은 강력한 대화 유창성을 보였으나, 환각이 섞인 chain-of-thought 응답을 만들어내고 기본적인 논리 함정에 실패했다. OpenBMB의 10억 파라미터 모델 MiniCPM5-1B는 MiniCPM 온디바이스 시리즈의 최신 출시작이다. 네이티브 tool calling과 Model Context Protocol(MCP)을 지원하고, 스마트폰 메모리에 들어가며, 동급의 모든 비교 가능한 오픈소스 모델을 벤치마크에서 앞선다. 이 모델은 MiniCPM5 패밀리의 첫 출시작이며, 처음부터 자원이 제약된 하드웨어에서의 로컬 배포를 위해 설계되었다. 10억 파라미터는 현재 기준으로 어떤 척도로 보아도 작다. (파라미터는 AI 모델에 지식의 폭을 부여하는 요소로, 일반적으로 그 수가 많을수록 더 강력함을 의미한다.) Google의 Gemma 4는 유효 파라미터 20억에서 시작해 310억까지 확장된다. Llama 4 Scout는 170억 활성 파라미터로 동작한다. MiniCPM5-1B는 이들과 경쟁하는 척조차 하지 않는다. 이 모델의 지향점은 적은 자원으로 더 많은 것을 해내는 것이다. 어떻게 만들어졌나 아키텍처의 근간은 MiniCPM4에서 왔으며, OpenBMB 팀, THUNLP, Tsinghua University, 그리고 ModelBest의 기술 보고서에 자세히 기술되어 있다. 핵심 혁신은 InfLLM v2로, 학습 가능한 어텐션 메커니즘이며, 긴 컨텍스트 추론 시 각 토큰을 주변 토큰의 5% 미만에 대해서만 처리하여, 의미 있는 정확도 저하 없이 연산을 상당히 절감한다. ("토큰"은 AI 모델이 다루는 정보의 기본 단위이다.) 데이터 측면에서는, 팀이 UltraClean이라는 필터링 파이프라인을 구축하여, Qwen 3가 소비한 36조 토큰에 비해 8조 훈련 토큰만으로 모델을 경쟁력 있는 성능에 도달시켰다. 사후 학습에서는 강화 학습과 효율적 distillation 기법(더 큰 모델을 작은 모델의 가이드로 사용)을 결합해, 수학·코드·지시 이행에서 벤치마크 점수를 16점 올렸고, 폭주하는 길이의 응답은 29퍼센트포인트 줄였다. 컨텍스트 윈도우는 128K 토큰으로, 한 번의 패스에서 대략 96,000단어의 연속 텍스트에 해당한다. 10억 파라미터 모델에서 이는 의미 있는 수치다. 긴 롤플레이 세션 전반에 걸친 지속 메모리, PDF 전체 요약, 작업 도중 리셋되지 않는 에이전트 컨텍스트 모두 그 범위에 들어간다. 왜 멍청한 에이전트로도 충분할 수 있는가 우리는 이를 테스트해 MiniCPM5-1B가 MCP와 tool calls를 지원함을 확인했다. 이로써 이 모델은 클라우드 인프라 없이 실제 agentic 워크플로우가 가능한 20억 파라미터 미만 모델의 매우 짧은 목록에 든다. 다만, 이를 작동시키려면 사용자가 추가 설정을 해야 하며, 모든 항목은 모델의 Github repo에 정리되어 있다. 실용적 시나리오: iPhone에서 동작하는 로컬 에이전트가 캘린더를 조회하고, 로컬 데이터베이스를 검색하거나, 웹 리서치 MCP 서버를 호출하는 일을 전부 오프라인으로 처리한다. 우리가 다뤄왔듯, 로컬 AI를 실행하는 일은 대부분의 사람이 생각하는 것보다 이미 더 접근 가능해졌고, 온디바이스 경쟁은 가속화되고 있다. 클라우드 백엔드 없이 폰에서 실행되도록 설계된 모델은 연구상의 호기심이 아니라 진정한 제품 범주가 되어가고 있다. 로컬 에이전트가 캘린더를 가져와 오늘 일정에 무엇이 있는지 알려줄 수 있다면, 캘린더를 확인하기 위해 OpenAI가 필요하지는 않다. 가벼운 agentic 작업과 확장된 대화 컨텍스트에 대해서 MiniCPM5-1B는 경쟁력이 있다. 다만, OpenBMB가 그것까지 염두에 두지 않았더라도, 이 모델의 수다스러운 스타일은 로컬 롤플레이에도 잘 맞는 후보가 된다—128K의 컨텍스트는 모델이 흐름을 잃지 않은 채로 수십, 어쩌면 수백 회의 교환에 걸쳐 이야기가 전개될 수 있음을 뜻한다. 메모를 읽고, 문서를 요약하며, 그것들에 관한 질문에 답하는 소형 에이전트는 이 모델의 범위 안에 무리 없이 들어가며, 지식 공백을 메우기 위해 MCP 리서치 서버와 짝지을 때 특히 그렇다. 이 규모의 경쟁 모델로는 Alibaba의 Qwen3-0.6B, Qwen3.5-0.8B, 그리고 Liquid AI의 LFM2.5-1.2B-Thinking이 있다. OpenBMB 자체의 역량 벤치마크는 일반 지식, 도메인 지식, 코딩, 지시 이행, 수학 추론, 논리 추론, agentic 과제 전반에서 이 네 모델을 비교한다. MiniCPM5-1B는 일곱 가지 범주 모두에서 선두를 차지하며, agentic 성능과 일반 지식에서 가장 두드러진 격차를 보였다. 간단 테스트 우리는 세 가지 간단한 평가를 진행했다. 첫 번째는 고전적인 논리 함정이었다: "전문 변호사이자 입법자로서 답해 주세요. Falkland Islands를 다스리는 법체계에 따라, 한 남자가 자기 미망인의 자매와 결혼하는 것이 합법인가요?" 정답은 자명하다—미망인을 가진 남자는 사망한 사람이고, 죽은 남자는 혼인 신고서에 서명할 수 없다. MiniCPM5-1B는 Falkland Islands 혼인법에 대한 상세한 분석을 내놓았고, 함정을 전혀 알아채지 못한 채 이를 단순한 관할권 문제로 취급했다. "결정적으로, 당신은 Falkland Islands의 실제 혼인 상태를 식별해야 합니다. 이는 지역 당국이나 법적 절차를 통해 확인되어야 할 사실의 문제입니다,"라고 모델은 긴 추론 끝에 응답했다. 두 번째 테스트는 단호한 A/B 선택을 요구했다. 모델은 어느 쪽도 고르지 않고 양쪽 모두를 옹호하는 답변으로 얼버무렸다. 이는 대화적 압박 하에서 소형 모델 전반에 걸쳐 알려진 실패 양상이다. MiniCPM5-1B 역시 예외가 아니다. 우리는 모델에게 2100년 경제를 지배할 산업이 Crypto인지 AI인지를 물었다. 모델은 질문 자체를 논증하는 대신, 처음부터 cryptocurrency와 AI 투자가 시너지를 이룬다는 내부 사고로 분석을 시작했다. 공정히 말하면, 이 가운데 어느 것도 1B 모델에서 놀라울 일은 아니다. 여기서 실제 핵심은 agentic 기능이다. MiniCPM5-1B를 웹 리서치용 MCP 서버와 함께 쓰면, 잘 알려지지 않은 사실 질문에서 환각을 일으키는 경향이 사라지거나 적어도 크게 줄어든다. 우리는 모델에게 지금 당장 bitcoin 가격과 세 가지 주식 추천을 요청했고, 도구가 성공적으로 호출되었으며, 추천(Amazon, Microsoft, Nvidia)도 합리적이었다. 결론 도구를 호출할 수 있고, 128K 컨텍스트를 유지하며, 완전히 온디바이스로 동작하는 수다스러운 로컬 배포형 에이전트는, GPT-4와 경쟁하는 단독형 질문응답 모델보다 더 흥미로운 제품이다. 다만 이 때문에 AI 구독을 해지하지는 마라. 무엇을 다루고 있는지 알아두라: 대형 모델에 비하면 지식이 빈약하고, (다시 말하지만 더 큰 모델에 비해) 코딩은 형편없을 것이며, 만약 AGI를 찾고 있다면 그 근처에도 못 갈 것이다. MiniCPM5-1B는 현재 Hugging Face에서 Apache 2.0 라이선스로 제공되며, vLLM, SGLang, 그리고 표준 Transformers 추론과 호환된다.

데이터 상태✓ 전체 내용 추출 완료원문 읽기 (Decrypt)

🔍과거 유사 사건· 키워드 + 종목 매칭3 건

2026-05-14

Kimi WebBridge는 AI 에이전트가 브라우저를 직접 조작하면서도 데이터를 로컬에 보관할 수 있게 해준다

유사도 180%關鍵字 agents/your/local

2026-05-07

Tether의 의료용 AI는 귀하의 휴대폰에서 실행되며 16배 더 큰 모델보다 뛰어난 성능을 발휘합니다

유사도 180%關鍵字 runs/your/phone

2026-04-27

악성 웹 페이지가 AI Agents를 하이재킹하고 있으며, 일부는 귀하의 PayPal을 노리고 있습니다

유사도 100%關鍵字 agents/your

💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정