뉴스 목록쿼리당 2센트로 GPT-5.4를 능가: Perplexity, 검색 Agent 사후 학습 레시피 공개
動區 BlockTempo2026-04-23 05:46:25

쿼리당 2센트로 GPT-5.4를 능가: Perplexity, 검색 Agent 사후 학습 레시피 공개

ORIGINAL每次查詢 2 美分勝 GPT-5.4:Perplexity 公開搜尋 Agent 後訓練配方
AI 영향 분석Grok 분석 중...
📄전체 원문· trafilatura에 의해 자동 추출됨Gemini 翻譯1829 자
Perplexity가 공개한 검색 Agent 후학습 프로세스에 따르면, 오픈소스 Qwen3.5 기반 모델이 검색 정확도 면에서 GPT-5.4를 넘어섰으며, 동일 작업 비용은 2.0 센트로 GPT-5.4의 4분의 1 미만입니다. (이전 기사: Perplexity Personal Computer 출시: AI가 Mac 로컬 환경을 제어, 월 200달러에 Max 사용자 대상 공개) (배경 보충: 코딩을 몰라도 가능? Perplexity Computer가 AI를 통해 직접 결과물을 전달하고 워크플로우를 자동화하는 방법) 오픈소스 모델이 폐쇄형 플래그십 모델을 이길 수 있을까? Perplexity는 기술 보고서를 통해 업계가 간과할 수 없는 답변을 내놓았습니다. AI 검색으로 시작한 이 회사는 최근 자사 웹 검색 Agent의 후학습 방법론을 완전히 공개했습니다. 전체 학습 프로세스의 기반은 Alibaba의 Qwen3.5 시리즈 오픈소스 모델인 Qwen3.5-122B-A10B와 Qwen3.5-397B-A17B입니다. 이 선택만으로도 Perplexity가 GPT나 Claude를 백본으로 사용하기 위해 비용을 지불하는 대신, 오픈소스 모델에서 출발하여 직접 검색 능력을 구축하겠다는 의지를 표명한 것입니다. 학습은 두 단계로 나뉩니다. 첫 번째 단계는 지도 미세 조정(SFT)입니다. 쉽게 말해 모델에게 대량의 '모범 답안'을 제공하여 기본적인 행동 규칙을 익히게 하는 것입니다. 답변은 지시 사항을 준수해야 하고, 언어는 일관되어야 하며, 형식은 흐트러지지 않아야 합니다. 이 단계에서는 똑똑함보다는 신뢰성을 추구합니다. 마치 신입 사원의 업무 습관을 먼저 바로잡은 뒤 판단력을 훈련하는 것과 같습니다. 두 번째 단계는 강화 학습(RL)으로, GRPO 알고리즘을 사용합니다. 모델이 실제 작업에서 반복적으로 시도하게 하고, 결과의 좋고 나쁨에 따라 전략을 조정합니다. GRPO의 특별한 점은 별도의 '평가 AI'를 학습시킬 필요 없이, 동일 배치 내의 출력값을 서로 비교하여 학습 신호를 추출한다는 것입니다. 이를 통해 학습 비용을 낮추고 확장성을 높였습니다. RL 학습 데이터는 두 가지 경로로 구성됩니다. 하나는 Perplexity가 자체 합성한 다중 홉(multi-hop) 추론 문제 은행입니다. 답변자는 첫 번째 사실을 검색한 후, 그 사실을 바탕으로 다음 사실을 검색하는 과정을 2~4회 반복해야 최종 답을 얻을 수 있습니다. 이러한 유형의 문제는 모델의 '체인 추론' 능력을 훈련시켜, 검색을 일회성 키워드 조회가 아닌 논리적인 단계의 연속으로 인식하도록 합니다. 다른 하나는 루브릭(rubric) 기반의 대화 데이터입니다. '형식 준수', '언어 일관성 유지' 등 SFT로 구축된 좋은 습관을 강화 학습 단계에서도 정량화 가능한 조건으로 전환하여, 모델이 '고득점'을 쫓는 과정에서 기본 규율을 잃지 않도록 방지합니다. RL 학습의 가장 큰 난제는 '좋은 검색 행동'을 어떻게 정의하느냐입니다. 채점 기준이 잘못 설정되면 모델은 겉으로는 유창해 보이지만 실제로는 틀린 응답을 하기 쉽습니다. 설득력과 정확성은 별개의 문제이지만, AI 학습 신호는 이 둘을 혼동하기 쉽습니다. Perplexity의 해결책은 게이트 집계(gated aggregation)입니다. 핵심 논리는 답변 자체가 정확하다는 전제하에만 선호도 점수가 계산된다는 것입니다. 모델이 오답을 낼 경우, 출력이 아무리 논리적으로 보여도 가산점을 받을 수 없습니다. 이 '게이트'는 사실적 정확성을 모든 선호도 평가보다 우선시하여, 보상 신호가 '말투가 마음에 드는가'가 아닌 '정답을 맞혔는가'에 항상 결합되도록 합니다. 효율성 페널티의 논리도 주목할 만합니다. 한 번의 검색이 '너무 많은 도구 호출'을 했는지 판단하는 기준은 고정된 숫자가 아니라, 같은 배치 내에서 정답을 맞힌 다른 모델들의 평균 호출 횟수입니다. 쉽게 말해, 같은 그룹의 동료가 3번의 검색으로 정답을 맞혔는데 본인은 7번을 사용했다면, 정답을 맞혔더라도 효율성 점수가 깎이는 것입니다. 평
데이터 상태✓ 전체 내용 추출 완료원문 읽기 (動區 BlockTempo)
🔍과거 유사 사건· 키워드 + 종목 매칭6 건
💡 현재 키워드 + 종목 매칭(MVP) 사용 중 · 추후 embedding 의미론적 검색으로 업그레이드 예정
원본 정보
ID:0a49d05ded
출처:動區 BlockTempo
발행:2026-04-23 05:46:25
분류:zh_news · 도출된 분류 zh
종목:지정되지 않음
커뮤니티 투표:+0 /0 · ⭐ 0 중요 · 💬 0 댓글