Google의 새로운 AI 훈련 방법은 소규모 모델이 복잡한 추론을 처리하는 데 도움이 됩니다 완벽가이드
Google의 새로운 AI 훈련 방법은 소규모 모델이 복잡한 추론을 처리하는 데 도움이 됩니다
AI-인공지능 전문 정보
Google Cloud와 UCLA의 연구원들은 매우 까다로운 다단계 추론 작업을 학습할 수 있는 언어 모델의 능력을 크게 향상시키는 새로운 강화 학습 프레임워크를 제안했습니다. 지도 강화 학습(SRL)은 문제 해결을 일련의 논리적 “작업”으로 재구성하여 훈련 과정 중에 풍부한 학습 신호를 제공합니다. 이 접근 방식을 통해 더 작은 모델은 이전에 다른 일반적인 훈련 기술로는 접근할 수 없었던 복잡한 문제를 학습할 수 있습니다. 실험에 따르면 SRL은 수학 추론 벤치마크에서 탁월할 뿐만 아니라 에이전트 소프트웨어 엔지니어링 작업에 효과
핵심 특징
고품질
검증된 정보만 제공
빠른 업데이트
실시간 최신 정보
상세 분석
전문가 수준 리뷰
상세 정보
핵심 내용
Google Cloud와 UCLA의 연구원들은 매우 까다로운 다단계 추론 작업을 학습할 수 있는 언어 모델의 능력을 크게 향상시키는 새로운 강화 학습 프레임워크를 제안했습니다. 지도 강화 학습(SRL)은 문제 해결을 일련의 논리적 “작업”으로 재구성하여 훈련 과정 중에 풍부한 학습 신호를 제공합니다. 이 접근 방식을 통해 더 작은 모델은 이전에 다른 일반적인 훈련 기술로는 접근할 수 없었던 복잡한 문제를 학습할 수 있습니다. 실험에 따르면 SRL은 수학 추론 벤치마크에서 탁월할 뿐만 아니라 에이전트 소프트웨어 엔지니어링 작업에 효과적으로 일반화됩니다. SRL은 더 작고 저렴한 모델을 더 높은 추론 능력으로 향상시킬 수 있는 다용도 훈련 프레임워크입니다. 현재 LLM 추론 훈련의 한계 추론을 위한 대규모 언어 모델(LLM) 훈련의 최근 발전은 주로 검증 가능한 보상을 통한 강화 학습(RLVR)에 의해 주도되었으며, 이는 모델이 최종 답의 정확성을 기반으로 보상을 받는 방법입니다.
상세 분석
문제 해결을 반복적으로 시도하고 최종 결과에 대한 피드백을 받음으로써 모델은 점차적으로 효과적인 문제 해결 전략을 학습합니다. 그러나 이 결과 기반 접근 방식의 성공 여부는 제한된 횟수의 시도 또는 “롤아웃” 내에서 올바른 솔루션을 발견하는 모델의 능력에 달려 있습니다. 각 롤아웃은 계산 비용이 많이 들기 때문에 모델을 무한정 시도할 수는 없습니다. 이 방법은 문제가 너무 어려워서 모델이 예산 내에서 올바른 답을 찾는 경우가 거의 없을 때 벽에 부딪칩니다. 이로 인해 심각한 학습 병목 현상이 발생합니다. 많은 다단계 추론 문제에서 모델은 여러 단계를 올바르게 해결할 수 있지만 한 번의 실수로 인해 탈선하여 잘못된 답을 얻을 수 있습니다. RLVR을 사용하면 이 전체 노력이 부정적인 보상을 받으며 모델은 부분적으로 올바른 작업에서 아무것도 배우지 않습니다.
정리
이는 세분화된 피드백을 제공하지 못하고 희박한 보상을 제공하는 전부 아니면 전무(all-or-nothing) 접근 방식입니다. 또 다른 방법은 SFT(감독 미세 조정)입니다. 여기서 모델은 전문가가 제시한 전체 추론 프로세스가 포함된 사례를 통해 학습합니다. SFT는 추론 능력을 심어줄 수 있지만 종종 과적합으로 이어집니다(모델은 본 예 이상의 문제를 일반화하는 방법을 배우는 대신 단순히 훈련 데이터의 궤적을 모방하는 방법을 학습합니다). 이 문제는 인간이 만든 고품질 훈련 데이터가 부족하고 생산 비용이 많이 든다는 사실로 인해 더욱 악화됩니다. 논문에서 언급했듯이 이러한 제한은 “어려운 문제를 효과적으로 학습하기 위해 소규모 오픈 소스 모델을 훈련하는 데 중요한 격차”를 남깁니다.
자주 묻는 질문
Q. 어떤 정보를 제공하나요?
A. AI-인공지능 관련 최신 정보를 제공합니다.
Q. 신뢰할 수 있나요?
A. 검증된 출처만 선별합니다.
Q. 더 궁금한 점은?
A. 댓글로 문의하세요.
원문 출처
이 글은 원본 기사를 참고하여 작성되었습니다.
이 글과 함께 읽으면 좋은 글
-
→ 2025년 최고의 초기 블랙 프라이데이 전화 거래: Amazon Sam’s Club에서 찾은 13개 제안 등
2025-11-14
-
→ 2025년 최고의 초기 Black Friday Verizon 거래: 신규 및 기존 사용자를 위한 10개 이상의 거래
2025-11-14
-
→ Walmart의 블랙 프라이데이 세일이 공식적으로 시작되었습니다. 제가 가장 좋아하는 할인을 최대 60%까지 추적하고 있습니다 li
2025-11-14
-
→ 내가 대부분의 비즈니스 및 기업 사용자에게 추천하는 Windows 노트북은 ThinkPad가 아닙니다
2025-11-14
-
→ 치료에 AI를 사용하나요? 하지 마세요 – 정신 건강에 좋지 않다고 APA는 경고합니다
2025-11-14

댓글