Alibaba의 AgentEvolver는 자동 생성된 합성 T를 사용하여 도구 사용에서 모델 성능을 최대 30% 향상시킵니다

Alibaba의 AgentEvolver는 자동 생성된 합성 T를 사용하여 도구 사용에서 모델 성능을 최대 30% 향상시킵니다

AI-인공지능 전문 정보

Alibaba의 AgentEvolver는 자동 생성된 합성 T를 사용하여 도구 사용에서 모델 성능을 최대 30% 향상시킵니다

Alibaba의 Tongyi Lab 연구원들은 애플리케이션 환경을 탐색하여 자체 교육 데이터를 생성하는 자가 진화 에이전트를 위한 새로운 프레임워크를 개발했습니다. 프레임워크인 AgentEvolver는 자율 학습을 위해 대규모 언어 모델의 지식과 추론 기능을 사용하여 작업별 데이터 세트를 수집하는 데 일반적으로 필요한 높은 비용과 수동 노력을 해결합니다. 실험에 따르면 기존 강화 학습 기반 프레임워크에 비해 AgentEvolver는 환경 탐색에 더 효율적이고 데이터를 더 잘 활용하며 애플리케이션 환경에 더 빠르게 적응합니다. 기업의

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 내용

Alibaba의 Tongyi Lab 연구원들은 애플리케이션 환경을 탐색하여 자체 교육 데이터를 생성하는 자가 진화 에이전트를 위한 새로운 프레임워크를 개발했습니다. 프레임워크인 AgentEvolver는 자율 학습을 위해 대규모 언어 모델의 지식과 추론 기능을 사용하여 작업별 데이터 세트를 수집하는 데 일반적으로 필요한 높은 비용과 수동 노력을 해결합니다. 실험에 따르면 기존 강화 학습 기반 프레임워크에 비해 AgentEvolver는 환경 탐색에 더 효율적이고 데이터를 더 잘 활용하며 애플리케이션 환경에 더 빠르게 적응합니다. 기업의 경우 이는 맞춤형 애플리케이션을 위한 에이전트 교육에 대한 장벽을 낮추고 더 광범위한 조직에서 강력한 맞춤형 AI 도우미에 더 쉽게 액세스할 수 있도록 하기 때문에 중요합니다. AI 에이전트 교육에 드는 높은 비용강화 학습은 LLM이 디지털 환경과 상호 작용하고 피드백을 통해 학습할 수 있는 에이전트 역할을 하도록 교육하는 주요 패러다임이 되었습니다. 그러나 RL을 사용하여 에이전트를 개발하는 것은 근본적인 과제에 직면해 있습니다

상세 분석

. 첫째, 필요한 교육 데이터 세트를 수집하는 것은 종종 엄청나게 비용이 많이 들며, 특히 기성 데이터 세트를 사용할 수 없는 새로운 또는 독점 소프트웨어 환경에서 작업 예제를 생성하는 데 상당한 수작업이 필요합니다. 둘째, LLM에 일반적으로 사용되는 RL 기술은 효과적으로 학습하기 위해 모델이 엄청난 수의 시행착오 시도를 실행해야 합니다. 이 프로세스는 계산 비용이 많이 들고 비효율적입니다. 결과적으로 RL을 통한 훈련 가능한 LLM 에이전트는 여전히 힘들고 비용이 많이 들기 때문에 맞춤형 기업 설정에서의 배포가 제한됩니다. AgentEvolver 작동 방식AgentEvolver의 주요 아이디어는 모델에게 자체 학습 프로세스에서 더 큰 자율성을 부여하는 것입니다.

정리

연구원들은 이를 “환경 상호작용을 통해 자율적이고 효율적인 능력 진화를 달성”하도록 설계된 “자체 진화 에이전트 시스템”이라고 설명합니다. 이는 LLM의 추론 능력을 사용하여 자가 훈련 루프를 생성함으로써 에이전트가 사전 정의된 작업이나 보상 기능 없이 대상 환경과 직접 상호 작용하여 지속적으로 개선할 수 있도록 합니다. 연구원들은 논문에서 “우리는 LLM이 탐색, 작업 생성 및 성능 개선을 적극적으로 안내하는 에이전트 시스템을 구상합니다”라고 썼습니다. 자가 진화 프로세스는 함께 작동하는 세 가지 핵심 메커니즘에 의해 구동됩니다. 첫 번째는 에이전트가 환경을 탐색하여 기능의 경계를 발견하고 유용한 것을 식별하는 것입니다. 상태

자주 묻는 질문

Q. 어떤 정보를 제공하나요?

A. AI-인공지능 관련 최신 정보를 제공합니다.

Q. 신뢰할 수 있나요?

A. 검증된 출처만 선별합니다.

Q. 더 궁금한 점은?

A. 댓글로 문의하세요.

원문 출처

이 글은 원본 기사를 참고하여 작성되었습니다.

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다