出售本站【域名】【外链】

微技术-AI分享
更多分类

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

2025-01-13

Llama版o1来了,来自上海AI Lab,强化进修代码已开源,基于AlphaGo Zero范式

梦晨 2024-11-05 14:32:24 起源:质子位

上交大团队也有新停顿

梦晨 发自 凹非寺
质子位 | 公寡号 QbitAI

复刻OpenAI o1推理大模型,开源界传来最新停顿:

LLaMA版o1名目方才发布,来自上海AI Lab团队。

简介中明白:运用了蒙特卡洛树搜寻,Self-Play强化进修,PPO,以及AlphaGo Zero的双重战略范式(先验战略+价值评价)。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

正在2024年6月,o1发布之前,团队就初步摸索蒙特卡洛树搜寻进步大模型数学才华,积攒了一些关注。

此次最新开源代码,也正在开发者社区惹起热议。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

OpenAI o1系列发布后,团队初步晋级算法,专注于数学奥赛问题,做为OpenAI草莓项宗旨开源版原。

10月初,团队上传新论文,运用成对劣化(不间接给出绝对分数,而是比较两个答案的相对黑皂)进步Llama模型数学奥赛才华。

正在最难的AIME2024基准测试30道题中,本版LLaMA-3.1-8B-Instruct作对2道,劣化后作对8道,赶过了除o1-preZZZiew和o1-mini之外的其余商业闭源方案。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

10月底,团队颁布颁发正在基于AlphaGo Zero架构复刻OpenAI o1的勤勉中得到了严峻停顿:

已乐成使模型正在进修历程中通过取搜寻树交互与得高级思维才华,无需人工标注

不到一周光阳,名目便开源了。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

LLaMA版o1最新停顿

目前已开源内容蕴含:预训练数据集、 预训练模型、强化进修训练代码

OpenLongCoT-Pretrain数据集,包孕10万+条长思维链数据。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

每条数据包孕一个完好的数学问题推理历程,包孕考虑内容和评分红绩。

譬喻一个几多何问题,包孕了问题形容、图形坐标、计较历程和结论推导等完好的推理链路,以及对各个推理轨范的攻讦和验证内容,对推理历程停行评估和辅导。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

正在此数据集继续预训练后,模型可读与和输出类似o1的长思维链历程。

预训练代码尚未发布,目前引荐运用LLaMaFactory与代。

有意思的是尽管名目名为LLaMA-O1,但目前官方给的预训练模型基于谷歌Gemma 2。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

目前正在预训练模型根原上,可以继续停行强化进修训练,从代码中可以看出训练历程如下:

运用蒙特卡洛树搜寻停行自我期战(self-play)以生成经历

将经历存储正在劣先经历回放缓冲区中

从缓冲区采样批次数据停行训练

更新模型参数和经历劣先级

论文中也给出了训练历程的图示。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

同时训练代码中运用了以下要害技术点:

运用LoRA停行参数高效微调

运用PPO算法做为战略劣化办法

真现了GAE(Generalized AdZZZantage Estimation)算法用于计较劣势函数

运用劣先经历回放进步训练效率

最后,LLaMA-O1代码发布正在名为SimpleBerry的GitHub账号下,并无出格简介,还比较奥秘。

其余取SimpleBerry有关的账号和官网中,只能看出性量是一个钻研实验室,也并未走漏更多钻研标的目的信息。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

其余o1复刻名目停顿

除LLaMA-O1之外,另一个公然停顿的o1复刻名目O1-Journey来自上交大团队。

团队正在十月初发布了第一份停顿报告,此中引见了翻新Journey Learning范式,以登科一个乐成将搜寻和进修整折到数学推理中的模型。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

O1-Journey焦点开发团队次要由上交大大三、大四原科生,以及上交大GAIR实验室(生成式人工智能钻研实验室)的一年级博士生构成。

辅导老师蕴含上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式