Featured image of post Pass@k论文复现

Pass@k论文复现

Pass@k

Pass@k Training for Adptively Balancing Eplortion and Exploitation of LRMs

Pass@k论文解读

policy探索能力的指标:the natural prevention of the decrease in the entropy of policy distribution

Pass@1和Pass@k之间的主要区别在于奖励计算和优势估计过程。

vanilla:原来的
Ground Truth是正确答案(标准答案)

探索能力:

  • the entropy of policy distribution处在一个较高的水平

  • the answer diversity of the negative response处在一个较高的水平
    Pass@k的entropy在RLVR procedure的200step左右开始上升

k值影响Pass@k训练

实验中从4,8,16中调整k值

无论k的值是多少,随着训练的进行,训练奖励都可以提高到相对较高的水平,这表明k的值不是帮助LLMs逃脱局部最优解的关键性因素

k值越大,训练效率越慢(k值越大,优势值越小,导致优化步骤越短,训练效率越低)

训练效率的影响因素

实验在N = 32 和 k = 8的设置下使用{1 x 10-6,2 x 10-6,4 x 10-6}learning rate

随着学习率的提高,拐点出现得更早,表明训练效率更高

最大优势值不是帮助模型表现优异的关键性因素

为更难的问题分配更大的优化强度可以有效地提高训练效率

根据the entropy of policy distribution的高低,区分high-exploration和low-exploration。

high-exploration使用Pass@1 advantage fuction来exploit prior exploration,low-exploration使用Pass@k advantage function来encourage further exploration。

Implicit reward design(隐式奖励设计)可以控制优化过程

具体地说,结合或动态调整不同形式的优势估计,可以同时提高exploration and exploitation能力


Pass@k论文复现

arxiv文章👈
github仓库👈
Datasets👈

Maze

每个迷宫由文本表示,包含n行和n列,总共n∗n个字符

四个字符“S”、“E”、“.”和“*”中的一个,分别表示起点、目的地、可用地点和不可用地点

给定迷宫,LLM可以首先生成思维或推理过程,然后生成最终答案,其中包括四个动作“U”、“D”、“L”和“R”中的一个,分别表示向上、向下、向左和向右移动

对于训练数据,我们构建了大小为9×9、11×11、13×13和15×15的迷宫,以增加训练数据的多样性

对于测试数据,为了评估RLVR过程的泛化能力,我们不仅使用训练数据集进行相同大小的迷宫,还收集了大小为7×7、17×17、19×19和21×21的迷宫

为了确保实验的有效性,我们在生成训练和测试数据后进行了严格的重复数据删除操作

Training Set 都是10,000;Test Set除了7 * 7,剩下的都是100

Implementation Details

Training

backbone model:Qwen2.5-7B-Instruct和Qwen2.5-32B Instruct

DAPO

εlow=0.2和εhigh=0.28

token-level policy gradient loss

remove other optimizations

learning rate:1 × 10−6

warmup:10

prompt batch size(BS prompt):128

  • Prompt Batch Size:是模型推理生成的粒度。它决定在一次性并行处理多少个独立的提示词(例如,多少个用户问题),并同时为它们生成文本

mini-batch size(BS mini):32

  • Mini-batch Size:是模型权重更新的粒度。它决定在计算一次梯度下降时,使用多少条训练数据

rollout times:32

positive reward Rpos = 1

negative reward Rneg = 0

do not employ any regularization methods, such as KL or Entropy regularization
temperature:1.0

Top_P:0.95

  • 从概率最高的词开始累加它们的概率,直到累积概率达到或刚刚超过你设定的 top_p 值

For each question,we sample 32responses for Maze task and sample 8 responses for other tasks

Versions/Dependencies

Python 3.10.18
Ray 2.49.1
grpcio 1.75.0
Ubuntu 24.04.2 LTS

如何从huggingface上下载数据集和模型

从huggingface上下载文件有2种方式,一种是直接登录后在网页上下载;一种是通过huggingface-cli命令下载。

本文介绍的是第二种下载方式。

安装

对于huggingface-cli命令的下载直接通过pip命令安装即可:

pip install -U huggingface_hub[hub_transfer]

对于国内用户还可以通过设置镜像网站的方式加速下载:

#linux export HF_ENDPOINT=https://hf-mirror.com
#windows
set HF_ENDPOINT=https://hf-mirror.com

使用命令行下载

模型

huggingface-cli download –resume-download [1] –local-dir [2] –local-dir-use-symlinks False

数据集

huggingface-cli download –repo-type dataset –resume-download [3] –local-dir [4] –local-dir-use-symlinks False –token hf_***

格式为:[1]和[3]表示项目的路径,格式为用户名/项目,比如mistralai/Mistral-7B-Instruct-v0.2表示的是mistralai下的7B instruct v0.2权重。[2]和[4]表示的是本地的保存地址。

需要的注意的是有些仓库需要登录才可以下载,形如–token hf_***为huggingface的token配置。token的生成需要在huggingface个人页面生成.

Built with Hugo
Theme Stack designed by Jimmy