Skip to content

Commit

Permalink
20240719
Browse files Browse the repository at this point in the history
  • Loading branch information
BlitherBoom812 committed Jul 19, 2024
1 parent 0e81c0b commit 7966911
Showing 1 changed file with 4 additions and 1 deletion.
5 changes: 4 additions & 1 deletion source/_posts/DigiRL.md
Original file line number Diff line number Diff line change
Expand Up @@ -78,7 +78,6 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。
* Step-level 选取阈值大于 1/H 的 step.
* 在过滤后的 traj 上采用 MLE 准则训练模型。

问题:Value Estimator 和 Actor 分别用什么模型训的?疑似是 Transformer?

## 模型架构

Expand All @@ -94,6 +93,10 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。

在离线学习阶段,通过运行原始的 AutoUI-Base 来采集 traj。在 offline 阶段,跳过了 instruction-level filtering,用所有的 instruction 来训练,用以充分地利用数据。

Decoder 具体要输出什么?是文本吗?那数值是怎么处理的?大模型能很好地理解数值吗?(9.11 > 9.8??)

## 评测部分

评测采用的是 Gemini-1.5-pro,据论文报告结果和人类的评估接近。评测标准是通过一个端到端的观察,判断是否完成了任务。

## 消融实验和分析

0 comments on commit 7966911

Please sign in to comment.