diff --git a/source/_posts/DigiRL.md b/source/_posts/DigiRL.md index 693d724a..4b8b58e7 100644 --- a/source/_posts/DigiRL.md +++ b/source/_posts/DigiRL.md @@ -78,7 +78,6 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。 * Step-level 选取阈值大于 1/H 的 step. * 在过滤后的 traj 上采用 MLE 准则训练模型。 -问题:Value Estimator 和 Actor 分别用什么模型训的?疑似是 Transformer? ## 模型架构 @@ -94,6 +93,10 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。 在离线学习阶段,通过运行原始的 AutoUI-Base 来采集 traj。在 offline 阶段,跳过了 instruction-level filtering,用所有的 instruction 来训练,用以充分地利用数据。 +Decoder 具体要输出什么?是文本吗?那数值是怎么处理的?大模型能很好地理解数值吗?(9.11 > 9.8??) + ## 评测部分 评测采用的是 Gemini-1.5-pro,据论文报告结果和人类的评估接近。评测标准是通过一个端到端的观察,判断是否完成了任务。 + +## 消融实验和分析