20240719

BlitherBoom812 · Jul 19, 2024 · 7966911 · 7966911
1 parent 0e81c0b
commit 7966911
Showing 1 changed file with 4 additions and 1 deletion.
diff --git a/source/_posts/DigiRL.md b/source/_posts/DigiRL.md
@@ -78,7 +78,6 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。
   * Step-level 选取阈值大于 1/H 的 step.
 * 在过滤后的 traj 上采用 MLE 准则训练模型。
 
-问题：Value Estimator 和 Actor 分别用什么模型训的？疑似是 Transformer？
 
 ## 模型架构
 
@@ -94,6 +93,10 @@ traj 的奖励值就是当前这条路径拿到的奖励总和。
 
 在离线学习阶段，通过运行原始的 AutoUI-Base 来采集 traj。在 offline 阶段，跳过了 instruction-level filtering，用所有的 instruction 来训练，用以充分地利用数据。
 
+Decoder 具体要输出什么？是文本吗？那数值是怎么处理的？大模型能很好地理解数值吗？（9.11 > 9.8？？）
+
 ## 评测部分
 
 评测采用的是 Gemini-1.5-pro，据论文报告结果和人类的评估接近。评测标准是通过一个端到端的观察，判断是否完成了任务。
+
+## 消融实验和分析