diff --git a/index.html b/index.html
index 856a64c..0c316da 100644
--- a/index.html
+++ b/index.html
@@ -2,7 +2,7 @@
 <html>
 
 <head>
-    <title>Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making</title>
+    <title>SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory</title>
     <!-- consider to add our icon here -->
     <!-- <link rel="icon" href="" type="image/icon type"> -->
 
@@ -113,74 +113,40 @@
                     <div class="column has-text-centered">
                         <h1 class="title is-1 publication-title is-bold">
                             <!-- <img src="website/img/mint-leaf-logo.png" alt="logo" width="40" height="40" /> -->
-                            Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making
+                            🌊 SAMURAI: Adapting Segment Anything Modelfor Zero-Shot Visual Tracking with Motion-Aware Memory
                         </h1>
-                        <p style="color: darkred; font-weight: bold;">Evaluate your model with a single line of code!</p>
+                        <!-- <p style="color: darkred; font-weight: bold;">!</p> -->
                         <div class="is-size-5 publication-authors">
                             <span class="author-block">
-                              <a href="https://limanling.github.io/">Manling Li</a><sup>1, 2†</sup>,</span>
+                              <a href="https://yangchris11.github.io/">Cheng-Yen Yang</a><sup>1</sup>,</span>
                             <span class="author-block">
-                              <a href="https://www.linkedin.com/in/shiyu-zhao-1124a0266/">Shiyu Zhao</a><sup>1,†</sup>,</span>
+                              <a href="https://www.linkedin.com/in/shiyu-zhao-1124a0266/">Hsiang-Wei Huang</a><sup>1</sup>,</span>
                             <span class="author-block">
-                              <a href="https://qinengwang-aiden.github.io/">Qineng Wang</a><sup>1, 2†</sup>,
+                              <a href="https://qinengwang-aiden.github.io/">Wenhao Chai</a><sup>1</sup>,
                             </span>
                             <span class="author-block">
-                              <a href="https://jameskrw.github.io/">Kangrui Wang</a><sup>1, 2†</sup>,
+                              <a href="https://jameskrw.github.io/">Zhongyu Jiang</a><sup>1</sup>,
                             </span>
                             <span class="author-block">
-                              <a href="https://bryanzhou008.github.io/">Yu Zhou</a><sup>1,†</sup>,
+                              <a href="https://bryanzhou008.github.io/">Jenq-Neng Hwang</a><sup>1</sup>
                             </span>
                           </div>
+            
                 
-                          <div class="is-size-5 publication-authors">
-                            <span class="author-block">
-                              <a href="https://www.linkedin.com/in/sanjana-srivastava5/">Sanjana Srivastava</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="https://www.cemgokmen.com/">Cem Gokmen</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="https://profiles.stanford.edu/tonyhlee">Tony Lee</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="http://www.cs.columbia.edu/~lierranli/">Li Erran Li</a><sup>3</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="https://ai.stanford.edu/~zharu/">Ruohan Zhang</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="http://weiyuliu.com/">Weiyu Liu</a><sup>1</sup>,
-                            </span>
-                          </div>
-                
-                          <div class="is-size-5 publication-authors">
-                            <span class="author-block">
-                              <a href="https://cs.stanford.edu/~pliang/">Percy Liang</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="http://vision.stanford.edu/feifeili/">Li Fei-Fei</a><sup>1</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="http://jiayuanm.com/">Jiayuan Mao</a><sup>4</sup>,
-                            </span>
-                            <span class="author-block">
-                              <a href="https://jiajunwu.com/">Jiajun Wu</a><sup>1</sup>
-                            </span>
-                          </div>
                           
                 
                           <div class="is-size-5 publication-authors">
-                            <span class="author-block"><sup>1</sup>Stanford University,</span>
-                            <span class="author-block"><sup>2</sup>Northwestern University,</span>
+                            <span class="author-block"><sup>1</sup>University of Washington</span>
+                            <!-- <span class="author-block"><sup>2</sup>Northwestern University,</span>
                             <span class="author-block"><sup>3</sup>Amazon,</span>
-                            <span class="author-block"><sup>4</sup>MIT</span>
+                            <span class="author-block"><sup>4</sup>MIT</span> -->
                           </div>
-                          <div class="'is-size-5 publication-authors">
+                          <!-- <div class="'is-size-5 publication-authors">
                             <span class="author-block"><sup>†</sup>Equal contribution</span>
-                          </div>
-                          <div class="'is-size-4 publication-authors">
+                          </div> -->
+                          <!-- <div class="'is-size-4 publication-authors">
                             <span class="author-block" style="color: darkred; font-weight: bold;">NeurIPS 2024 D&B (Oral)</span>
-                          </div>
+                          </div> -->
 
                         <div class="column has-text-centered">
                             <div class="publication-links">
@@ -210,47 +176,6 @@ <h1 class="title is-1 publication-title is-bold">
                                         </span>
                                         <span>Code</span>
                                     </a> &nbsp;&nbsp;
-
-                                </span>
-                                <!-- Dataset Link. -->
-                                <span class="link-block">
-                                    <a href="https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface" class="btn btn-outline-dark" role="button" style="display: inline-flex; align-items: center;">
-                                        <span class="icon" style="display: inline-flex; align-items: center;">
-                                            <img src="https://huggingface.co/front/assets/huggingface_logo-noborder.svg" alt="Hugging Face" style="width: 20px; height: 18px; margin-right: 5px;">
-                                        </span>
-                                        <span>Dataset</span>
-                                    </a> &nbsp;&nbsp;
-                                </span>
-                                                                                   
-                                <!-- Dockerhub Link. -->
-                                <span class="link-block">
-                                    <a href="https://hub.docker.com/r/jameskrw/eai-eval" class="btn btn-outline-dark" role="button">
-                                        <span class="icon"><i class="fab fa-docker"></i></span>
-                                        <span>Docker</span>
-                                    </a> &nbsp;&nbsp;
-                                </span>
-                                <!-- Behavior Pypi Python Package Link. -->
-                                <span class="link-block">
-                                    <a href="https://pypi.org/project/eai-eval/" class="btn btn-outline-dark" role="button">
-                                        <span class="icon"><i class="fab fa-python"></i></span>
-                                        <span>EAI</span>
-                                    </a> &nbsp;&nbsp;
-                                </span>
-                                <!-- Virtualhome Pypi Python Package Link. -->
-                                <!-- <span class="link-block">
-                                    <a href="https://pypi.org/project/virtualhome-eval/" class="btn btn-outline-dark" role="button">
-                                        <span class="icon"><i class="fab fa-python"></i></span>
-                                        <span>VirtualHome Eval</span> 
-                                    </a> &nbsp;&nbsp;
-                                </span> -->
-                                <!-- Docs Link. -->
-                                <span class="link-block">
-                                    <a href="https://embodied-agent-eval.readthedocs.io/en/latest/#" class="btn btn-outline-dark" role="button">
-                                        <span class="icon">
-                                            <i class="fa fa-book"></i>
-                                        </span>
-                                        <span>Docs</span>
-                                    </a>
                                 </span>
                             </div>
                         </div>
@@ -273,77 +198,13 @@ <h1 class="title is-1 publication-title is-bold">
         <div class="hero-body">
             <video id="teaser" autoplay muted loop playsinline controls width="100%">
                 <!-- <source src="./website/videos/eai-video-v2.mov" type="video/quicktime"> -->
-                <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-0-overview.mp4" type="video/mp4">
+                <source src= type="video/mp4">
                 Your browser does not support the video tag.
             </video>
         </div>
       </div>
     </section>
-    <section class="section">
-        <div class="container is-max-desktop">
-            <div class="columns is-centered has-text-centered">
-                <div class="column">
-                    <h3 class="title is-5">Goal Interpretation</h3>
-                    <video autoplay muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-1-goal.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video>
-                </div>
-                <div class="column">
-                    <h3 class="title is-5">Subgoal Decomposition</h3>
-                    <video autoplay muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-2-subgoal.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video>
-                </div>
-                <div class="column">
-                    <h3 class="title is-5">Action Sequencing</h3>
-                    <video autoplay muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-3-action.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video>
-                </div>
-                <div class="column">
-                    <h3 class="title is-5">Transition Modeling</h3>
-                    <video autoplay muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-4-transition.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video>
-                </div>
-            </div>
-            <div class="columns is-centered has-text-centered">
-                <div class="column">
-                    <div class="column">
-                        <!-- Raw video link button
-                        <a href="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/eai.mp4" target="_blank" class="button is-light">
-                            <span class="icon">
-                                <i class="fas fa-download"></i>
-                            </span>
-                            <span>Download Full Video</span>
-                        </a>
-                        &nbsp;&nbsp; -->
-                        <!-- Toggle button with consistent style -->
-                        <button class="button is-light toggle-section" aria-controls="full_demo_video">
-                            <span class="icon">
-                                <i class="fas fa-play"></i>
-                            </span>
-                            <span>Watch Full Demo</span>
-                            <span class="icon">
-                                <i class="fas fa-angle-down" style="margin-left: 5px;"></i>
-                            </span>
-                        </button>
-                        <!-- Collapsible video container -->
-                        <div id="full_demo_video" class="collapse-content" style="margin-top: 1rem;">
-                            <video id="demo" controls width="100%">
-                                <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/eai.mp4" type="video/mp4">
-                                Your browser does not support the video tag.
-                            </video>
-                        </div>
-                    </div>
-                </div>
-            </div>
-        </div>
-    </section>
+    
 
     <section class="section" id="abstract">
         <div class="container is-max-desktop">
@@ -353,19 +214,13 @@ <h3 class="title is-5">Transition Modeling</h3>
                     <h2 class="title is-2">Abstract</h2>
                     <div class="content has-text-justified">
                         <p>
-                            <b>Problem:</b> We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performances, because they are usually applied in different domains for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn, blocks embodied agents from leveraging LLMs effectively and selectively.
-                        </p>
-                        <p>
-                            <b>Method:</b> To address these limitations, we propose a generalized interface (<b>Embodied Agent Interface</b>) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify <b>1)</b> a broad set of embodied decision making tasks involving both state and temporally extended goals, <b>2)</b> four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and <b>3)</b> a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc.
-                        </p>
-                        <p>
-                            <b>Conclusion:</b> Overall, our benchmark offers a comprehensive and systematic assessment of LLMs' performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.
+                            The Segment Anything Model 2 (SAM 2) has demonstrated strong performance in object segmentation tasks but faces challenges in visual object tracking, particularly when managing crowded scenes with fast-moving or self-occluding objects. Furthermore, the fixed-window memory approach in the original model does not consider the quality of memories selected to condition the image features for the next frame, leading to error propagation in videos. This paper introduces SAMURAI, an enhanced adaptation of SAM 2 specifically designed for visual object tracking. By incorporating temporal motion cues with the proposed motion-aware memory selection mechanism, SAMURAI effectively predicts object motion and refines mask selection, achieving robust, accurate tracking without the need for retraining or fine-tuning. SAMURAI operates in real-time and demonstrates strong zero-shot performance across diverse benchmark datasets, showcasing its ability to generalize without fine-tuning. In evaluations, SAMURAI achieves significant improvements in success rate and precision over existing trackers, with a 7.1% AUC gain on LaSOT-ext and a 3.5% AO gain on GOT-10k. Moreover, it achieves competitive results compared to fully supervised methods on LaSOT, underscoring its robustness in complex tracking scenarios and its potential for real-world applications in dynamic environments.
                         </p>
                     </div>
                     <figure>
                         <img src="website/img/teaser.png" alt="Embodied agent interface overview." class="EAgent_overview_image"/>
                         <figcaption  style="font-style: italic;">
-                            <b>Figure 1:</b> <b>Embodied Agent Interface</b> unifies a broad set of tasks involving both state and temporally extended goals and four LLM-based modules for decision making.
+                            <b>Figure 1:</b> The overview of our SAMURAI visual object tracker.
                         </figcaption>
                     </figure>
                 </div>
@@ -373,3963 +228,41 @@ <h2 class="title is-2">Abstract</h2>
             <!--/ Abstract. -->
         </div>
     </section>
-        
 
-    <section class="hero teaser">
-        <div class="container is-max-desktop">
-            <div class="column is-centered">
-                <h2 class="title is-2" style="text-align: center;">Embodied Agent Interface</h2>
-                <br>
-                <div class="content has-text-justified">
-                    <p>
-                        In our Embodied Agent Interface, we propose a set of ability modules to evaluate LLMs for embodied decision making. The four ability modules are: Goal Interpretation, Subgoal Decomposition, Action Sequencing, and Transition Modeling. We provide a detailed description of each module below.
-                    </p>
-                    <h3 class="title is-4">Ability Module 1: Goal Interpretation</h3>
-                    <!-- <video id="goal-interpretation-video" muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-1-goal.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video> -->
-                    <p>
-                        Goal Interpretation aims to ground the natural language instruction to the environment representations of objects, states, relations, and actions. For example, the task instruction "Use the rag to clean the trays, the bowl, and the refrigerator. When you are done, leave the rag next to the sink..." can be grounded to specific objects with IDs, such as fridge (ID: 97), tray (ID: 1), bowl (ID: 1), rag (ID: 0), and sink (ID: 82). Note that a simple natural language description can be grounded into a set of multiple goal conditions (object state and relation). 
-                    </p>
-                    
-                    <h3 class="title is-4">Ability Module 2: Subgoal Decomposition</h3>
-                    <!-- <video id="subgoal-video" muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-2-subgoal.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video> -->
-                    <p>
-                        Subgoal Decomposition generates a sequence of states, where each state can be a set of objects and their states. Here, we highlight the important states, such as the transitions between a sequence of next_to(rag.0, sink.82), toggled_on(sink.82), soaked(rag.0), toggled_off(sink.82), open(fridge.97), not_stained(fridge.97). To achieve these state transitions, we can use a high-level planner such as BFS to search for the Action Sequences that achieve these state transitions. We obtain the following action sequence: RIGHT_GRASP(rag.0), RIGHT_PLACE_NEXTTO(sink.82), TOGGLE_ON(sink.82), SOAK(rag.0), TOGGLE_OFF(sink.82), OPEN(fridge.97), CLEAN(fridge.97). Note that multiple actions may be required to achieve a single one-step state transition. For example, to perform the state transition next_to(rag.0, sink.82) → toggled_on(sink.82), we need two actions RIGHT_GRASP(rag.0), RIGHT_PLACE_NEXTTO(sink.82). See <a href="#EAgent_taxtonomy_example">Figure 2</a> for the input and output formulation.
-                    </p>
+    <hr>
 
-                    <figure id="EAgent_taxtonomy_example">
-                        <img src="website/img/taxonomy-ability.png" alt="Embodied agent interface taxonomy example." class="EAgent_taxtonomy_image" style="width: 75%;"/>
-                        <figcaption>
-                            <b>Figure 2:</b> The input and output formulation of four ability modules for <b>Embodied Agent Interface</b>.
+    <section class="section" id="abstract">
+        <div class="container is-max-desktop">
+            <!-- Result. -->
+            <div class="columns is-centered has-text-centered">
+                <div class="column is-four-fifths">
+                    <h2 class="title is-2">Results</h2>
+                    <figure>
+                        <img src="website/img/main_result_table.png" alt="Embodied agent interface overview." class="EAgent_overview_image"/>
+                        <figcaption  style="font-style: italic;">
+                            <b>Table 1:</b> Zero-shot tracking results on LaSOT, LaSOT-ext, and GOT-10k.
                         </figcaption>
                     </figure>
-                    
-                    <h3 class="title is-4">Ability Module 3: Action Sequencing</h3>
-                    <!-- <video id="action-sequencing-video" muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-3-action.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video> -->
-                    <p>
-                        Action Sequences are essential to achieve the state transitions identified in Subgoal Decomposition. For example, a successful execution of the action sequence RIGHT_GRASP(rag.0), RIGHT_PLACE_NEXTTO(sink.82), TOGGLE_ON(sink.82), SOAK(rag.0), TOGGLE_OFF(sink.82), OPEN(fridge.97), CLEAN(fridge.97) is shown in <a href="#EAgent_excution_example">Figure 3</a>.
-                    </p>
-                    
-                    <h3 class="title is-4">Ability Module 4: Transition Modeling</h3>
-                    <!-- <video id="transition-modeling-video" muted loop playsinline controls width="100%">
-                        <source src="https://github.com/embodied-agent-eval/embodied-agent-eval.github.io/raw/main/website/videos/eai-4-transition.mp4" type="video/mp4">
-                        Your browser does not support the video tag.
-                    </video> -->
-                    <p>
-                        Transition Modeling serves as the low-level controller to guide the simulator in performing state transitions from preconditions to post-effects. For example, in cleaning task, the input is the operator name soak, and the preconditions are three states: holding (?obj1), next_to (?sink ?agent), and toggled_on (?sink). The post effect after executing SOAK is soaked (?obj1).
-                    </p>
-                    
-                    
-                    
-                    <figure id="EAgent_excution_example">
-                        <img src="website/img/excution_example.png" alt="Example of successful execution in Embodied Agent Interface." class="EAgent_excution_image" style="width: 75%;"/>
-                        <figcaption>
-                            <b>Figure 3:</b> An example of successful execution in <b>Embodied Agent Interface</b>.
+                    <figure>
+                        <img src="website/img/additional_result_table.png" alt="Embodied agent interface overview." class="EAgent_overview_image" style="width: 50%;"/>
+                        <figcaption  style="font-style: italic;">
+                            <b>Table 2:</b> Zero-shot tracking results on additional benchmarks: TrackingNet, NFS, and OTB-100.
+                        </figcaption>
+                    </figure>
+                    <figure>
+                        <img src="website/img/baseline_result_table.png" alt="Embodied agent interface overview." class="EAgent_overview_image" style="width: 90%;"/>
+                        <figcaption  style="font-style: italic;">
+                            <b>Table 3:</b> Comparison between proposed SAMURAI and the baseline SAM 2 on LaSOT and LaSOT-ext.
                         </figcaption>
                     </figure>
                 </div>
             </div>
-            <div class="hero-body">
-                <!-- <h2 class="subtitle">
-                    <b>Embodied Agent Interface</b> aims to tackle the following challenges in evaluating LLMs for building embodied decision-making agents: (1) Standardization of goal specifications. (2) Standardization of modules and interfaces. (3) Broad coverage of evaluation and fine-grained metrics.
-                </h2> -->
-                <h2 class="title is-2" style="text-align: center;">Dataset Viewer</h2>
-                <iframe
-                src="https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface/embed/viewer/default/behavior"
-                frameborder="0"
-                width="100%"
-                height="560px"
-                ></iframe>
-                <br>
-                <br>
-                <h2 class="title is-2" style="text-align: center;">Leaderboard</h2>
-                <ul class="nav nav-tabs" id="myTab" role="tablist">
-                    <li class="nav-item" role="presentation">
-                        <button class="nav-link active" id="main-results-tab" data-bs-toggle="tab"
-                            data-bs-target="#benchmark-table-content" type="button" role="tab"
-                            aria-controls="main-results-tab" aria-selected="true">BEHAVIOR</button>
-                    </li>
-                    <li class="nav-item" role="presentation">
-                        <button class="nav-link" id="eurus-code-table-tab" data-bs-toggle="tab"
-                            data-bs-target="#eurus-code-table-content" type="button" role="tab"
-                            aria-controls="eurus-code-table-tab" aria-selected="false">VirtualHome</button>
-                    </li>
-                </ul>
-                <div class="tab-content" id="myTabContent">
-                    <div class="tab-pane fade show active" id="benchmark-table-content" role="tabpanel"
-                        aria-labelledby="benchmark-table-content">
-                        <div id="behavior-benchmark-main-table"></div>
-                    </div>
-                    <div class="tab-pane fade" id="eurus-code-table-content" role="tabpanel"
-                        aria-labelledby="eurus-code-table-content">
-                        <div id="virtualhome-benchmark-main-table"></div>
-                    </div>
-                </div>
-                <br>
-
-                <h2 class="title is-2" style="text-align: center;">Empirical Findings</h2>
-                    <div class="content has-text-justified">
-                        <ol>
-                            <li><strong>Goal Interpretation:</strong>
-                                <ul>
-                                    <li>LLMs struggle to translate natural language instructions into grounded states.</li>
-                                    <li>Common errors include generating intermediate goals and omitting spatial relationship goals.</li>
-                                    <li>Gemini 1.5 Pro has the highest goal interpretation performance, while Claude-3 Opus excels in goal retrieval rate.</li>
-                                    <li>Proprietary LLMs make fewer grammar errors compared to open-source LLMs.</li>
-                                </ul>
-
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="goal_interpretation_table">
-                                        <span>View full results of goal interpretation</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="goal_interpretation_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="goal_interpretation" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> All goal evaluation results (%) for goal interpretation
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="4" style="width: 15%;">Model Name</th>
-                                                    <th colspan="24" style="text-align: center; background-color: #EED3D9; width: 85%;">Goal Interpretation</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="6" style="text-align: center;">State</th>
-                                                    <th colspan="6" style="text-align: center;">Spatial</th>
-                                                    <th colspan="6" style="text-align: center;">Action</th>
-                                                    <th colspan="6" style="text-align: center;">Overall</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" style="text-align: center;">Precision</th>
-                                                    <th colspan="2" style="text-align: center;">Recall</th>
-                                                    <th colspan="2" style="text-align: center;">F1</th>
-                                                    <th colspan="2" style="text-align: center;">Precision</th>
-                                                    <th colspan="2" style="text-align: center;">Recall</th>
-                                                    <th colspan="2" style="text-align: center;">F1</th>
-                                                    <th colspan="2" style="text-align: center;">Precision</th>
-                                                    <th colspan="2" style="text-align: center;">Recall</th>
-                                                    <th colspan="2" style="text-align: center;">F1</th>
-                                                    <th colspan="2" style="text-align: center;">Precision</th>
-                                                    <th colspan="2" style="text-align: center;">Recall</th>
-                                                    <th colspan="2" style="text-align: center;">F1</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td>21.8</td>
-                                                    <td>22.8</td>
-                                                    <td>58.9</td>
-                                                    <td>93.5</td>
-                                                    <td>31.8</td>
-                                                    <td>36.7</td>
-                                                    <td>24.2</td>
-                                                    <td>64.5</td>
-                                                    <td>50.8</td>
-                                                    <td>64.6</td>
-                                                    <td>32.8</td>
-                                                    <td>64.6</td>
-                                                    <td>12.2</td>
-                                                    <td>-</td>
-                                                    <td><b>95.7</b></td>
-                                                    <td>-</td>
-                                                    <td>21.6</td>
-                                                    <td>-</td>
-                                                    <td>18.0</td>
-                                                    <td>41.5</td>
-                                                    <td>63.2</td>
-                                                    <td>71.2</td>
-                                                    <td>28.0</td>
-                                                    <td>52.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td>23.3</td>
-                                                    <td>36.8</td>
-                                                    <td>57.1</td>
-                                                    <td>88.9</td>
-                                                    <td>33.1</td>
-                                                    <td>52.0</td>
-                                                    <td>26.6</td>
-                                                    <td>76.2</td>
-                                                    <td>53.0</td>
-                                                    <td>79.8</td>
-                                                    <td>35.5</td>
-                                                    <td>77.9</td>
-                                                    <td>12.4</td>
-                                                    <td>-</td>
-                                                    <td>85.8</td>
-                                                    <td>-</td>
-                                                    <td>21.7</td>
-                                                    <td>-</td>
-                                                    <td>19.3</td>
-                                                    <td>60.2</td>
-                                                    <td>61.5</td>
-                                                    <td>81.9</td>
-                                                    <td>29.4</td>
-                                                    <td>69.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td>27.0</td>
-                                                    <td>72.6</td>
-                                                    <td>66.9</td>
-                                                    <td>93.5</td>
-                                                    <td>38.5</td>
-                                                    <td>81.7</td>
-                                                    <td>22.6</td>
-                                                    <td>75.2</td>
-                                                    <td>46.8</td>
-                                                    <td>79.2</td>
-                                                    <td>30.5</td>
-                                                    <td>77.1</td>
-                                                    <td>14.5</td>
-                                                    <td>-</td>
-                                                    <td>92.6</td>
-                                                    <td>-</td>
-                                                    <td>25.1</td>
-                                                    <td>-</td>
-                                                    <td>20.7</td>
-                                                    <td>72.2</td>
-                                                    <td>65.0</td>
-                                                    <td>82.5</td>
-                                                    <td>31.4</td>
-                                                    <td>77.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td>25.3</td>
-                                                    <td>74.0</td>
-                                                    <td>60.9</td>
-                                                    <td>94.8</td>
-                                                    <td>35.8</td>
-                                                    <td>83.1</td>
-                                                    <td>31.1</td>
-                                                    <td><b>84.4</b></td>
-                                                    <td><b>63.8</b></td>
-                                                    <td>81.3</td>
-                                                    <td>41.8</td>
-                                                    <td><b>82.9</b></td>
-                                                    <td>14.0</td>
-                                                    <td>-</td>
-                                                    <td><b>98.8</b></td>
-                                                    <td>-</td>
-                                                    <td>24.5</td>
-                                                    <td>-</td>
-                                                    <td>21.7</td>
-                                                    <td><b>81.1</b></td>
-                                                    <td><b>69.6</b></td>
-                                                    <td>84.4</td>
-                                                    <td>33.0</td>
-                                                    <td><b>82.7</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td><b>51.1</b></td>
-                                                    <td>7.7</td>
-                                                    <td><b>69.6</b></td>
-                                                    <td>31.4</td>
-                                                    <td><b>58.9</b></td>
-                                                    <td>12.4</td>
-                                                    <td>34.5</td>
-                                                    <td>56.8</td>
-                                                    <td>21.3</td>
-                                                    <td>55.0</td>
-                                                    <td>26.3</td>
-                                                    <td>55.9</td>
-                                                    <td>3.6</td>
-                                                    <td>-</td>
-                                                    <td>38.9</td>
-                                                    <td>-</td>
-                                                    <td>6.5</td>
-                                                    <td>-</td>
-                                                    <td>27.4</td>
-                                                    <td>28.2</td>
-                                                    <td>55.7</td>
-                                                    <td>49.6</td>
-                                                    <td>36.7</td>
-                                                    <td>36.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td>20.9</td>
-                                                    <td>23.3</td>
-                                                    <td>52.0</td>
-                                                    <td>79.1</td>
-                                                    <td>29.8</td>
-                                                    <td>36.0</td>
-                                                    <td>17.9</td>
-                                                    <td>66.7</td>
-                                                    <td>15.2</td>
-                                                    <td>61.5</td>
-                                                    <td>16.4</td>
-                                                    <td>64.0</td>
-                                                    <td>10.4</td>
-                                                    <td>-</td>
-                                                    <td>82.6</td>
-                                                    <td>-</td>
-                                                    <td>18.5</td>
-                                                    <td>-</td>
-                                                    <td>14.9</td>
-                                                    <td>42.0</td>
-                                                    <td>44.5</td>
-                                                    <td>65.5</td>
-                                                    <td>22.4</td>
-                                                    <td>51.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td>25.3</td>
-                                                    <td>27.4</td>
-                                                    <td>57.9</td>
-                                                    <td>81.1</td>
-                                                    <td>34.9</td>
-                                                    <td>41.0</td>
-                                                    <td>17.0</td>
-                                                    <td>75.2</td>
-                                                    <td>20.6</td>
-                                                    <td>70.4</td>
-                                                    <td>18.6</td>
-                                                    <td>72.7</td>
-                                                    <td>9.9</td>
-                                                    <td>-</td>
-                                                    <td>68.7</td>
-                                                    <td>-</td>
-                                                    <td>17.2</td>
-                                                    <td>-</td>
-                                                    <td>16.2</td>
-                                                    <td>51.0</td>
-                                                    <td>45.2</td>
-                                                    <td>72.8</td>
-                                                    <td>23.8</td>
-                                                    <td>60.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td>23.6</td>
-                                                    <td>55.8</td>
-                                                    <td>57.9</td>
-                                                    <td>94.1</td>
-                                                    <td>33.5</td>
-                                                    <td>70.1</td>
-                                                    <td>19.8</td>
-                                                    <td>76.6</td>
-                                                    <td>21.1</td>
-                                                    <td>76.7</td>
-                                                    <td>20.5</td>
-                                                    <td>76.7</td>
-                                                    <td>13.5</td>
-                                                    <td>-</td>
-                                                    <td>90.1</td>
-                                                    <td>-</td>
-                                                    <td>23.5</td>
-                                                    <td>-</td>
-                                                    <td>18.2</td>
-                                                    <td>69.7</td>
-                                                    <td>50.8</td>
-                                                    <td>80.7</td>
-                                                    <td>26.8</td>
-                                                    <td>74.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td>45.4</td>
-                                                    <td><b>94.0</b></td>
-                                                    <td>49.1</td>
-                                                    <td>92.8</td>
-                                                    <td>47.2</td>
-                                                    <td><b>93.4</b></td>
-                                                    <td>40.0</td>
-                                                    <td>74.4</td>
-                                                    <td>9.7</td>
-                                                    <td>76.7</td>
-                                                    <td>15.6</td>
-                                                    <td>75.6</td>
-                                                    <td><b>26.8</b></td>
-                                                    <td>-</td>
-                                                    <td>80.9</td>
-                                                    <td>-</td>
-                                                    <td><b>40.3</b></td>
-                                                    <td>-</td>
-                                                    <td><b>35.2</b></td>
-                                                    <td>78.8</td>
-                                                    <td>41.1</td>
-                                                    <td>80.4</td>
-                                                    <td>37.9</td>
-                                                    <td>79.6</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td>22.4</td>
-                                                    <td>52.0</td>
-                                                    <td>50.0</td>
-                                                    <td>66.7</td>
-                                                    <td>30.9</td>
-                                                    <td>58.5</td>
-                                                    <td>8.5</td>
-                                                    <td>51.5</td>
-                                                    <td>18.8</td>
-                                                    <td>46.9</td>
-                                                    <td>11.7</td>
-                                                    <td>49.1</td>
-                                                    <td>15.2</td>
-                                                    <td>-</td>
-                                                    <td>60.5</td>
-                                                    <td>-</td>
-                                                    <td>24.4</td>
-                                                    <td>-</td>
-                                                    <td>15.7</td>
-                                                    <td>49.5</td>
-                                                    <td>40.5</td>
-                                                    <td>51.4</td>
-                                                    <td>22.7</td>
-                                                    <td>50.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td>28.6</td>
-                                                    <td>70.4</td>
-                                                    <td>58.5</td>
-                                                    <td>86.9</td>
-                                                    <td>38.4</td>
-                                                    <td>77.8</td>
-                                                    <td>24.7</td>
-                                                    <td>77.5</td>
-                                                    <td>32.9</td>
-                                                    <td>76.4</td>
-                                                    <td>28.2</td>
-                                                    <td>76.9</td>
-                                                    <td>19.0</td>
-                                                    <td>-</td>
-                                                    <td>82.1</td>
-                                                    <td>-</td>
-                                                    <td>30.9</td>
-                                                    <td>-</td>
-                                                    <td>24.0</td>
-                                                    <td>75.6</td>
-                                                    <td>53.8</td>
-                                                    <td>78.8</td>
-                                                    <td>33.2</td>
-                                                    <td>77.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td>29.0</td>
-                                                    <td>67.1</td>
-                                                    <td>60.0</td>
-                                                    <td>94.8</td>
-                                                    <td>39.1</td>
-                                                    <td>78.6</td>
-                                                    <td>31.5</td>
-                                                    <td>81.1</td>
-                                                    <td>43.6</td>
-                                                    <td>78.5</td>
-                                                    <td>36.6</td>
-                                                    <td>79.8</td>
-                                                    <td>20.5</td>
-                                                    <td>-</td>
-                                                    <td>85.8</td>
-                                                    <td>-</td>
-                                                    <td>33.1</td>
-                                                    <td>-</td>
-                                                    <td>26.4</td>
-                                                    <td>76.5</td>
-                                                    <td>59.1</td>
-                                                    <td>82.2</td>
-                                                    <td>36.5</td>
-                                                    <td>79.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8B Instruct</td>
-                                                    <td>21.7</td>
-                                                    <td>17.3</td>
-                                                    <td>54.4</td>
-                                                    <td>80.4</td>
-                                                    <td>31.0</td>
-                                                    <td>28.4</td>
-                                                    <td>14.0</td>
-                                                    <td>51.4</td>
-                                                    <td>7.4</td>
-                                                    <td>20.8</td>
-                                                    <td>9.7</td>
-                                                    <td>29.6</td>
-                                                    <td>11.1</td>
-                                                    <td>-</td>
-                                                    <td>79.4</td>
-                                                    <td>-</td>
-                                                    <td>19.4</td>
-                                                    <td>-</td>
-                                                    <td>15.5</td>
-                                                    <td>24.1</td>
-                                                    <td>41.9</td>
-                                                    <td>34.3</td>
-                                                    <td>22.6</td>
-                                                    <td>28.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70B Instruct</td>
-                                                    <td>23.9</td>
-                                                    <td>69.5</td>
-                                                    <td>61.2</td>
-                                                    <td><b>95.4</b></td>
-                                                    <td>34.3</td>
-                                                    <td>80.4</td>
-                                                    <td>22.6</td>
-                                                    <td>70.0</td>
-                                                    <td>37.5</td>
-                                                    <td>73.3</td>
-                                                    <td>28.2</td>
-                                                    <td>71.6</td>
-                                                    <td>11.2</td>
-                                                    <td>-</td>
-                                                    <td>88.8</td>
-                                                    <td>-</td>
-                                                    <td>19.8</td>
-                                                    <td>-</td>
-                                                    <td>17.5</td>
-                                                    <td>64.7</td>
-                                                    <td>58.0</td>
-                                                    <td>78.3</td>
-                                                    <td>26.9</td>
-                                                    <td>70.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td>23.6</td>
-                                                    <td>63.5</td>
-                                                    <td>59.1</td>
-                                                    <td>92.2</td>
-                                                    <td>32.8</td>
-                                                    <td>75.2</td>
-                                                    <td>23.7</td>
-                                                    <td>75.1</td>
-                                                    <td>40.3</td>
-                                                    <td>76.2</td>
-                                                    <td>29.8</td>
-                                                    <td>75.6</td>
-                                                    <td>11.2</td>
-                                                    <td>-</td>
-                                                    <td>84.0</td>
-                                                    <td>-</td>
-                                                    <td>19.7</td>
-                                                    <td>-</td>
-                                                    <td>17.5</td>
-                                                    <td>69.6</td>
-                                                    <td>57.1</td>
-                                                    <td>79.8</td>
-                                                    <td>26.8</td>
-                                                    <td>74.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td>23.6</td>
-                                                    <td>22.9</td>
-                                                    <td>56.9</td>
-                                                    <td>83.7</td>
-                                                    <td>33.4</td>
-                                                    <td>36.0</td>
-                                                    <td>22.2</td>
-                                                    <td>70.7</td>
-                                                    <td>36.3</td>
-                                                    <td>67.7</td>
-                                                    <td>27.5</td>
-                                                    <td>69.2</td>
-                                                    <td>11.2</td>
-                                                    <td>-</td>
-                                                    <td>94.8</td>
-                                                    <td>-</td>
-                                                    <td>20.0</td>
-                                                    <td>-</td>
-                                                    <td>17.4</td>
-                                                    <td>44.4</td>
-                                                    <td>56.2</td>
-                                                    <td>71.3</td>
-                                                    <td>26.6</td>
-                                                    <td>54.7</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td>26.3</td>
-                                                    <td>63.8</td>
-                                                    <td>58.6</td>
-                                                    <td>90.8</td>
-                                                    <td>36.3</td>
-                                                    <td>74.9</td>
-                                                    <td>30.4</td>
-                                                    <td>77.3</td>
-                                                    <td>39.9</td>
-                                                    <td>76.5</td>
-                                                    <td>34.5</td>
-                                                    <td>76.9</td>
-                                                    <td>13.5</td>
-                                                    <td>-</td>
-                                                    <td>56.8</td>
-                                                    <td>-</td>
-                                                    <td>21.8</td>
-                                                    <td>-</td>
-                                                    <td>22.4</td>
-                                                    <td>73.3</td>
-                                                    <td>51.3</td>
-                                                    <td>79.8</td>
-                                                    <td>31.2</td>
-                                                    <td>76.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td>28.2</td>
-                                                    <td>66.8</td>
-                                                    <td>60.3</td>
-                                                    <td>94.8</td>
-                                                    <td>38.5</td>
-                                                    <td>78.4</td>
-                                                    <td><b>44.9</b></td>
-                                                    <td>82.9</td>
-                                                    <td>62.4</td>
-                                                    <td><b>82.7</b></td>
-                                                    <td><b>52.2</b></td>
-                                                    <td>82.8</td>
-                                                    <td>26.0</td>
-                                                    <td>-</td>
-                                                    <td>81.5</td>
-                                                    <td>-</td>
-                                                    <td>39.5</td>
-                                                    <td>-</td>
-                                                    <td>31.8</td>
-                                                    <td>78.1</td>
-                                                    <td>65.4</td>
-                                                    <td><b>85.4</b></td>
-                                                    <td><b>42.7</b></td>
-                                                    <td>81.6</td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        
-                                    </div>
-
-                                </div>
-                                <br>
-                            </li>
-                            <li><strong>Action Sequencing:</strong>
-                                <ul>
-                                    <li>Reasoning ability is crucial for LLMs; trajectory feasibility errors are common (41.2%).</li>
-                                    <li>o1-preview has the highest task (81.0%) and execution success rates (91.0%) in BEHAVIOR. Mistral Large (73.4%) and Gemini 1.5 Pro (73.1%) outperform it in VirtualHome.</li>
-                                    <li>SOTA LLMs make fewer grammar errors. For example, Claude-3 Opus makes no errors, while GPT-3.5-turbo has a 4.0% error rate in BEHAVIOR.</li>
-                                    <li>Common runtime errors include missing steps and wrong order. In BEHAVIOR, GPT-4o encounters 36.0% missing step errors and 9.0% wrong order errors.</li>
-                                    <li>LLMs perform better with state goals than relation goals, but struggle with complex action goals. GPT-4o achieves 82.0% success in state goals and 67.8% in relation goals in VirtualHome.</li>
-                                    <li>Task complexity, such as the number of goals and action sequence length, lowers success rates. In BEHAVIOR, tasks with more than 10 goals have a success rate below 40%.</li>
-                                </ul>                                
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="action_seq_traj_table">
-                                        <span>View full trajectory evaluation results of action sequencing</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="action_seq_traj_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="action_seq_traj" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Trajectory evaluation results (%) for <i>action sequencing</i>.
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="4" style="width: 15%;">Model Name</th>
-                                                    <th colspan="2" style="text-align: center; background-color: #E2E6E1;">Goal Evaluation</th>
-                                                    <th colspan="16" style="text-align: center; background-color: #F9F2EB;">Trajectory Evaluation</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Goal SR</th>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Execution SR</th>
-                                                    <th colspan="6" style="text-align: center;">Grammar Error (↓)</th>
-                                                    <th colspan="8" style="text-align: center;">Runtime Error (↓)</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" style="text-align: center;">Parsing</th>
-                                                    <th colspan="2" style="text-align: center;">Hallucination</th>
-                                                    <th colspan="2" style="text-align: center;">Action-Arg Num</th>
-                                                    <th colspan="2" style="text-align: center;">Wrong Order</th>
-                                                    <th colspan="2" style="text-align: center;">Missing Step</th>
-                                                    <th colspan="2" style="text-align: center;">Affordance</th>
-                                                    <th colspan="2" style="text-align: center;">Additional Step</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">43.3</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">48.5</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">4.9</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">43.3</td>
-                                                    <td style="text-align: center;">54.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">62.9</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">67.2</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.6</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;">7.9</td>
-                                                    <td style="text-align: center;">2.3</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">22.9</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">66.2</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">70.8</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">14.1</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">14.1</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">6.2</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">72.8</td>
-                                                    <td style="text-align: center;">60.0</td>
-                                                    <td style="text-align: center;">75.4</td>
-                                                    <td style="text-align: center;">69.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">19.7</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.2</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">34.4</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">45.9</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">9.2</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">2.6</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">7.2</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">61.9</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">67.2</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">29.8</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">4.3</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">73.1</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">83.3</td>
-                                                    <td style="text-align: center;">54.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">13.1</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">14.7</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">31.8</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">35.1</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">23.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">28.2</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">65.6</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">32.1</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">61.6</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">71.1</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.3</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">25.2</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">4.9</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">24.6</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">37.7</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">29.8</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">25.2</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;">4.3</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">63.3</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">70.2</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.6</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">22.6</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.9</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;"><b>73.4</b></td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;"><b>83.6</b></td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">12.8</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">4.9</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">46.2</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">49.5</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">13.1</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">34.7</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">1.3</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8B</td>
-                                                    <td style="text-align: center;">21.6</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">25.9</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">41.6</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">31.1</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;"><b>0.3</b></td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70B</td>
-                                                    <td style="text-align: center;">55.7</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">63.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">23.3</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;"><b>7.9</b></td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">7.9</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">65.9</td>
-                                                    <td style="text-align: center;">56.0</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                    <td style="text-align: center;">65.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.2</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">21.6</td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">5.9</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;">71.1</td>
-                                                    <td style="text-align: center;"><b>81.0</b></td>
-                                                    <td style="text-align: center;">78.4</td>
-                                                    <td style="text-align: center;"><b>91.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">8.2</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">34.1</td>
-                                                    <td style="text-align: center;"><b>6.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">8.9</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        
-                                    </div>
-                                </div>
-                                <br>
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="action_seq_subgoal_goal_table">
-                                        <span>View full goal success results of action sequencing and subgoal decomposition</span>
-                                        <span class="icon is-small">
-                                        <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="action_seq_subgoal_goal_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="action_subgoal_goal_success" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> All goal success results (%) for action sequencing and subgoal decomposition.
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="3" style="width: 15%;">Model Name</th>
-                                                    <th colspan="8" style="text-align: center; background-color: #E2E6E1;">Action Sequencing</th>
-                                                    <th colspan="8" style="text-align: center; background-color: #F9F2EB;">Subgoal Decomposition</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" style="text-align: center;">State Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Relation Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Action Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Total</th>
-                                                    <th colspan="2" style="text-align: center;">State Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Relation Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Action Goal</th>
-                                                    <th colspan="2" style="text-align: center;">Total</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">58.6</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">47.2</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">33.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;">35.5</td>
-                                                    <td style="text-align: center;">89.4</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">82.2</td>
-                                                    <td style="text-align: center;">34.8</td>
-                                                    <td style="text-align: center;">71.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">83.1</td>
-                                                    <td style="text-align: center;">32.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">80.9</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">73.3</td>
-                                                    <td style="text-align: center;">59.8</td>
-                                                    <td style="text-align: center;">48.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">70.8</td>
-                                                    <td style="text-align: center;">54.6</td>
-                                                    <td style="text-align: center;">89.1</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;"><b>89.3</b></td>
-                                                    <td style="text-align: center;">49.8</td>
-                                                    <td style="text-align: center;">83.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">88.0</td>
-                                                    <td style="text-align: center;">46.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">64.7</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;"><b>79.4</b></td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;">57.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.3</td>
-                                                    <td style="text-align: center;">50.8</td>
-                                                    <td style="text-align: center;">92.4</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;">88.6</td>
-                                                    <td style="text-align: center;">41.6</td>
-                                                    <td style="text-align: center;">83.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">89.1</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">81.3</td>
-                                                    <td style="text-align: center;">63.0</td>
-                                                    <td style="text-align: center;"><b>79.4</b></td>
-                                                    <td style="text-align: center;">62.4</td>
-                                                    <td style="text-align: center;">57.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">74.9</td>
-                                                    <td style="text-align: center;">62.6</td>
-                                                    <td style="text-align: center;">92.9</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">88.6</td>
-                                                    <td style="text-align: center;">39.5</td>
-                                                    <td style="text-align: center;">87.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">90.1</td>
-                                                    <td style="text-align: center;">39.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">52.2</td>
-                                                    <td style="text-align: center;">28.0</td>
-                                                    <td style="text-align: center;">36.1</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">42.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">30.9</td>
-                                                    <td style="text-align: center;">84.4</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">61.5</td>
-                                                    <td style="text-align: center;">31.1</td>
-                                                    <td style="text-align: center;">72.8</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">73.5</td>
-                                                    <td style="text-align: center;">29.7</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">79.5</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">65.5</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">48.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.7</td>
-                                                    <td style="text-align: center;">45.6</td>
-                                                    <td style="text-align: center;"><b>93.5</b></td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">88.3</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">92.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;"><b>91.3</b></td>
-                                                    <td style="text-align: center;">38.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">81.7</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">77.2</td>
-                                                    <td style="text-align: center;">43.2</td>
-                                                    <td style="text-align: center;">68.2</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">77.1</td>
-                                                    <td style="text-align: center;">42.6</td>
-                                                    <td style="text-align: center;">91.2</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">72.5</td>
-                                                    <td style="text-align: center;">37.1</td>
-                                                    <td style="text-align: center;">89.5</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">83.9</td>
-                                                    <td style="text-align: center;">35.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">29.5</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">18.3</td>
-                                                    <td style="text-align: center;">22.6</td>
-                                                    <td style="text-align: center;">23.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">24.8</td>
-                                                    <td style="text-align: center;">21.9</td>
-                                                    <td style="text-align: center;">84.7</td>
-                                                    <td style="text-align: center;">28.0</td>
-                                                    <td style="text-align: center;">54.4</td>
-                                                    <td style="text-align: center;">28.5</td>
-                                                    <td style="text-align: center;">64.8</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">69.4</td>
-                                                    <td style="text-align: center;">28.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">74.1</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">73.3</td>
-                                                    <td style="text-align: center;">39.5</td>
-                                                    <td style="text-align: center;">47.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.3</td>
-                                                    <td style="text-align: center;">39.3</td>
-                                                    <td style="text-align: center;"><b>93.5</b></td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">84.2</td>
-                                                    <td style="text-align: center;">46.1</td>
-                                                    <td style="text-align: center;">90.7</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">89.5</td>
-                                                    <td style="text-align: center;">45.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">82.0</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;">67.8</td>
-                                                    <td style="text-align: center;">45.5</td>
-                                                    <td style="text-align: center;">57.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">71.8</td>
-                                                    <td style="text-align: center;">46.5</td>
-                                                    <td style="text-align: center;">92.1</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">84.2</td>
-                                                    <td style="text-align: center;">53.2</td>
-                                                    <td style="text-align: center;"><b>93.2</b></td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">89.4</td>
-                                                    <td style="text-align: center;">52.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">24.1</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">25.9</td>
-                                                    <td style="text-align: center;">37.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">24.3</td>
-                                                    <td style="text-align: center;">85.3</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">67.4</td>
-                                                    <td style="text-align: center;">21.4</td>
-                                                    <td style="text-align: center;">60.5</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">73.6</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">71.2</td>
-                                                    <td style="text-align: center;">28.0</td>
-                                                    <td style="text-align: center;">63.9</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">60.2</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">66.3</td>
-                                                    <td style="text-align: center;">30.9</td>
-                                                    <td style="text-align: center;">89.4</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">66.8</td>
-                                                    <td style="text-align: center;">29.6</td>
-                                                    <td style="text-align: center;">75.9</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">78.3</td>
-                                                    <td style="text-align: center;">30.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">81.3</td>
-                                                    <td style="text-align: center;">38.5</td>
-                                                    <td style="text-align: center;">77.8</td>
-                                                    <td style="text-align: center;">41.2</td>
-                                                    <td style="text-align: center;"><b>75.0</b></td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;"><b>78.7</b></td>
-                                                    <td style="text-align: center;">40.4</td>
-                                                    <td style="text-align: center;">92.9</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">71.5</td>
-                                                    <td style="text-align: center;">35.6</td>
-                                                    <td style="text-align: center;">90.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">84.4</td>
-                                                    <td style="text-align: center;">34.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">48.9</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">56.1</td>
-                                                    <td style="text-align: center;">36.8</td>
-                                                    <td style="text-align: center;">37.2</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">48.2</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">92.1</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">74.8</td>
-                                                    <td style="text-align: center;">34.1</td>
-                                                    <td style="text-align: center;">87.7</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">84.8</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8B</td>
-                                                    <td style="text-align: center;">26.3</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">26.1</td>
-                                                    <td style="text-align: center;">23.7</td>
-                                                    <td style="text-align: center;">10.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">22.2</td>
-                                                    <td style="text-align: center;">21.6</td>
-                                                    <td style="text-align: center;">68.8</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">54.7</td>
-                                                    <td style="text-align: center;">23.6</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">59.8</td>
-                                                    <td style="text-align: center;">22.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70B</td>
-                                                    <td style="text-align: center;">42.8</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">64.4</td>
-                                                    <td style="text-align: center;">45.5</td>
-                                                    <td style="text-align: center;">53.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">51.8</td>
-                                                    <td style="text-align: center;">41.5</td>
-                                                    <td style="text-align: center;">93.2</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">63.4</td>
-                                                    <td style="text-align: center;">27.7</td>
-                                                    <td style="text-align: center;">82.7</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">80.0</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">75.2</td>
-                                                    <td style="text-align: center;">64.0</td>
-                                                    <td style="text-align: center;">68.3</td>
-                                                    <td style="text-align: center;">66.9</td>
-                                                    <td style="text-align: center;">51.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.3</td>
-                                                    <td style="text-align: center;">66.1</td>
-                                                    <td style="text-align: center;">89.7</td>
-                                                    <td style="text-align: center;">28.0</td>
-                                                    <td style="text-align: center;">68.8</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">81.5</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">80.3</td>
-                                                    <td style="text-align: center;">35.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;"><b>86.0</b></td>
-                                                    <td style="text-align: center;"><b>89.5</b></td>
-                                                    <td style="text-align: center;">71.1</td>
-                                                    <td style="text-align: center;"><b>84.4</b></td>
-                                                    <td style="text-align: center;">56.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">74.3</td>
-                                                    <td style="text-align: center;"><b>85.8</b></td>
-                                                    <td style="text-align: center;">91.8</td>
-                                                    <td style="text-align: center;"><b>56.5</b></td>
-                                                    <td style="text-align: center;">88.3</td>
-                                                    <td style="text-align: center;"><b>69.4</b></td>
-                                                    <td style="text-align: center;">92.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">90.6</td>
-                                                    <td style="text-align: center;"><b>65.9</b></td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        
-                                    </div>
-                                </div>
-                                <br>
-                            </li>
-
-                            <li><strong>Subgoal Decomposition:</strong>
-                                <ul>
-                                    <li>Subgoal decomposition is not easier than action sequencing in abstract action spaces.</li>
-                                    <li>o1-preview shows superior performance in VirtualHome (89.4%) and BEHAVIOR (57.0%). Gemini 1.5 Flash also performs well in VirtualHome (89.1%).</li>
-                                    <li>SOTA models avoid grammar errors but can hallucinate actions (e.g., GPT-4o adds "POUR" in VirtualHome).</li>
-                                    <li>Common runtime errors: extra steps in VirtualHome, missing steps in BEHAVIOR.</li>
-                                    <li>LLMs like o1-preview are more accurate in action goals in VirtualHome; state and relation goals in BEHAVIOR are more difficult due to stricter precondition checks.</li>
-                                    <li>Performance is lower in BEHAVIOR due to complex task representations with quantifiers like "forall" and "forpairs."</li>
-                                </ul>                                
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="subgoal_traj_table">
-                                        <span>View full trajectory evaluation results of subgoal decomposition</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="subgoal_traj_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="subgoal_decomposition" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> All trajectory evaluation results (%) for subgoal decomposition.
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="4" style="width: 15%;">Model Name</th>
-                                                    <th colspan="2" style="text-align: center; background-color: #E2E6E1;">Goal Evaluation</th>
-                                                    <th colspan="16" style="text-align: center; background-color: #F9F2EB;">Trajectory Evaluation</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Goal SR</th>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Execution SR</th>
-                                                    <th colspan="6" style="text-align: center;">Grammar Error (↓)</th>
-                                                    <th colspan="8" style="text-align: center;">Runtime Error (↓)</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" style="text-align: center;">Parsing</th>
-                                                    <th colspan="2" style="text-align: center;">Hallucination</th>
-                                                    <th colspan="2" style="text-align: center;">Action-Arg Num</th>
-                                                    <th colspan="2" style="text-align: center;">Wrong Order</th>
-                                                    <th colspan="2" style="text-align: center;">Missing Step</th>
-                                                    <th colspan="2" style="text-align: center;">Affordance</th>
-                                                    <th colspan="2" style="text-align: center;">Additional Step</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">78.4</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">82.8</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">58.0</td>
-                                                    <td style="text-align: center;">8.3</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">20.4</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">83.1</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">86.4</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">8.6</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">33.7</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">87.0</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">90.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.2</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">89.1</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">92.0</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">2.1</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">24.6</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">70.4</td>
-                                                    <td style="text-align: center;">24.0</td>
-                                                    <td style="text-align: center;">84.6</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.2</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">5.3</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;"><b>10.4</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">89.1</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;"><b>94.1</b></td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.9</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">13.3</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">87.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">91.1</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">5.6</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">69.2</td>
-                                                    <td style="text-align: center;">24.0</td>
-                                                    <td style="text-align: center;">81.4</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">11.8</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">20.4</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">85.5</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;"><b>94.1</b></td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;"><b>2.4</b></td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">22.2</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">88.8</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;">90.2</td>
-                                                    <td style="text-align: center;">55.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">6.2</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.2</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;"><b>2.4</b></td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">15.7</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">71.3</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">79.6</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">2.1</td>
-                                                    <td style="text-align: center;">23.0</td>
-                                                    <td style="text-align: center;">3.9</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">0.9</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">6.2</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">5.9</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">14.5</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">79.0</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">83.7</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">4.5</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">2.1</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.9</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">7.7</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">84.3</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">92.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.1</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">80.5</td>
-                                                    <td style="text-align: center;">28.0</td>
-                                                    <td style="text-align: center;">90.2</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.9</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">11.2</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8B</td>
-                                                    <td style="text-align: center;">48.8</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">58.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">6.8</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">26.6</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">18.3</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70B</td>
-                                                    <td style="text-align: center;">78.4</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">87.3</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">0.9</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">5.3</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">1.8</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">20.4</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">79.3</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">84.6</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">8.9</td>
-                                                    <td style="text-align: center;">46.0</td>
-                                                    <td style="text-align: center;">4.1</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">21.9</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;"><b>89.4</b></td>
-                                                    <td style="text-align: center;"><b>57.0</b></td>
-                                                    <td style="text-align: center;">93.2</td>
-                                                    <td style="text-align: center;"><b>62.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;"><b>25.0</b></td>
-                                                    <td style="text-align: center;">2.4</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">12.1</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        
-                                    </div>
-                                </div>
-                                <br>
-                            </li>
-
-                            
-                            
-                            <li><strong>Transition Modeling:</strong>
-                                <ul>
-                                    <li>Models excel in specific categories like object states and orientation.</li>
-                                    <li>Non-spatial relations consistently pose a challenge.</li>
-                                    <li>Planning effectiveness relies on consistency in predicted action space.</li>
-                                </ul>
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="transition_table_vh">
-                                        <span>View results of logic form accuracy for transition modeling</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="transition_table_vh" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="vh_logical_matching_score" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Full results of logic form accuracy for <em>transition modeling</em> in VHO
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="2" style="width: 15%;">Model</th>
-                                                    <th colspan="3" style="text-align: center;">Object States</th>
-                                                    <th colspan="3" style="text-align: center;">Object Orientation</th>
-                                                    <th colspan="3" style="text-align: center;">Object Affordance</th>
-                                                    <th colspan="3" style="text-align: center;">Spatial Relations</th>
-                                                    <th colspan="3" style="text-align: center;">Non-Spatial Relations</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">76.0</td>
-                                                    <td style="text-align: center;">40.1</td>
-                                                    <td style="text-align: center;">52.5</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">34.4</td>
-                                                    <td style="text-align: center;">24.4</td>
-                                                    <td style="text-align: center;">67.8</td>
-                                                    <td style="text-align: center;">73.9</td>
-                                                    <td style="text-align: center;">70.7</td>
-                                                    <td style="text-align: center;">37.7</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">38.2</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.5</td>
-                                                    <td style="text-align: center;">1.7</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;"><b>87.4</b></td>
-                                                    <td style="text-align: center;"><b>49.2</b></td>
-                                                    <td style="text-align: center;"><b>63.0</b></td>
-                                                    <td style="text-align: center;">46.3</td>
-                                                    <td style="text-align: center;"><b>96.9</b></td>
-                                                    <td style="text-align: center;">62.6</td>
-                                                    <td style="text-align: center;">76.8</td>
-                                                    <td style="text-align: center;">74.3</td>
-                                                    <td style="text-align: center;">75.5</td>
-                                                    <td style="text-align: center;">37.6</td>
-                                                    <td style="text-align: center;">39.9</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">10.4</td>
-                                                    <td style="text-align: center;"><b>5.2</b></td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">76.6</td>
-                                                    <td style="text-align: center;">37.4</td>
-                                                    <td style="text-align: center;">50.3</td>
-                                                    <td style="text-align: center;">48.1</td>
-                                                    <td style="text-align: center;">78.1</td>
-                                                    <td style="text-align: center;">59.5</td>
-                                                    <td style="text-align: center;">60.7</td>
-                                                    <td style="text-align: center;">74.3</td>
-                                                    <td style="text-align: center;">66.8</td>
-                                                    <td style="text-align: center;">32.3</td>
-                                                    <td style="text-align: center;">39.9</td>
-                                                    <td style="text-align: center;">35.7</td>
-                                                    <td style="text-align: center;">6.2</td>
-                                                    <td style="text-align: center;">4.1</td>
-                                                    <td style="text-align: center;">4.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">86.1</td>
-                                                    <td style="text-align: center;">46.7</td>
-                                                    <td style="text-align: center;">60.5</td>
-                                                    <td style="text-align: center;"><b>93.9</b></td>
-                                                    <td style="text-align: center;"><b>96.9</b></td>
-                                                    <td style="text-align: center;"><b>95.3</b></td>
-                                                    <td style="text-align: center;">77.7</td>
-                                                    <td style="text-align: center;"><b>75.5</b></td>
-                                                    <td style="text-align: center;">76.6</td>
-                                                    <td style="text-align: center;">45.3</td>
-                                                    <td style="text-align: center;">39.8</td>
-                                                    <td style="text-align: center;">42.4</td>
-                                                    <td style="text-align: center;">7.1</td>
-                                                    <td style="text-align: center;">5.1</td>
-                                                    <td style="text-align: center;">5.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">18.0</td>
-                                                    <td style="text-align: center;">6.8</td>
-                                                    <td style="text-align: center;">9.9</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">90.6</td>
-                                                    <td style="text-align: center;">54.2</td>
-                                                    <td style="text-align: center;">40.2</td>
-                                                    <td style="text-align: center;">23.0</td>
-                                                    <td style="text-align: center;">29.2</td>
-                                                    <td style="text-align: center;">12.6</td>
-                                                    <td style="text-align: center;">6.7</td>
-                                                    <td style="text-align: center;">8.8</td>
-                                                    <td style="text-align: center;">3.3</td>
-                                                    <td style="text-align: center;">0.9</td>
-                                                    <td style="text-align: center;">1.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">44.9</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">26.3</td>
-                                                    <td style="text-align: center;">34.6</td>
-                                                    <td style="text-align: center;">68.8</td>
-                                                    <td style="text-align: center;">45.9</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">62.1</td>
-                                                    <td style="text-align: center;">56.0</td>
-                                                    <td style="text-align: center;">30.1</td>
-                                                    <td style="text-align: center;">34.8</td>
-                                                    <td style="text-align: center;">32.4</td>
-                                                    <td style="text-align: center;">7.6</td>
-                                                    <td style="text-align: center;">3.1</td>
-                                                    <td style="text-align: center;">4.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">68.4</td>
-                                                    <td style="text-align: center;">12.3</td>
-                                                    <td style="text-align: center;">20.4</td>
-                                                    <td style="text-align: center;">16.3</td>
-                                                    <td style="text-align: center;">62.5</td>
-                                                    <td style="text-align: center;">27.9</td>
-                                                    <td style="text-align: center;">55.3</td>
-                                                    <td style="text-align: center;">20.1</td>
-                                                    <td style="text-align: center;">29.6</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">16.5</td>
-                                                    <td style="text-align: center;">24.3</td>
-                                                    <td style="text-align: center;">7.7</td>
-                                                    <td style="text-align: center;">2.5</td>
-                                                    <td style="text-align: center;">3.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">82.3</td>
-                                                    <td style="text-align: center;">37.6</td>
-                                                    <td style="text-align: center;">51.6</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.1</td>
-                                                    <td style="text-align: center;">2.5</td>
-                                                    <td style="text-align: center;">54.4</td>
-                                                    <td style="text-align: center;">74.7</td>
-                                                    <td style="text-align: center;">62.9</td>
-                                                    <td style="text-align: center;"><b>47.4</b></td>
-                                                    <td style="text-align: center;"><b>42.9</b></td>
-                                                    <td style="text-align: center;"><b>45.0</b></td>
-                                                    <td style="text-align: center;">16.3</td>
-                                                    <td style="text-align: center;"><b>5.2</b></td>
-                                                    <td style="text-align: center;">7.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">45.3</td>
-                                                    <td style="text-align: center;">11.9</td>
-                                                    <td style="text-align: center;">18.8</td>
-                                                    <td style="text-align: center;">88.2</td>
-                                                    <td style="text-align: center;">93.8</td>
-                                                    <td style="text-align: center;">90.9</td>
-                                                    <td style="text-align: center;">79.9</td>
-                                                    <td style="text-align: center;"><b>75.5</b></td>
-                                                    <td style="text-align: center;"><b>77.7</b></td>
-                                                    <td style="text-align: center;">42.2</td>
-                                                    <td style="text-align: center;">35.8</td>
-                                                    <td style="text-align: center;">38.7</td>
-                                                    <td style="text-align: center;">15.5</td>
-                                                    <td style="text-align: center;"><b>5.2</b></td>
-                                                    <td style="text-align: center;">7.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">63.5</td>
-                                                    <td style="text-align: center;">21.9</td>
-                                                    <td style="text-align: center;">32.5</td>
-                                                    <td style="text-align: center;">11.4</td>
-                                                    <td style="text-align: center;">15.6</td>
-                                                    <td style="text-align: center;">13.2</td>
-                                                    <td style="text-align: center;">57.2</td>
-                                                    <td style="text-align: center;">53.1</td>
-                                                    <td style="text-align: center;">54.9</td>
-                                                    <td style="text-align: center;">35.2</td>
-                                                    <td style="text-align: center;">21.7</td>
-                                                    <td style="text-align: center;">26.8</td>
-                                                    <td style="text-align: center;">1.7</td>
-                                                    <td style="text-align: center;">0.3</td>
-                                                    <td style="text-align: center;">0.6</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">79.3</td>
-                                                    <td style="text-align: center;">44.2</td>
-                                                    <td style="text-align: center;">56.7</td>
-                                                    <td style="text-align: center;">10.1</td>
-                                                    <td style="text-align: center;">31.3</td>
-                                                    <td style="text-align: center;">15.3</td>
-                                                    <td style="text-align: center;">65.9</td>
-                                                    <td style="text-align: center;">71.0</td>
-                                                    <td style="text-align: center;">68.4</td>
-                                                    <td style="text-align: center;">31.8</td>
-                                                    <td style="text-align: center;">34.2</td>
-                                                    <td style="text-align: center;">32.9</td>
-                                                    <td style="text-align: center;">3.8</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">80.2</td>
-                                                    <td style="text-align: center;">41.5</td>
-                                                    <td style="text-align: center;">54.6</td>
-                                                    <td style="text-align: center;">48.0</td>
-                                                    <td style="text-align: center;">59.4</td>
-                                                    <td style="text-align: center;">52.8</td>
-                                                    <td style="text-align: center;">76.2</td>
-                                                    <td style="text-align: center;">73.7</td>
-                                                    <td style="text-align: center;">74.9</td>
-                                                    <td style="text-align: center;">40.8</td>
-                                                    <td style="text-align: center;">40.7</td>
-                                                    <td style="text-align: center;">40.8</td>
-                                                    <td style="text-align: center;">14.8</td>
-                                                    <td style="text-align: center;">5.1</td>
-                                                    <td style="text-align: center;">7.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8b</td>
-                                                    <td style="text-align: center;">30.8</td>
-                                                    <td style="text-align: center;">13.7</td>
-                                                    <td style="text-align: center;">18.9</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">1.6</td>
-                                                    <td style="text-align: center;">3.2</td>
-                                                    <td style="text-align: center;">2.1</td>
-                                                    <td style="text-align: center;">15.5</td>
-                                                    <td style="text-align: center;">18.2</td>
-                                                    <td style="text-align: center;">16.8</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70b</td>
-                                                    <td style="text-align: center;">63.5</td>
-                                                    <td style="text-align: center;">21.9</td>
-                                                    <td style="text-align: center;">32.5</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;">66.3</td>
-                                                    <td style="text-align: center;">56.6</td>
-                                                    <td style="text-align: center;">65.0</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">48.0</td>
-                                                    <td style="text-align: center;">88.0</td>
-                                                    <td style="text-align: center;">62.0</td>
-                                                    <td style="text-align: center;">72.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">18.0</td>
-                                                    <td style="text-align: center;">24.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">72.0</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;">83.0</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                    <td style="text-align: center;">64.0</td>
-                                                    <td style="text-align: center;">74.0</td>
-                                                    <td style="text-align: center;">69.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">82.5</td>
-                                                    <td style="text-align: center;">45.9</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;">51.3</td>
-                                                    <td style="text-align: center;">62.5</td>
-                                                    <td style="text-align: center;">56.3</td>
-                                                    <td style="text-align: center;">59.8</td>
-                                                    <td style="text-align: center;">57.1</td>
-                                                    <td style="text-align: center;">58.5</td>
-                                                    <td style="text-align: center;">32.1</td>
-                                                    <td style="text-align: center;">32.8</td>
-                                                    <td style="text-align: center;">32.5</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">4.1</td>
-                                                    <td style="text-align: center;">4.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;">83.0</td>
-                                                    <td style="text-align: center;">45.1</td>
-                                                    <td style="text-align: center;">58.5</td>
-                                                    <td style="text-align: center;">69.0</td>
-                                                    <td style="text-align: center;">90.6</td>
-                                                    <td style="text-align: center;">78.4</td>
-                                                    <td style="text-align: center;"><b>84.7</b></td>
-                                                    <td style="text-align: center;">71.4</td>
-                                                    <td style="text-align: center;">77.5</td>
-                                                    <td style="text-align: center;">39.8</td>
-                                                    <td style="text-align: center;">37.8</td>
-                                                    <td style="text-align: center;">38.8</td>
-                                                    <td style="text-align: center;"><b>17.1</b></td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;"><b>11.8</b></td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        <table class="table is-striped is-hoverable" id="behavior_logical_matching_score" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Full results of logic form accuracy for <em>transition modeling</em> in BH
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="2" style="width: 15%;">Model</th>
-                                                    <th colspan="3" style="text-align: center;">Object States</th>
-                                                    <th colspan="3" style="text-align: center;">Spatial Relations</th>
-                                                    <th colspan="3" style="text-align: center;">Non-Spatial Relations</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                    <th style="text-align: center;">Precision</th>
-                                                    <th style="text-align: center;">Recall</th>
-                                                    <th style="text-align: center;">F1</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">83.3</td>
-                                                    <td style="text-align: center;"><b>74.8</b></td>
-                                                    <td style="text-align: center;"><b>78.8</b></td>
-                                                    <td style="text-align: center;"><b>73.3</b></td>
-                                                    <td style="text-align: center;"><b>48.8</b></td>
-                                                    <td style="text-align: center;"><b>58.6</b></td>
-                                                    <td style="text-align: center;">82.9</td>
-                                                    <td style="text-align: center;">66.2</td>
-                                                    <td style="text-align: center;">73.6</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">64.1</td>
-                                                    <td style="text-align: center;">55.2</td>
-                                                    <td style="text-align: center;">59.3</td>
-                                                    <td style="text-align: center;">54.7</td>
-                                                    <td style="text-align: center;">37.4</td>
-                                                    <td style="text-align: center;">44.4</td>
-                                                    <td style="text-align: center;">63.3</td>
-                                                    <td style="text-align: center;">51.4</td>
-                                                    <td style="text-align: center;">56.7</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">74.6</td>
-                                                    <td style="text-align: center;">69.4</td>
-                                                    <td style="text-align: center;">71.9</td>
-                                                    <td style="text-align: center;">70.4</td>
-                                                    <td style="text-align: center;">44.6</td>
-                                                    <td style="text-align: center;">54.6</td>
-                                                    <td style="text-align: center;">68.5</td>
-                                                    <td style="text-align: center;">69.1</td>
-                                                    <td style="text-align: center;">68.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">66.2</td>
-                                                    <td style="text-align: center;">68.7</td>
-                                                    <td style="text-align: center;">67.5</td>
-                                                    <td style="text-align: center;">62.8</td>
-                                                    <td style="text-align: center;">39.8</td>
-                                                    <td style="text-align: center;">48.7</td>
-                                                    <td style="text-align: center;">68.8</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">59.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">59.7</td>
-                                                    <td style="text-align: center;">43.9</td>
-                                                    <td style="text-align: center;">50.6</td>
-                                                    <td style="text-align: center;">29.1</td>
-                                                    <td style="text-align: center;">11.6</td>
-                                                    <td style="text-align: center;">16.6</td>
-                                                    <td style="text-align: center;">27.2</td>
-                                                    <td style="text-align: center;">15.3</td>
-                                                    <td style="text-align: center;">19.6</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">58.0</td>
-                                                    <td style="text-align: center;">58.4</td>
-                                                    <td style="text-align: center;">58.2</td>
-                                                    <td style="text-align: center;">54.2</td>
-                                                    <td style="text-align: center;">33.6</td>
-                                                    <td style="text-align: center;">41.5</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;">56.6</td>
-                                                    <td style="text-align: center;">54.7</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">67.2</td>
-                                                    <td style="text-align: center;">55.2</td>
-                                                    <td style="text-align: center;">60.6</td>
-                                                    <td style="text-align: center;">47.5</td>
-                                                    <td style="text-align: center;">35.3</td>
-                                                    <td style="text-align: center;">40.5</td>
-                                                    <td style="text-align: center;">43.8</td>
-                                                    <td style="text-align: center;">48.3</td>
-                                                    <td style="text-align: center;">45.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">73.9</td>
-                                                    <td style="text-align: center;">57.2</td>
-                                                    <td style="text-align: center;">64.5</td>
-                                                    <td style="text-align: center;">54.5</td>
-                                                    <td style="text-align: center;">40.7</td>
-                                                    <td style="text-align: center;">46.6</td>
-                                                    <td style="text-align: center;">60.7</td>
-                                                    <td style="text-align: center;">53.8</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">69.6</td>
-                                                    <td style="text-align: center;">46.7</td>
-                                                    <td style="text-align: center;">55.9</td>
-                                                    <td style="text-align: center;">52.9</td>
-                                                    <td style="text-align: center;">27.2</td>
-                                                    <td style="text-align: center;">35.9</td>
-                                                    <td style="text-align: center;">59.6</td>
-                                                    <td style="text-align: center;">47.4</td>
-                                                    <td style="text-align: center;">52.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">67.1</td>
-                                                    <td style="text-align: center;">46.1</td>
-                                                    <td style="text-align: center;">54.6</td>
-                                                    <td style="text-align: center;">57.6</td>
-                                                    <td style="text-align: center;">31.6</td>
-                                                    <td style="text-align: center;">40.9</td>
-                                                    <td style="text-align: center;">40.8</td>
-                                                    <td style="text-align: center;">36.1</td>
-                                                    <td style="text-align: center;">38.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">58.2</td>
-                                                    <td style="text-align: center;">59.4</td>
-                                                    <td style="text-align: center;">58.8</td>
-                                                    <td style="text-align: center;">50.3</td>
-                                                    <td style="text-align: center;">27.8</td>
-                                                    <td style="text-align: center;">35.8</td>
-                                                    <td style="text-align: center;">58.5</td>
-                                                    <td style="text-align: center;">38.4</td>
-                                                    <td style="text-align: center;">46.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">73.1</td>
-                                                    <td style="text-align: center;">69.6</td>
-                                                    <td style="text-align: center;">71.3</td>
-                                                    <td style="text-align: center;">63.9</td>
-                                                    <td style="text-align: center;">35.8</td>
-                                                    <td style="text-align: center;">45.9</td>
-                                                    <td style="text-align: center;">84.7</td>
-                                                    <td style="text-align: center;">64.2</td>
-                                                    <td style="text-align: center;">73.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70b</td>
-                                                    <td style="text-align: center;">68.1</td>
-                                                    <td style="text-align: center;">64.6</td>
-                                                    <td style="text-align: center;">66.3</td>
-                                                    <td style="text-align: center;">60.3</td>
-                                                    <td style="text-align: center;">38.8</td>
-                                                    <td style="text-align: center;">47.2</td>
-                                                    <td style="text-align: center;">65.1</td>
-                                                    <td style="text-align: center;">53.8</td>
-                                                    <td style="text-align: center;">58.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8b</td>
-                                                    <td style="text-align: center;">40.3</td>
-                                                    <td style="text-align: center;">32.4</td>
-                                                    <td style="text-align: center;">35.9</td>
-                                                    <td style="text-align: center;">29.6</td>
-                                                    <td style="text-align: center;">22.7</td>
-                                                    <td style="text-align: center;">25.7</td>
-                                                    <td style="text-align: center;">48.9</td>
-                                                    <td style="text-align: center;">43.9</td>
-                                                    <td style="text-align: center;">46.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">67.5</td>
-                                                    <td style="text-align: center;">66.5</td>
-                                                    <td style="text-align: center;">67.0</td>
-                                                    <td style="text-align: center;">54.9</td>
-                                                    <td style="text-align: center;">32.3</td>
-                                                    <td style="text-align: center;">40.7</td>
-                                                    <td style="text-align: center;">59.7</td>
-                                                    <td style="text-align: center;">44.6</td>
-                                                    <td style="text-align: center;">51.1</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">60.2</td>
-                                                    <td style="text-align: center;">60.0</td>
-                                                    <td style="text-align: center;">60.1</td>
-                                                    <td style="text-align: center;">53.2</td>
-                                                    <td style="text-align: center;">39.9</td>
-                                                    <td style="text-align: center;">45.6</td>
-                                                    <td style="text-align: center;">57.9</td>
-                                                    <td style="text-align: center;">55.8</td>
-                                                    <td style="text-align: center;">56.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">46.3</td>
-                                                    <td style="text-align: center;">37.2</td>
-                                                    <td style="text-align: center;">41.3</td>
-                                                    <td style="text-align: center;">71.1</td>
-                                                    <td style="text-align: center;">42.3</td>
-                                                    <td style="text-align: center;">53.1</td>
-                                                    <td style="text-align: center;">80.1</td>
-                                                    <td style="text-align: center;">58.3</td>
-                                                    <td style="text-align: center;">67.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;"><b>85.5</b></td>
-                                                    <td style="text-align: center;">72.3</td>
-                                                    <td style="text-align: center;">78.3</td>
-                                                    <td style="text-align: center;">72.4</td>
-                                                    <td style="text-align: center;">46.1</td>
-                                                    <td style="text-align: center;">56.3</td>
-                                                    <td style="text-align: center;"><b>88.0</b></td>
-                                                    <td style="text-align: center;"><b>79.5</b></td>
-                                                    <td style="text-align: center;"><b>83.5</b></td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                        
-                                    </div>
-                                </div>
-                                <br>
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="transition_succ_rate">
-                                        <span>View full results of planner success rate for transition modeling</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="transition_succ_rate" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="comprehensive_success_rate" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Full results of planner success rate for <em>transition modeling</em> (%)
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="2" style="width: 15%;">Model</th>
-                                                    <th colspan="2" style="text-align: center;">Object States</th>
-                                                    <th colspan="2" style="text-align: center;">Object Orientation</th>
-                                                    <th colspan="2" style="text-align: center;">Object Affordance</th>
-                                                    <th colspan="2" style="text-align: center;">Spatial Relations</th>
-                                                    <th colspan="2" style="text-align: center;">Non-Spatial Relations</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                    <th style="text-align: center;">V</th>
-                                                    <th style="text-align: center;">B</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">13.5</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">19.8</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">46.9</td>
-                                                    <td style="text-align: center;">62.8</td>
-                                                    <td style="text-align: center;">73.0</td>
-                                                    <td style="text-align: center;">62.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">63.5</td>
-                                                    <td style="text-align: center;">84.4</td>
-                                                    <td style="text-align: center;">71.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">58.7</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">64.8</td>
-                                                    <td style="text-align: center;">80.9</td>
-                                                    <td style="text-align: center;">55.4</td>
-                                                    <td style="text-align: center;">82.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">11.2</td>
-                                                    <td style="text-align: center;">80.0</td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">10.8</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">79.8</td>
-                                                    <td style="text-align: center;">13.5</td>
-                                                    <td style="text-align: center;">80.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3.5 Sonnet</td>
-                                                    <td style="text-align: center;">67.4</td>
-                                                    <td style="text-align: center;"><b>86.7</b></td>
-                                                    <td style="text-align: center;">96.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.8</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;"><b>96.6</b></td>
-                                                    <td style="text-align: center;">80.8</td>
-                                                    <td style="text-align: center;"><b>91.9</b></td>
-                                                    <td style="text-align: center;">80.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">44.6</td>
-                                                    <td style="text-align: center;">48.9</td>
-                                                    <td style="text-align: center;">82.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">40.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">62.6</td>
-                                                    <td style="text-align: center;">38.3</td>
-                                                    <td style="text-align: center;">58.3</td>
-                                                    <td style="text-align: center;">39.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">36.5</td>
-                                                    <td style="text-align: center;">77.8</td>
-                                                    <td style="text-align: center;">46.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">35.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">40.7</td>
-                                                    <td style="text-align: center;">57.4</td>
-                                                    <td style="text-align: center;">31.1</td>
-                                                    <td style="text-align: center;">47.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">10.7</td>
-                                                    <td style="text-align: center;">22.2</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">10.2</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">14.5</td>
-                                                    <td style="text-align: center;">13.8</td>
-                                                    <td style="text-align: center;">2.7</td>
-                                                    <td style="text-align: center;">14.8</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">34.8</td>
-                                                    <td style="text-align: center;">55.6</td>
-                                                    <td style="text-align: center;">7.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">46.7</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">61.4</td>
-                                                    <td style="text-align: center;">68.1</td>
-                                                    <td style="text-align: center;">60.8</td>
-                                                    <td style="text-align: center;">70.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;"><b>94.4</b></td>
-                                                    <td style="text-align: center;">35.6</td>
-                                                    <td style="text-align: center;">89.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;"><b>95.8</b></td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">89.0</td>
-                                                    <td style="text-align: center;">40.4</td>
-                                                    <td style="text-align: center;">83.8</td>
-                                                    <td style="text-align: center;">39.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">1.1</td>
-                                                    <td style="text-align: center;">26.7</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">1.2</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">39.4</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">54.1</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">51.7</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">47.9</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.6</td>
-                                                    <td style="text-align: center;">44.7</td>
-                                                    <td style="text-align: center;">64.9</td>
-                                                    <td style="text-align: center;">52.5</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">71.9</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                    <td style="text-align: center;">78.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">63.5</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">66.9</td>
-                                                    <td style="text-align: center;">64.9</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 8b</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">35.6</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">26.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">37.9</td>
-                                                    <td style="text-align: center;">27.7</td>
-                                                    <td style="text-align: center;">31.1</td>
-                                                    <td style="text-align: center;">26.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama 3 70b</td>
-                                                    <td style="text-align: center;">10.1</td>
-                                                    <td style="text-align: center;">68.9</td>
-                                                    <td style="text-align: center;">3.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">6.6</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">15.2</td>
-                                                    <td style="text-align: center;">77.7</td>
-                                                    <td style="text-align: center;">18.9</td>
-                                                    <td style="text-align: center;">85.2</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">15.7</td>
-                                                    <td style="text-align: center;">73.3</td>
-                                                    <td style="text-align: center;">7.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">14.4</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">17.9</td>
-                                                    <td style="text-align: center;">76.6</td>
-                                                    <td style="text-align: center;">8.1</td>
-                                                    <td style="text-align: center;">80.3</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">36.5</td>
-                                                    <td style="text-align: center;">57.8</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">28.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">44.1</td>
-                                                    <td style="text-align: center;">52.1</td>
-                                                    <td style="text-align: center;">43.2</td>
-                                                    <td style="text-align: center;">57.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-mini</td>
-                                                    <td style="text-align: center;">63.5</td>
-                                                    <td style="text-align: center;">77.8</td>
-                                                    <td style="text-align: center;">82.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">59.3</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">75.9</td>
-                                                    <td style="text-align: center;">77.7</td>
-                                                    <td style="text-align: center;">71.6</td>
-                                                    <td style="text-align: center;">75.4</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>o1-preview</td>
-                                                    <td style="text-align: center;">69.1</td>
-                                                    <td style="text-align: center;"><b>86.7</b></td>
-                                                    <td style="text-align: center;"><b>100.0</b></td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">67.1</td>
-                                                    <td style="text-align: center;">-</td>
-                                                    <td style="text-align: center;">76.6</td>
-                                                    <td style="text-align: center;"><b>89.4</b></td>
-                                                    <td style="text-align: center;">78.4</td>
-                                                    <td style="text-align: center;"><b>90.2</b></td>
-                                                </tr>
-                                            </tbody>
-                                        </table>                                        
-                                    </div>
-                                </div>
-                                <br>
-                            </li>
-                            <li><strong>Sensitivity Analysis:</strong>
-                                <ul>
-                                    <li>Actions like "plug_in" and "walk_towards" show low success rates.</li>
-                                    <li>Complex interactions like "slice_carvingknife" and "place_inside" present challenges.</li>
-                                    <li>Training regimens may not fully capture real-world interaction diversity.</li>
-                                </ul>
-                            </li>
-                            <li><strong>Pipeline-Based vs. Modularized:</strong>
-                                <ul>
-                                    <li>Similar trajectory executable rates for both methods.</li>
-                                    <li>Pipeline-based methods suffer from error accumulation.</li>
-                                    <li>SOTA LLMs avoid grammar errors; less advanced models do not.</li>
-                                    <li>All LLMs are prone to runtime errors, missing necessary steps.</li>
-                                </ul>
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="pipeline_table">
-                                        <span>View full pipeline-based v.s. modularized results of action sequencing and subgoal decomposition</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="pipeline_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="pipeline" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Pipeline-based evaluation results for (1) \(\mathcal{G}+\mathcal{Q}\) and (2) \(\mathcal{G}+\Phi\)$ in BEHAVIOR. \(\mathcal{G}\): Goal Interpretation. \(\mathcal{Q}\): Action Sequencing. \(\Phi\): Subgoal Decomposition. In this table, M means 'modularized', whereas P means 'pipeline-based'.
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="4" style="width: 15%;">Model Name</th>
-                                                    <th colspan="2" style="text-align: center; background-color: #E2E6E1;">Goal Evaluation</th>
-                                                    <th colspan="16" style="text-align: center; background-color: #F9F2EB;">Trajectory Evaluation</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Goal SR</th>
-                                                    <th colspan="2" rowspan="2" style="text-align: center;">Execution SR</th>
-                                                    <th colspan="6" style="text-align: center;">Grammar Error (↓)</th>
-                                                    <th colspan="8" style="text-align: center;">Runtime Error (↓)</th>
-                                                </tr>
-                                                <tr>
-                                                    <th colspan="2" style="text-align: center;">Parsing</th>
-                                                    <th colspan="2" style="text-align: center;">Hallucination</th>
-                                                    <th colspan="2" style="text-align: center;">Action-Arg Num</th>
-                                                    <th colspan="2" style="text-align: center;">Wrong Order</th>
-                                                    <th colspan="2" style="text-align: center;">Missing Step</th>
-                                                    <th colspan="2" style="text-align: center;">Affordance</th>
-                                                    <th colspan="2" style="text-align: center;">Additional Step</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                    <th style="text-align: center;">M</th>
-                                                    <th style="text-align: center;">P</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td colspan="19" style="text-align: center; background-color: #E2E6E1;"><i>Goal Interpretation + Action Sequencing</i></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">54.0</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">57.0</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;"><b>19.0</b></td>
-                                                    <td style="text-align: center;"><b>21.0</b></td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;"><b>51.0</b></td>
-                                                    <td style="text-align: center;"><b>46.0</b></td>
-                                                    <td style="text-align: center;"><b>59.0</b></td>
-                                                    <td style="text-align: center;">54.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">54.0</td>
-                                                    <td style="text-align: center;"><b>55.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">23.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>5.0</b></td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">41.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;"><b>55.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">22.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;"><b>21.0</b></td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama3 8B</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;">0.0</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama3 70B</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">18.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td colspan="19" style="text-align: center; background-color: #F9F2EB;"><i>Goal Interpretation + Subgoal Decomposition</i></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Haiku</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;">46.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">16.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Sonnet</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">43.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>3.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">18.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Claude-3 Opus</td>
-                                                    <td style="text-align: center;">39.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.0 Pro</td>
-                                                    <td style="text-align: center;">23.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Flash</td>
-                                                    <td style="text-align: center;">34.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">42.0</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>3.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">53.0</td>
-                                                    <td style="text-align: center;">48.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Gemini 1.5 Pro</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">26.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>3.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;">56.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-3.5-turbo</td>
-                                                    <td style="text-align: center;">24.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">36.0</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">22.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4-turbo</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">47.0</td>
-                                                    <td style="text-align: center;">49.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;"><b>48.0</b></td>
-                                                    <td style="text-align: center;"><b>38.0</b></td>
-                                                    <td style="text-align: center;"><b>55.0</b></td>
-                                                    <td style="text-align: center;"><b>52.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;"><b>37.0</b></td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">25.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">32.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Cohere Command R+</td>
-                                                    <td style="text-align: center;">24.0</td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                    <td style="text-align: center;">37.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">10.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">40.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mistral Large</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">22.0</td>
-                                                    <td style="text-align: center;">38.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">12.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">52.0</td>
-                                                    <td style="text-align: center;">50.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Mixtral 8x22B MoE</td>
-                                                    <td style="text-align: center;">27.0</td>
-                                                    <td style="text-align: center;">22.0</td>
-                                                    <td style="text-align: center;">33.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">9.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">59.0</td>
-                                                    <td style="text-align: center;">45.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">13.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">17.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama3 8B</td>
-                                                    <td style="text-align: center;">21.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;">14.0</td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">11.0</td>
-                                                    <td style="text-align: center;">29.0</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">2.0</td>
-                                                    <td style="text-align: center;">6.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">44.0</td>
-                                                    <td style="text-align: center;"><b>30.0</b></td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">15.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                                <tr>
-                                                    <td>Llama3 70B</td>
-                                                    <td style="text-align: center;">20.0</td>
-                                                    <td style="text-align: center;">19.0</td>
-                                                    <td style="text-align: center;">30.0</td>
-                                                    <td style="text-align: center;">31.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">5.0</td>
-                                                    <td style="text-align: center;">22.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">1.0</td>
-                                                    <td style="text-align: center;">8.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                    <td style="text-align: center;">51.0</td>
-                                                    <td style="text-align: center;">35.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">3.0</td>
-                                                    <td style="text-align: center;">4.0</td>
-                                                    <td style="text-align: center;">7.0</td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                    </div>
-                                    <br>
-                                </div>
-                            </li>
-                            
-                            
-                            <li><strong>Replanning and Feedback:</strong>
-                                <ul>
-                                    <li>Replanning based on feedback significantly improves performance.</li>
-                                    <li>Replanning can result in over-generation of actions.</li>
-                                </ul>
-                                <div class="collapsible-section">
-                                    <button class="button is-fullwidth toggle-section" aria-controls="replan_table">
-                                        <span>View replanning results of action sequencing</span>
-                                        <span class="icon is-small">
-                                          <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                        </span>
-                                    </button>
-                                    <div id="replan_table" class="collapse-content">
-                                        <table class="table is-striped is-hoverable" id="replan" style="width: 100%; table-layout: fixed; font-size: 0.9em;">
-                                            <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                                <b>Table:</b> Replanning evaluation results (%) for action sequencing.
-                                            </caption>
-                                            <thead>
-                                                <tr>
-                                                    <th rowspan="3" style="width: 15%;">Model Name</th>
-                                                    <th colspan="2" style="text-align: center; background-color: #E2E6E1;">Goal Evaluation</th>
-                                                    <th colspan="7" style="text-align: center; background-color: #F9F2EB;">Trajectory Evaluation</th>
-                                                </tr>
-                                                <tr>
-                                                    <th rowspan="2" style="text-align: center;">Goal SR</th>
-                                                    <th rowspan="2" style="text-align: center;">Execution SR</th>
-                                                    <th colspan="3" style="text-align: center;">Grammar Error (↓)</th>
-                                                    <th colspan="4" style="text-align: center;">Runtime Error (↓)</th>
-                                                </tr>
-                                                <tr>
-                                                    <th style="text-align: center;">Parsing</th>
-                                                    <th style="text-align: center;">Hallucination</th>
-                                                    <th style="text-align: center;">Action-Arg Num</th>
-                                                    <th style="text-align: center;">Wrong Order</th>
-                                                    <th style="text-align: center;">Missing Step</th>
-                                                    <th style="text-align: center;">Affordance</th>
-                                                    <th style="text-align: center;">Additional Step</th>
-                                                </tr>
-                                            </thead>
-                                            <tbody>
-                                                <tr>
-                                                    <td>GPT-4o</td>
-                                                    <td style="text-align: center;">65.2</td>
-                                                    <td style="text-align: center;"><b>71.8</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.3</b></td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;">25.3</td>
-                                                    <td style="text-align: center;"><b>1.0</b></td>
-                                                    <td style="text-align: center;"><b>0.3</b></td>
-                                                </tr>
-                                                <tr>
-                                                    <td>GPT-4o w/ replanning</td>
-                                                    <td style="text-align: center;"><b>77.4</b></td>
-                                                    <td style="text-align: center;"><b>83.3</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>1.3</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>0.0</b></td>
-                                                    <td style="text-align: center;"><b>14.1</b></td>
-                                                    <td style="text-align: center;"><b>0.3</b></td>
-                                                    <td style="text-align: center;">0.7</td>
-                                                </tr>
-                                            </tbody>
-                                        </table>
-                                    </div>
-                                </div>
-                            </li>                           
-                        </ol>
-                    </div>
-                    <div class="column is-centered">
-                        <h2 class="title is-2" style="text-align: center;">Evaluation Setup</h2>
-    
-                        <br>
-                        <!-- <h4 class="title is-5">Annotation</h4> -->
-                        <div class="content has-text-justified">
-                            <p>
-                                We evaluate the performance of LLMs for embodied decision making using the Embodied Agent Interface. Below is a detailed description of the evaluation setup.
-                            </p>
-                            <h3 class="title is-4">Dataset Description</h3>
-                            <p>Focusing on complex long-horizon tasks, we select <strong>VirtualHome (V)</strong> and <strong>BEHAVIOR (B)</strong> as our evaluation simulators based on their task length and scene complexity. <a href="#dataset_statistics">Table 1</a> shows our annotations. Apart from the goal and trajectory annotations, we introduce the Goal Action annotation to reflect necessary actions that do not have post effects, such as the goal action <em>touch</em> in the task “<em>pet the cat</em>”. In the subset of VirtualHome tasks we work on, \(80.7\%\) task categories include instructions with action steps longer than \(10\), and \(33\%\) of the instructions have step lengths of more than \(10\).</p>
-    
-                            <p>
-                                We select <strong>BEHAVIOR</strong> as another simulator for our evaluation due to its task complexity. BEHAVIOR BDDL goals may contain quantifiers, such as (forpairs (?jar ?apple) (inside ?apple ?jar)), which need to be translated into grounded goals with only atomic propositions, e.g., and ((inside apple_1 jar_1) (inside apple_2 jar_2)). There can be different grounded goals that satisfy the same BDDL goal, such as ((inside apple_2 jar_1) (inside apple_1 jar_2)). We call them goal options. In general, one BDDL goal corresponds to a number of goal options. The average number of grounded goals for each task is \(6.7\), and there are \(4,164.4\) goal options for each task on average.
-                            </p>
-                            <div class="collapsible-section">
-                                <button class="button is-fullwidth toggle-section" aria-controls="data_statistics_table">
-                                    <span>View data annotation statistics for VirtualHome and BEHAVIOR</span>
-                                    <span class="icon is-small">
-                                      <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                    </span>
-                                </button>
-                                <div id="data_statistics_table" class="collapse-content">
-                                    <table class="table is-striped is-hoverable" id="dataset_statistics">
-                                        <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                            <b>Table 1:</b> Simulator dataset statistics. New annotations collected in this paper are highlighted in color.
-                                        </caption>
-                                        <thead>
-                                            <tr>
-                                                <th></th>
-                                                <th style="text-align: center;">VirtualHome</th>
-                                                <th style="text-align: center;">BEHAVIOR</th>
-                                            </tr>
-                                        </thead>
-                                        <tbody>
-                                            <tr>
-                                                <td>#task name</td>
-                                                <td style="text-align: center;">26</td>
-                                                <td style="text-align: center;">100</td>
-                                            </tr>
-                                            <tr>
-                                                <td>#task instruction</td>
-                                                <td style="text-align: center;">338</td>
-                                                <td style="text-align: center; background-color: #F5E6E9;">100</td>
-                                            </tr>
-                                            <tr>
-                                                <td>#goal</td>
-                                                <td style="text-align: center; background-color: #F5E6E9;">801</td>
-                                                <td style="text-align: center;">673</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #state</td>
-                                                <td style="text-align: center; background-color: #F5E6E9;">340</td>
-                                                <td style="text-align: center;">153</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #relation</td>
-                                                <td style="text-align: center; background-color: #F5E6E9;">299</td>
-                                                <td style="text-align: center;">520</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #action</td>
-                                                <td style="text-align: center; background-color: #F5E6E9;">162</td>
-                                                <td style="text-align: center;">-</td>
-                                            </tr>
-                                            <tr>
-                                                <td>#trajectory</td>
-                                                <td style="text-align: center;">338</td>
-                                                <td style="text-align: center; background-color: #E2E6E1;">100</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #step</td>
-                                                <td style="text-align: center;">2960</td>
-                                                <td style="text-align: center; background-color: #E2E6E1;">1460</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- avg. step</td>
-                                                <td style="text-align: center;">8.76</td>
-                                                <td style="text-align: center; background-color: #E2E6E1;">14.6</td>
-                                            </tr>
-                                            <tr>
-                                                <td>#transition model</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">33</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">30</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #precondition</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">99</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">84</td>
-                                            </tr>
-                                            <tr>
-                                                <td>&nbsp;&nbsp;&nbsp;- #effect</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">57</td>
-                                                <td style="text-align: center; background-color: #CDD4DF;">51</td>
-                                            </tr>
-                                        </tbody>
-                                    </table>
-                                </div>
-                            </div>
-                            
-                            <br>
-                            <!-- <h4 class="title is-5">Dataset Format</h3> -->
-                            <p>Each instance in the dataset represents a task goal. Specifically, each task contains the following data:</p>
-                            <ul>
-                                <li>Natural language task name</li>
-                                <li>Natural language task instruction</li>
-                                <li>Symbolic goal definition (including its LTL form)</li>
-                                <li>Symbolic action trajectory</li>
-                                <li>The transition models involved in the task</li>
-                            </ul>
-                            <p>For tasks in the BEHAVIOR environment, the dataset also includes accompanying VR human demonstration videos that showcase the execution of the ground truth action trajectories.</p>
-                            
-    
-                            
-                            <!-- <div id="results-carousel" class="carousel results-carousel">
-                                <div class="box m-5">
-                                  <div class="content has-text-centered">
-                                    <img src="website/img/virtualhome_data_format.png" alt="algebraic reasoning" width="80%"/>
-                                    <p> Examples of our newly annotated datasets: IQTest, FunctionQA, and PaperQA.</p>
-                                  </div>
-                                </div>
-                                <div class="box m-5">
-                                  <div class="content has-text-centered">
-                                    <img src="website/img/behavior_data.png" alt="arithmetic reasoning" width="50%"/>
-                                    <p> Summary of the 31 different source datasets in abc.
-                                  </div>
-                                </div>
-                              </div> -->
-    
-                            <figure>
-                                <img src="website/img/virtualhome_data_format.png" alt="VirtualHome dataset structure example" style="width: 60%;">
-                                <figcaption>
-                                    <b>Figure 4:</b> VirtualHome dataset structure example.
-                                </figcaption>
-                            </figure>
-                            
-                            <figure>
-                                <img src="website/img/behavior_data.png" alt="BEHAVIOR dataset structure example" style="width: 60%;">
-                                <figcaption>
-                                    <b>Figure 5:</b> BEHAVIOR dataset structure example.
-                                </figcaption>
-                            </figure>
-    
-                            <p>Please find our JSON data format in this link: <a href="https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface">Dataset JSON Format</a></p>
-                        </div>
-                        <h3 class="title is-4">LLMs Implementations</h3>
-                        <div class="content has-text-justified">
-                            <p>
-                                We integrated our evaluation pipeline into the <a href="https://crfm.stanford.edu/helm/">HELM</a> code base for easy and reproducible LLM inference. Users can set up their environment using <a href="https://github.com/embodied-agent-eval/embodied-agent-eval/tree/main">here</a>. We standardized decoding parameters across all models, using temperature zero for \(\operatorname*{arg\,max}\) sampling. Evaluating all models on our benchmark required \(180\) runs. Detailed model information is provided in the table below.
-                            </p>
-                            <div class="collapsible-section">
-                                <button class="button is-fullwidth toggle-section" aria-controls="model_table">
-                                    <span>View full LLM implementations</span>
-                                    <span class="icon is-small">
-                                      <i class="fas fa-angle-down" aria-hidden="true"></i>
-                                    </span>
-                                </button>
-                                <div id="model_table" class="collapse-content">
-                                    <table class="table is-striped is-hoverable" id="model_info">
-                                        <caption style="caption-side: top; text-align: center; color: black; font-style: italic;">
-                                            <b>Table 2 :</b> Model Cards for All Evaluated Large Language Models
-                                        </caption>
-                                        <thead>
-                                            <tr>
-                                                <th>Model Name</th>
-                                                <th>Creator</th>
-                                                <th>Complete Model ID</th>
-                                                <th>Release</th>
-                                                <th>Hosting</th>
-                                            </tr>
-                                        </thead>
-                                        <tbody>
-                                            <tr>
-                                                <td>Claude-3 Haiku</td>
-                                                <td>Anthropic</td>
-                                                <td>claude-3-haiku-20240307</td>
-                                                <td>03/07/24</td>
-                                                <td>Anthropic</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Claude-3 Sonnet</td>
-                                                <td>Anthropic</td>
-                                                <td>claude-3-sonnet-20240229</td>
-                                                <td>02/29/24</td>
-                                                <td>Anthropic</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Claude-3 Opus</td>
-                                                <td>Anthropic</td>
-                                                <td>claude-3-opus-20240229</td>
-                                                <td>02/29/24</td>
-                                                <td>Anthropic</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Claude-3.5 Sonnet</td>
-                                                <td>Anthropic</td>
-                                                <td>claude-3-5-sonnet-20240620</td>
-                                                <td>06/20/24</td>
-                                                <td>Anthropic</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Cohere Command R</td>
-                                                <td>Cohere</td>
-                                                <td>command-r</td>
-                                                <td>03/11/24</td>
-                                                <td>Cohere</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Cohere Command R+</td>
-                                                <td>Cohere</td>
-                                                <td>command-r-plus</td>
-                                                <td>04/04/24</td>
-                                                <td>Cohere</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Gemini 1.0 Pro</td>
-                                                <td>Google</td>
-                                                <td>gemini-pro</td>
-                                                <td>12/13/23</td>
-                                                <td>GCP Vertex</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Gemini 1.5 Flash</td>
-                                                <td>Google</td>
-                                                <td>gemini-1.5-flash-preview-0514</td>
-                                                <td>05/14/24</td>
-                                                <td>GCP Vertex</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Gemini 1.5 Pro</td>
-                                                <td>Google</td>
-                                                <td>gemini-1.5-pro-preview-0409</td>
-                                                <td>04/09/24</td>
-                                                <td>GCP Vertex</td>
-                                            </tr>
-                                            <tr>
-                                                <td>GPT-3.5-turbo</td>
-                                                <td>OpenAI</td>
-                                                <td>gpt-3.5-turbo-0125</td>
-                                                <td>01/25/24</td>
-                                                <td>OpenAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>GPT-4-turbo</td>
-                                                <td>OpenAI</td>
-                                                <td>gpt-4-turbo-2024-04-09</td>
-                                                <td>04/09/24</td>
-                                                <td>OpenAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>GPT-4o</td>
-                                                <td>OpenAI</td>
-                                                <td>gpt-4o-2024-05-13</td>
-                                                <td>05/13/24</td>
-                                                <td>OpenAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Llama3 8B Instruct</td>
-                                                <td>Meta</td>
-                                                <td>meta-llama-3-8b-instruct</td>
-                                                <td>04/18/24</td>
-                                                <td>TogetherAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Llama3 70B Instruct</td>
-                                                <td>Meta</td>
-                                                <td>meta-llama-3-70b-instruct</td>
-                                                <td>04/18/24</td>
-                                                <td>TogetherAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Mistral Large</td>
-                                                <td>MistralAI</td>
-                                                <td>mistral-large-2402</td>
-                                                <td>02/26/24</td>
-                                                <td>MistralAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>Mixtral 8x22B MoE</td>
-                                                <td>MistralAI</td>
-                                                <td>mixtral-8x22b-instruct-v0.1</td>
-                                                <td>04/17/24</td>
-                                                <td>TogetherAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>o1-mini</td>
-                                                <td>OpenAI</td>
-                                                <td>o1-mini-2024-09-12</td>
-                                                <td>09/12/24</td>
-                                                <td>OpenAI</td>
-                                            </tr>
-                                            <tr>
-                                                <td>o1-preview</td>
-                                                <td>OpenAI</td>
-                                                <td>o1-preview-2024-09-12</td>
-                                                <td>09/12/24</td>
-                                                <td>OpenAI</td>
-                                            </tr>
-                                        </tbody>
-                                    </table>
-                                </div>
-                            </div>
-                        </div>
-                    </div>
-            </div>
+            <!--/ Abstract. -->
         </div>
     </section>
+        
+    <hr>
 
-
-    
     
 
     <!-- <section class="section" id="dataset_viewer">
@@ -4372,12 +305,7 @@ <h2 class="title is-4" id="visualization">Visualization</h2>
         <div class="container is-max-desktop content">
             <h2 class="title">BibTeX</h2>
             <pre>
-@inproceedings{li2024embodied,
-    title={Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making},
-    author={Li, Manling and Zhao, Shiyu and Wang, Qineng and Wang, Kangrui and Zhou, Yu and Srivastava, Sanjana and Gokmen, Cem and Lee, Tony and Li, Li Erran and Zhang, Ruohan and others},
-    booktitle={NeurIPS 2024},
-    year={2024}
-}
+
             </pre>
         </div>
     </section>
diff --git a/website/img/additional_result_table.png b/website/img/additional_result_table.png
new file mode 100644
index 0000000..ba0f71c
Binary files /dev/null and b/website/img/additional_result_table.png differ
diff --git a/website/img/baseline_result_table.png b/website/img/baseline_result_table.png
new file mode 100644
index 0000000..db35fbb
Binary files /dev/null and b/website/img/baseline_result_table.png differ
diff --git a/website/img/behavior_data.png b/website/img/behavior_data.png
deleted file mode 100644
index f745043..0000000
Binary files a/website/img/behavior_data.png and /dev/null differ
diff --git a/website/img/excution_example.png b/website/img/excution_example.png
deleted file mode 100644
index 2afccda..0000000
Binary files a/website/img/excution_example.png and /dev/null differ
diff --git a/website/img/input_output.png b/website/img/input_output.png
deleted file mode 100644
index 7182e69..0000000
Binary files a/website/img/input_output.png and /dev/null differ
diff --git a/website/img/main_result_table.png b/website/img/main_result_table.png
new file mode 100644
index 0000000..bc26154
Binary files /dev/null and b/website/img/main_result_table.png differ
diff --git a/website/img/taxonomy-ability.png b/website/img/taxonomy-ability.png
deleted file mode 100644
index e42ee7a..0000000
Binary files a/website/img/taxonomy-ability.png and /dev/null differ
diff --git a/website/img/teaser.png b/website/img/teaser.png
index 13f230a..fda660e 100644
Binary files a/website/img/teaser.png and b/website/img/teaser.png differ
diff --git a/website/img/virtualhome_data_format.png b/website/img/virtualhome_data_format.png
deleted file mode 100644
index a6a9adc..0000000
Binary files a/website/img/virtualhome_data_format.png and /dev/null differ

Model Name	Goal Interpretation
	State						Spatial						Action						Overall
	Precision		Recall		F1		Precision		Recall		F1		Precision		Recall		F1		Precision		Recall		F1
	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B
Claude-3 Haiku	21.8	22.8	58.9	93.5	31.8	36.7	24.2	64.5	50.8	64.6	32.8	64.6	12.2	-	95.7	-	21.6	-	18.0	41.5	63.2	71.2	28.0	52.5
Claude-3 Sonnet	23.3	36.8	57.1	88.9	33.1	52.0	26.6	76.2	53.0	79.8	35.5	77.9	12.4	-	85.8	-	21.7	-	19.3	60.2	61.5	81.9	29.4	69.4
Claude-3 Opus	27.0	72.6	66.9	93.5	38.5	81.7	22.6	75.2	46.8	79.2	30.5	77.1	14.5	-	92.6	-	25.1	-	20.7	72.2	65.0	82.5	31.4	77.0
Claude-3.5 Sonnet	25.3	74.0	60.9	94.8	35.8	83.1	31.1	84.4	63.8	81.3	41.8	82.9	14.0	-	98.8	-	24.5	-	21.7	81.1	69.6	84.4	33.0	82.7
Cohere Command R	51.1	7.7	69.6	31.4	58.9	12.4	34.5	56.8	21.3	55.0	26.3	55.9	3.6	-	38.9	-	6.5	-	27.4	28.2	55.7	49.6	36.7	36.0
Cohere Command R+	20.9	23.3	52.0	79.1	29.8	36.0	17.9	66.7	15.2	61.5	16.4	64.0	10.4	-	82.6	-	18.5	-	14.9	42.0	44.5	65.5	22.4	51.2
Gemini 1.0 Pro	25.3	27.4	57.9	81.1	34.9	41.0	17.0	75.2	20.6	70.4	18.6	72.7	9.9	-	68.7	-	17.2	-	16.2	51.0	45.2	72.8	23.8	60.0
Gemini 1.5 Flash	23.6	55.8	57.9	94.1	33.5	70.1	19.8	76.6	21.1	76.7	20.5	76.7	13.5	-	90.1	-	23.5	-	18.2	69.7	50.8	80.7	26.8	74.8
Gemini 1.5 Pro	45.4	94.0	49.1	92.8	47.2	93.4	40.0	74.4	9.7	76.7	15.6	75.6	26.8	-	80.9	-	40.3	-	35.2	78.8	41.1	80.4	37.9	79.6
GPT-3.5-turbo	22.4	52.0	50.0	66.7	30.9	58.5	8.5	51.5	18.8	46.9	11.7	49.1	15.2	-	60.5	-	24.4	-	15.7	49.5	40.5	51.4	22.7	50.4
GPT-4-turbo	28.6	70.4	58.5	86.9	38.4	77.8	24.7	77.5	32.9	76.4	28.2	76.9	19.0	-	82.1	-	30.9	-	24.0	75.6	53.8	78.8	33.2	77.2
GPT-4o	29.0	67.1	60.0	94.8	39.1	78.6	31.5	81.1	43.6	78.5	36.6	79.8	20.5	-	85.8	-	33.1	-	26.4	76.5	59.1	82.2	36.5	79.2
Llama 3 8B Instruct	21.7	17.3	54.4	80.4	31.0	28.4	14.0	51.4	7.4	20.8	9.7	29.6	11.1	-	79.4	-	19.4	-	15.5	24.1	41.9	34.3	22.6	28.3
Llama 3 70B Instruct	23.9	69.5	61.2	95.4	34.3	80.4	22.6	70.0	37.5	73.3	28.2	71.6	11.2	-	88.8	-	19.8	-	17.5	64.7	58.0	78.3	26.9	70.9
Mistral Large	23.6	63.5	59.1	92.2	32.8	75.2	23.7	75.1	40.3	76.2	29.8	75.6	11.2	-	84.0	-	19.7	-	17.5	69.6	57.1	79.8	26.8	74.3
Mixtral 8x22B MoE	23.6	22.9	56.9	83.7	33.4	36.0	22.2	70.7	36.3	67.7	27.5	69.2	11.2	-	94.8	-	20.0	-	17.4	44.4	56.2	71.3	26.6	54.7
o1-mini	26.3	63.8	58.6	90.8	36.3	74.9	30.4	77.3	39.9	76.5	34.5	76.9	13.5	-	56.8	-	21.8	-	22.4	73.3	51.3	79.8	31.2	76.4
o1-preview	28.2	66.8	60.3	94.8	38.5	78.4	44.9	82.9	62.4	82.7	52.2	82.8	26.0	-	81.5	-	39.5	-	31.8	78.1	65.4	85.4	42.7	81.6
Model Name	Goal Evaluation		Trajectory Evaluation
	Goal SR		Execution SR		Grammar Error (↓)						Runtime Error (↓)
	Goal SR		Execution SR		Parsing		Hallucination		Action-Arg Num		Wrong Order		Missing Step		Affordance		Additional Step
	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B
Claude-3 Haiku	43.3	26.0	48.5	32.0	0.0	0.0	4.9	6.0	0.3	0.0	1.6	7.0	43.3	54.0	1.3	1.0	3.3	1.0
Claude-3 Sonnet	62.9	44.0	67.2	57.0	0.0	0.0	5.6	1.0	0.7	7.9	2.3	11.0	22.9	19.0	1.3	11.0	3.6	2.0
Claude-3 Opus	66.2	51.0	70.8	59.0	0.0	0.0	14.1	0.0	0.0	0.0	0.7	3.0	14.1	35.0	0.3	3.0	6.2	2.0
Claude-3.5 Sonnet	72.8	60.0	75.4	69.0	0.0	0.0	2.3	0.0	0.0	0.0	1.0	5.0	19.7	25.0	1.6	1.0	5.2	2.0
Gemini 1.0 Pro	34.4	27.0	45.9	32.0	0.3	7.0	9.2	3.0	2.0	6.0	1.3	13.0	38.7	35.0	2.6	4.0	7.2	4.0
Gemini 1.5 Flash	61.9	40.0	67.2	52.0	0.0	0.0	2.0	0.0	0.3	0.0	0.3	5.0	29.8	42.0	0.3	1.0	4.3	2.0
Gemini 1.5 Pro	73.1	42.0	83.3	54.0	0.0	0.0	1.6	0.0	0.3	0.0	0.3	6.0	13.1	39.0	1.3	1.0	5.6	2.0
GPT-3.5-turbo	14.7	16.0	31.8	20.0	35.1	4.0	1.6	7.0	1.3	23.0	0.3	1.0	28.2	36.0	1.6	8.0	2.0	1.3
GPT-4-turbo	57.0	38.0	65.6	45.0	0.0	0.0	1.6	0.0	0.3	0.0	0.0	7.0	32.1	47.0	0.3	1.0	3.6	0.0
GPT-4o	61.6	47.0	71.1	53.0	0.3	0.0	1.3	1.0	0.3	0.0	0.3	9.0	25.2	36.0	1.3	1.0	4.9	0.0
Cohere Command R	24.6	16.0	37.7	19.0	0.7	5.0	29.8	13.0	2.0	0.0	3.0	8.0	25.2	43.0	2.0	12.0	4.3	4.0
Cohere Command R+	63.3	27.0	70.2	35.0	0.0	0.0	5.6	1.0	0.7	15.0	0.3	10.0	22.6	39.0	0.7	0.0	5.9	15.0
Mistral Large	73.4	33.0	83.6	50.0	0.0	0.0	2.6	0.0	0.3	0.0	0.3	8.0	12.8	35.0	0.3	6.0	4.9	7.0
Mixtral 8x22B MoE	46.2	30.0	49.5	40.0	0.0	3.0	13.1	6.0	0.7	0.0	0.7	10.0	34.7	32.0	1.3	9.0	3.0	2.0
Llama 3 8B	21.6	10.0	25.9	16.0	0.0	0.0	41.6	15.0	1.0	9.0	0.3	6.0	31.1	44.0	0.0	9.0	0.3	5.0
Llama 3 70B	55.7	34.0	63.0	42.0	0.0	0.0	23.3	2.0	1.0	0.0	2.0	15.0	7.9	38.0	3.0	3.0	7.9	6.0
o1-mini	65.9	56.0	68.9	65.0	0.3	0.0	5.2	3.0	3.3	0.0	0.3	7.0	21.6	17.0	0.3	6.0	5.9	5.0
o1-preview	71.1	81.0	78.4	91.0	2.0	0.0	8.2	0.0	0.0	0.0	0.3	0.0	34.1	6.0	0.3	2.0	8.9	3.0
Model Name	Action Sequencing								Subgoal Decomposition
	State Goal		Relation Goal		Action Goal		Total		State Goal		Relation Goal		Action Goal		Total
	V	B	V	B	V	B	V	B	V	B	V	B	V	B	V	B
Claude-3 Haiku	58.6	27.0	47.2	38.7	33.1	-	49.0	35.5	89.4	26.0	82.2	34.8	71.6	-	83.1	32.4
Claude-3 Sonnet	80.9	41.0	73.3	59.8	48.6	-	70.8	54.6	89.1	37.0	89.3	49.8	83.3	-	88.0	46.3
Claude-3 Opus	64.7	45.0	79.4	53.0	57.4	-	67.3	50.8	92.4	43.0	88.6	41.6	83.3	-	89.1	42.0
Claude-3.5 Sonnet	81.3	63.0	79.4	62.4	57.4	-	74.9	62.6	92.9	41.0	88.6	39.5	87.0	-	90.1	39.9
Gemini 1.0 Pro	52.2	28.0	36.1	32.0	42.6	-	45.0	30.9	84.4	26.0	61.5	31.1	72.8	-	73.5	29.7
Gemini 1.5 Flash	79.5	34.0	65.5	50.0	48.0	-	67.7	45.6	93.5	44.0	88.3	36.0	92.0	-	91.3	38.2
Gemini 1.5 Pro	81.7	41.0	77.2	43.2	68.2	-	77.1	42.6	91.2	31.0	72.5	37.1	89.5	-	83.9	35.4
GPT-3.5-turbo	29.5	20.0	18.3	22.6	23.6	-	24.8	21.9	84.7	28.0	54.4	28.5	64.8	-	69.4	28.3
GPT-4-turbo	74.1	39.0	73.3	39.5	47.3	-	67.3	39.3	93.5	45.0	84.2	46.1	90.7	-	89.5	45.8
GPT-4o	82.0	49.0	67.8	45.5	57.4	-	71.8	46.5	92.1	50.0	84.2	53.2	93.2	-	89.4	52.3
Cohere Command R	24.1	20.0	40.0	25.9	37.1	-	32.0	24.3	85.3	20.0	67.4	21.4	60.5	-	73.6	21.0
Cohere Command R+	71.2	28.0	63.9	32.0	60.2	-	66.3	30.9	89.4	34.0	66.8	29.6	75.9	-	78.3	30.8
Mistral Large	81.3	38.5	77.8	41.2	75.0	-	78.7	40.4	92.9	33.0	71.5	35.6	90.1	-	84.4	34.9
Mixtral 8x22B MoE	48.9	30.0	56.1	36.8	37.2	-	48.2	35.0	92.1	30.0	74.8	34.1	87.7	-	84.8	33.0
Llama 3 8B	26.3	16.0	26.1	23.7	10.1	-	22.2	21.6	68.8	21.0	54.7	23.6	50.0	-	59.8	22.9
Llama 3 70B	42.8	31.0	64.4	45.5	53.4	-	51.8	41.5	93.2	25.0	63.4	27.7	82.7	-	80.0	27.0
o1-mini	75.2	64.0	68.3	66.9	51.4	-	67.3	66.1	89.7	28.0	68.8	38.0	81.5	-	80.3	35.3
o1-preview	86.0	89.5	71.1	84.4	56.1	-	74.3	85.8	91.8	56.5	88.3	69.4	92.6	-	90.6	65.9
Model	Object States			Object Orientation			Object Affordance			Spatial Relations			Non-Spatial Relations
Model	Precision	Recall	F1	Precision	Recall	F1	Precision	Recall	F1	Precision	Recall	F1	Precision	Recall	F1
Claude-3 Haiku	76.0	40.1	52.5	19.0	34.4	24.4	67.8	73.9	70.7	37.7	38.7	38.2	2.0	1.5	1.7
Claude-3 Opus	87.4	49.2	63.0	46.3	96.9	62.6	76.8	74.3	75.5	37.6	39.9	38.7	10.4	5.2	7.0
Claude-3 Sonnet	76.6	37.4	50.3	48.1	78.1	59.5	60.7	74.3	66.8	32.3	39.9	35.7	6.2	4.1	4.9
Claude-3.5 Sonnet	86.1	46.7	60.5	93.9	96.9	95.3	77.7	75.5	76.6	45.3	39.8	42.4	7.1	5.1	5.9
Cohere Command R	18.0	6.8	9.9	38.7	90.6	54.2	40.2	23.0	29.2	12.6	6.7	8.8	3.3	0.9	1.4
Cohere Command R+	44.9	19.0	26.3	34.6	68.8	45.9	51.0	62.1	56.0	30.1	34.8	32.4	7.6	3.1	4.4
Gemini 1.0 Pro	68.4	12.3	20.4	16.3	62.5	27.9	55.3	20.1	29.6	45.0	16.5	24.3	7.7	2.5	3.8
Gemini 1.5 Flash	82.3	37.6	51.6	2.0	3.1	2.5	54.4	74.7	62.9	47.4	42.9	45.0	16.3	5.2	7.9
Gemini 1.5 Pro	45.3	11.9	18.8	88.2	93.8	90.9	79.9	75.5	77.7	42.2	35.8	38.7	15.5	5.2	7.8
GPT-3.5-turbo	63.5	21.9	32.5	11.4	15.6	13.2	57.2	53.1	54.9	35.2	21.7	26.8	1.7	0.3	0.6
GPT-4-turbo	79.3	44.2	56.7	10.1	31.3	15.3	65.9	71.0	68.4	31.8	34.2	32.9	3.8	1.0	1.6
GPT-4o	80.2	41.5	54.6	48.0	59.4	52.8	76.2	73.7	74.9	40.8	40.7	40.8	14.8	5.1	7.5
Llama 3 8b	30.8	13.7	18.9	0.0	0.0	0.0	1.6	3.2	2.1	15.5	18.2	16.8	0.0	0.0	0.0
Llama 3 70b	63.5	21.9	32.5	49.0	66.3	56.6	65.0	50.0	57.0	27.0	27.0	27.0	5.0	2.0	3.0
Mistral Large	30.0	8.0	13.0	48.0	88.0	62.0	72.0	29.0	41.0	35.0	18.0	24.0	3.0	1.0	1.0
Mixtral 8x22B MoE	72.0	33.0	45.0	43.0	83.0	57.0	64.0	74.0	69.0	40.0	38.0	39.0	12.0	4.0	6.0
o1-mini	82.5	45.9	59.0	51.3	62.5	56.3	59.8	57.1	58.5	32.1	32.8	32.5	5.0	4.1	4.5
o1-preview	83.0	45.1	58.5	69.0	90.6	78.4	84.7	71.4	77.5	39.8	37.8	38.8	17.1	9.0	11.8
	VirtualHome	BEHAVIOR
#task name	26	100
#task instruction	338	100
#goal	801	673
- #state	340	153
- #relation	299	520
- #action	162	-
#trajectory	338	100
- #step	2960	1460
- avg. step	8.76	14.6
#transition model	33	30
- #precondition	99	84
- #effect	57	51
Model Name	Creator	Complete Model ID	Release	Hosting
Claude-3 Haiku	Anthropic	claude-3-haiku-20240307	03/07/24	Anthropic
Claude-3 Sonnet	Anthropic	claude-3-sonnet-20240229	02/29/24	Anthropic
Claude-3 Opus	Anthropic	claude-3-opus-20240229	02/29/24	Anthropic
Claude-3.5 Sonnet	Anthropic	claude-3-5-sonnet-20240620	06/20/24	Anthropic
Cohere Command R	Cohere	command-r	03/11/24	Cohere
Cohere Command R+	Cohere	command-r-plus	04/04/24	Cohere
Gemini 1.0 Pro	Google	gemini-pro	12/13/23	GCP Vertex
Gemini 1.5 Flash	Google	gemini-1.5-flash-preview-0514	05/14/24	GCP Vertex
Gemini 1.5 Pro	Google	gemini-1.5-pro-preview-0409	04/09/24	GCP Vertex
GPT-3.5-turbo	OpenAI	gpt-3.5-turbo-0125	01/25/24	OpenAI
GPT-4-turbo	OpenAI	gpt-4-turbo-2024-04-09	04/09/24	OpenAI
GPT-4o	OpenAI	gpt-4o-2024-05-13	05/13/24	OpenAI
Llama3 8B Instruct	Meta	meta-llama-3-8b-instruct	04/18/24	TogetherAI
Llama3 70B Instruct	Meta	meta-llama-3-70b-instruct	04/18/24	TogetherAI
Mistral Large	MistralAI	mistral-large-2402	02/26/24	MistralAI
Mixtral 8x22B MoE	MistralAI	mixtral-8x22b-instruct-v0.1	04/17/24	TogetherAI
o1-mini	OpenAI	o1-mini-2024-09-12	09/12/24	OpenAI
o1-preview	OpenAI	o1-preview-2024-09-12	09/12/24	OpenAI