HazyResearch · bviggiano · Jun 15, 2024 · Jun 15, 2024
diff --git a/README.md b/README.md
@@ -48,6 +48,9 @@ There's a few way to use these HuggingFace weights, all with different flavors:
 2. [Pytorch Lighting in this repo](#loadweights)
 3. [standalone](#standalone)
 
+Thanks to friends at HuggingFace, we also have versions of these checkpoints
+that can be loaded utilizing the transformers library `AutoModel` and `AutoTokenizer` classes! This makes it super easy to load HyenaDNA models to use in your own codebase. You can access our collection of these checkpoints [here!](https://huggingface.co/collections/LongSafari/hyenadna-models-654d0cbbe113b04ba5a0f638)
+
 ## Dependencies
 <a name="dependencies"></a>
 

diff --git a/src/dataloaders/datasets/hg38_char_tokenizer.py b/src/dataloaders/datasets/hg38_char_tokenizer.py
@@ -4,6 +4,7 @@
 CharacterTokenzier for Hugging Face Transformers.
 This is heavily inspired from CanineTokenizer in transformers package.
 """
+
 import json
 import os
 from pathlib import Path
@@ -13,7 +14,13 @@
 
 
 class CharacterTokenizer(PreTrainedTokenizer):
-    def __init__(self, characters: Sequence[str], model_max_length: int, padding_side: str='left', **kwargs):
+    def __init__(
+        self,
+        characters: Sequence[str],
+        model_max_length: int,
+        padding_side: str = "left",
+        **kwargs
+    ):
         """Character tokenizer for Hugging Face transformers.
         Args:
             characters (Sequence[str]): List of desired characters. Any character which
@@ -41,6 +48,18 @@ def __init__(self, characters: Sequence[str], model_max_length: int, padding_sid
 
         mask_token = AddedToken("[MASK]", lstrip=True, rstrip=False)
 
+        self._vocab_str_to_int = {
+            "[CLS]": 0,
+            "[SEP]": 1,
+            "[BOS]": 2,
+            "[MASK]": 3,
+            "[PAD]": 4,
+            "[RESERVED]": 5,
+            "[UNK]": 6,
+            **{ch: i + 7 for i, ch in enumerate(characters)},
+        }
+        self._vocab_int_to_str = {v: k for k, v in self._vocab_str_to_int.items()}
+
         super().__init__(
             bos_token=bos_token,
             eos_token=sep_token,
@@ -55,17 +74,8 @@ def __init__(self, characters: Sequence[str], model_max_length: int, padding_sid
             **kwargs,
         )
 
-        self._vocab_str_to_int = {
-            "[CLS]": 0,
-            "[SEP]": 1,
-            "[BOS]": 2,
-            "[MASK]": 3,
-            "[PAD]": 4,
-            "[RESERVED]": 5,
-            "[UNK]": 6,
-            **{ch: i + 7 for i, ch in enumerate(characters)},
-        }
-        self._vocab_int_to_str = {v: k for k, v in self._vocab_str_to_int.items()}
+    def get_vocab(self) -> Dict[str, int]:
+        return self._vocab_str_to_int
 
     @property
     def vocab_size(self) -> int:
@@ -146,4 +156,4 @@ def from_pretrained(cls, save_directory: Union[str, os.PathLike], **kwargs):
         cfg_file = Path(save_directory) / "tokenizer_config.json"
         with open(cfg_file) as f:
             cfg = json.load(f)
-        return cls.from_config(cfg)
+        return cls.from_config(cfg)