Raise error on training data from different format versions #152

YodaEmbedding · 2021-04-10T20:42:24Z

Perhaps an error could be raised to warn if training data of different formats is mixed? It took me a bit to figure out why it was failing until I realized that the record sizes being read were varying.

EDIT: Hmm, using any non-v6 training data runs into problems since parse has v6_gen hardcoded into it:

    def parse(self):
        """
        Read data from child workers and yield batches of unpacked records
        """
        gen = self.v6_gen()        # read from workers
        gen = self.tuple_gen(gen)  # convert v6->tuple
        gen = self.batch_gen(gen)  # assemble into batches
        for b in gen:
            yield b

The text was updated successfully, but these errors were encountered:

teck45 · 2021-04-11T07:16:42Z

T60 since march 15 is 100 percent v6, 2 weeks before mostly v6 and around 10 percent v5 - needs rescoring.. t75 is 100 percent v6. Also some data can be corrupted. But overall I have good experience with late t60 data.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Raise error on training data from different format versions #152

Raise error on training data from different format versions #152

YodaEmbedding commented Apr 10, 2021 •

edited

Loading

teck45 commented Apr 11, 2021 •

edited

Loading

Raise error on training data from different format versions #152

Raise error on training data from different format versions #152

Comments

YodaEmbedding commented Apr 10, 2021 • edited Loading

teck45 commented Apr 11, 2021 • edited Loading

YodaEmbedding commented Apr 10, 2021 •

edited

Loading

teck45 commented Apr 11, 2021 •

edited

Loading