47 millió OCR-hiba gyakorisági listája 900 millió szavas magyar korpusz alapján.
Implementáció és teljes hibalisták.
Ha felhasználja az eredményeket, kérjük hivatkozzon az alábbi cikkre.
Pethő Gergely, Sass Bálint, Simon László, Lipp Veronika (2024). OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával. In: Proceedings of MSZNY 2024, 17-29.
Frequency list of 47 million OCR-errors based on a 900 million word Hungarian corpus.
Implementation and full lists of errors.
Please cite the following paper if you use our results.
Pethő Gergely, Sass Bálint, Simon László, Lipp Veronika (2024). OCR-hibák kvantitatív elemzése több szövegváltozat összehasonlításával. In: Proceedings of MSZNY 2024, 17-29.