From d94442be651b4d44f3197d0c3a930cd4b13eae27 Mon Sep 17 00:00:00 2001 From: malteos Date: Thu, 18 Jul 2024 17:48:06 +0200 Subject: [PATCH] Merge --- src/llm_datasets/datasets/dataset_registry.py | 3 +- .../datasets/it/gazzetta_ufficiale.py | 38 +++++++++++++++++++ 2 files changed, 40 insertions(+), 1 deletion(-) create mode 100644 src/llm_datasets/datasets/it/gazzetta_ufficiale.py diff --git a/src/llm_datasets/datasets/dataset_registry.py b/src/llm_datasets/datasets/dataset_registry.py index d1e25bf..6fcb2b3 100644 --- a/src/llm_datasets/datasets/dataset_registry.py +++ b/src/llm_datasets/datasets/dataset_registry.py @@ -89,7 +89,8 @@ ".hr.croatian_news_engri.CroatianNewsENGRIDataset", # it ".it.itwac.ITWacDataset", - ".it.paisa.PaisaCorpus" + ".it.paisa.PaisaCorpus", + ".it.gazzetta_ufficiale.GazzettaUfficiale", # mt ".mt.korpus_malti.KorpusMaltiDataset", # nl diff --git a/src/llm_datasets/datasets/it/gazzetta_ufficiale.py b/src/llm_datasets/datasets/it/gazzetta_ufficiale.py new file mode 100644 index 0000000..19459f4 --- /dev/null +++ b/src/llm_datasets/datasets/it/gazzetta_ufficiale.py @@ -0,0 +1,38 @@ +from llm_datasets.datasets.base import Availability, License +from llm_datasets.datasets.hf_dataset import HFDataset + + +class GazzettaUfficiale(HFDataset): + DATASET_ID = "gazzetta_ufficiale" + TITLE = "Gazzeta Ufficiale" + HOMEPAGE = "https://huggingface.co/datasets/mii-llm/gazzetta-ufficiale" + # LICENSE = # not specified on HF page + AVAILABILITY = Availability.DIRECT_DOWNLOAD + LANGUAGES = ["it"] + DESCRIPTION = """La Gazzetta Ufficiale della Repubblica Italiana, quale fonte ufficiale di conoscenza + delle norme in vigore in Italia e strumento di diffusione, informazione e ufficializzazione di + testi legislativi, atti pubblici e privati, è edita dall’Istituto Poligrafico e Zecca dello + Stato e pubblicata in collaborazione con il Ministero della Giustizia, il quale provvede alla direzione e redazione della stessa. + L'Istituto Poligrafico e Zecca dello Stato S.p.A. promuove la più ampia fruibilità della Gazzetta + Ufficiale della Repubblica Italiana in formato digitale. + Si segnala che l'unico testo definitivo è quello pubblicato sulla Gazzetta Ufficiale a mezzo stampa, + che prevale in caso di discordanza. La riproduzione dei testi forniti nel formato elettronico è consentita purché venga menzionata la fonte, il carattere non autentico e gratuito. + """ + LICENSE = License("mit", commercial_use=True, research_use=True, distribution=True) + HF_DATASET_ID = "mii-llm/gazzetta-ufficiale" + HF_DATASET_CONFIGS = ["default"] + HF_DATASET_SPLIT = "train" + keep_columns = True + + def get_text_from_item(self, item) -> str: + """Subscribing the original method since this dataset + has multiple columns. + + Iterates over the row columns and concatenates the columns content + item: + """ + txt = "" + txt_colums = ["text", "field1", "field2", "about"] + for column in txt_colums: + txt += item[column] + return txt