Skip to content

Commit

Permalink
taxonomy: improve taxonomy for products available in Croatia (#8140)
Browse files Browse the repository at this point in the history
* improve taxonomy for products available in Croatia

* fix perl for ingredients + add 1 category

* fix some errors due to duplicates in taxonomies

* fix some errors due to duplicates in taxonomies

* fix some tests after taxonomies changes

* fix some tests after taxonomies changes

* rollback changes for vitamine c for fr and fi

* rollback vitamin fr

* rollback chlorure de choline

* rollback chlorure de choline

* rm some changes following comment in PR
  • Loading branch information
benbenben2 authored Mar 1, 2023
1 parent d7b8592 commit d986c22
Show file tree
Hide file tree
Showing 9 changed files with 411 additions and 144 deletions.
32 changes: 27 additions & 5 deletions lib/ProductOpener/Ingredients.pm
Original file line number Diff line number Diff line change
Expand Up @@ -150,7 +150,8 @@ my %may_contain_regexps = (
en =>
"it may contain traces of|possible traces|traces|may also contain|also may contain|may contain|may be present",
bg => "продуктът може да съдържа следи от|може да съдържа следи от|може да съдържа",
cs => "může obsahovat",
bs => "može da sadrži",
cs => "může obsahovat|může obsahovat stopy",
da => "produktet kan indeholde|kan indeholde spor af|kan indeholde spor|eventuelle spor|kan indeholde|mulige spor",
de => "Kann enthalten|Kann Spuren|Spuren",
es => "puede contener huellas de|puede contener trazas de|puede contener|trazas|traza",
Expand All @@ -159,7 +160,7 @@ my %may_contain_regexps = (
"saattaa sisältää pienehköjä määriä muita|saattaa sisältää pieniä määriä muita|saattaa sisältää pienehköjä määriä|saattaa sisältää pieniä määriä|voi sisältää vähäisiä määriä|saattaa sisältää hivenen|saattaa sisältää pieniä|saattaa sisältää jäämiä|sisältää pienen määrän|jossa käsitellään myös|saattaa sisältää myös|joka käsittelee myös|jossa käsitellään|saattaa sisältää",
fr =>
"peut également contenir|peut contenir|qui utilise|utilisant|qui utilise aussi|qui manipule|manipulisant|qui manipule aussi|traces possibles|traces d'allergènes potentielles|trace possible|traces potentielles|trace potentielle|traces éventuelles|traces eventuelles|trace éventuelle|trace eventuelle|traces|trace",
hr => "može sadržavati|može sadržavati tragove|može sadržati|proizvod može sadržavati|sadrži",
hr => "Mogući sadržaj|može sadržavati|može sadržavati tragove|može sadržati|proizvod može sadržavati|sadrži",
is => "getur innihaldið leifar|gæti innihaldið snefil|getur innihaldið",
it =>
"Pu[òo] contenere tracce di|pu[òo] contenere|che utilizza anche|possibili tracce|eventuali tracce|possibile traccia|eventuale traccia|tracce|traccia",
Expand Down Expand Up @@ -1732,11 +1733,16 @@ sub parse_ingredients_text ($product_ref) {
(
#($product_lc =~ /^(en|es|it|fr)$/)
(
($product_lc eq 'en')
($product_lc eq 'bs')
or ($product_lc eq 'cs')
or ($product_lc eq 'en')
or ($product_lc eq 'es')
or ($product_lc eq 'fr')
or ($product_lc eq 'hr')
or ($product_lc eq 'it')
or ($product_lc eq 'mk')
or ($product_lc eq 'sl')
or ($product_lc eq 'sr')
)
and ($new_ingredient =~ /(^($regexp)\b|\b($regexp)$)/i)
)
Expand Down Expand Up @@ -1887,6 +1893,9 @@ sub parse_ingredients_text ($product_ref) {

# Remove some sentences
my %ignore_regexps = (
'bs' => [
'u promjenljivom odnosu', # in a variable ratio
],

'da' => [
'^Mælkechokoladen indeholder (?:også andre vegetabilske fedtstoffer end kakaosmør og )?mindst',
Expand Down Expand Up @@ -1970,7 +1979,13 @@ sub parse_ingredients_text ($product_ref) {
'^täysjyväsisältö',
],

'hr' => ['^u tragovima$',],
'hr' => [
'^u tragovima$', # in traces
'označene podebljano', # marked in bold
'savjet kod alergije', # allergy advice
'uključujući žitarice koje sadrže gluten', # including grains containing gluten
'za alergene', # for allergens
],

'it' => ['^in proporzion[ei] variabil[ei]$',],

Expand All @@ -1990,6 +2005,11 @@ sub parse_ingredients_text ($product_ref) {
'^идентичный натуральному$', '^(g|ж|ул)$'
],

'sl' => [
'lahko vsebuje',
'lahko vsebuje sledi', # may contain traces
],

'sv' => [
'^Minst \d{1,3}\s*% kakao I chokladen$',
'^Mjölkchokladen innehåller minst',
Expand Down Expand Up @@ -3397,7 +3417,8 @@ my %phrases_before_ingredients_list = (
'composition',
],

hr => ['HR BiH', 'HR/BIH', 'naziv proizvoda', 'popis sastojaka', 'Sastojci', 'Sastojci/Sestavine'],
hr =>
['HR BiH', 'HR/BIH', 'naziv', 'naziv proizvoda', 'popis sastojaka', 'sastav', 'sastojci', 'sastojci/sestavine'],

hu => ['(ö|ő|o)sszetev(ö|ő|o)k', 'összetétel',],

Expand Down Expand Up @@ -3702,6 +3723,7 @@ my %phrases_after_ingredients_list = (
'upotrijebiti do datuma', # valid until
'upozorenje', # warning
'uputa', # instructions
'uvjeti čuvanja', # storage conditions
'uvoznik za', # importer
'vakuumirana', # Vacuumed
'vrijeme kuhanja', # Cooking time
Expand Down
9 changes: 4 additions & 5 deletions taxonomies/additives.txt
Original file line number Diff line number Diff line change
Expand Up @@ -1547,7 +1547,7 @@ cs:E150a
da:E150a, Madkulør, Sukkerkulør
de:E150a, Zuckerkulör, Zuckercouleur
el:E150a, Απλο καραμελοχρωμα
es:E150a, Caramelo natural, color caramelo, colorante «Color Caramelo», caramelo para licores, caramelo natural, Color Caramelo
es:E150a, color caramelo, colorante «Color Caramelo», caramelo para licores
et:E150a
fi:E150a, Sokerikulööri, Sokerikulööriä
fr:E150a, Caramel E150a, caramel ordinaire, Caramelo simple, caramel colorant
Expand Down Expand Up @@ -1931,7 +1931,7 @@ es:E160, Carotenoides
et:E160, E160 food additive
fi:E160, Karotenoidit, Karotenoideja
fr:E160, Caroténoïdes, carotènes, Caroténoïde, caroténoïdes mélangés
hr:E160, bojilo karoteni, karoteni
hr:E160
hu:E160, Karotinoidok
it:E160, E160 food additive
lt:E160, E160 food additive
Expand Down Expand Up @@ -1968,7 +1968,7 @@ es:E160a, Alfa-caroteno, Alfacaroteno, α-caroteno, Gamma-caroteno, Gammacaroten
et:E160a, Karoteenid, Karotiinid, Karotiin, Karoteen
fi:E160a, Karoteeni, Karoteenia
fr:E160a, carotènes mélangés, carotène, γ-Carotène, gamma-carotène, Alphacarotene, Α-Carotène
hr:E160a, karoten
hr:E160a, karoten, bojilo karoteni, karoteni
hu:E160a, Karotinok
it:E160a, Carotene, Carotina, Caroteni
lt:E160a, Karotinas
Expand Down Expand Up @@ -7847,7 +7847,6 @@ vegetarian:en:yes
#comment:en:E331 should be in plural, the specific form can be entered under i, ii or iii. In some languages the singular can refer to any of the three variants. Sodium citrate may refer to any of the sodium salts of citric acid (though most commonly the third), but we make no assumptions.

en:E331, Sodium citrates
bg:E331, Натриев цитрат
ca:E331, Citrats de sodi
cs:E331, E331 food additive
da:E331, Natriumcitrater
Expand Down Expand Up @@ -22080,7 +22079,7 @@ el:E1001, E1001 food additive
es:E1001, E1001 food additive
et:E1001, E1001 food additive
fi:E1001, Koliinin suolat ja esterit, Koliinin suoloja ja estereitä
fr:E1001, Sels et esters de choline, Acétate de choline, Carbonate de choline, Chlorure de choline, Citrate de choline, Tartrate de choline, Lactate de choline
fr:E1001, Sels et esters de choline, Acétate de choline, Carbonate de choline, chlorure de choline, Citrate de choline, Tartrate de choline, Lactate de choline
hu:E1001, Kolin-só
it:E1001, E1001 food additive
lt:E1001, E1001 food additive
Expand Down
28 changes: 19 additions & 9 deletions taxonomies/additives_classes.txt
Original file line number Diff line number Diff line change
Expand Up @@ -25,6 +25,7 @@ it: Acidificante, acidificanti
ja: 酸味料
lt: Rūgštis
lv: Skābe
mk: киселина
mt: Aċidu
nb: Syre, Syrer
nl: Voedingszuur, voedingszuren
Expand Down Expand Up @@ -70,7 +71,7 @@ fi: Happamuudensäätöaine, Happamuudensäätöaineet, Happamuudensäätöainet
fr: Correcteur d’acidité, régulateur de l'acidité, régulateur d'acidité, agent tampon, ajusteur du pH, alcali, base, tampon
ga: Rialtán aigéadachta
he:מווסת חומציות
hr: regulator kiselosti, regulatori kiselosti
hr: regulator kiselosti, regulatori kiselosti, tvar za rahljanje, tvar za regulaciju, tvar za regulaciju kiselost
hu: Savanyúságot szabályozó anyag, Savanyúságot szabályozó anyagok, Savanyúságot szabályzó anyag, Savanyúságot szabályzó anyagok
id: pengatur keasaman
is: Sýrustillir, Sýrustillar
Expand All @@ -87,6 +88,7 @@ ro: Corector de aciditate, Regulator de aciditate, regulatori de aciditate
ru:Регулятор кислотности, регуляторы кислотности
sk: Regulátor kyslosti
sl: Sredstvo za uravnavanje kislosti
sr: regulator kiselosti
sv: Surhetsreglerande medel, Surhetsreglerandemedel, Surhetsregulator
wikidata:en:Q898753
description:en:Acidity regulators are substances which alter or control the acidity or alkalinity of a foodstuff.
Expand Down Expand Up @@ -215,12 +217,13 @@ et: Antioksüdant
fi: Hapettumisenestoaine, Hapettumisenestoainetta, Hapettumisenestoaineet, Hapettumisenestoaineita, Antioksidantti
fr: Antioxydant, antioxygène, antibrunissant, antioxydant synergique, anti-oxydant
ga: Frithocsaídeoir
hr: antioksidans, antioksidant
hr: antioksidans, antioksidant, antioksidat
hu: Antioxidáns, antioxidánsok
it: Antiossidante, antiossidanti, agente antiossidante, agenti antiossidanti
ja: 酸化防止剤
lt: Antioksidantas
lv: Antioksidants
mk: антиоксиданс
mt: Antiossidant
nb: Antioxidant, Antioksidant
nl: antioxidant, antioxidanten
Expand Down Expand Up @@ -360,6 +363,7 @@ is: Litarefni
it: Colorante, coloranti, alimento colorante
lt: Dažiklis
lv: Krāsa
mk: боја
mt: Kulur
nb: Farge, Farve, Fargestoff, Fargestoffer, fødevarer der farver
nl: Kleuren, Kleurstof, kleurstoffen, kleurend levensmiddel
Expand All @@ -369,6 +373,7 @@ ro: Colorant, coloranți
ru: Краситель, красители, краситель пищевой, пищевые красители, пищевой краситель
sl: Barvilo
sk: Farbivo
sr: boja
sv: Färg, Färgämne, Färgämnen, färgande livsmedel
zh:色素
wikidata:en:Q753009
Expand Down Expand Up @@ -451,13 +456,14 @@ et: Emulgaator
fi: Emulgointiaine, Emulgointiainetta, Emulgointiaineet, Emulgointiaineita
fr: Émulsifiant, agent de dispersion, agent de surface, agent de suspension, agent d'ajustement de la densité, inhibiteur de cristallisation, nébulisant, plastifiant
ga: Eiblitheoir
hr: emulgator, emulgatori, emlgatori
hr: emulgator, emulgatori, emlgatori, emuglator
hu: Emulgeálószer, emulgeálószerek, kristályosodásgátló, sűrűségszabályozó szer, diszpergálószer, lágyító, felületaktív anyag, szuszpenziós szer
is: Yruefni
it: Emulsionante, emulsionanti, agente emulsionante, agenti emulsionanti
ja: 乳化剤
lt: Emulsiklis, emulsikliai
lv: Emulgators
mk: емулгатор
mt: Emulsifikant
nb: Emulgeringsmiddel, Emulgator, Emulgatorer
nl: Emulgator, Emulgatoren
Expand Down Expand Up @@ -755,7 +761,7 @@ et:Želeeriv aine
fi:Hyytelöimisaine, Hyytelöimisainetta, Hyytelöimisaineet, Hyytelöimisaineita
fr:Gélifiant, Agent gélifiant
ga:Oibreán glóthúcháin
hr:tvar za želiranje
hr:tvar za želiranje, sredstvo za želiranje
hu:Zselésítőanyag, zselésítő anyag, zselésítő
it:Gelificante, gelificanti, agente gelificante, agenti gelificanti
lt:Stingdiklis
Expand Down Expand Up @@ -1038,7 +1044,7 @@ description:sl:Potisni plini so plini, razen zraka, ki potisnejo živilo iz emba
description:sv:Drivgaser: andra gaser än luft som driver ut ett livsmedel ur en behållare.

en: Raising agent, leavening
bg: Набухвател
bg: набухвател, набухватели
cs: Kypřicí látka, kypřidlo
de: Backtriebmittel
da: Hævemiddel, Hævemidler
Expand Down Expand Up @@ -1157,6 +1163,7 @@ is:bindiefni
it: Stabilizzante, stabilizzanti, agente stabilizzante, agenti stabilizzanti, legante, leganti
lt: Stabilizatorius
lv: Stabilizētājs
mk: стабилизатор, стабилизатори
mt: Stabbilizzatur
nb: Stabilisator, Stabilisatorer
nl: Stabilisator, Stabilisatoren
Expand Down Expand Up @@ -1202,19 +1209,20 @@ bg: Подсладител, подсладители
ca: Edulcorant, esdulcorants
cs: Sladidlo
da: Sødestof, Sødestoffer, Kunstigt sødemiddel, sødemiddel
de: Süßungsmittel, süssungsmittel
de: süßungsmittel, süssungsmittel, sußungsmittel
el: Γλυκαντικό
es: Edulcorante, Endulzante, edulcorante intenso, edulcorante masivo
et: Magusaine
fi: Makeutusaine, Makeutusainetta, Makeutusaineet, Makeutusaineita
fr: Édulcorant, édulcorant de charge, édulcorant intense
ga: Milseoir
hr: sladila, sladilo, zaslađivač
hr: sladila, sladilo, zaslađivač, zaslađivanje
hu: Édesítőszer, édesítőszerek
it: Edulcorante, edulcoranti, dolcificante, dolcificanti
ja: 甘味料
lt: Saldiklis
lv: Saldinātājs
mk: сладила
mt: Dolċifikant
nb: Søtningsmiddel, Søtstoff, Søtstoffer
nl: Zoetstof, Zoetstoffen
Expand Down Expand Up @@ -1268,6 +1276,7 @@ it: Addensante, addensanti, agente addensante, agenti addensanti
ja: 増粘剤
lt: Tirštiklis
lv: Biezinātājs
mk: згуснувач
mt: Aġent li jgħaqqad
nb: Fortykningsmiddel, Fortykningsmidler
nl: Verdikkingsmiddel, Verdikkingsmiddelen
Expand All @@ -1277,7 +1286,8 @@ pt: Espessante, espessantes
ro: Agent de îngroșare, agenți de îngroșare
ru:Загуститель
sk: Zahusťovadlo
sl: Sladilo
sl: Sladilo, zgoščevalec
sr: zgušnjavači
sv: Förtjockningsmedel, naturlig förtjockningsmedel
wikidata:en:Q911138
description:en:Thickeners are substances which increase the viscosity of a foodstuff.
Expand Down Expand Up @@ -1313,7 +1323,7 @@ es:Vitaminas
et:Vitamiinid
fi:Vitamiinit, Vitamiineja
fr:Vitamines
hr:vitamini, vitamins
hr:vitamini, vitamins, vitamin complex
hu:Vitaminok
it:Vitamine
lt:Vitaminai
Expand Down
Loading

0 comments on commit d986c22

Please sign in to comment.