You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Hay que arrancar desde cero y diseñar bien el control de flujo de la generación, actualmente (por su crecimiento orgánico), está muy desprolijo y mezclado.
Qué debemos buscar:
normalizar que "todo lo que fue hecho NO va a ser hecho nuevamente", parecido a como se comporta la segunda parte de la generación; esto implica cambiar todo lo que es bajar listas y scrapear páginas: por default NO debería hacerlo de nuevo
cdpetron NO debería limpiar nada, a menos que arranque desde cero; entonces tenemos dos situaciones:
se da cuenta que arranca desde cero: debe asegurarse que tanto el lugar del "dump" como el lugar "temp" tienen que estar limpios (excepto lo que son las imágenes, ya que las mismas por un lado se comparten entre idiomas, y por el otro no cambian en el tiempo, a lo sumo entran en desuso)
se da cuenta que reanuda la generación: toma todo lo que está (si bajó las listas no las vuelve a bajar, si scrapeó la mitad, joya, etc, etc)
tenemos que formalizar una máquina de estados del proceso (que creo que es lineal, así que es super simple), y usar esto para saber dónde está y por dónde tiene que seguir, NO usar como ahora lo que tiene en disco). Entonces, si reanuda, no hace falta que vaya verificando que tiene cosas en cada paso, sabe que (por ejemplo) estaba preprocesando HTMLs, y que la vez pasada llegó hasta tal página, entonces continúa desde ese paso, y dentro de ese paso desde esa página.
The text was updated successfully, but these errors were encountered:
Hay que arrancar desde cero y diseñar bien el control de flujo de la generación, actualmente (por su crecimiento orgánico), está muy desprolijo y mezclado.
Qué debemos buscar:
normalizar que "todo lo que fue hecho NO va a ser hecho nuevamente", parecido a como se comporta la segunda parte de la generación; esto implica cambiar todo lo que es bajar listas y scrapear páginas: por default NO debería hacerlo de nuevo
cdpetron NO debería limpiar nada, a menos que arranque desde cero; entonces tenemos dos situaciones:
se da cuenta que arranca desde cero: debe asegurarse que tanto el lugar del "dump" como el lugar "temp" tienen que estar limpios (excepto lo que son las imágenes, ya que las mismas por un lado se comparten entre idiomas, y por el otro no cambian en el tiempo, a lo sumo entran en desuso)
se da cuenta que reanuda la generación: toma todo lo que está (si bajó las listas no las vuelve a bajar, si scrapeó la mitad, joya, etc, etc)
tenemos que formalizar una máquina de estados del proceso (que creo que es lineal, así que es super simple), y usar esto para saber dónde está y por dónde tiene que seguir, NO usar como ahora lo que tiene en disco). Entonces, si reanuda, no hace falta que vaya verificando que tiene cosas en cada paso, sabe que (por ejemplo) estaba preprocesando HTMLs, y que la vez pasada llegó hasta tal página, entonces continúa desde ese paso, y dentro de ese paso desde esa página.
The text was updated successfully, but these errors were encountered: