Rehacer el control de flujo de la generación #342

facundobatista · 2020-12-05T11:46:33Z

Hay que arrancar desde cero y diseñar bien el control de flujo de la generación, actualmente (por su crecimiento orgánico), está muy desprolijo y mezclado.

Qué debemos buscar:

normalizar que "todo lo que fue hecho NO va a ser hecho nuevamente", parecido a como se comporta la segunda parte de la generación; esto implica cambiar todo lo que es bajar listas y scrapear páginas: por default NO debería hacerlo de nuevo
cdpetron NO debería limpiar nada, a menos que arranque desde cero; entonces tenemos dos situaciones:
- se da cuenta que arranca desde cero: debe asegurarse que tanto el lugar del "dump" como el lugar "temp" tienen que estar limpios (excepto lo que son las imágenes, ya que las mismas por un lado se comparten entre idiomas, y por el otro no cambian en el tiempo, a lo sumo entran en desuso)
- se da cuenta que reanuda la generación: toma todo lo que está (si bajó las listas no las vuelve a bajar, si scrapeó la mitad, joya, etc, etc)
tenemos que formalizar una máquina de estados del proceso (que creo que es lineal, así que es super simple), y usar esto para saber dónde está y por dónde tiene que seguir, NO usar como ahora lo que tiene en disco). Entonces, si reanuda, no hace falta que vaya verificando que tiene cosas en cada paso, sabe que (por ejemplo) estaba preprocesando HTMLs, y que la vez pasada llegó hasta tal página, entonces continúa desde ese paso, y dentro de ese paso desde esa página.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Rehacer el control de flujo de la generación #342

Rehacer el control de flujo de la generación #342

facundobatista commented Dec 5, 2020

Rehacer el control de flujo de la generación #342

Rehacer el control de flujo de la generación #342

Comments

facundobatista commented Dec 5, 2020