Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Rehacer el control de flujo de la generación #342

Open
facundobatista opened this issue Dec 5, 2020 · 0 comments
Open

Rehacer el control de flujo de la generación #342

facundobatista opened this issue Dec 5, 2020 · 0 comments

Comments

@facundobatista
Copy link
Member

Hay que arrancar desde cero y diseñar bien el control de flujo de la generación, actualmente (por su crecimiento orgánico), está muy desprolijo y mezclado.

Qué debemos buscar:

  • normalizar que "todo lo que fue hecho NO va a ser hecho nuevamente", parecido a como se comporta la segunda parte de la generación; esto implica cambiar todo lo que es bajar listas y scrapear páginas: por default NO debería hacerlo de nuevo

  • cdpetron NO debería limpiar nada, a menos que arranque desde cero; entonces tenemos dos situaciones:

    • se da cuenta que arranca desde cero: debe asegurarse que tanto el lugar del "dump" como el lugar "temp" tienen que estar limpios (excepto lo que son las imágenes, ya que las mismas por un lado se comparten entre idiomas, y por el otro no cambian en el tiempo, a lo sumo entran en desuso)

    • se da cuenta que reanuda la generación: toma todo lo que está (si bajó las listas no las vuelve a bajar, si scrapeó la mitad, joya, etc, etc)

  • tenemos que formalizar una máquina de estados del proceso (que creo que es lineal, así que es super simple), y usar esto para saber dónde está y por dónde tiene que seguir, NO usar como ahora lo que tiene en disco). Entonces, si reanuda, no hace falta que vaya verificando que tiene cosas en cada paso, sabe que (por ejemplo) estaba preprocesando HTMLs, y que la vez pasada llegó hasta tal página, entonces continúa desde ese paso, y dentro de ese paso desde esa página.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant