- Coletar as fontes de dados que totalizam mais de 100milhões de linhas e conseguir ler os arquivos
- Construir uma lógica em python, sem o uso de pandas ou spark, para juntar esses dados
- Persistir os dados em uma base de dados como postgresql, mysql etc.
- Escrever quais pontos de dificuldade e quais os pontos a favor da técnica usada. Indique soluções de mercado através de uma pesquisa, quais ferramentas facilitariam essa jornada?
- A utilização apenas de pacotes nativos do python para manipulação de arquivos reduz a dependência de pacotes de terceiros resultando em maior conpatibilidade, principalmente em ambientes com bastante restrição de recursos
- Tem-se maior controle sobre as etapas que são executadas
- É necessário conhecimento em um número maior de recursos do python.
- Não temos as abstrações implementadas por pacotes especializados, nem suas otimizações
- Passamos a ser responsáveis por todo o processo, de forma mais detalhada
- Airbyte
- Pacote Pandas
- Pyspark