Skip to content

Latest commit

 

History

History
27 lines (22 loc) · 1.33 KB

README.md

File metadata and controls

27 lines (22 loc) · 1.33 KB

Projeto prático da disciplina de Linguagens de Programação para o MBA em Engenharia de dados

Objetivos

  • Coletar as fontes de dados que totalizam mais de 100milhões de linhas e conseguir ler os arquivos
  • Construir uma lógica em python, sem o uso de pandas ou spark, para juntar esses dados
  • Persistir os dados em uma base de dados como postgresql, mysql etc.
  • Escrever quais pontos de dificuldade e quais os pontos a favor da técnica usada. Indique soluções de mercado através de uma pesquisa, quais ferramentas facilitariam essa jornada?

Pontos de dificuldade e quais os pontos a favor da técnica usada.

Vantagens

  • A utilização apenas de pacotes nativos do python para manipulação de arquivos reduz a dependência de pacotes de terceiros resultando em maior conpatibilidade, principalmente em ambientes com bastante restrição de recursos
  • Tem-se maior controle sobre as etapas que são executadas

Dificuldades

  • É necessário conhecimento em um número maior de recursos do python.
  • Não temos as abstrações implementadas por pacotes especializados, nem suas otimizações
  • Passamos a ser responsáveis por todo o processo, de forma mais detalhada

Soluções de mercado que facilitariam essa jornada?

  • Airbyte
  • Pacote Pandas
  • Pyspark

Logs

drawing