Skip to content

kandarpagalas/carga-em-banco-sql-com-python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Projeto prático da disciplina de Linguagens de Programação para o MBA em Engenharia de dados

Objetivos

  • Coletar as fontes de dados que totalizam mais de 100milhões de linhas e conseguir ler os arquivos
  • Construir uma lógica em python, sem o uso de pandas ou spark, para juntar esses dados
  • Persistir os dados em uma base de dados como postgresql, mysql etc.
  • Escrever quais pontos de dificuldade e quais os pontos a favor da técnica usada. Indique soluções de mercado através de uma pesquisa, quais ferramentas facilitariam essa jornada?

Pontos de dificuldade e quais os pontos a favor da técnica usada.

Vantagens

  • A utilização apenas de pacotes nativos do python para manipulação de arquivos reduz a dependência de pacotes de terceiros resultando em maior conpatibilidade, principalmente em ambientes com bastante restrição de recursos
  • Tem-se maior controle sobre as etapas que são executadas

Dificuldades

  • É necessário conhecimento em um número maior de recursos do python.
  • Não temos as abstrações implementadas por pacotes especializados, nem suas otimizações
  • Passamos a ser responsáveis por todo o processo, de forma mais detalhada

Soluções de mercado que facilitariam essa jornada?

  • Airbyte
  • Pacote Pandas
  • Pyspark

Logs

drawing

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages