Atualmente sou Cientista de Dados Jr na equipe de Data Quality. Meu foco está em melhorar sistemas de classificação de produtos usando Processamento de Linguagem Natural (NLP), com ferramentas como Spacy, Sklearn e LLM embeddings. Também lido com extração de dados estratégicos, investigações de pipelines e apoio às equipes com consultas críticas de dados.
- 🌱 Atualmente estudando: Machine Learning, LangChain e técnicas avançadas de manipulação de dados.
- 📚 Apaixonado por ajudar outras pessoas a melhorar suas vidas através da educação e do crescimento pessoal.
- Programação: Python, SQL, PySpark
- Manipulação de Dados: Pandas, PySpark, DuckDB
- Machine Learning: Scikit-learn, Embeddings, NLP
- Engenharia de Dados: Databricks, Apache Spark, Airflow
- Outros: Git, Spacy
- Classificação de Produtos com NLP: Trabalhando na melhoria de algoritmos de classificação de produtos usando técnicas de NLP de ponta.
- LangChain para Web Scraping: Desenvolvendo soluções de web scraping usando LangChain para extrair e processar dados de páginas web.
- Machine Learning: Estudando modelos e algoritmos de ML para aplicá-los em diversos cenários de dados.
- Criação de Conteúdo: Criando conteúdo para um blog, com o objetivo de inspirar as pessoas a estudar, buscar virtudes e fazer escolhas responsáveis.
- Geração de Embeddings com PySpark: Gerei embeddings a partir de grandes conjuntos de dados de texto usando PySpark e Pandas UDF.
- Aprimorar meu conhecimento em Machine Learning e NLP.
- Implementar técnicas de Retrieval-Augmented Generation (RAG).
- Compartilhar meu conhecimento por meio de conteúdo educacional e mentoria.