Skip to content

sal0minh0/extratorDeDadosWeb

Repository files navigation

Primeira Experiência de Trabalho (Freelance): Uma Solução para a Loja de Livros: Sebo Baleia

Problema: Precisava de alguns dados cadastrados de um site numa planília de Excel para organizar o acervo físico

O que eu fiz nesse Job:

  1. Extrai dados de uma página Html;

Baixei 4 páginas do Acervo Virtual para a Empresa pelo site da Estante Virtual que havia 713 Itens;

  1. Verifiquei um padrão com as tags td (table data) com as classes Html relacionadas a Títulos (acervo-titulo) e os Preços (acervo-preco text-center). Daí eu poderia:

  2. Extrair títulos e os preços (títulos.txt e preços.txt);

  3. Gerei números com um contador dependendo de cada linha no Excel;

  4. E reunir os dados numa panília do Excel já ordenados em ordem 0-9 e alfabetica.

Novidade: Melhorias no Programa

  • Agora ao invés de gerar os dados em arquivos de texto
  • O programa gerará os dados diretamente num arquivo Excel

Ferramentas usadas

Verifique que você tenha Python, BeautifulSoup, o Chardet e o Pandas instalado:

    pip install beautifulsoup4
    pip install chardet
    pip install pandas

Como rodar?

  • Abra um terminal e rode e comando:
    python extratorDeDadosWeb.py

Exemplo com uma empresa aleatória

  • Código para o Exemplo: extratorDeDadosWeb.py
  • Exemplo de Site: Drogaria São Paulo 👈
  • Irei pegar os títulos e preços dessa página acima irei extrair e colocar numa planília do excel com medicamentos genéricos (Preços dia 13/12/24)

Tutorial para usar com sua página Web

  1. Clone esse repositório na sua máquina local e instale o Python e as bibliotecas
  2. Pegue seu arquivo Html/Xml e coloque nessa pasta clonada
  3. Verfique na sua página os padrões de títulos e preços (Inspecione para ver em que classe estão armenadas e sua tag)
  4. Altere essas linhas de código para extrair corretamente:

6° linha: Altere de acordo com seu site



22° linha: Altere de acordo com a classe de títulos



26° linha: Altere de acordo com a classe de preços



40° linha: Altere de acordo com o nome que você quiser para sua planília

Releases

No releases published

Packages

No packages published