Primeira Experiência de Trabalho (Freelance): Uma Solução para a Loja de Livros: Sebo Baleia
- Extrai dados de uma página Html;
Baixei 4 páginas do
Acervo Virtual
para a Empresa pelo site da Estante Virtual que havia713 Itens
;
-
Verifiquei um padrão com as tags
td
(table data) com as classes Html relacionadas aTítulos
(acervo-titulo) e osPreços
(acervo-preco text-center). Daí eu poderia: -
Extrair títulos e os preços (títulos.txt e preços.txt);
-
Gerei números com um contador dependendo de cada linha no Excel;
-
E reunir os dados numa panília do Excel já ordenados em ordem 0-9 e alfabetica.
- Agora ao invés de gerar os dados em arquivos de texto
- O programa gerará os dados diretamente num arquivo Excel
- Python 🐍
- BeautifulSoup4 🍲
- Chardet 🔓
- Pandas 📄
pip install beautifulsoup4
pip install chardet
pip install pandas
- Abra um terminal e rode e comando:
python extratorDeDadosWeb.py
- Código para o Exemplo: extratorDeDadosWeb.py
- Exemplo de Site: Drogaria São Paulo 👈
- Irei pegar os títulos e preços dessa página acima irei extrair e colocar numa planília do excel com medicamentos genéricos (Preços dia 13/12/24)
- Clone esse repositório na sua máquina local e instale o Python e as bibliotecas
- Pegue seu arquivo Html/Xml e coloque nessa pasta clonada
- Verfique na sua página os padrões de títulos e preços (Inspecione para ver em que classe estão armenadas e sua tag)
- Altere essas linhas de código para extrair corretamente: