Wymored Login

Curso de web scraping em python 3 - captura de dados de sites - Parte 1 - Configuração do ambiente

28 de janeiro de 2019 por Alexandre Miguel de Andrade Souza

(em elaboração)

1) configurar o ambiente.

Não importa o seu sistema operacional (windows, linux ou macos), há ferramentas que permitem fazer o webscraping que possuem versões para várias plataformas, Instale seguindo as instruções de cada site.

a) Ferramentas de desenvolvimento IDE vscode e Controle de Versão Git

b) Linguagem de programação python3.7.2

c) Banco de dados SQLite. Vamos usar a GUI sqlitebrowser

d) Após instalar os programas acima, abra o Vscode, escolha ou crie uma pasta para o projeto (File - > Open Folder):

No windows (substitua usuario pelo seu usuário) :

C:/usuarios/usuario/projetos/cursoscraping

No linux:

/home/usuario/projetos/cursoscraping

e) e no terminal (menu Terminal > New Terminal), digite:

  python -m venv venv

No windows, se o comando acima não funcionar, feche e abra o VSCode de novo. Se ainda não der certo, pegue o caminho completo do python. No menu iniciar, digite python, irá aparecer a(s) versão(ôes) do python instalada(s). Clique com o botão direito sobre a versão a ser utilizada, e selecione "Abrir no diretorio do arquivo' No Explorer, dê um clique duplo na barra do caminho para obter o caminho completo, copie e cole no terminal, adicione \python.exe -m venv venv

de forma a ficar semelhante a

 c:\usuarios\wymored\caminho\python.exe -m venv venv

O venv é uma forma de instalar e utilizar bibliotecas e versões do python específicas para o projeto. Nesse curso, estamos utilizando a versão 3.7.2 do python. Se não estiver aparecendo (venv) no inicio da linha de comando no terminal do vscode, use o comando no terminal do vscode para ativá-lo

source venv/bin/activate

Se estiver usando Windows, use o comando:

venv/Scripts/activate

e) Crie um arquivo requirements.txt com o conteúdo abaixo

requests
bs4
python-slugify
pydal

Execute o comando abaixo

pip install -r requirements.txt

para instalar todas as bibliotecas (libraries) necessárias para o nosso projeto.

f) crie um arquivo readme.md (File -> New) . Este arquivo é um 'leia me' em formato markdown

Acesse o link para consultar a sintaxe.
Edite o arquivo para apresentar o projeto. Veja um exemplo e o visualize

É o primeiro arquivo que alguém lê no projeto para saber o que ele faz e como executá-lo

g) Também vamos precisar das versões mais atualizadas do Chrome e Firefox

h) inicie o repositório git

git init

e não esqueça de configurar:

git config --global push.default simple
git config --global user.name "Seu Nome"
git config --global user.email "seuemail@empresa.com"
git config --global core.editor code
git config --global merge.tool code

Se estiver em uma rede corporativa com proxy:

git config --global http.proxy http://proxyUsername:proxyPassword@proxy.server.com:port

No windows, se você selecionou o vscode como editor padrão ao instalar o git, são necessárias apenas as linhas:

git config --global user.name "Seu Nome"
git config --global user.email "seuemail@empresa.com"

salve o arquivo https://raw.githubusercontent.com/github/gitignore/master/Python.gitignore como .gitignore no diretório

Veja como está o repositório com:

git status

Vão ser listados os arquivos adicionados ou alterados.

Faça o primeiro commit

git add .
git commit -m 'inicio'

Confira como ficou o repositório com

git log

Se precisar voltar a algum commit anterior, faça o checkout informando os primeiros 6 ou 8 digitos do commit desejado

git checkout 9d34fc45

Agora temos o ambiente pronto para começar a desenvolver o nosso scraper

Parte 2