WebScraping con Python e BeautifulSoup
Oggi vediamo un esempio basico di WebScraping usando Python e BeautifulSoup!
Questa libreria è un diventata un must per questo genere di operazioni con Python.
E la versione 4 ha portato con se molte novità.
Prima di tutto, per usarla, dobbiamo installarla sul nostro sistema.
Possiamo fare questa operazione con PIP:
$ sudo pip install beautifulsoup4
A questo punto creiamo un file Python e mettiamoci dentro questo:
#!/usr/bin/python3
from bs4 import BeautifulSoup
import requests
r = requests.get('http://en.wikipedia.org/wiki/Main_Page')
data = r.text
soup = BeautifulSoup(data)
for anchor in soup.find_all('a'):
print(anchor.get('href'))
Dopo aver importato due moduli, eseguaimo una richiesta verso una pagina web.
Sotto prendiamo i dati e li passiamo a BeautifulSoup.
Poi facciamo una ricerca con find_all per trovare tutti i link e li stampiamo.
Ovviamente è un esempio base; ci sono tantissime funzioni più avanzate e specifiche.
Enjoy!
python webscraping beautifulsoup find_all
Commentami!