Web-scraping

[Pages:6]web-scraping

#webscraping

Table des mati?res

? propos

1

Chapitre 1: D?marrer avec le web-scraping

2

Remarques

2

Examples

2

Scraping Web en Python (en utilisant BeautifulSoup)

2

Cr?dits

4

? propos

You can share this PDF with anyone you feel could benefit from it, downloaded the latest version from: web-scraping

It is an unofficial and free web-scraping ebook created for educational purposes. All the content is extracted from Stack Overflow Documentation, which is written by many hardworking individuals at Stack Overflow. It is neither affiliated with Stack Overflow nor official web-scraping.

The content is released under Creative Commons BY-SA, and the list of contributors to each chapter are provided in the credits section at the end of this book. Images may be copyright of their respective owners unless otherwise specified. All trademarks and registered trademarks are the property of their respective company owners.

Use the content presented in this book at your own risk; it is not guaranteed to be correct nor accurate, please send your feedback and corrections to info@



1

Chapitre 1: D?marrer avec le web-scraping

Remarques

Cette section fournit une vue d'ensemble de ce qu'est le Web-scraping et pourquoi un d?veloppeur peut vouloir l'utiliser.

Il devrait ?galement mentionner tous les sujets importants dans le web-scraping et les relier aux sujets connexes. La documentation pour le raclage Web ?tant nouvelle, vous devrez peut-?tre cr?er des versions initiales de ces rubriques connexes.

Examples

Scraping Web en Python (en utilisant BeautifulSoup)

Lors de l'ex?cution de t?ches de science des donn?es, il est courant de vouloir utiliser des donn?es trouv?es sur Internet. Vous pourrez g?n?ralement acc?der ? ces donn?es via une interface de programmation d'application (API) ou dans d'autres formats. Cependant, il arrive que les donn?es que vous souhaitez ne soient accessibles que dans le cadre d'une page Web. Dans de tels cas, une technique appel?e web scraping appara?t. Pour appliquer cette technique pour obtenir des donn?es ? partir de pages Web, nous devons avoir des connaissances de base sur la structure des pages Web et les balises utilis?es dans le d?veloppement de pages Web ( , , etc.). Si vous ?tes nouveau dans le d?veloppement Web, vous pouvez l'apprendre ici .

Donc, pour commencer avec la mise au rebut sur le Web, nous utiliserons un site Web simple. Nous utiliserons le module de requests pour obtenir le contenu de la page Web OU le code source.

import requests page = requests.get("") print (page.content) ## shows the source code

Nous allons maintenant utiliser le module bs4 pour supprimer le contenu pour obtenir les donn?es utiles.

from bs4 import BeautifulSoup soup = BeautifulSoup(page.content, 'html.parser') print(soup.prettify()) ##shows source in html format

Vous pouvez trouver les balises requises en utilisant l'outil inspect element dans votre navigateur.Maintenant, vous voulez obtenir toutes les donn?es stock?es avec la .

soup.find_all('li') # you can also find all the list items with class='ABC' # soup.find_all('p', class_='ABC')



2

# OR all elements with class='ABC' # soup.find_all(class_="ABC") # OR all the elements with class='ABC' # soup.find_all(id="XYZ")

Ensuite, vous pouvez obtenir le texte dans la balise en utilisant

for i in range(len(soup.find_all('li'))): print (soup.find_all('li')[i].get_text())

Le script entier est petit et assez simple.

import requests from bs4 import BeautifulSoup

page = requests.get("") #get the page soup = BeautifulSoup(page.content, 'html.parser') # parse according to html soup.find_all('li') #find required tags

for i in range(len(soup.find_all('li'))): print (soup.find_all('li')[i].get_text())

Lire D?marrer avec le web-scraping en ligne:



3

Cr?dits

S. No

Chapitres

D?marrer avec le 1 web-scraping

Contributeurs Community, thepurpleowl



4

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download