Beautifulsoup

beautifulsoup

#beautifulso up

Inhaltsverzeichnis

?ber

1

Kapitel 1: Erste Schritte mit beautifulsoup

2

Bemerkungen

2

Versionen

3

Examples

3

Installation oder Setup

3

Ein Beispiel f?r eine BeautifulSoup "Hello World"

3

Kapitel 2: Ortungselemente

6

Examples

6

Suchen Sie nach einem Element in BeautifulSoup einen Text

6

Verwenden von CSS-Selektoren zum Suchen von Elementen in BeautifulSoup

6

Kommentare suchen

7

Filterfunktionen

7

Grundlegende Verwendung

7

Zus?tzliche Argumente zum Filtern von Funktionen bereitstellen

8

Zugriff auf interne Tags und ihre Attribute des urspr?nglich ausgew?hlten Tags

8

Sammeln optionaler Elemente und / oder ihrer Attribute aus einer Reihe von Seiten

9

Credits

11

?ber

You can share this PDF with anyone you feel could benefit from it, downloaded the latest version from: beautifulsoup

It is an unofficial and free beautifulsoup ebook created for educational purposes. All the content is extracted from Stack Overflow Documentation, which is written by many hardworking individuals at Stack Overflow. It is neither affiliated with Stack Overflow nor official beautifulsoup.

The content is released under Creative Commons BY-SA, and the list of contributors to each chapter are provided in the credits section at the end of this book. Images may be copyright of their respective owners unless otherwise specified. All trademarks and registered trademarks are the property of their respective company owners.

Use the content presented in this book at your own risk; it is not guaranteed to be correct nor accurate, please send your feedback and corrections to info@



1

Kapitel 1: Erste Schritte mit beautifulsoup

Bemerkungen

In diesem Abschnitt besprechen wir, was Sch?ne Suppe ist, wof?r sie verwendet wird, und eine kurze Beschreibung, wie sie verwendet werden kann.

Beautiful Soup ist eine Python-Bibliothek, die Ihren vorinstallierten HTML / XML-Parser verwendet und die Webseite / HTML / XML in einen Baum konvertiert, der aus Tags, Elementen, Attributen und Werten besteht. Genauer gesagt besteht die Baumstruktur aus vier Objekttypen: Tag, NavigableString, BeautifulSoup und Comment. Dieser Baum kann dann mit den Methoden / Eigenschaften des BeautifulSoup-Objekts "abgefragt" werden, das aus der Parser-Bibliothek erstellt wird.

Ihr Bedarf: Oft haben Sie einen der folgenden Bed?rfnisse:

1. Sie k?nnen eine Webseite parsen, um zu ermitteln, wie viele der gefundenen Tags, wie viele Elemente jedes Tags gefunden werden und welche Werte vorhanden sind. M?glicherweise m?chten Sie sie ?ndern.

2. M?glicherweise m?chten Sie die Elementnamen und -werte ermitteln, damit Sie sie zusammen mit anderen Bibliotheken f?r die Webseitenautomatisierung verwenden k?nnen, beispielsweise mit Selenium .

3. M?glicherweise m?chten Sie Daten, die auf einer Webseite angezeigt werden, in andere Formate ?bertragen oder extrahieren, z. B. eine CSV-Datei oder eine relationale Datenbank, z. B. SQLite oder MySQL. In diesem Fall hilft Ihnen die Bibliothek beim ersten Schritt, die Struktur der Webseite zu verstehen, obwohl Sie zum ?bertragen andere Bibliotheken verwenden.

4. Vielleicht m?chten Sie herausfinden, wie viele Elemente mit einem bestimmten CSS-Stil gestaltet wurden und welche.

Sequenz f?r typische grundlegende Verwendung in Ihrem Python-Code:

1. Importieren Sie die Sch?ne Suppenbibliothek

2. ?ffnen Sie eine Webseite oder einen HTML-Text mit der BeautifulSoup-Bibliothek, indem Sie angeben, welcher Parser verwendet werden soll. Das Ergebnis dieses Schritts ist ein BeautifulSoup-Objekt. (Hinweis: Dieser Parsername muss bereits als Teil Ihrer PythonPakete installiert werden. Zum Beispiel ist html.parser ein mit Python mitgeliefertes 'withhtml.parser -Paket. Sie k?nnen andere Parser wie lxml installieren oder html5lib .)

3. "Abfrage" oder suchen Sie das BeautifulSoup-Objekt mit der Syntax 'object.method' und erhalten Sie das Ergebnis in eine Auflistung, z. B. ein Python-W?rterbuch. Bei einigen Methoden ist die Ausgabe ein einfacher Wert.



2

4. Verwenden Sie das Ergebnis des vorherigen Schritts, um im Rest Ihres Python-Codes alles zu tun, was Sie damit machen m?chten. Sie k?nnen auch die Elementwerte oder Attributwerte im Baumobjekt ?ndern. ?nderungen wirken sich nicht auf die Quelle des HTML-Codes aus. Sie k?nnen jedoch Ausgabeformatierungsmethoden (z. B. prettify ) prettify , um eine neue Ausgabe aus dem BeautifulSoup-Objekt zu erstellen.

H?ufig verwendete Methoden: Normalerweise werden die Methoden .find und .find_all verwendet, um den Baum zu durchsuchen und die Eingabeargumente .find_all .

Die Eingabeargumente sind: der gesuchte Tag-Name, Attributnamen und andere zugeh?rige Argumente. Diese Argumente k?nnen dargestellt werden als: ein String, ein regul?rer Ausdruck, eine Liste oder sogar eine Funktion.

?bliche Verwendungen des BeautifulSoup-Objekts sind:

1. Suche nach CSS-Klasse 2. Suche nach Hyperlink-Adresse 3. Suche nach Element-ID, Tag 4. Suche nach Attributname Attributwert.

Wenn Sie den Baum mit einer Kombination der oben genannten Kriterien filtern m?chten, k?nnen Sie auch eine Funktion schreiben, die als wahr oder falsch ausgewertet wird, und nach dieser Funktion suchen.

Versionen

Ausf?hrung Bemerkungen

Paketnamen Ver?ffentlichungsdatum

3.x

Version 3.2.1; Nur Python 2 sch?ne Suppe 2012-02-16

4.x

Version 4.5.0; Python 2 und 3 beautifulsoup4 2016-07-20

Examples

Installation oder Setup

pip kann zur Installation von BeautifulSoup verwendet werden. F?hren Sie den folgenden Befehl aus, um Version 4 von BeautifulSoup zu installieren:

pip install beautifulsoup4

Beachten Sie, dass der Paketname beautifulsoup4 anstelle von beautifulsoup lautet. Letzterer Name steht f?r old release, siehe old beautifulsoup

Ein Beispiel f?r eine BeautifulSoup "Hello World"



3

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download