Quelle: \"The Town Musicians of Bremen 2\" on [freesvg.org](https://freesvg.org/1487612321), Public Domain; gefüllt mit Python und [WordCloud](https://amueller.github.io/word_cloud/index.html#)
focal_point:"Center"
preview_only:fals
---
In dieser Einheit sind einige Beispiele zur Datenanalyse versammelt.
In dieser Übung geht es darum, einige Python-Bibliotheken kennenzulernen, mit denen sich ein beliebiger Text sprachlich analysieren lässt und bestimmte Merkmale visualiert werden können.
## Ziele
- Sie recherchieren einen beliebigen Text und konvertieren ihn in ein verarbeitbares Format.
- Sie setzen Python-Bibliotheken zur Textanalyse ein.
- Sie visualisieren statistische Erkenntnisse.
- Sie bereiten Grafiken für die weitere Verwendung in Visualisierungen auf.
- Sie lernen Grundlagen für weiterführende Verfahren von Künstlicher Intelligenz (KI) und Machine Learning (ML) kennen.
## Voraussetzungen
- Installation von Python >3.9.x
- Installation von JupypterLab
- Installation von [pandoc](https://pandoc.org/installing.html)
## Mögliches Ergebnis
Ein mögliches Ergebnis dieser Lerneinheit könnte in der folgenden Abbildung bestehen. Sie zeigt die Grundformen (Infinitive) der Verben in
Die folgenden Aufträge sind in JupyterLab und im Terminal zu bearbeiten. Beachten Sie, dass ggf. weitere Software bzw. Python-Pakete installiert werden müssen.
#### Aufgabenstellung 1: Daten suchen und vorbereiten
{{% notice aufgabe "Text recherchieren und vorbereiten" %}}
- Recherchieren Sie einen Text im Netz, den Sie analysiseren möchten. Dieser sollte im HTML-Format vorliegen, um die anschließende Konvertierung zu vereinfachen.
- Speichern Sie die Webseite als HTML-Dokument im Ordner Ihres JupyterLab-Projekts.
- Konvertieren Sie das HTML-Dokument mit [Pandoc](https://pandoc.org/installing.html) zu einer [Markdown](https://www.markdownguide.org/basic-syntax)-Datei:
```bash
$ pandoc ihr-text.html -o text.md --wrap=none
```
- Öffnen Sie die Markdown-Datei in einem Editor Ihrer Wahl, und bereinigen Sie den Text manuell, wobei Sie alle Elemente löschen, die später nicht sprachlich analysiert werden sollen.
{{% /notice %}}
#### Aufgabenstellung 2: Daten analysieren und visualisieren
{{% notice aufgabe "Wortarten finden und ausgeben" %}}
- Laden Sie [das Codebeispiel für JupyterLab](https://collaborating.tuhh.de/itbh/oer/informatik/codebeispiele/daten-analysieren/textanalyse) herunter, und sorgen Sie dafür, dass es fehlerfrei ausführbar ist. Ggf. müssen Sie Software nachinstallieren:
- Die Installation von Spacymodellen ist [auf dieser Webseite](https://spacy.io/models) dokumentiert.
- Zusätzliche Python-Pakete installieren Sie mit `pip`. Öffnen Sie dazu ein Terminal auf Ihrem Rechner oder in JupypterLab.
- Suchen Sie ein Bild Ihrer Wahl, am besten unter einer freien Lizenz, und bereiten Sie es für die Maskierung der WordCloud vor. Hierfür müssen alle Bereiche, die *nicht* mit der WordCloud gefüllt werden sollen, RGB-weiß (255,255,255) sein.
- Analysieren Sie noch [eine weitere Wortart](https://spacy.io/usage/linguistic-features#pos-tagging).
{{% /notice %}}
#### Aufgabenstellung 3: Analyse abwandeln und erweitern
{{% notice aufgabe "Dokumentationen lesen und experimentieren" %}}
- Lesen Sie spätestens jetzt in den Referenzen der verwendeten Bibliotheken und Paketen nach: