Commit 06af2ae8 authored by Axel Dürkop's avatar Axel Dürkop
Browse files

Add Textanalyse

parent 8f1b87f6
---
title: Daten analysieren
type: book
toc: false
summary: ""
weight: 200
image:
placement: 3
caption: |
Quelle: \"The Town Musicians of Bremen 2\" on [freesvg.org](https://freesvg.org/1487612321), Public Domain; gefüllt mit Python und [WordCloud](https://amueller.github.io/word_cloud/index.html#)
focal_point: "Center"
preview_only: fals
---
In dieser Einheit sind einige Beispiele zur Datenanalyse versammelt.
## Inhalte in dieser Einheit
{{< list_children >}}
---
title: 'Grundlagen der Textanalyse'
date: 2022-06-04T03:50:13.000Z
draft: false
type: book
weight: 100
LastModifierDisplayName: Axel Dürkop
LastModifierEmail: axel.duerkop@tuhh.de
summary: "In dieser Übung geht es darum, einige Python-Bibliotheken kennenzulernen, mit denen sich Texte analyiseren und bestimmte Merkmale visualisieren lassen. Dabei werden viele Themen der Datenverarbeitung und Informationstechnik gestreift."
---
In dieser Übung geht es darum, einige Python-Bibliotheken kennenzulernen, mit denen sich ein beliebiger Text sprachlich analysieren lässt und bestimmte Merkmale visualiert werden können.
## Ziele
- Sie recherchieren einen beliebigen Text und konvertieren ihn in ein verarbeitbares Format.
- Sie setzen Python-Bibliotheken zur Textanalyse ein.
- Sie visualisieren statistische Erkenntnisse.
- Sie bereiten Grafiken für die weitere Verwendung in Visualisierungen auf.
- Sie lernen Grundlagen für weiterführende Verfahren von Künstlicher Intelligenz (KI) und Machine Learning (ML) kennen.
## Voraussetzungen
- Installation von Python >3.9.x
- Installation von JupypterLab
- Installation von [pandoc](https://pandoc.org/installing.html)
## Mögliches Ergebnis
Ein mögliches Ergebnis dieser Lerneinheit könnte in der folgenden Abbildung bestehen. Sie zeigt die Grundformen (Infinitive) der Verben in
{{< figure src="bremer-stadtmusikanten.png" title="Quelle: \"The Town Musicians of Bremen 2\" on [freesvg.org](https://freesvg.org/1487612321), Public Domain" >}}
### Aufträge
Die folgenden Aufträge sind in JupyterLab und im Terminal zu bearbeiten. Beachten Sie, dass ggf. weitere Software bzw. Python-Pakete installiert werden müssen.
#### Aufgabenstellung 1: Daten suchen und vorbereiten
{{% notice aufgabe "Text recherchieren und vorbereiten" %}}
- Recherchieren Sie einen Text im Netz, den Sie analysiseren möchten. Dieser sollte im HTML-Format vorliegen, um die anschließende Konvertierung zu vereinfachen.
- Speichern Sie die Webseite als HTML-Dokument im Ordner Ihres JupyterLab-Projekts.
- Konvertieren Sie das HTML-Dokument mit [Pandoc](https://pandoc.org/installing.html) zu einer [Markdown](https://www.markdownguide.org/basic-syntax)-Datei:
```bash
$ pandoc ihr-text.html -o text.md --wrap=none
```
- Öffnen Sie die Markdown-Datei in einem Editor Ihrer Wahl, und bereinigen Sie den Text manuell, wobei Sie alle Elemente löschen, die später nicht sprachlich analysiert werden sollen.
{{% /notice %}}
#### Aufgabenstellung 2: Daten analysieren und visualisieren
{{% notice aufgabe "Wortarten finden und ausgeben" %}}
- Laden Sie [das Codebeispiel für JupyterLab](https://collaborating.tuhh.de/itbh/oer/informatik/codebeispiele/daten-analysieren/textanalyse) herunter, und sorgen Sie dafür, dass es fehlerfrei ausführbar ist. Ggf. müssen Sie Software nachinstallieren:
- Die Installation von Spacymodellen ist [auf dieser Webseite](https://spacy.io/models) dokumentiert.
- Zusätzliche Python-Pakete installieren Sie mit `pip`. Öffnen Sie dazu ein Terminal auf Ihrem Rechner oder in JupypterLab.
- Suchen Sie ein Bild Ihrer Wahl, am besten unter einer freien Lizenz, und bereiten Sie es für die Maskierung der WordCloud vor. Hierfür müssen alle Bereiche, die *nicht* mit der WordCloud gefüllt werden sollen, RGB-weiß (255,255,255) sein.
- Analysieren Sie noch [eine weitere Wortart](https://spacy.io/usage/linguistic-features#pos-tagging).
{{% /notice %}}
#### Aufgabenstellung 3: Analyse abwandeln und erweitern
{{% notice aufgabe "Dokumentationen lesen und experimentieren" %}}
- Lesen Sie spätestens jetzt in den Referenzen der verwendeten Bibliotheken und Paketen nach:
- [Spacy](https://spacy.io/usage)
- [Pandoc](https://pandoc.org/MANUAL.html)
- [WordCloud](https://amueller.github.io/word_cloud/index.html#)
{{% /notice %}}
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment