Skip to content

Technik Blog

Programmieren | Arduino | ESP32 | MicroPython | Python | Raspberry Pi | Raspberry Pi Pico

Menu
  • Smarthome
  • Arduino
  • ESP32 & Co.
  • Raspberry Pi & Pico
  • Solo Mining
  • Über mich
  • Deutsch
  • English
Menu

Crawler für Webseite mit Python3 Programmieren – Teil 3 – visualisieren der Daten

Posted on 13. April 20201. Mai 2023 by Stefan Draeger

In diesem Beitrag möchte ich dir zeigen wie du die bisher aufgearbeiteten Meta-Daten deiner Webseite visualisieren kannst. 

SEO Werte in einem Liniendiagramm
SEO Werte in einem Liniendiagramm

  • Rückblick
  • visualisieren der Daten
    • erstellen von Diagrammen mit XlsxWriter
      • zeichnen des Diagrammes
        • zeichnen der Datenreihen
        • positionieren des Diagrammes
    • Abschluß

Rückblick

Im ersten Teil Crawler für Webseite mit Python3 Programmieren – Teil 1 – Meta Daten auslesen haben wir die Meta-Daten geladen und im zweiten Teil Crawler für Webseite mit Python3 Programmieren – Teil 2 – Speichern der Daten haben wir diese Daten in ein Microsoft Excel Dokument geschrieben. Des Weiteren haben wir die Zellen in dem Excel Dokument je nach Datenwert eingefärbt.

visualisieren der Daten

Nun wollen wir diese gewonnenen Daten mit Diagrammen visualisieren und erhalten so einen noch schnelleren Überblick über den IST-Zustand der Webseite.

erstellen von Diagrammen mit XlsxWriter

Mit der Bibliothek XlsxWriter können wir auch Diagramme zeichnen und genau das wollen wir nun machen. Aber zuvor müssen wir die Daten für das Diagramm sammeln.

Wir haben bisher die Länge von dem Titel sowie von der Meta-Beschreibung nach den Kriterien

  • „zu kurz“,
  • „ok“,
  • „zu lang“

ausgewertet.

Diese Daten speichern wir uns also nun erst einmal in zwei Listen.

summaryTitleValues = [0,0,0]
summaryDescriptionValues = [0,0,0]

Diese Listen belegen wir mit jeweils 3 Einträgen für unsere Kriterien mit dem Startwert „0“ vor.

Nun benötigen wir eine zusätzliche Funktion in welcher wir die Meta-Daten nach den Kriterien auswerten und dann jeweils die Stelle in der Liste welche den Wert repräsentiert um eins erhöht (incrementiert).

def storeSummaryTable(metaDaten):
    if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65:
        summaryTitleValues[0] = summaryTitleValues[0] + 1
    if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65:
        summaryTitleValues[1] = summaryTitleValues[1] + 1
    if len(metaDaten.title) >= 65:
        summaryTitleValues[2] = summaryTitleValues[2] + 1
    
    if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155:
        summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1
    if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165:
        summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1
    if len(metaDaten.description) > 165:
        summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1

Diese Daten schreiben wir dann auf in eine Tabelle auf unserem Tabellenblatt „Zusammenfassung“.

def summaryTable():
    worksheetSummary.write('A1','')
    worksheetSummary.write('B1','Titel')
    worksheetSummary.write('C1','Beschreibung')
    
    worksheetSummary.write('A2','zu kurz')
    worksheetSummary.write('A3','ok')
    worksheetSummary.write('A4','zu lang')
    
    worksheetSummary.write('B2',summaryTitleValues[0])
    worksheetSummary.write('B3',summaryTitleValues[1])
    worksheetSummary.write('B4',summaryTitleValues[2])
    
    worksheetSummary.write('C2',summaryDescriptionValues[0])
    worksheetSummary.write('C3',summaryDescriptionValues[1])
    worksheetSummary.write('C4',summaryDescriptionValues[2])

Das Tabellenblatt „Zusammenfassung“ erstellen wir VOR dem Tabellenblatt „Beiträge“ somit steht dieses dann in der Mappe davor.

...
workbook = xlsxwriter.Workbook('crawler_1_.xlsx') 
worksheetSummary = workbook.add_worksheet('Zusammenfassung')
worksheet = workbook.add_worksheet('Beiträge')
...

zeichnen des Diagrammes

Als nächstes wollen wir nun das Diagramm zeichnen und wie einfach das geht möchte ich dir in einem kurzen Beispiel zeigen.

#Bibliothek zum schreiben einer Microsoft Excel Mappe
import xlsxwriter
#Bibliothek zum generieren einer Zufallszahl
import random 

#erstellen einer Excel Mappe mit dem Dateiname "diagrammBeispiel.xlsx"
workbook = xlsxwriter.Workbook('diagrammBeispiel.xlsx')
#erstellen eines Tabellenblattes mit dem Namen "Beispiel"
worksheet = workbook.add_worksheet("Beispiel")

#schreiben der Tabellenüberschriften
worksheet.write('A1', 'Beschreibung')
worksheet.write('B1', 'Wert')

#Beschreibung für die Diagrammwerte
worksheet.write('A2', 'sehr gut')
worksheet.write('A3', 'gut')
worksheet.write('A4', 'befriedigend')

#schreiben von Werten
worksheet.write('B2', random.randint(1,45))
worksheet.write('B3', random.randint(1,45))
worksheet.write('B4', random.randint(1,45))

#erstellen eines Linien Diagrammes aus den generierten Werten
chart = workbook.add_chart({'type': 'line'})    
chart.set_title({ 'name': 'Diagrammtitel'})
chart.add_series({
      'name':       'Beispieldaten',
      'categories': '=Beispiel!$A$2:$A$4',
      'values':     '=Beispiel!$B$2:$B$4',
})

#positionieren des Diagrammes an der Zelle E2
worksheet.insert_chart('E2', chart)   

#schließen der Excel Mappe
workbook.close()

Das Ergebnis des obrigen Skriptes ist eine Excel Mappe mit einer kleinen Tabelle sowie einem Liniendiagramm.

Excel Mappe mit Liniendiagramm
Excel Mappe mit Liniendiagramm

In diesem Beispiel habe ich „nur“ eine Datenreihe und somit nur eine Linie gezeichnet.

zeichnen der Datenreihen

Da wir aber 2 Datenreihen haben müssen wir nun zusätzlichen die Funktion „add_series“ zweimal aufrufen.

Tabelle mit den ermittelten SEO Werten
Tabelle mit den ermittelten SEO Werten

Zunächst benötigen wir eine Datenreihe für den Titel

chart.add_series({
        'name':       'Titel',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$B$2:$B$4',
})

und noch für die Beschreibung

chart.add_series({
        'name':       'Meta Beschreibung',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$C$2:$C$4',
})

Wichtig ist das der Tabellenblattname korrekt übergeben wurde. Damit die Formel korrekt funktioniert habe ich beim erstellen des Tabellenblattes den Namen „Zusammenfassung“ angegeben.

worksheetSummary = workbook.add_worksheet('Zusammenfassung')
positionieren des Diagrammes

Wenn das Diagramm „befüllt“ wurde, kann dieses positioniert werden. Als Koordinate wird hier die linke, obere Ecke einer Zelle gewählt.

In meinem Beispiel reicht die Datentabelle von A1 bis C1, ich lasse zusätzlich die Spalte „D“ frei und positionieren das Diagramm an der Zelle E2.

worksheetSummary.insert_chart('E2', chart)

Abschluß

Zum Abschluss rufen wir die beiden neuen Funktionen zum zeichnen der Datentabelle sowie des Diagramms NACH der Abarbeitung der Liste der Beiträge auf. Unser Skript sollte nun wiefolgt aussehen:

import xlsxwriter

class Meta():
    
    def __init__(self):
        self.author = '-undefined-'
        self.title = ''
        self.description = ''
        self.adresse = ''
        
    def setAuthor(self, author):
        self.author = author
        
    def setDescription(self, description):
        self.description = description
        
    def setTitle(self, title):
        self.title = title
    
    def setAdresse(self, adresse):
        self.adresse = adresse
        
def speichernAlsXlsx(metaDaten, index):
    rowNum = str(index+1)
    worksheet.write('A'+rowNum, str(index))
    worksheet.write('B'+rowNum, metaDaten.title)
    worksheet.write('C'+rowNum, len(metaDaten.title))
    worksheet.write('D'+rowNum, metaDaten.description)
    worksheet.write('E'+rowNum, len(metaDaten.description))
    worksheet.write('F'+rowNum, metaDaten.adresse)

def storeSummaryTable(metaDaten):
    if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65:
        summaryTitleValues[0] = summaryTitleValues[0] + 1
    if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65:
        summaryTitleValues[1] = summaryTitleValues[1] + 1
    if len(metaDaten.title) >= 65:
        summaryTitleValues[2] = summaryTitleValues[2] + 1
    
    if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155:
        summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1
    if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165:
        summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1
    if len(metaDaten.description) > 165:
        summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1    
    
def summaryTable():
    worksheetSummary.write('A1','')
    worksheetSummary.write('B1','Titel')
    worksheetSummary.write('C1','Beschreibung')
    
    worksheetSummary.write('A2','zu kurz')
    worksheetSummary.write('A3','ok')
    worksheetSummary.write('A4','zu lang')
    
    worksheetSummary.write('B2',summaryTitleValues[0])
    worksheetSummary.write('B3',summaryTitleValues[1])
    worksheetSummary.write('B4',summaryTitleValues[2])
    
    worksheetSummary.write('C2',summaryDescriptionValues[0])
    worksheetSummary.write('C3',summaryDescriptionValues[1])
    worksheetSummary.write('C4',summaryDescriptionValues[2])

def createSummaryChart():
    chart = workbook.add_chart({'type': 'line'})    
    chart.set_title({ 'name': 'SEO Analyse'})
    chart.add_series({
        'name':       'Titel',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$B$2:$B$4',
    })
    
    chart.add_series({
        'name':       'Meta Beschreibung',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$C$2:$C$4',
    })    
    
    worksheetSummary.insert_chart('E2', chart)    

def loadPostsUrls(startUrl):
    req = requests.get(startUrl)  
    beautifulSoup = BeautifulSoup(req.content, "html.parser")
    return [loc.text for loc in beautifulSoup.find_all('loc')]

summaryTitleValues = [0,0,0]
summaryDescriptionValues = [0,0,0]

posts = loadPostsUrls('https://draeger-it.blog/post-sitemap.xml')
if len(posts) > 0:
    workbook = xlsxwriter.Workbook('crawler_1_.xlsx')
    
    worksheetSummary = workbook.add_worksheet('Zusammenfassung')
    
    worksheet = workbook.add_worksheet('Beiträge')
        
    worksheet.write('A1', '') 
    worksheet.write('B1', 'Titel')
    worksheet.write('C1', 'Laenge') 
    worksheet.write('D1', 'MetaDescription') 
    worksheet.write('E1', 'Laenge') 
    worksheet.write('F1', 'Adresse')
    
    index = 0
    for post in posts:
        index = index + 1
        print(post)
        req = requests.get(post)  
        beautifulSoup = BeautifulSoup(req.content, "html.parser")
        metaDaten = Meta()
        metaDaten.setAdresse(post)
        for tag in beautifulSoup.select('meta'):    
            if tag.get("name", None) == "author":
                metaDaten.setAuthor(tag.get("content", None))
            if tag.get("name", None) == "description":
                metaDaten.setDescription(tag.get("content", None))
            if tag.get("property", None) == "og:title":
                metaDaten.setTitle(tag.get("content", None))
        speichernAlsXlsx(metaDaten, index)
        storeSummaryTable(metaDaten)    
        
    summaryTable()
    createSummaryChart()
    
    format_green = workbook.add_format({'bg_color': '#C0E2BD', 'font_color': '#006100'}) 
    format_yellow = workbook.add_format({'bg_color': '#F9FCD0', 'font_color': '#006100'}) 
    format_red = workbook.add_format({'bg_color': '#F9D1D1', 'font_color': '#006100'}) 
    
    index = index + 1
    
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '<', 'value': 60, 'format': format_yellow}) 
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 60, 'maximum': 65, 'format': format_green}) 
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 66, 'format': format_red})
    
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '<', 'value': 154, 'format': format_yellow}) 
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 155, 'maximum': 165, 'format': format_green}) 
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 166, 'format': format_red})
        
    workbook.close()
print('ENDE')

Wir erhalten nun einen Excel Bericht zu einer Webseite welches das WordPress Plugin Yoast SEO verwendet und eine sitemap.xml anbietet. 

Schreibe einen Kommentar Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Fragen oder Feedback?

Du hast eine Idee, brauchst Hilfe oder möchtest Feedback loswerden?
Support-Ticket erstellen

Newsletter abonnieren

Bleib auf dem Laufenden: Erhalte regelmäßig Updates zu neuen Projekten, Tutorials und Tipps rund um Arduino, ESP32 und mehr – direkt in dein Postfach.

Jetzt Newsletter abonnieren

Unterstütze meinen Blog

Wenn dir meine Inhalte gefallen, freue ich mich über deine Unterstützung auf Tipeee.
So hilfst du mit, den Blog am Leben zu halten und neue Beiträge zu ermöglichen.

draeger-it.blog auf Tipeee unterstützen

Vielen Dank für deinen Support!
– Stefan Draeger

Kategorien

Tools

  • Unix-Zeitstempel-Rechner
  • ASCII Tabelle
  • Spannung, Strom, Widerstand und Leistung berechnen
  • Widerstandsrechner
  • 8×8 LED Matrix Tool
  • 8×16 LED Matrix Modul von Keyestudio
  • 16×16 LED Matrix – Generator

Links

Blogverzeichnis Bloggerei.de TopBlogs.de das Original - Blogverzeichnis | Blog Top Liste Blogverzeichnis trusted-blogs.com

Stefan Draeger
Königsberger Str. 13
38364 Schöningen

Tel.: 01778501273
E-Mail: info@draeger-it.blog

Folge mir auf

  • Impressum
  • Datenschutzerklärung
  • Disclaimer
  • Cookie-Richtlinie (EU)
©2025 Technik Blog | Built using WordPress and Responsive Blogily theme by Superb
Cookie-Zustimmung verwalten
Wir verwenden Technologien wie Cookies, um Geräteinformationen zu speichern und/oder darauf zuzugreifen. Wir tun dies, um das Surferlebnis zu verbessern und um personalisierte Werbung anzuzeigen. Wenn Sie diesen Technologien zustimmen, können wir Daten wie das Surfverhalten oder eindeutige IDs auf dieser Website verarbeiten. Wenn Sie Ihre Zustimmung nicht erteilen oder zurückziehen, können bestimmte Funktionen beeinträchtigt werden.
Funktional Immer aktiv
Die technische Speicherung oder der Zugang ist unbedingt erforderlich für den rechtmäßigen Zweck, die Nutzung eines bestimmten Dienstes zu ermöglichen, der vom Teilnehmer oder Nutzer ausdrücklich gewünscht wird, oder für den alleinigen Zweck, die Übertragung einer Nachricht über ein elektronisches Kommunikationsnetz durchzuführen.
Vorlieben
Die technische Speicherung oder der Zugriff ist für den rechtmäßigen Zweck der Speicherung von Präferenzen erforderlich, die nicht vom Abonnenten oder Benutzer angefordert wurden.
Statistiken
Die technische Speicherung oder der Zugriff, der ausschließlich zu statistischen Zwecken erfolgt. Die technische Speicherung oder der Zugriff, der ausschließlich zu anonymen statistischen Zwecken verwendet wird. Ohne eine Vorladung, die freiwillige Zustimmung deines Internetdienstanbieters oder zusätzliche Aufzeichnungen von Dritten können die zu diesem Zweck gespeicherten oder abgerufenen Informationen allein in der Regel nicht dazu verwendet werden, dich zu identifizieren.
Marketing
Die technische Speicherung oder der Zugriff ist erforderlich, um Nutzerprofile zu erstellen, um Werbung zu versenden oder um den Nutzer auf einer Website oder über mehrere Websites hinweg zu ähnlichen Marketingzwecken zu verfolgen.
Optionen verwalten Dienste verwalten Verwalten von {vendor_count}-Lieferanten Lese mehr über diese Zwecke
Einstellungen anzeigen
{title} {title} {title}