In diesem Beitrag möchte ich dir zeigen wie du die bisher aufgearbeiteten Meta-Daten deiner Webseite visualisieren kannst.
Rückblick
Im ersten Teil Crawler für Webseite mit Python3 Programmieren – Teil 1 – Meta Daten auslesen haben wir die Meta-Daten geladen und im zweiten Teil Crawler für Webseite mit Python3 Programmieren – Teil 2 – Speichern der Daten haben wir diese Daten in ein Microsoft Excel Dokument geschrieben. Des Weiteren haben wir die Zellen in dem Excel Dokument je nach Datenwert eingefärbt.
visualisieren der Daten
Nun wollen wir diese gewonnenen Daten mit Diagrammen visualisieren und erhalten so einen noch schnelleren Überblick über den IST-Zustand der Webseite.
erstellen von Diagrammen mit XlsxWriter
Mit der Bibliothek XlsxWriter können wir auch Diagramme zeichnen und genau das wollen wir nun machen. Aber zuvor müssen wir die Daten für das Diagramm sammeln.
Wir haben bisher die Länge von dem Titel sowie von der Meta-Beschreibung nach den Kriterien
- “zu kurz”,
- “ok”,
- “zu lang”
ausgewertet.
Diese Daten speichern wir uns also nun erst einmal in zwei Listen.
summaryTitleValues = [0,0,0] summaryDescriptionValues = [0,0,0]
Diese Listen belegen wir mit jeweils 3 Einträgen für unsere Kriterien mit dem Startwert “0” vor.
Nun benötigen wir eine zusätzliche Funktion in welcher wir die Meta-Daten nach den Kriterien auswerten und dann jeweils die Stelle in der Liste welche den Wert repräsentiert um eins erhöht (incrementiert).
def storeSummaryTable(metaDaten): if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65: summaryTitleValues[0] = summaryTitleValues[0] + 1 if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65: summaryTitleValues[1] = summaryTitleValues[1] + 1 if len(metaDaten.title) >= 65: summaryTitleValues[2] = summaryTitleValues[2] + 1 if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155: summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1 if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165: summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1 if len(metaDaten.description) > 165: summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1
Diese Daten schreiben wir dann auf in eine Tabelle auf unserem Tabellenblatt “Zusammenfassung”.
def summaryTable(): worksheetSummary.write('A1','') worksheetSummary.write('B1','Titel') worksheetSummary.write('C1','Beschreibung') worksheetSummary.write('A2','zu kurz') worksheetSummary.write('A3','ok') worksheetSummary.write('A4','zu lang') worksheetSummary.write('B2',summaryTitleValues[0]) worksheetSummary.write('B3',summaryTitleValues[1]) worksheetSummary.write('B4',summaryTitleValues[2]) worksheetSummary.write('C2',summaryDescriptionValues[0]) worksheetSummary.write('C3',summaryDescriptionValues[1]) worksheetSummary.write('C4',summaryDescriptionValues[2])
Das Tabellenblatt “Zusammenfassung” erstellen wir VOR dem Tabellenblatt “Beiträge” somit steht dieses dann in der Mappe davor.
... workbook = xlsxwriter.Workbook('crawler_1_.xlsx') worksheetSummary = workbook.add_worksheet('Zusammenfassung') worksheet = workbook.add_worksheet('Beiträge') ...
zeichnen des Diagrammes
Als nächstes wollen wir nun das Diagramm zeichnen und wie einfach das geht möchte ich dir in einem kurzen Beispiel zeigen.
#Bibliothek zum schreiben einer Microsoft Excel Mappe import xlsxwriter #Bibliothek zum generieren einer Zufallszahl import random #erstellen einer Excel Mappe mit dem Dateiname "diagrammBeispiel.xlsx" workbook = xlsxwriter.Workbook('diagrammBeispiel.xlsx') #erstellen eines Tabellenblattes mit dem Namen "Beispiel" worksheet = workbook.add_worksheet("Beispiel") #schreiben der Tabellenüberschriften worksheet.write('A1', 'Beschreibung') worksheet.write('B1', 'Wert') #Beschreibung für die Diagrammwerte worksheet.write('A2', 'sehr gut') worksheet.write('A3', 'gut') worksheet.write('A4', 'befriedigend') #schreiben von Werten worksheet.write('B2', random.randint(1,45)) worksheet.write('B3', random.randint(1,45)) worksheet.write('B4', random.randint(1,45)) #erstellen eines Linien Diagrammes aus den generierten Werten chart = workbook.add_chart({'type': 'line'}) chart.set_title({ 'name': 'Diagrammtitel'}) chart.add_series({ 'name': 'Beispieldaten', 'categories': '=Beispiel!$A$2:$A$4', 'values': '=Beispiel!$B$2:$B$4', }) #positionieren des Diagrammes an der Zelle E2 worksheet.insert_chart('E2', chart) #schließen der Excel Mappe workbook.close()
Das Ergebnis des obrigen Skriptes ist eine Excel Mappe mit einer kleinen Tabelle sowie einem Liniendiagramm.
In diesem Beispiel habe ich “nur” eine Datenreihe und somit nur eine Linie gezeichnet.
zeichnen der Datenreihen
Da wir aber 2 Datenreihen haben müssen wir nun zusätzlichen die Funktion “add_series” zweimal aufrufen.
Zunächst benötigen wir eine Datenreihe für den Titel
chart.add_series({ 'name': 'Titel', 'categories': '=Zusammenfassung!$A$2:$A$4', 'values': '=Zusammenfassung!$B$2:$B$4', })
und noch für die Beschreibung
chart.add_series({ 'name': 'Meta Beschreibung', 'categories': '=Zusammenfassung!$A$2:$A$4', 'values': '=Zusammenfassung!$C$2:$C$4', })
Wichtig ist das der Tabellenblattname korrekt übergeben wurde. Damit die Formel korrekt funktioniert habe ich beim erstellen des Tabellenblattes den Namen “Zusammenfassung” angegeben.
worksheetSummary = workbook.add_worksheet('Zusammenfassung')
positionieren des Diagrammes
Wenn das Diagramm “befüllt” wurde, kann dieses positioniert werden. Als Koordinate wird hier die linke, obere Ecke einer Zelle gewählt.
In meinem Beispiel reicht die Datentabelle von A1 bis C1, ich lasse zusätzlich die Spalte “D” frei und positionieren das Diagramm an der Zelle E2.
worksheetSummary.insert_chart('E2', chart)
Abschluß
Zum Abschluss rufen wir die beiden neuen Funktionen zum zeichnen der Datentabelle sowie des Diagramms NACH der Abarbeitung der Liste der Beiträge auf. Unser Skript sollte nun wiefolgt aussehen:
import xlsxwriter class Meta(): def __init__(self): self.author = '-undefined-' self.title = '' self.description = '' self.adresse = '' def setAuthor(self, author): self.author = author def setDescription(self, description): self.description = description def setTitle(self, title): self.title = title def setAdresse(self, adresse): self.adresse = adresse def speichernAlsXlsx(metaDaten, index): rowNum = str(index+1) worksheet.write('A'+rowNum, str(index)) worksheet.write('B'+rowNum, metaDaten.title) worksheet.write('C'+rowNum, len(metaDaten.title)) worksheet.write('D'+rowNum, metaDaten.description) worksheet.write('E'+rowNum, len(metaDaten.description)) worksheet.write('F'+rowNum, metaDaten.adresse) def storeSummaryTable(metaDaten): if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65: summaryTitleValues[0] = summaryTitleValues[0] + 1 if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65: summaryTitleValues[1] = summaryTitleValues[1] + 1 if len(metaDaten.title) >= 65: summaryTitleValues[2] = summaryTitleValues[2] + 1 if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155: summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1 if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165: summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1 if len(metaDaten.description) > 165: summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1 def summaryTable(): worksheetSummary.write('A1','') worksheetSummary.write('B1','Titel') worksheetSummary.write('C1','Beschreibung') worksheetSummary.write('A2','zu kurz') worksheetSummary.write('A3','ok') worksheetSummary.write('A4','zu lang') worksheetSummary.write('B2',summaryTitleValues[0]) worksheetSummary.write('B3',summaryTitleValues[1]) worksheetSummary.write('B4',summaryTitleValues[2]) worksheetSummary.write('C2',summaryDescriptionValues[0]) worksheetSummary.write('C3',summaryDescriptionValues[1]) worksheetSummary.write('C4',summaryDescriptionValues[2]) def createSummaryChart(): chart = workbook.add_chart({'type': 'line'}) chart.set_title({ 'name': 'SEO Analyse'}) chart.add_series({ 'name': 'Titel', 'categories': '=Zusammenfassung!$A$2:$A$4', 'values': '=Zusammenfassung!$B$2:$B$4', }) chart.add_series({ 'name': 'Meta Beschreibung', 'categories': '=Zusammenfassung!$A$2:$A$4', 'values': '=Zusammenfassung!$C$2:$C$4', }) worksheetSummary.insert_chart('E2', chart) def loadPostsUrls(startUrl): req = requests.get(startUrl) beautifulSoup = BeautifulSoup(req.content, "html.parser") return [loc.text for loc in beautifulSoup.find_all('loc')] summaryTitleValues = [0,0,0] summaryDescriptionValues = [0,0,0] posts = loadPostsUrls('https://draeger-it.blog/post-sitemap.xml') if len(posts) > 0: workbook = xlsxwriter.Workbook('crawler_1_.xlsx') worksheetSummary = workbook.add_worksheet('Zusammenfassung') worksheet = workbook.add_worksheet('Beiträge') worksheet.write('A1', '') worksheet.write('B1', 'Titel') worksheet.write('C1', 'Laenge') worksheet.write('D1', 'MetaDescription') worksheet.write('E1', 'Laenge') worksheet.write('F1', 'Adresse') index = 0 for post in posts: index = index + 1 print(post) req = requests.get(post) beautifulSoup = BeautifulSoup(req.content, "html.parser") metaDaten = Meta() metaDaten.setAdresse(post) for tag in beautifulSoup.select('meta'): if tag.get("name", None) == "author": metaDaten.setAuthor(tag.get("content", None)) if tag.get("name", None) == "description": metaDaten.setDescription(tag.get("content", None)) if tag.get("property", None) == "og:title": metaDaten.setTitle(tag.get("content", None)) speichernAlsXlsx(metaDaten, index) storeSummaryTable(metaDaten) summaryTable() createSummaryChart() format_green = workbook.add_format({'bg_color': '#C0E2BD', 'font_color': '#006100'}) format_yellow = workbook.add_format({'bg_color': '#F9FCD0', 'font_color': '#006100'}) format_red = workbook.add_format({'bg_color': '#F9D1D1', 'font_color': '#006100'}) index = index + 1 worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '<', 'value': 60, 'format': format_yellow}) worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 60, 'maximum': 65, 'format': format_green}) worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 66, 'format': format_red}) worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '<', 'value': 154, 'format': format_yellow}) worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 155, 'maximum': 165, 'format': format_green}) worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 166, 'format': format_red}) workbook.close() print('ENDE')
Wir erhalten nun einen Excel Bericht zu einer Webseite welches das WordPress Plugin Yoast SEO verwendet und eine sitemap.xml anbietet.