Werbung

Crawler für Webseite mit Python3 Programmieren – Teil 3 – visualisieren der Daten

In diesem Beitrag möchte ich dir zeigen wie du die bisher aufgearbeiteten Meta-Daten deiner Webseite visualisieren kannst. 

SEO Werte in einem Liniendiagramm
SEO Werte in einem Liniendiagramm

Rückblick

Im ersten Teil Crawler für Webseite mit Python3 Programmieren – Teil 1 – Meta Daten auslesen haben wir die Meta-Daten geladen und im zweiten Teil Crawler für Webseite mit Python3 Programmieren – Teil 2 – Speichern der Daten haben wir diese Daten in ein Microsoft Excel Dokument geschrieben. Des Weiteren haben wir die Zellen in dem Excel Dokument je nach Datenwert eingefärbt.

Werbung

visualisieren der Daten

Nun wollen wir diese gewonnenen Daten mit Diagrammen visualisieren und erhalten so einen noch schnelleren Überblick über den IST-Zustand der Webseite.

erstellen von Diagrammen mit XlsxWriter

Mit der Bibliothek XlsxWriter können wir auch Diagramme zeichnen und genau das wollen wir nun machen. Aber zuvor müssen wir die Daten für das Diagramm sammeln.

Wir haben bisher die Länge von dem Titel sowie von der Meta-Beschreibung nach den Kriterien

  • „zu kurz“,
  • „ok“,
  • „zu lang“

ausgewertet.

Diese Daten speichern wir uns also nun erst einmal in zwei Listen.

summaryTitleValues = [0,0,0]
summaryDescriptionValues = [0,0,0]

Diese Listen belegen wir mit jeweils 3 Einträgen für unsere Kriterien mit dem Startwert „0“ vor.

Nun benötigen wir eine zusätzliche Funktion in welcher wir die Meta-Daten nach den Kriterien auswerten und dann jeweils die Stelle in der Liste welche den Wert repräsentiert um eins erhöht (incrementiert).

def storeSummaryTable(metaDaten):
    if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65:
        summaryTitleValues[0] = summaryTitleValues[0] + 1
    if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65:
        summaryTitleValues[1] = summaryTitleValues[1] + 1
    if len(metaDaten.title) >= 65:
        summaryTitleValues[2] = summaryTitleValues[2] + 1
    
    if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155:
        summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1
    if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165:
        summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1
    if len(metaDaten.description) > 165:
        summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1

Diese Daten schreiben wir dann auf in eine Tabelle auf unserem Tabellenblatt „Zusammenfassung“.

def summaryTable():
    worksheetSummary.write('A1','')
    worksheetSummary.write('B1','Titel')
    worksheetSummary.write('C1','Beschreibung')
    
    worksheetSummary.write('A2','zu kurz')
    worksheetSummary.write('A3','ok')
    worksheetSummary.write('A4','zu lang')
    
    worksheetSummary.write('B2',summaryTitleValues[0])
    worksheetSummary.write('B3',summaryTitleValues[1])
    worksheetSummary.write('B4',summaryTitleValues[2])
    
    worksheetSummary.write('C2',summaryDescriptionValues[0])
    worksheetSummary.write('C3',summaryDescriptionValues[1])
    worksheetSummary.write('C4',summaryDescriptionValues[2])

Das Tabellenblatt „Zusammenfassung“ erstellen wir VOR dem Tabellenblatt „Beiträge“ somit steht dieses dann in der Mappe davor.

...
workbook = xlsxwriter.Workbook('crawler_1_.xlsx') 
worksheetSummary = workbook.add_worksheet('Zusammenfassung')
worksheet = workbook.add_worksheet('Beiträge')
...

zeichnen des Diagrammes

Als nächstes wollen wir nun das Diagramm zeichnen und wie einfach das geht möchte ich dir in einem kurzen Beispiel zeigen.

#Bibliothek zum schreiben einer Microsoft Excel Mappe
import xlsxwriter
#Bibliothek zum generieren einer Zufallszahl
import random 

#erstellen einer Excel Mappe mit dem Dateiname "diagrammBeispiel.xlsx"
workbook = xlsxwriter.Workbook('diagrammBeispiel.xlsx')
#erstellen eines Tabellenblattes mit dem Namen "Beispiel"
worksheet = workbook.add_worksheet("Beispiel")

#schreiben der Tabellenüberschriften
worksheet.write('A1', 'Beschreibung')
worksheet.write('B1', 'Wert')

#Beschreibung für die Diagrammwerte
worksheet.write('A2', 'sehr gut')
worksheet.write('A3', 'gut')
worksheet.write('A4', 'befriedigend')

#schreiben von Werten
worksheet.write('B2', random.randint(1,45))
worksheet.write('B3', random.randint(1,45))
worksheet.write('B4', random.randint(1,45))

#erstellen eines Linien Diagrammes aus den generierten Werten
chart = workbook.add_chart({'type': 'line'})    
chart.set_title({ 'name': 'Diagrammtitel'})
chart.add_series({
      'name':       'Beispieldaten',
      'categories': '=Beispiel!$A$2:$A$4',
      'values':     '=Beispiel!$B$2:$B$4',
})

#positionieren des Diagrammes an der Zelle E2
worksheet.insert_chart('E2', chart)   

#schließen der Excel Mappe
workbook.close()

Das Ergebnis des obrigen Skriptes ist eine Excel Mappe mit einer kleinen Tabelle sowie einem Liniendiagramm.

Excel Mappe mit Liniendiagramm
Excel Mappe mit Liniendiagramm

In diesem Beispiel habe ich „nur“ eine Datenreihe und somit nur eine Linie gezeichnet.

zeichnen der Datenreihen

Da wir aber 2 Datenreihen haben müssen wir nun zusätzlichen die Funktion „add_series“ zweimal aufrufen.

Tabelle mit den ermittelten SEO Werten
Tabelle mit den ermittelten SEO Werten

Zunächst benötigen wir eine Datenreihe für den Titel

chart.add_series({
        'name':       'Titel',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$B$2:$B$4',
})

und noch für die Beschreibung

chart.add_series({
        'name':       'Meta Beschreibung',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$C$2:$C$4',
})

Wichtig ist das der Tabellenblattname korrekt übergeben wurde. Damit die Formel korrekt funktioniert habe ich beim erstellen des Tabellenblattes den Namen „Zusammenfassung“ angegeben.

worksheetSummary = workbook.add_worksheet('Zusammenfassung')
positionieren des Diagrammes

Wenn das Diagramm „befüllt“ wurde, kann dieses positioniert werden. Als Koordinate wird hier die linke, obere Ecke einer Zelle gewählt.

In meinem Beispiel reicht die Datentabelle von A1 bis C1, ich lasse zusätzlich die Spalte „D“ frei und positionieren das Diagramm an der Zelle E2.

worksheetSummary.insert_chart('E2', chart)

Abschluß

Zum Abschluss rufen wir die beiden neuen Funktionen zum zeichnen der Datentabelle sowie des Diagramms NACH der Abarbeitung der Liste der Beiträge auf. Unser Skript sollte nun wiefolgt aussehen:

import xlsxwriter

class Meta():
    
    def __init__(self):
        self.author = '-undefined-'
        self.title = ''
        self.description = ''
        self.adresse = ''
        
    def setAuthor(self, author):
        self.author = author
        
    def setDescription(self, description):
        self.description = description
        
    def setTitle(self, title):
        self.title = title
    
    def setAdresse(self, adresse):
        self.adresse = adresse
        
def speichernAlsXlsx(metaDaten, index):
    rowNum = str(index+1)
    worksheet.write('A'+rowNum, str(index))
    worksheet.write('B'+rowNum, metaDaten.title)
    worksheet.write('C'+rowNum, len(metaDaten.title))
    worksheet.write('D'+rowNum, metaDaten.description)
    worksheet.write('E'+rowNum, len(metaDaten.description))
    worksheet.write('F'+rowNum, metaDaten.adresse)

def storeSummaryTable(metaDaten):
    if len(metaDaten.title) >= 0 and len(metaDaten.title) < 65:
        summaryTitleValues[0] = summaryTitleValues[0] + 1
    if len(metaDaten.title) >= 60 and len(metaDaten.title) <= 65:
        summaryTitleValues[1] = summaryTitleValues[1] + 1
    if len(metaDaten.title) >= 65:
        summaryTitleValues[2] = summaryTitleValues[2] + 1
    
    if len(metaDaten.description) >= 0 and len(metaDaten.description) < 155:
        summaryDescriptionValues[0] = summaryDescriptionValues[0] + 1
    if len(metaDaten.description) >= 155 and len(metaDaten.description) <= 165:
        summaryDescriptionValues[1] = summaryDescriptionValues[1] + 1
    if len(metaDaten.description) > 165:
        summaryDescriptionValues[2] = summaryDescriptionValues[2] + 1    
    
def summaryTable():
    worksheetSummary.write('A1','')
    worksheetSummary.write('B1','Titel')
    worksheetSummary.write('C1','Beschreibung')
    
    worksheetSummary.write('A2','zu kurz')
    worksheetSummary.write('A3','ok')
    worksheetSummary.write('A4','zu lang')
    
    worksheetSummary.write('B2',summaryTitleValues[0])
    worksheetSummary.write('B3',summaryTitleValues[1])
    worksheetSummary.write('B4',summaryTitleValues[2])
    
    worksheetSummary.write('C2',summaryDescriptionValues[0])
    worksheetSummary.write('C3',summaryDescriptionValues[1])
    worksheetSummary.write('C4',summaryDescriptionValues[2])

def createSummaryChart():
    chart = workbook.add_chart({'type': 'line'})    
    chart.set_title({ 'name': 'SEO Analyse'})
    chart.add_series({
        'name':       'Titel',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$B$2:$B$4',
    })
    
    chart.add_series({
        'name':       'Meta Beschreibung',
        'categories': '=Zusammenfassung!$A$2:$A$4',
        'values':     '=Zusammenfassung!$C$2:$C$4',
    })    
    
    worksheetSummary.insert_chart('E2', chart)    

def loadPostsUrls(startUrl):
    req = requests.get(startUrl)  
    beautifulSoup = BeautifulSoup(req.content, "html.parser")
    return [loc.text for loc in beautifulSoup.find_all('loc')]

summaryTitleValues = [0,0,0]
summaryDescriptionValues = [0,0,0]

posts = loadPostsUrls('https://draeger-it.blog/post-sitemap.xml')
if len(posts) > 0:
    workbook = xlsxwriter.Workbook('crawler_1_.xlsx')
    
    worksheetSummary = workbook.add_worksheet('Zusammenfassung')
    
    worksheet = workbook.add_worksheet('Beiträge')
        
    worksheet.write('A1', '') 
    worksheet.write('B1', 'Titel')
    worksheet.write('C1', 'Laenge') 
    worksheet.write('D1', 'MetaDescription') 
    worksheet.write('E1', 'Laenge') 
    worksheet.write('F1', 'Adresse')
    
    index = 0
    for post in posts:
        index = index + 1
        print(post)
        req = requests.get(post)  
        beautifulSoup = BeautifulSoup(req.content, "html.parser")
        metaDaten = Meta()
        metaDaten.setAdresse(post)
        for tag in beautifulSoup.select('meta'):    
            if tag.get("name", None) == "author":
                metaDaten.setAuthor(tag.get("content", None))
            if tag.get("name", None) == "description":
                metaDaten.setDescription(tag.get("content", None))
            if tag.get("property", None) == "og:title":
                metaDaten.setTitle(tag.get("content", None))
        speichernAlsXlsx(metaDaten, index)
        storeSummaryTable(metaDaten)    
        
    summaryTable()
    createSummaryChart()
    
    format_green = workbook.add_format({'bg_color': '#C0E2BD', 'font_color': '#006100'}) 
    format_yellow = workbook.add_format({'bg_color': '#F9FCD0', 'font_color': '#006100'}) 
    format_red = workbook.add_format({'bg_color': '#F9D1D1', 'font_color': '#006100'}) 
    
    index = index + 1
    
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '<', 'value': 60, 'format': format_yellow}) 
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 60, 'maximum': 65, 'format': format_green}) 
    worksheet.conditional_format('C2:C'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 66, 'format': format_red})
    
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '<', 'value': 154, 'format': format_yellow}) 
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': 'between', 'minimum': 155, 'maximum': 165, 'format': format_green}) 
    worksheet.conditional_format('E2:E'+str(index), {'type': 'cell', 'criteria': '>=', 'value': 166, 'format': format_red})
        
    workbook.close()
print('ENDE')

 

Wir erhalten nun einen Excel Bericht zu einer Webseite welches das WordPress Plugin Yoast SEO verwendet und eine sitemap.xml anbietet. 

 

 

 

 

Werbung

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Werbung