Richtlinien zum technischen Aufbau von Webinhalten: Webcrawler, Aktualität und Geschwindigkeit (Teil 2)

Auch bei den technischen Richtlinien gibt es einige Vorgaben, die in den Google Webmaster Richtlinien Erwähnung finden und nebst den Webmasterrichtlinien zur Gestaltung von Webinhalten als Unterstützung für die Optimierung der eigenen Webseite dienen.

Überprüfung der Webseite durch einen textbasierten Browser

Lynx Viewer vom Comspace Blog
Lynx-Abbild von Comspace Blog

In erster Linie darf man sich einen Crawler, der Webseiten erfasst und ausliest, wie einen einfachen Textbrowser vorstellen. Gängige Browser wie der Mozilla Firefox, Google Chrome, Apple Safari oder den bekannten Microsoft Internet Explorer sind in der heutigen Zeit in der Lage, Webseiten in voller Pracht anzuzeigen, das heißt vorhandene Grafiken oder auch Flash-Videos werden nach dem Wunsch der Seitenbetreiber dargestellt. Textbrowser, wie beispielsweise Lynx, stellen Webseiten – wie der Name es schon sagt – in reiner Textform dar. Bilder und andere Elemente wie zum Beispiel Videos werden in einem Textbrowser nicht angezeigt.

Des Weiteren sind in einem Textbrowser diverse Funktionen wie JavaScripte, Cookies und Session-IDs nicht nutzbar bzw. können für Probleme sorgen. Ähnlich agieren auch Webcrawler – auch wenn diese mittlerweile weiterentwickelt wurden und relativ leistungsfähig sind, kann ein Webcrawler mit den oben genannten Elementen auf einer Webseite Probleme haben.

Pauschal lassen sich natürlich nicht alle Elemente auf einer Webseite entfernen – ein Onlineshop ohne entsprechende Bilder oder Produktvideos wäre im Jahre 2012 undenkbar. Dem entsprechend ist hier die technische Aufgabe des Webseitenbetreibers dafür zu sorgen, dass die Crawler der Suchmaschinen es möglichst einfach haben, die Inhalte der Webseite zu crawlen.

Zum einen hat der Webseitenbetreiber die Möglichkeit, seine Internetpublikation mithilfe des eben erwähnen Lynx Textbrowsers zu prüfen – zum anderen bieten aber auch die Google Webmaster Tools die Möglichkeit, eine Webseite durch einen Crawler abzurufen und sich das Ergebnis ausgeben zu lassen.

Exkurs: Cloaking und ungeeignete Techniken

Die obigen Gründe und die anfänglichen Schwierigkeiten hatten zur Folge, dass in der Anfangszeit des kommerziellen World Wide Webs diverse Techniken entwickelt wurden, die dafür sorgten, dass Suchmaschinen wie Google beim Besuch einer Webseite komplett andere Inhalte angezeigt wurden als dem Endverbraucher. Die Technik war dabei relativ einfach: Wenn eine Webseite besucht wurde, wurde zu Beginn abgefragt, ob es sich um einen realen Besucher handelt oder ob hier ein Suchmaschinencrawler unterwegs ist – sobald ein Suchmaschinencrawler erkannt wurde, zeigte man diesem einfach die Webseite in einer anderen Form.

Mittlerweile sind solche Techniken seitens der Suchmaschinen nicht sonderlich gern gesehen und können im Ranking zu Abwertungen führen. Diese Technik machten sich natürlich auch andere Personen zu Nutze und verschleierten somit Inhalte, die nicht zwangsläufig in Suchergebnissen auftauchen sollten bzw. die seitens der Suchmaschine erst gar nicht erkannt werden sollten.

Suchmaschinen die Aktualität der Seite präsentieren

Im ersten Teil „Richtlinien zur Gestaltung von Webinhalten: Aufbau des Inhalts“ wurde bereits angesprochen, dass die Qualität des Inhalts eine wichtige Rolle für ein positives Ranking innerhalb der Suchmaschinen spielt. Nebst der Qualität des Inhalts ist auch die Aktualität, sprich wie oft neue Inhalte publiziert oder ältere Inhalte aktualisiert werden, relevant und sorgt natürlich auch dafür, dass Crawler eine Webseite regelmäßiger besuchen könnten. Wenn ein Crawler bemerkt, dass eine Webseite regelmäßig bzw. täglich neue Inhalte veröffentlicht, wird auch der Crawling-Rhythmus automatisch angepasst.

Um dem Crawler relativ schnell mitzuteilen, ob neue Inhalte verfügbar sind, empfehlen die Google Webmaster Richtlinien die Verwendung des http-Headers “If-Modifies-Since“. Anhand dieser Funktion teilt der Webserver dem Crawler mit, wann neue Inhalte auf der Internetseite veröffentlicht wurden – natürlich kann dies auch anhand der Webseite an sich geschehen, wenn beispielsweise eine Zeitangabe für die Erstellung des Artikels existiert. Im Gegensatz zu der Zeitangabe auf der Webseite besitzt die Lösung des http-Headers den Vorteil, dass Bandbreite eingespart werden kann.

Inhalte vor dem Crawler schützen

robots-txt - Alle Suchmaschinen dürfen Inhalte durchsuchen und indexieren
Suchmaschinen ist das Durchsuchen/Indexieren der Webinhalte erlaubt

Selbst in der heutigen Zeit sind für viele Webseiten-Betreiber Begriffe wie Robots.txt und Meta-Robot ein Fremdwort. Doch dabei ist es nicht verkehrt, dem Suchmaschinen-Crawler mithilfe einer Robots.txt mitzuteilen, welche Verzeichnisse durchsucht werden sollen und welche eben nicht durchsucht werden sollen – schließlich muss nicht jeder Inhalt oder gar jedes Bild im Index der Suchmaschinen dargestellt werden.

Besonders wichtig ist dabei, dass der Webseitenbetreiber selbst die vorgenommenen Anweisungen in der eigenen Robots.txt kontrolliert, da es auch passieren kann, dass Suchmaschinen-Crawler komplett ausgeschlossen werden. Als Hilfsmittel für die Kontrolle eigenen sich die Google Webmaster Tools, womit zum einen die Robots.txt geprüft werden kann und zum anderen die Seite durch einen Crawler abgerufen werden kann. An den Resultaten lässt sich erkennen, wie der Google-Bot die Webseite sieht und natürlich welche Inhalte der Bot abgreifen kann und welche nicht.

Das Tool aus den Google Webmaster-Tools nennt sich übrigens „robots.txt“-Analyse Tool.

Informationen zur Erstellung einer Robots.txt finden sich auf nachfolgenden Seiten:

Neben der Erstellung einer Robots.txt gibt es auch die Möglichkeit für einzelne HTML-Seiten mittels dem Meta-Tag „<meta name=“robots“ content=“index,follow“ />“ bestimmte Einstellungen vorzunehmen, die einem Suchmaschinen-Crawler mitteilen, ob die Inhalte indexiert werden dürfen („index“) oder nicht indexiert werden dürfen („noindex“). Zudem kann angegeben werden, ob den Links auf der einzelnen Seite gefolgt („follow“) oder nicht gefolgt („nofollow“) werden sollen.

Die Webseite auf Herz und Nieren testen (Teil 2.1)

Aufgrund des Themenumfangs behandle ich diesen Punkt in einem separaten Artikel. Lesen Sie die Fortsetzung in „Richtlinien zum technischen Aufbau von Webinhalten: Die Webseite auf Herz und Nieren testen (Teil 2.1)

Weitere Artikel zum Thema Google Webmaster Richtlinien

Richtlinien zur Gestaltung von Webinhalten: Aufbau des Inhalts (Teil 1)

Google Webmaster Tools und Google Webmaster Richtlinien

Dies ist der erste Artikel zu einer dreiteiligen Artikelserie zu den Google Webmaster Richtlinien – in Teil 2 wird die Thematik „Webmaster Richtlinien zum technischen Aufbau von Webinhalten“ und in Teil 3 „Webmaster Richtlinien zur Qualität“ angesprochen. Begonnen wird nachfolgend mit dem Thema „Webmaster Richtlinien zur Gestaltung von Webinhalten: Aufbau des Inhalts„. „Richtlinien zur Gestaltung von Webinhalten: Aufbau des Inhalts (Teil 1)“ weiterlesen

Wie erkenne ich, wann der Googlebot eine Website gecrawlt hat?

Im Zuge der Aktualisierung der Descriptions auf einer Website stellte sich mir die Frage, warum die neuen Descriptions auch 14 Tage nach Veröffentlichung noch nicht in den Google-Suchergebnissen erschienen sind. Auf Nachfrage  bei unserem SEO-Experten Ferit zeigte sich, dass der Googlebot zuletzt vor ca. drei Wochen auf der Website vorbeigeschaut hatte und die neuen Descriptions daher noch nicht berücksichtigt wurden.

Wie aber stellt man fest, wann der Googlebot die Website zuletzt gecrawlt hat? Wie vieles ist auch das recht einfach, wenn man es nur weiß: man sucht die betreffende Website über ein passendes Keyword in Google, z.B. „comspace cms“ für die Seite Content Management Systeme bei comspace. Dann fährt man mit der Maus über den Doppelpfeil rechts vom Suchergebnis, so dass die Seitenvorschau der Ergebnisseite angezeigt wird.

 Im Kopf der Seitenvorschau erkennt man die Worte „Im Cache“ (im Sreenshot rot markiert). Klickt man darauf, erscheint nun die Ergebnisseite mit einem Textkasten darüber, in dem man nachlesen kann, an welchem Tag und um welche Uhrzeit Google sich diese Seite zuletzt angeschaut hat, in diesem Fall am 22. April um 13:32 Uhr.

UDACITY: Mal eben lernen, eine eigene Suchmaschine zu programmieren

Es ist sicherlich nicht untertrieben, die aktuellen Entwicklungen in Sachen Web und Programmierung als Revolution zu beschreiben, die von der Tragweite her der industriellen in nichts nachsteht.

Der große Vorteil in der Software-Entwicklung ist dabei, dass hochspannende und profitable Produkte und Dienstleistungen entwickelt werden können, ohne Fabrikhallen, Dampfmaschinen und hunderte von Arbeitskräften zu benötigen. Mit wenig materiellem Aufwand, zeit- und vor allem orts-unabhängig kann im Team zusammen gearbeitet werden. Web 2.0 Tools unterstützen bei der Planung. Kommunikation, Arbeits-Organisation, Qualitäts-Sicherheit und Erfolgskontrolle.

Aber haben die Entwickler selber immer die besten Ideen? Nicht zwangsläufig. Denn die besten Ideen entstehen eigentlich aus dem Bedürfnis heraus, was die Amerikaner „Scratch your own itch“ nennen: Löse ein eigenes Problem.
YouTube entstand, weil einige College Studenten Ihre Videos online speichern und Freunden zeigen wollten – also programmierten sie etwas. Twitter entstand, als ein Programmierteam seine Plattform blogger.com erfolgreich an Google verkaufte und daraufhin erst einmal ein Kurznachrichtensystem haben wollte, um sich auf der Suche nach dem nächsten Geschäftsmodell zu machen. Also programmierten sie etwas.

Die nächste kleine Revolution ist möglicherweise gestern gestartet, denn was wäre, wenn jeder in der Lage wäre, sich eben schnell eine Lösung für das eigene Problem zu programmieren?

Es geht um Bildung.

Vielleicht haben Sie schon einmal vom Google-Auto gehört? Der deutsche Wissenschaftler Sebastian Thrun ist maßgeblich an der Entwicklung des selbstständig fahrenden Autos beteiligt. Außerdem ist er an der kalifornischen Top-Uni Stanford Professor für künstliche Intelligenz. Gewesen.

Im Januar 2012 kündigte Thrun auf Burdas DLD Konferenz in München an, dass er seine Stanford Professur niederlegt, um etwas Neues zu starten.

Udacity – die Universität 2.0. Bereits letztes Jahr hatte Thrun mit seinem Google-Kollegen Peter Norvig (Director of Research bei Google Inc.) die AI Class gestartet. Das war ein regulärer Stanford Kurs zum Thema künstliche Intelligenz. Er wurde an der Uni von den beiden ganz regulär gehalten. Nebenbei haben sich aber noch über 160.000 Menschen für die Online-Version angemeldet. In YouTube Videos mit Quizzes konnten interessierte Menschen rund um die Welt am anspruchsvollen Kurs teilnehmen. Die Abschlussprüfung haben übrigens mehr als 20.000 Leute bestanden. Übrigens hatte keiner der rund 200 Stanford Studenten in dem Kurs die volle Punktzahl erreicht – wohl aber 248 der Online-Teilnehmer.

Dieser Erfolg hat Thrun so nachhaltig beeindruckt, dass er gestern die UDACITY gestartet hat. Die Universität im Web. Hier die Einleitung als Video:

Gestartet wird mit 2 kostenlosen Kursen, die über 7 Wochen gehen

CS101 – Building a Search engine – dieser Kurs wird gehalten von David Evans, Professor für Computer Science an der Uni Virginia und ist wohl auch für komplette Programmier-Anfänger (also Leute wie mich *g*) geeignet.
und
CS 373 – Programming a robotic car – gehalten vom Experten Thrun selber. Hierzu sind Kenntnisse in Python nötig. Anschauen werde ich mir den Kurs aber definitiv auch.
Weitere Kurse sind bereits angekündigt. Einen guten Überblick über weitere offene Kurs-Anbieter nach diesem Prinzip hat das Konzeptblog gesammelt.

Wenn Sie die Möglichkeit dazu hätten – welches Problem würden Sie gerne mit einem selbstgeschriebenen Programm oder einer App lösen?

Die Woche im Web

Was uns im Web diese Woche auf- oder vor die Füße gefallen ist. Eine kleine Leseliste zum Wochenende:

Netzwertig befürchtet, Facebook will mit seiner „Abonnieren „Funktion und durch den Einsatz von Promis Twitter verdrängen. Muss man mal im Auge behalten. Im Moment denke ich eher, das Facebook sich mit solchen Features etwas verwässert. Freunde, Abos, Pages, Gruppen… Irgendwann blickt keiner mehr durch. Und da Facebook auch nicht grade offen für Drittanbieter Tools ist, kann ich den Newsstrom nicht mal kanalisieren. Das ist mir bei Twitter durchaus möglich mit Anwendungen wie Seesmic, TweetDeck, Hootsuite usw.

Und nochmal Facebook…

Die Chroniken / Timelines kommen für Fanages – und damit für Unternehmen
Letztes Jahr zum 1.April hat Renault sich ja den kleinen Gag erlaubt, die Homepage www.renault.de auf die neue Facebook-Fanpage umzuleiten. Um den Aprilscherz komplett zu machen, haben sie behauptet, die Facebook-Page wäre ab sofort die einzige Renault Homepage. Damals eine witzige und aufmerksamkeitsstarke Aktion, mit der direkt zum Start ordentlich Buzz – und damit auch Fans auf die Seite gebracht wurden. Mit den neuen Chronikseiten ist es nur eine Frage der Zeit, bis sich die Interaktion mit Unternehmen weiter dorthin verlagert, wo sich die Kunden bereits aufhalten. Wir entwickeln uns vom Anbieter- zu einem Nachfrager-Markt.

Aber es gibt ja nicht nur Facebook und Twitter – da war ja auch noch Google+

Wenn Facebook zwei Einträge kriegt, dann verdient Google auch zwei. Searchmetrics haben die wichtigsten Ranking Faktoren für Google untersucht. ÜBERRASCHUNG: Social Media Einflüsse stehen ganz weit oben 🙂
Die Auswertungen der Studie sind verdammt interessant und geben sowohl Anregungen für die eine oder andere Sofortmaßnahme als auch für die langfristige Kommunikations- und Marketing-Planung.

Bald gibt es mehr mobile Endgeräte als Menschen

  • Laut einem SITECORE Blog ist eines der coolsten Module mit gleichzeitig wenigstem TamTam ever released worden
  • Die offiziellen SITECORE Docs dazu hier

In den OpenText Blogs finden sich ja nicht nur Infos zu Content Management auf der Meta-Ebene, sondern auch richtig guter Themen-Inhalt.

What motivates people at work ist so ein Artikel

Beim wirren in der Linksammlung gab es einen Link zum wunderbaren Posting von Web-Guru Seth Godin über Selbstlosigkeit und die Bereitschaft zum Teilen, die betrifft nicht nur das Teilen im Netz:

The irony, of course, is that selflessness (not selfishness, its opposite) is precisely the posture that leads to more success. The person with the confidence to support others and to share is repaid by getting more in return than his selfish counterpart.

 

Und um Ihnen ein bisschen Hunger aufs Kaffeetrinken am Sonntagnachmittag zu machen, hier noch ein wunderbarer Werbespot von Skoda Irland. YUMMY

Google Plus – das Plus mit dem etwas

Google+ (gesprochen: Google Plus) ist das neue soziale Netzwerk der Firma Google Inc. Aktuell (Mitte September) befindet sich das Netzwerk noch in der Testphase und ist seit dem Start am 28. Juni 2011 nur durch eine Einladung erreichbar.
Mit dem sozialen Netzwerk tritt Google die Konkurrenz zu Facebook an und versucht zum zweiten Mal, ein soziales Netzwerk zu etablieren.

„Google Plus – das Plus mit dem etwas“ weiterlesen

Das Google Panda Update – nun auch für Deutschland

Das Google Algorithmus Update, getauft auf den Namen Panda Update (einst auch Farmer-Update genannt), ist schon seit einigen Monaten Gesprächsthema Nr. 1 im Bereich des E-Marketings. Nun wurde das Update am Freitag, den 12. August 2011, für Deutschland eingespielt – nachdem es bereits Anfang des Jahres für die USA wie auch für andere englischsprachige Länder in den Google Algorithmus eingeflossen ist.

„Das Google Panda Update – nun auch für Deutschland“ weiterlesen