Διαφήμιση

Αν εσύ τρέξτε έναν ιστότοπο 10 τρόποι για να δημιουργήσετε έναν μικρό και απλό ιστότοπο χωρίς υπερβολέςΤο WordPress μπορεί να είναι υπερβολικό. Όπως αποδεικνύουν αυτές οι άλλες εξαιρετικές υπηρεσίες, το WordPress δεν είναι το καλύτερο για τη δημιουργία ιστοτόπων. Εάν θέλετε απλούστερες λύσεις, μπορείτε να επιλέξετε μια ποικιλία. Διαβάστε περισσότερα , πιθανότατα έχετε ακούσει για ένα αρχείο robots.txt (ή το "πρότυπο εξαίρεσης ρομπότ"). Είτε το έχετε είτε όχι, ήρθε η ώρα να το μάθετε, γιατί αυτό το απλό αρχείο κειμένου είναι ένα κρίσιμο μέρος του ιστότοπού σας. Μπορεί να φαίνεται ασήμαντο, αλλά μπορεί να εκπλαγείτε με το πόσο σημαντικό είναι.

Ας ρίξουμε μια ματιά στο τι είναι ένα αρχείο robots.txt, τι κάνει και πώς να το ρυθμίσετε σωστά για τον ιστότοπό σας.

Τι είναι ένα αρχείο robots.txt;

Για να κατανοήσετε πώς λειτουργεί ένα αρχείο robots.txt, πρέπει να γνωρίζετε λίγα λόγια για τις μηχανές αναζήτησης Πώς λειτουργούν οι μηχανές αναζήτησης;Για πολλούς ανθρώπους, το Google ΕΙΝΑΙ το Διαδίκτυο. Είναι αναμφισβήτητα η πιο σημαντική εφεύρεση από το ίδιο το Διαδίκτυο. Και ενώ οι μηχανές αναζήτησης έχουν αλλάξει πολύ από τότε, οι βασικές αρχές παραμένουν οι ίδιες.

Διαβάστε περισσότερα . Η σύντομη έκδοση είναι ότι στέλνουν "crawlers", τα οποία είναι προγράμματα που αναζητούν πληροφορίες στο διαδίκτυο. Στη συνέχεια αποθηκεύουν κάποιες από αυτές τις πληροφορίες, ώστε να μπορούν να κατευθύνουν τους ανθρώπους σε αυτές αργότερα.

Αυτά τα προγράμματα ανίχνευσης, γνωστά και ως "bots" ή "spiders", βρίσκουν σελίδες από δισεκατομμύρια ιστότοπους. Οι μηχανές αναζήτησης τους δίνουν οδηγίες για το πού να πάνε, αλλά μεμονωμένοι ιστότοποι μπορούν επίσης να επικοινωνούν με τα ρομπότ και να τους πουν ποιες σελίδες πρέπει να βλέπουν.

Τις περισσότερες φορές, στην πραγματικότητα κάνουν το αντίθετο και τους λένε ποιες σελίδες κάνουν δεν πρέπει κοιτάζω. Πράγματα όπως σελίδες διαχείρισης, πύλες υποστήριξης, σελίδες κατηγοριών και ετικετών και άλλα πράγματα που οι ιδιοκτήτες ιστότοπων δεν θέλουν να εμφανίζονται στις μηχανές αναζήτησης. Αυτές οι σελίδες εξακολουθούν να είναι ορατές στους χρήστες και είναι προσβάσιμες σε οποιονδήποτε έχει άδεια (που συχνά είναι όλοι).

Αλλά λέγοντας σε αυτές τις αράχνες να μην ευρετηριάζουν ορισμένες σελίδες, το αρχείο robots.txt κάνει τη χάρη σε όλους. Εάν αναζητούσατε το "MakeUseOf" σε μια μηχανή αναζήτησης, θα θέλατε οι σελίδες διαχείρισης μας να εμφανίζονται ψηλά στην κατάταξη; Όχι. Αυτό δεν θα έκανε καλό σε κανέναν, γι' αυτό λέμε στις μηχανές αναζήτησης να μην τα εμφανίζουν. Μπορεί επίσης να χρησιμοποιηθεί για να εμποδίσει τις μηχανές αναζήτησης να ελέγξουν σελίδες που ενδέχεται να μην τις βοηθήσουν να ταξινομήσουν τον ιστότοπό σας στα αποτελέσματα αναζήτησης.

Εν ολίγοις, το robots.txt λέει στους ανιχνευτές Ιστού τι να κάνουν.

Μπορούν οι ανιχνευτές να αγνοήσουν το robots.txt;

Αγνοούν ποτέ τα προγράμματα ανίχνευσης τα αρχεία robots.txt; Ναί. Στην πραγματικότητα, πολλά ερπυστριοφόρα κάνω αγνόησέ το. Γενικά, ωστόσο, αυτά τα προγράμματα ανίχνευσης δεν προέρχονται από αξιόπιστες μηχανές αναζήτησης. Προέρχονται από spammers, μηχανές συγκομιδής email και άλλους τύπους αυτοματοποιημένων ρομπότ Πώς να δημιουργήσετε ένα βασικό πρόγραμμα ανίχνευσης Ιστού για να αντλήσετε πληροφορίες από έναν ιστότοποΘέλατε ποτέ να συλλάβετε πληροφορίες από έναν ιστότοπο; Δείτε πώς μπορείτε να γράψετε έναν ανιχνευτή για να περιηγηθείτε σε έναν ιστότοπο και να εξαγάγετε ό, τι χρειάζεστε. Διαβάστε περισσότερα που περιφέρονται στο διαδίκτυο. Είναι σημαντικό να το έχετε κατά νου — Η χρήση του προτύπου εξαίρεσης ρομπότ για να πει κανείς στα ρομπότ να κρατηθούν έξω δεν είναι αποτελεσματικό μέτρο ασφαλείας. Στην πραγματικότητα, μερικά bots μπορεί αρχή με τις σελίδες που τους λες να μην πάνε.

Οι μηχανές αναζήτησης, ωστόσο, θα κάνουν ό, τι λέει το αρχείο robots.txt, αρκεί να έχει μορφοποιηθεί σωστά.

Πώς να γράψετε ένα αρχείο robots.txt

Υπάρχουν μερικά διαφορετικά μέρη που μπαίνουν σε ένα τυπικό αρχείο εξαίρεσης ρομπότ. Εδώ θα τα αναλύσω το καθένα ξεχωριστά.

Δήλωση παράγοντα χρήστη

Προτού πείτε σε ένα ρομπότ ποιες σελίδες δεν πρέπει να κοιτάζει, πρέπει να καθορίσετε με ποιο ρομπότ μιλάτε. Τις περισσότερες φορές, θα χρησιμοποιήσετε μια απλή δήλωση που σημαίνει "όλα τα ρομπότ". Αυτό μοιάζει με αυτό:

Πράκτορας χρήστη: *

Ο αστερίσκος σημαίνει "όλα τα ρομπότ". Θα μπορούσατε, ωστόσο, να καθορίσετε σελίδες για συγκεκριμένα ρομπότ. Για να το κάνετε αυτό, θα πρέπει να γνωρίζετε το όνομα του ρομπότ για το οποίο ορίζετε οδηγίες. Αυτό μπορεί να μοιάζει με αυτό:

Χρήστης-πράκτορας: Googlebot. [λίστα σελίδων που δεν πρέπει να ανιχνεύονται] Χρήστης-πράκτορας: Googlebot-Image/1.0. [λίστα σελίδων που δεν πρέπει να ανιχνεύονται] Χρήστης-πράκτορας: Bingbot. [λίστα σελίδων που δεν πρέπει να ανιχνεύονται]

Και ούτω καθεξής. Εάν ανακαλύψετε ένα ρομπότ που δεν θέλετε καθόλου να ανιχνεύει τον ιστότοπό σας, μπορείτε να το προσδιορίσετε επίσης.

Για να βρείτε τα ονόματα των πρακτόρων χρηστών, ανατρέξτε στο useragentstring.com [Δεν είναι πλέον διαθέσιμο].

Απαγόρευση σελίδων

Αυτό είναι το κύριο μέρος του αρχείου εξαίρεσης ρομπότ. Με μια απλή δήλωση, λέτε σε ένα bot ή μια ομάδα ρομπότ να μην ανιχνεύει ορισμένες σελίδες. Η σύνταξη είναι εύκολη. Δείτε πώς θα απαγορεύσετε την πρόσβαση σε όλα στον κατάλογο "διαχειριστής" του ιστότοπού σας:

Απαγόρευση: /admin/

Αυτή η γραμμή θα εμπόδιζε τα ρομπότ από την ανίχνευση yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html και οτιδήποτε άλλο εμπίπτει στον κατάλογο διαχειριστών.

Για να μην επιτρέψετε μια μεμονωμένη σελίδα, απλώς καθορίστε τη στη γραμμή απαγόρευσης:

Απαγόρευση: /public/exception.html

Τώρα δεν θα τραβηχτεί η σελίδα "εξαίρεση", αλλά όλα τα άλλα στον "δημόσιο" φάκελο θα συρθούν.

Για να συμπεριλάβετε πολλούς καταλόγους ή σελίδες, απλώς καταχωρίστε τους στις επόμενες γραμμές:

Απαγόρευση: /ιδιωτικό/ Απαγόρευση: /admin/ Απαγόρευση: /cgi-bin/ Απαγόρευση: /temp/

Αυτές οι τέσσερις γραμμές θα ισχύουν για όποιον παράγοντα χρήστη καθορίσατε στην κορυφή της ενότητας.

Εάν θέλετε να εμποδίσετε τα bots να βλέπουν οποιαδήποτε σελίδα στον ιστότοπό σας, χρησιμοποιήστε αυτό:

Απαγόρευση: /

Ορισμός διαφορετικών προτύπων για bots

Όπως είδαμε παραπάνω, μπορείτε να καθορίσετε συγκεκριμένες σελίδες για διαφορετικά ρομπότ. Συνδυάζοντας τα δύο προηγούμενα στοιχεία, δείτε πώς φαίνεται:

Χρήστης-πράκτορας: googlebot. Απαγόρευση: /admin/ Disallow: /private/ User-agent: bingbot. Απαγόρευση: /admin/ Απαγόρευση: /ιδιωτικό/ Απαγόρευση: /secret/

Οι ενότητες "admin" και "private" θα είναι αόρατες στο Google και στο Bing, αλλά η Google θα δει τον "μυστικό" κατάλογο, ενώ το Bing όχι.

Μπορείτε να καθορίσετε γενικούς κανόνες για όλα τα ρομπότ χρησιμοποιώντας τον παράγοντα χρήστη με αστερίσκο και, στη συνέχεια, να δώσετε συγκεκριμένες οδηγίες στα ρομπότ και στις επόμενες ενότητες.

Βάζοντας τα όλα μαζί

Με τις παραπάνω γνώσεις, μπορείτε να γράψετε ένα πλήρες αρχείο robots.txt. Απλώς ενεργοποιήστε τον αγαπημένο σας επεξεργαστή κειμένου (είμαστε θαυμαστές του Sublime 11 Υπέροχες συμβουλές κειμένου για παραγωγικότητα και ταχύτερη ροή εργασίαςΤο Sublime Text είναι ένα ευέλικτο πρόγραμμα επεξεργασίας κειμένου και ένα χρυσό πρότυπο για πολλούς προγραμματιστές. Οι συμβουλές μας επικεντρώνονται στην αποτελεσματική κωδικοποίηση, αλλά οι γενικοί χρήστες θα εκτιμήσουν τις συντομεύσεις πληκτρολογίου. Διαβάστε περισσότερα εδώ γύρω) και αρχίστε να ενημερώνετε τα ρομπότ ότι δεν είναι ευπρόσδεκτα σε ορισμένα μέρη του ιστότοπού σας.

Εάν θέλετε να δείτε ένα παράδειγμα αρχείου robots.txt, απλώς μεταβείτε σε οποιονδήποτε ιστότοπο και προσθέστε το "/robots.txt" στο τέλος. Ακολουθεί μέρος του αρχείου Giant Bicycles robots.txt:

γιγαντιαίο αρχείο robots.txt

Όπως μπορείτε να δείτε, υπάρχουν αρκετές σελίδες που δεν θέλουν να εμφανίζονται στις μηχανές αναζήτησης. Έχουν επίσης συμπεριλάβει μερικά πράγματα για τα οποία δεν έχουμε μιλήσει ακόμα. Ας ρίξουμε μια ματιά σε τι άλλο μπορείτε να κάνετε στο αρχείο εξαίρεσης ρομπότ.

Εντοπισμός του χάρτη ιστοτόπου σας

Εάν το αρχείο robots.txt λέει στα bots πού δεν να πας, σου Το sitemap κάνει το αντίθετο Πώς να δημιουργήσετε έναν χάρτη ιστότοπου XML σε 4 εύκολα βήματαΥπάρχουν δύο τύποι χαρτών ιστότοπου - σελίδα HTML ή αρχείο XML. Ένας χάρτης ιστότοπου HTML είναι μια μεμονωμένη σελίδα που δείχνει στους επισκέπτες όλες τις σελίδες ενός ιστότοπου και συνήθως έχει συνδέσμους προς αυτές... Διαβάστε περισσότερα και τους βοηθά να βρουν αυτό που ψάχνουν. Και ενώ οι μηχανές αναζήτησης πιθανότατα γνωρίζουν ήδη πού βρίσκεται ο χάρτης του ιστότοπού σας, δεν είναι κακό να τους ενημερώσετε ξανά.

Η δήλωση για μια τοποθεσία χάρτη ιστότοπου είναι απλή:

Χάρτης ιστότοπου: [URL χάρτη ιστότοπου]

Αυτό είναι.

Στο δικό μας αρχείο robots.txt, μοιάζει με αυτό:

Χάρτης ιστότοπου: //www.makeuseof.com/sitemap_index.xml

Αυτό είναι το μόνο που υπάρχει σε αυτό.

Ορισμός καθυστέρησης ανίχνευσης

Η οδηγία για την καθυστέρηση ανίχνευσης λέει σε ορισμένες μηχανές αναζήτησης πόσο συχνά μπορούν να ευρετηριάσουν μια σελίδα στον ιστότοπό σας. Μετριέται σε δευτερόλεπτα, αν και ορισμένες μηχανές αναζήτησης το ερμηνεύουν ελαφρώς διαφορετικά. Μερικοί βλέπουν μια καθυστέρηση ανίχνευσης 5 ως που τους λέει να περιμένουν πέντε δευτερόλεπτα μετά από κάθε ανίχνευση για να ξεκινήσουν την επόμενη. Άλλοι το ερμηνεύουν ως οδηγία για ανίχνευση μόνο μιας σελίδας κάθε πέντε δευτερόλεπτα.

Γιατί θα έλεγες σε έναν ερπυστριοφόρο να μην σέρνεται όσο το δυνατόν περισσότερο; Προς το διατήρηση του εύρους ζώνης 4 τρόποι με τους οποίους τα Windows 10 σπαταλούν το εύρος ζώνης σας στο ΔιαδίκτυοΤα Windows 10 σπαταλά το εύρος ζώνης σας στο Διαδίκτυο; Δείτε πώς μπορείτε να ελέγξετε και τι μπορείτε να κάνετε για να το σταματήσετε. Διαβάστε περισσότερα . Εάν ο διακομιστής σας δυσκολεύεται να συμβαδίσει με την επισκεψιμότητα, ίσως θελήσετε να δημιουργήσετε μια καθυστέρηση ανίχνευσης. Γενικά, οι περισσότεροι άνθρωποι δεν χρειάζεται να ανησυχούν για αυτό. Ωστόσο, οι μεγάλοι ιστότοποι υψηλής επισκεψιμότητας μπορεί να θέλουν να πειραματιστούν λίγο.

Δείτε πώς μπορείτε να ορίσετε μια καθυστέρηση ανίχνευσης οκτώ δευτερολέπτων:

Καθυστέρηση ανίχνευσης: 8

Αυτό είναι. Δεν θα υπακούουν όλες οι μηχανές αναζήτησης στην οδηγία σας. Αλλά δεν βλάπτει να ρωτάς. Όπως και με την απαγόρευση σελίδων, μπορείτε να ορίσετε διαφορετικές καθυστερήσεις ανίχνευσης για συγκεκριμένες μηχανές αναζήτησης.

Μεταφόρτωση του αρχείου σας robots.txt

Αφού ρυθμίσετε όλες τις οδηγίες στο αρχείο σας, μπορείτε να το ανεβάσετε στον ιστότοπό σας. Βεβαιωθείτε ότι είναι αρχείο απλού κειμένου και έχει το όνομα robots.txt. Στη συνέχεια, ανεβάστε το στον ιστότοπό σας για να το βρείτε στη διεύθυνση yoursite.com/robots.txt.

Εάν χρησιμοποιείτε α σύστημα διαχείρισης περιεχομένου Τα 10 πιο δημοφιλή συστήματα διαχείρισης περιεχομένου στο διαδίκτυοΟι εποχές των σελίδων HTML με το χέρι και του mastering CSS, έχουν περάσει προ πολλού. Εγκαταστήστε ένα σύστημα διαχείρισης περιεχομένου (CMS) και μέσα σε λίγα λεπτά μπορείτε να έχετε έναν ιστότοπο για κοινή χρήση με τον κόσμο. Διαβάστε περισσότερα όπως το WordPress, υπάρχει πιθανώς ένας συγκεκριμένος τρόπος που θα χρειαστεί να το κάνετε. Επειδή διαφέρει σε κάθε σύστημα διαχείρισης περιεχομένου, θα πρέπει να συμβουλευτείτε την τεκμηρίωση για το σύστημά σας.

Ορισμένα συστήματα ενδέχεται να διαθέτουν και διαδικτυακές διεπαφές για τη μεταφόρτωση του αρχείου σας. Για αυτά, απλώς αντιγράψτε και επικολλήστε το αρχείο που δημιουργήσατε στα προηγούμενα βήματα.

Θυμηθείτε να ενημερώσετε το αρχείο σας

Η τελευταία συμβουλή που θα δώσω είναι να κοιτάζετε περιστασιακά το αρχείο εξαίρεσης ρομπότ. Ο ιστότοπός σας αλλάζει και ίσως χρειαστεί να κάνετε κάποιες προσαρμογές. Εάν παρατηρήσετε μια παράξενη αλλαγή στην επισκεψιμότητα της μηχανής αναζήτησής σας, καλό είναι να ελέγξετε και το αρχείο. Είναι επίσης πιθανό η τυπική σημείωση να αλλάξει στο μέλλον. Όπως όλα τα άλλα στον ιστότοπό σας, αξίζει να το ελέγχετε κάθε τόσο.

Από ποιες σελίδες εξαιρείτε προγράμματα ανίχνευσης στον ιστότοπό σας; Έχετε παρατηρήσει κάποια διαφορά στην επισκεψιμότητα των μηχανών αναζήτησης; Μοιραστείτε τις συμβουλές και τα σχόλιά σας παρακάτω!

Ο Dann είναι σύμβουλος στρατηγικής περιεχομένου και μάρκετινγκ που βοηθά τις εταιρείες να δημιουργήσουν ζήτηση και δυνητικούς πελάτες. Δημοσιεύει επίσης blog σχετικά με τη στρατηγική και το μάρκετινγκ περιεχομένου στο dannalbright.com.