Διαφήμιση
Όταν πρόκειται για διαδικτυακές βάσεις δεδομένων και πληροφορίες που μπορούν να βρεθούν μέσα σε αυτό που είναι κοινώς γνωστό ως «αόρατος ιστός Οι 12 καλύτερες μηχανές αναζήτησης για να εξερευνήσετε τον αόρατο ιστόΤο Google ή το Bing δεν μπορούν να αναζητήσουν τα πάντα. Για να εξερευνήσετε τον αόρατο ιστό, πρέπει να χρησιμοποιήσετε αυτές τις ειδικές μηχανές αναζήτησης. Διαβάστε περισσότερα ", δεν είμαι ο τυπικός χρήστης σας. Φυσικά, ξοδεύω λίγο πολύ χρόνο μου ψάχνοντας σε διαδικτυακές βάσεις δεδομένων σε μέρη όπως τα Εθνικά Αρχεία και η CIA FOIA διαβάζοντας δωμάτιο, αλλά πρέπει να πω ότι τίποτα δεν με ενθουσιάζει περισσότερο από όταν βρίσκω έναν πίνακα που βασίζεται σε HTML γεμάτο με τόμους φαινομενικά πολύπλοκων και ασύνδετων δεδομένα.
Το γεγονός είναι ότι οι πίνακες δεδομένων είναι ένα χρυσωρυχείο σημαντικών αληθειών. Συχνά τα δεδομένα συλλέγονται από στρατούς από γρυλίσματα συλλογής δεδομένων με μπότες στο έδαφος. Έχετε άτομα από την απογραφή των ΗΠΑ που ταξιδεύουν σε ολόκληρη τη χώρα για πληροφορίες για το νοικοκυριό και την οικογένεια. Έχετε μη κερδοσκοπικές περιβαλλοντικές ομάδες που συλλέγουν κάθε είδους ενδιαφέρουσες πληροφορίες σχετικά με το περιβάλλον, τη ρύπανση, την υπερθέρμανση του πλανήτη και πολλά άλλα. Και αν ασχολείστε με το παραφυσικό ή την Ουφολογία, υπάρχουν επίσης συνεχώς ενημερωμένοι πίνακες πληροφοριών σχετικά με τις παρατηρήσεις περίεργων αντικειμένων στον ουρανό από πάνω μας.
Κατά ειρωνικό τρόπο, θα νομίζατε ότι οποιαδήποτε κυβέρνηση στον κόσμο θα ενδιαφερόταν να μάθει τι είδους ξένα σκάφη εντοπίζονται στους ουρανούς πάνω από οποιαδήποτε χώρα, αλλά προφανώς όχι – τουλάχιστον όχι στις Η.Π.Α. ΤΕΛΟΣ παντων. Στην Αμερική, η συλλογή από ασυνήθιστες θεάσεις χειροτεχνίας έχει υποβιβαστεί σε ομάδες ερασιτεχνών χομπίστων που συρρέουν σε νέες εμφανίσεις UFO, όπως ο σκόρος στη φλόγα. Το ενδιαφέρον μου για αυτές τις θεάσεις στην πραγματικότητα δεν προέρχεται από μια γοητεία με εξωγήινους ή χειροτεχνίες από άλλους πλανήτες, αλλά από μια επιστημονική γοητεία με τα μοτίβα – πού και γιατί περισσότεροι άνθρωποι βλέπουν πράγματα στον ουρανό και αν αυτές οι θεάσεις θα μπορούσαν να αντικατοπτρίζουν κάτι πολύ πραγματικό και πολύ πιο προσγειωμένο επί.
Για να εξερευνήσω τον όγκο των δεδομένων που συλλέγονται από ομάδες χομπίστων UFO, έχω αναπτύξει έναν τρόπο εισαγωγής μεγάλων πινάκων HTML δεδομένα σε ένα Υπολογιστικό φύλλο Google και, στη συνέχεια, χειριστείτε και αναλύστε αυτά τα δεδομένα για να εξαγάγετε και να ανακαλύψετε σημαντικά και σημαντικά πληροφορίες. Σε αυτό το άρθρο, σκοπεύω να σας δείξω πώς να κάνετε το ίδιο.
Σημαντικά δεδομένα HTML στο Υπολογιστικό φύλλο Google
Σε αυτό το παράδειγμα, θα σας δείξω πώς να εισαγάγετε στο Υπολογιστικό φύλλο σας Google τυχόν δεδομένα που ενδέχεται να είναι αποθηκευμένα σε έναν πίνακα σε οποιονδήποτε ιστότοπο στο Διαδίκτυο. Σκεφτείτε τον τεράστιο όγκο δεδομένων που είναι διαθέσιμος στο Διαδίκτυο σήμερα με τη μορφή πινάκων HTML. Μόνο η Wikipedia έχει δεδομένα σε πίνακες για θέματα όπως παγκόσμια υπερθέρμανση, το Γραφείο Απογραφής των ΗΠΑ έχει τόνους σύνολα δεδομένων πληθυσμού, και λίγο Googling θα σας προσγειώσει πολύ περισσότερο πέρα από αυτό.
Στο παράδειγμά μου, ξεκινάω με μια βάση δεδομένων στο Εθνικό Κέντρο Αναφορών UFO που στην πραγματικότητα μοιάζει να είναι μια βάση δεδομένων βαθιού ιστού τύπου ερωτήματος, αλλά αν παρατηρήσετε Δόμηση URL, είναι στην πραγματικότητα ένα ημι-σύνθετο σύστημα αναφοράς βασισμένο στον ιστό που αποτελείται από στατικές ιστοσελίδες και στατικούς πίνακες HTML – ακριβώς αυτό που θέλουμε όταν αναζητούμε δεδομένα για εισαγωγή.
Το NUForc.org είναι ένας από αυτούς τους οργανισμούς που χρησιμεύει ως ένα από τα μεγαλύτερα κέντρα αναφοράς για θεάσεις UFO. Δεν είναι το μόνο, αλλά είναι αρκετά μεγάλο για να βρείτε νέα σύνολα δεδομένων με τρέχουσες παρατηρήσεις για κάθε μήνα. Επιλέγετε να προβάλετε τα δεδομένα ταξινομημένα με κριτήρια όπως Κατάσταση ή Ημερομηνία και καθένα από αυτά παρέχεται με τη μορφή στατικής σελίδας. Εάν ταξινομήσετε κατά ημερομηνία και, στη συνέχεια, κάνετε κλικ στην πιο πρόσφατη ημερομηνία, θα δείτε ότι ο πίνακας που αναφέρεται εκεί είναι μια στατική ιστοσελίδα με όνομα σύμφωνα με τη μορφή ημερομηνίας.
Έτσι, έχουμε τώρα ένα μοτίβο για να εξάγουμε τακτικά τις πιο πρόσφατες πληροφορίες παρατήρησης από αυτήν τη βάση δεδομένων που βασίζεται σε HTML. Το μόνο που έχετε να κάνετε είναι να εισαγάγετε τον πρώτο πίνακα, να χρησιμοποιήσετε την πιο πρόσφατη καταχώριση (την επάνω) για να τον προσδιορίσετε τελευταία ενημέρωση και, στη συνέχεια, χρησιμοποιήστε την ημερομηνία αυτής της δημοσίευσης για να δημιουργήσετε τη σύνδεση URL όπου βρίσκεται ο πιο πρόσφατος πίνακας δεδομένων HTML υπάρχει. Για να γίνει αυτό, θα απαιτηθούν απλώς μερικές παρουσίες της συνάρτησης ImportHTML και, στη συνέχεια, μερικές δημιουργικές χρήσεις των συναρτήσεων χειρισμού κειμένου. Όταν τελειώσετε, θα έχετε ένα από τα πιο όμορφα υπολογιστικά φύλλα αναφορών που ενημερώνονται μόνοι σας. Ας αρχίσουμε.
Εισαγωγή πινάκων και χειρισμός δεδομένων
Το πρώτο βήμα, φυσικά, είναι η δημιουργία του νέου υπολογιστικού φύλλου.
Λοιπόν, πώς εισάγετε πίνακες HTML; Το μόνο που χρειάζεστε είναι η διεύθυνση URL όπου είναι αποθηκευμένος ο πίνακας και ο αριθμός του πίνακα στη σελίδα – συνήθως αυτός που αναφέρεται στην πρώτη λίστα είναι 1, ο δεύτερος είναι 2 και ούτω καθεξής. Εφόσον γνωρίζω τη διεύθυνση URL αυτού του πρώτου πίνακα με τις ημερομηνίες και τον αριθμό των εμφανίσεων που αναφέρονται, είναι δυνατή η εισαγωγή πληκτρολογώντας την ακόλουθη συνάρτηση στο κελί A1.
=importhtml(" http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
Το H2 κρατά τη συνάρτηση "=ώρα (τώρα())», οπότε ο πίνακας θα ενημερώνεται κάθε ώρα. Αυτό είναι πιθανώς ακραίο για δεδομένα που το ενημερώνουν σπάνια, επομένως θα μπορούσα να ξεφύγω από το να το κάνω καθημερινά. Τέλος πάντων, η παραπάνω συνάρτηση ImportHTML φέρνει στον πίνακα όπως φαίνεται παρακάτω.
Θα χρειαστεί να κάνετε λίγο χειρισμό δεδομένων σε αυτήν τη σελίδα για να μπορέσετε να συνδυάσετε τη διεύθυνση URL για τον δεύτερο πίνακα με όλες τις θεάσεις UFO. Αλλά προχωρήστε και δημιουργήστε το δεύτερο φύλλο στο βιβλίο εργασίας.
Πριν προσπαθήσετε να δημιουργήσετε αυτό το δεύτερο φύλλο, ήρθε η ώρα να εξαγάγετε την ημερομηνία ανάρτησης από αυτόν τον πρώτο πίνακα, προκειμένου να δημιουργήσετε τη σύνδεση με τον δεύτερο πίνακα. Το πρόβλημα είναι ότι η ημερομηνία εισάγεται ως μορφή ημερομηνίας, όχι ως συμβολοσειρά. Επομένως, πρώτα πρέπει να χρησιμοποιήσετε τη συνάρτηση TEXT για να μετατρέψετε την ημερομηνία δημοσίευσης της αναφοράς σε συμβολοσειρά:
=κείμενο (A2,”μμ/ηη/εε”)
Στο επόμενο κελί στα δεξιά, πρέπει να χρησιμοποιήσετε τη συνάρτηση SPLIT με τον οριοθέτη "/" για να χωρίσετε την ημερομηνία σε μήνα, ημέρα και έτος.
= split (D2,”/”)
Δείχνει καλά! Ωστόσο, κάθε αριθμός πρέπει να αναγκαστεί σε δύο ψηφία. Μπορείτε να το κάνετε αυτό στα κελιά ακριβώς κάτω από αυτά χρησιμοποιώντας ξανά την εντολή TEXT.
=κείμενο (E2,”00″)
Μια μορφή "00" (αυτά είναι μηδενικά) επιβάλλει δύο ψηφία ή ένα "0" ως σύμβολο κράτησης θέσης.
Τώρα είστε έτοιμοι να δημιουργήσετε ξανά ολόκληρη τη διεύθυνση URL στον πιο πρόσφατο πίνακα HTML με νέες παρατηρήσεις. Μπορείτε να το κάνετε αυτό χρησιμοποιώντας τη συνάρτηση CONCATENATE και συνδυάζοντας όλα τα bits πληροφοριών που μόλις εξαγάξατε από τον πρώτο πίνακα.
=concatenate(" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Τώρα, στο νέο φύλλο που δημιουργήσατε παραπάνω (το κενό φύλλο), θα κάνετε μια νέα συνάρτηση "importhtml", αλλά αυτή τη φορά για την πρώτη Παράμετρος συνδέσμου διεύθυνσης URL, οπότε θα επιστρέψετε στο πρώτο υπολογιστικό φύλλο και θα κάνετε κλικ στο κελί με τον σύνδεσμο URL που μόλις δημιουργήσατε.
Η δεύτερη παράμετρος είναι «πίνακας» και η τελευταία είναι «1» (επειδή ο πίνακας όψεων είναι ο πρώτος και μοναδικός στη σελίδα). Πατήστε enter και τώρα μόλις εισαγάγατε ολόκληρο τον όγκο των θεάσεων που δημοσιεύτηκαν τη συγκεκριμένη ημερομηνία.
Λοιπόν, πιθανότατα σκέφτεστε ότι πρόκειται για μια ωραία πράξη καινοτομίας και τα πάντα – εννοώ, τελικά, αυτό που έχετε κάνει εξάγεται υπάρχουσες πληροφορίες από έναν πίνακα στο Διαδίκτυο και μετεγκατάσταση τους σε άλλον πίνακα, αν και ιδιωτικός στα Έγγραφά σας Google λογαριασμός. Ναι αυτό είναι αλήθεια. Ωστόσο, τώρα που βρίσκεται στον ιδιωτικό σας λογαριασμό στα Έγγραφα Google, έχετε στη διάθεσή σας τα εργαλεία και τις λειτουργίες για να αναλύσετε καλύτερα αυτά τα δεδομένα και να αρχίσετε να ανακαλύπτετε εκπληκτικές συνδέσεις.
Χρήση Συγκεντρωτικών Αναφορών για Ανάλυση Εισαγόμενων Δεδομένων
Μόλις πρόσφατα, έγραψα ένα άρθρο σχετικά με τη χρήση Συγκεντρωτικές αναφορές στο Υπολογιστικό φύλλο Google Γίνετε έμπειρος αναλυτής δεδομένων μέσα σε μια νύχτα χρησιμοποιώντας τα Εργαλεία αναφοράς υπολογιστικών φύλλων GoogleΓνωρίζατε ότι ένα από τα καλύτερα εργαλεία για τη διεξαγωγή ανάλυσης δεδομένων είναι στην πραγματικότητα το Google Spreadsheet; Ο λόγος για αυτό δεν είναι μόνο επειδή μπορεί να κάνει σχεδόν ό, τι μπορεί να θέλετε... Διαβάστε περισσότερα για να εκτελέσετε κάθε είδους εντυπωσιακά επιτεύγματα ανάλυσης δεδομένων. Λοιπόν, μπορείτε να κάνετε τα ίδια εκπληκτικά ακροβατικά ανάλυσης δεδομένων στα δεδομένα που έχετε εισαγάγει από το Διαδίκτυο – δίνοντάς σας τη δυνατότητα να αποκαλύψετε ενδιαφέρουσες συνδέσεις που πιθανώς κανένας άλλος δεν είχε αποκαλύψει πριν εσείς.
Για παράδειγμα, από τον τελικό πίνακα παρατηρήσεων, μπορεί να αποφασίσω να χρησιμοποιήσω μια αναφορά περιστροφής για να ρίξω μια ματιά στον αριθμό των διαφορετικά μοναδικά σχήματα που αναφέρονται σε κάθε πολιτεία, σε σύγκριση με τον συνολικό αριθμό των θεατών στη συγκεκριμένη πολιτεία κατάσταση. Τέλος, φιλτράρω επίσης οτιδήποτε αναφέρει "εξωγήινους" στην ενότητα σχολίων, για να ελπίζω ότι εξαλείφω μερικές από τις περισσότερες καταχωρήσεις με wingnut.
Αυτό αποκαλύπτει στην πραγματικότητα μερικά αρκετά ενδιαφέροντα πράγματα αμέσως, όπως το γεγονός ότι η Καλιφόρνια έχει σαφώς το υψηλότερο αριθμός αναφερόμενων θεάσεων οποιουδήποτε άλλου κράτους, μαζί με τη διάκριση αναφοράς του υψηλότερου αριθμού σχημάτων σκαφών στο Χώρα. Δείχνει επίσης ότι η Μασαχουσέτη, η Φλόριντα και το Ιλινόις είναι μεγάλοι παίκτες στο τμήμα παρατήρησης UFO (τουλάχιστον στα πιο πρόσφατα δεδομένα).
Ένα άλλο ωραίο πράγμα σχετικά με το Google Spreadsheet είναι η μεγάλη ποικιλία γραφημάτων που έχετε στη διάθεσή σας, συμπεριλαμβανομένου ενός Geo-Map που σας επιτρέπει σχεδιάστε τα «καυτά σημεία» δεδομένων σε μια γραφική μορφή που πραγματικά ξεχωρίζει και κάνει αυτές τις συνδέσεις μέσα στα δεδομένα αρκετά φανερός.
Αν το καλοσκεφτείτε, αυτή είναι στην πραγματικότητα μόνο η κορυφή του παγόβουνου. Εάν τώρα μπορείτε να εισάγετε δεδομένα από πίνακες δεδομένων σε οποιαδήποτε σελίδα στο Διαδίκτυο, σκεφτείτε απλώς τις δυνατότητες. Λάβετε τους πιο πρόσφατους αριθμούς μετοχών ή τα πιο πρόσφατα 10 κορυφαία βιβλία και συγγραφείς στη λίστα των μπεστ σέλερ των New York Times ή τα αυτοκίνητα με τις μεγαλύτερες πωλήσεις στον κόσμο. Υπάρχουν πίνακες HTML εκεί έξω για σχεδόν οποιοδήποτε θέμα μπορείτε να φανταστείτε, και σε πολλές περιπτώσεις αυτοί οι πίνακες ενημερώνονται συχνά.
Το ImportHtml σάς δίνει τη δυνατότητα να συνδέσετε το Υπολογιστικό φύλλο Google στο Διαδίκτυο και να τροφοδοτήσετε τα δεδομένα που υπάρχουν εκεί έξω. Μπορεί να γίνει το δικό σας προσωπικό κέντρο πληροφοριών που μπορείτε να χρησιμοποιήσετε για να χειριστείτε και να κάνετε μασάζ σε μια μορφή με την οποία μπορείτε πραγματικά να εργαστείτε. Είναι απλώς ένα πολύ ωραίο πράγμα που αγαπάς στο Google Spreadsheet.
Έχετε εισαγάγει ποτέ δεδομένα στα υπολογιστικά φύλλα σας; Τι είδους ενδιαφέροντα πράγματα ανακαλύψατε σε αυτά τα δεδομένα; Πώς χρησιμοποιήσατε τα δεδομένα; Μοιραστείτε τις εμπειρίες και τις ιδέες σας στην παρακάτω ενότητα σχολίων!
Συντελεστές εικόνας: Επιχειρηματικό γράφημα
Ο Ryan έχει πτυχίο BSc στον Ηλεκτρολόγο Μηχανικό. Εργάστηκε 13 χρόνια στη μηχανική αυτοματισμών, 5 χρόνια στην πληροφορική και τώρα είναι Μηχανικός Εφαρμογών. Πρώην Managing Editor του MakeUseOf, έχει μιλήσει σε εθνικά συνέδρια για την Οπτικοποίηση Δεδομένων και έχει παρουσιαστεί στην εθνική τηλεόραση και ραδιόφωνο.