Εάν είστε φοιτητής ή η εργασία σας περιλαμβάνει εργασία με πολλές εικόνες και αρχεία PDF, θα είχατε, κάποια στιγμή, νιώσει την ανάγκη να εξαγάγετε κείμενο από μια εικόνα ή ένα έγγραφο.

Ευτυχώς, η εξαγωγή κειμένου το καθιστά δυνατό. Και υπάρχουν πολλά εργαλεία που μπορείτε να χρησιμοποιήσετε για να το κάνετε αυτό. Το gImageReader είναι ένα από τα πολλά εργαλεία. Είναι δωρεάν στη χρήση και λειτουργεί τόσο με αρχεία εικόνας όσο και με έγγραφα PDF.

Ας βουτήξουμε για να ελέγξουμε το gImageReader λεπτομερώς και να δούμε πώς μπορείτε να το χρησιμοποιήσετε για εξαγωγή κειμένου από εικόνες και αρχεία PDF.

Τι είναι το gImageReader;

Το gImageReader είναι μια εφαρμογή που σας επιτρέπει να εξάγετε κείμενο από εικόνες και αρχεία PDF στο Linux. Είναι ουσιαστικά ένα GUI ή ένα front-end to ο κινητήρας Tesseract OCR, ένα ανοιχτή πηγή κινητήρας που αναπτύχθηκε από τη Hewlett-Packard και θεωρείται ένας από τους καλύτερους κινητήρες OCR που διατίθενται.

Με το gImageReader, μπορείτε εύκολα και με μεγάλη ακρίβεια να εξαγάγετε κείμενο από εικόνες ή έγγραφα PDF με μερικά απλά κλικ. Στη συνέχεια, μπορείτε να εξαγάγετε το εξαγόμενο κείμενο σε αρχείο κειμένου ή PDF για περαιτέρω χρήση.

instagram viewer

Χαρακτηριστικά του gImageReader

Το gImageReader συσκευάζει τις ακόλουθες δυνατότητες:

  • Εισαγωγή εγγράφων PDF και εικόνων από διαφορετικές πηγές (δίσκος, συσκευές σάρωσης, πρόχειρο και στιγμιότυπο οθόνης)
  • Μαζική επεξεργασία εικόνων ή εγγράφων, δηλαδή εξαγωγή κειμένου από πολλές εικόνες ή έγγραφα ταυτόχρονα
  • Αναγνωρίστε τα αποσπάσματα κειμένου ως έγγραφα απλού κειμένου ή hOCR
  • Ενσωματωμένος ορθογραφικός έλεγχος
  • Αυτόματος εντοπισμός περιοχής κειμένου
  • Βασική επεξεργασία εικόνας/εγγράφου
  • Αποθηκεύστε την έξοδο ως αρχείο κειμένου

Πώς να εγκαταστήσετε το gImageReader σε Linux

Το gImageReader είναι διαθέσιμο στο τις περισσότερες μεγάλες διανομές Linux. Προτού όμως προχωρήσετε στην εγκατάστασή του, πρέπει να εγκαταστήσετε τη μηχανή Tesseract OCR στο σύστημά σας.

Για να το κάνετε αυτό, ανοίξτε το Διαχειριστής λογισμικού στο σύστημά σας και αναζητήστε τεσεράκτ. Όταν εμφανίσει μια λίστα αποτελεσμάτων, εγκαταστήστε το tesseract-ocr και tesseract-ocr-eng πακέτα. Μπορείτε επίσης να χρησιμοποιήσετε διαχειριστές πακέτων γραμμής εντολών για να εγκαταστήσετε το πακέτο, εάν αισθάνεστε πιο άνετα με το τερματικό.

Μετά από αυτό, ανατρέξτε στις οδηγίες εγκατάστασης στις ακόλουθες ενότητες για να εγκαταστήσετε το gImageReader στον υπολογιστή σας.

Εάν βρίσκεστε σε Debian ή Ubuntu, ανοίξτε το τερματικό και εκτελέστε τις παρακάτω εντολές για να εγκαταστήσετε το gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-παίρνω εκσυγχρονίζω
sudo apt εγκαθιστώ gimagereader

Σε Fedora, CentOS ή Red Hat Enterprise Linux (RHEL):

sudo dnf εγκαθιστώ gimagereader-qt 

Επί Arch Linux ή Manjaro:

sudo pacman -S gimagereader

Οι χρήστες του openSUSE μπορούν να εγκαταστήσουν το gImageReader χρησιμοποιώντας:

sudo zypper εγκαθιστώ gimagereader

Σε περίπτωση που χρησιμοποιείτε οποιαδήποτε άλλη διανομή Linux, μπορείτε να δημιουργήσετε το gImageReader από την πηγή ακολουθώντας τις οδηγίες στη διεύθυνση GitHub του gImageReader.

Πώς να χρησιμοποιήσετε το gImageReader στο Linux

Το gImageReader είναι αρκετά εύκολο στη χρήση και λειτουργεί με όλα τα είδη αρχείων εικόνας καθώς και με έγγραφα PDF. Ακολουθήστε τις παρακάτω οδηγίες για να εξαγάγετε κείμενο από εικόνες ή PDF σε Linux.

Ανοίξτε το μενού εφαρμογών, αναζητήστε gImageReaderκαι ξεκινήστε την εφαρμογή. Χτύπα το Αυξάνω στον ανώτατο βαθμό κουμπί στο παράθυρο του gImageReader για να το ανοίξετε σε προβολή πλήρους οθόνης.

Τώρα, κάντε κλικ στο Προσθήκη εικόνων κουμπί στο αριστερό τμήμα του παραθύρου κάτω από τη γραμμή εργαλείων και χρησιμοποιήστε το πρόγραμμα περιήγησης αρχείων για να επιλέξετε τις εικόνες ή το PDF από το οποίο θέλετε να εξαγάγετε κείμενο.

Κάντε κλικ Εντάξει για να εισαγάγετε τις εικόνες ή τα PDF στο gImageReader. Ή, εάν θέλετε να εξαγάγετε κείμενο από αυτό που εμφανίζεται στην οθόνη, κάντε κλικ στο αναπτυσσόμενο μενού δίπλα στο Προσθήκη εικόνων κουμπί και επιλέξτε Λήψη στιγμιότυπου οθόνης. Το gImageReader θα τραβήξει ένα στιγμιότυπο οθόνης του περιεχομένου της οθόνης.

Αφού προσθέσετε την εικόνα στο gImageReader, κάντε κλικ στο Εναλλαγή παραθύρου εξόδου κουμπί (ένα με το εικονίδιο του σημειωματάριου) για να εμφανιστεί το παράθυρο εξόδου. Εδώ εμφανίζεται το κείμενο που εξάγετε από εικόνες ή PDF.

Ανάλογα με το πώς θέλετε να προχωρήσετε, έχετε πλέον την επιλογή να προσδιορίσετε το κείμενο στην εικόνα ή το PDF αυτόματα ή μη αυτόματα. Για να το κάνετε αυτό αυτόματα, κάντε κλικ στο Αυτόματος εντοπισμός διάταξης κουμπί και θα επισημάνει όλα τα μπλοκ κειμένου στην επιλεγμένη εικόνα ή έγγραφο PDF.

Μετά από αυτό, πατήστε Αναγνώριση επιλογής > Τρέχουσα σελίδα για να ξεκινήσει η διαδικασία εξαγωγής κειμένου.

Εναλλακτικά, για να επιλέξετε το κείμενο με μη αυτόματο τρόπο, τοποθετήστε το δείκτη του ποντικιού πάνω από το κείμενο που θέλετε να εξαγάγετε και χρησιμοποιώντας το σταυρόνημα σχεδιάστε ένα πλαίσιο γύρω από την περιοχή από την οποία θέλετε να εξαγάγετε το κείμενο. Στη συνέχεια, χτυπήστε το Αναγνώριση επιλογής κουμπί για να προχωρήσετε.

Εάν πρόκειται για έγγραφο PDF και θέλετε να εξαγάγετε κείμενο από διαφορετικές σελίδες, πατήστε στο Συν (+) κουμπί για αναστροφή σελίδων.

Για να επιστρέψετε, χτυπήστε το Μείον (-) κουμπί. Στη συνέχεια, επιλέξτε το κείμενο που θέλετε να εξαγάγετε και πατήστε το Αναγνώριση επιλογής κουμπί για να το εξαγάγετε.

Αν και σπάνια, μπορεί να υπάρξουν φορές που το gImageReader θα επέστρεφε το εξαγόμενο κείμενο σε γλώσσα διαφορετική από την αγγλική. Όταν συμβεί αυτό, απλώς πατήστε το αναπτυσσόμενο κουμπί δίπλα Αναγνώριση επιλογής και επιλέξτε μία από τις αγγλικές επιλογές.

Τέλος, για να αποθηκεύσετε το εξαγόμενο κείμενο, κάντε κλικ στο Αποθήκευση εξόδου κουμπί. Αυτό θα εμφανίσει το παράθυρο Αποθήκευση. Εδώ, δώστε ένα όνομα στο αρχείο και πατήστε Εντάξει.

Τι άλλο μπορείτε να κάνετε με το gImageReader;

Όπως αναφέρθηκε προηγουμένως, το gImageReader σάς δίνει επίσης την επιλογή να τροποποιήσετε ορισμένες πτυχές των εισαγόμενων εικόνων ή εγγράφων, όπως τη φωτεινότητα, την αντίθεση και την ανάλυσή τους. Επιπλέον, μπορείτε επίσης να αντιστρέψετε χρώματα ή να περιστρέψετε τις εικόνες ή τα έγγραφα, εάν απαιτείται.

Οι περισσότερες από αυτές τις επιλογές μπορεί να αποδειχθούν χρήσιμες όταν το κείμενο σε μια εικόνα ή ένα έγγραφο δεν είναι ευανάγνωστο στο gImageReader και, επομένως, εμποδίζει το εργαλείο να αναγνωρίσει το κείμενο.

Για πρόσβαση σε οποιαδήποτε από αυτές τις επιλογές επεξεργασίας, κάντε κλικ στο Στοιχεία ελέγχου εικόνας κουμπί και θα αποκαλύψει μια μίνι γραμμή εργαλείων κάτω από την κύρια γραμμή εργαλείων. Από εδώ, επιλέξτε τα κατάλληλα κουμπιά για να εκτελέσετε την επιθυμητή λειτουργία επεξεργασίας στην εικόνα ή το έγγραφο.

Η εξαγωγή κειμένου σε Linux έγινε εύκολη με το gImageReader

Η εξαγωγή κειμένου απαιτεί συχνά το σωστό εργαλείο: αυτό που χρησιμοποιεί μια αξιόπιστη και ακριβή μηχανή OCR που του επιτρέπει να αναγνωρίζει αποτελεσματικά το κείμενο σε μια εικόνα ή ένα έγγραφο, ώστε να μπορείτε να το εξαγάγετε αποτελεσματικά χωρίς κανένα ταλαιπωρία.

Το gImageReader το πετυχαίνει πολύ καλά, χάρη στη μηχανή OCR Tesseract που χρησιμοποιεί στο παρασκήνιο. Λαμβάνοντας υπόψη την ευκολία χρήσης του, το gImageReader είναι αναμφίβολα ένα από τα καλύτερα εργαλεία εξαγωγής κειμένου που είναι διαθέσιμα για Linux.

Εναλλακτικά, αν ψάχνετε για μια απλούστερη λύση, μπορείτε να ελέγξετε το TextSnatcher, το οποίο είναι γρήγορο και αρκετά εύκολο στη χρήση.