OCR – Θα σας λύσει τα χέρια!

Την τελευταία δεκαετία, οι μεταφραστικές μνήμες, τα εργαλεία διασφάλισης ποιότητας και άλλα εργαλεία υποβοήθησης της μετάφρασης (CAT tools) καθιερώθηκαν ως απαραίτητα στην καθημερινή πρακτική των τεχνικών μεταφραστών. Τι γίνεται, όμως, όταν τα πρωτότυπα έρχονται σε φορμά PDF ή εκτυπωμένα σε χαρτί (ναι, συμβαίνει ακόμα αυτό) κι έτσι δεν μπορούν να τροφοδοτηθούν στα αγαπημένα μας εργαλεία; Τη λύση έρχεται να δώσει η Οπτική Ανάγνωση Χαρακτήρων (OCR), μια τεχνολογία που παρότι υπάρχει εδώ και τουλάχιστον 15 χρόνια, δεν χρησιμοποιείται από όλους τους μεταφραστές.

Ας δούμε πώς το λογισμικό OCR μπορεί να μας λύσει τα χέρια σε αυτές τις δύο δύσκολες περιπτώσεις:

1. Εκτυπωμένο πρωτότυπο
Περνάμε το πρωτότυπο από το σαρωτή (scanner) και αφήνουμε το λογισμικό OCR να διαβάσει έναν-έναν τους χαρακτήρες από το χαρτί και να τους μεταφέρει σε ένα αρχείο το οποίο θα ανοίξουμε στη συνέχεια σε έναν επεξεργαστή κειμένου. Οι εκτυπωμένες σελίδες καλό είναι να μην έχουν μουτζούρες ή χειρόγραφες σημειώσεις. Συνήθως, κάθε σαρωτής συνοδεύεται από το αντίστοιχο λογισμικό OCR, αλλά αν η ποιότητα του λογισμικού σας δεν σας ικανοποιεί, υπάρχουν πολλές λύσεις: από τα πασίγνωστα ABBYY Finereader  και OmniPage Pro  (επαγγελματικές λύσεις, για τις οποίες θα χρειαστεί να βάλετε το χέρι στην τσέπη), μέχρι τα δωρεάν FreeOCR  και Cuneiform OpenOCR.

Κι αν τυχόν δεν έχετε σαρωτή; Μη βιαστείτε να απελπιστείτε! Φωτογραφήστε το εκτυπωμένο κείμενό σας σελίδα-σελίδα και δώστε εντολή στο λογισμικό OCR να διαβάσει το κείμενο από τις φωτογραφίες!

2. Πρωτότυπο σε φορμά PDF
To PDF συχνά είναι το φορμά-εφιάλτης, μιας και είναι γνωστά τα προβλήματα που ενδέχεται να προκύψουν όταν επιχειρήσουμε να εξαγάγουμε το κείμενο από το PDF: χτυπημένοι χαρακτήρες, απώλεια της μορφοποίησης, αλλαγή της δομής του κειμένου κ.ά. Η έξυπνη και προφανής κίνηση σε αυτή την περίπτωση είναι να ζητάμε από τον πελάτη το πρωτότυπο αρχείο (Word, Excel κ.λπ.) από το οποίο δημιουργήθηκε το PDF. Αν αυτό δεν υπάρχει, τότε μπορούμε να δοκιμάσουμε διάφορα εργαλεία που κάνουν εξαγωγή κειμένου από αρχεία PDF. Οι διαθέσιμες επιλογές είναι πολλές και για πολλά βαλάντια: από το Acrobat Professional  με την τσουχτερή τιμή του (δείτε το λεπτομερή οδηγό  της Adobe) μέχρι το λιτό αλλά δωρεάν A-PDF Text Extractor. Παράλληλα, υπάρχουν αρκετές online λύσεις, όπως το Free OCR  και το Zamzar, αλλά έχουν δύο πιθανά προβλήματα:

α) αν καταφύγετε σε αυτές καλό θα είναι το πρωτότυπο αρχείο να μην προστατεύεται από κάποια σύμβαση εμπιστευτικότητας και

β) η δωρεάν χρήση αυτών των εργαλείων αφορά αρχεία PDF με λίγες σελίδες.

Τέλος, αν χρησιμοποιείτε την online σουίτα εφαρμογών γραφείου Google Docs, μπορείτε να ανεβάσετε εκεί το πρωτότυπο αρχείο PDF και να επιλέξετε “Convert text from PDF and image files to Google documents” στις ρυθμίσεις του Upload. Φροντίστε να δηλώσετε σωστά και την κύρια γλώσσα του κειμένου που περιέχει το αρχείο. Όταν το αρχείο ανεβεί στον προσωπικό σας χώρο στα Google Docs, θα έχει μετατραπεί σε ένα αρχείο κειμένου! Σημαντική λεπτομέρεια: στα Google Docs δεν υπάρχει ανώτατο όριο σελίδων!

Advertisements

About metafrasi

The meta|φραση School of Translation Studies, the only school in Greece that specialises solely in translator training, was founded by British Council translation teachers and professional translators with 18 years of experience in translation and translator training.

Posted on April 11, 2012, in Μεταφραστικά εργαλεία and tagged , , , , , . Bookmark the permalink. 2 Comments.

  1. Καλησπέρα,
    Έχω χρησιμοποιήσει το Google Docs για ένα PDF 55 σελίδων και δεν μπόρεσε να μου το μετατρέψει λόγω όγκου. Επομένως μιλάμε για σελίδες ή για συγκεκριμένο όγκο;

    • Δεν γνωρίζουμε αν υπάρχει όριο στον όγκο του αρχείου. Άλλωστε, μια σελίδα του PDF μπορεί να έχει διάφορα στοιχεία που θα «κολλήσουν» το PDF και θα το κάνουν να βγάλει ένα τυποποιημένο μήνυμα λάθους.

      Δοκίμασες να σπάσεις το PDF στα δύο και να κάνεις ΟCR στα κομμάτια του;

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: