Blog Archives

PDF: Αντιμετωπίστε τα με επιτυχία!

PDF solutionsΤα αρχεία PDF θα μπορούσαν κάλλιστα να χαρακτηριστούν εφιάλτης των μεταφραστών, καθότι αφού τα ανοίξουμε σε κάποιο μεταφραστικό εργαλείο συχνά παρουσιάζουν προβλήματα όπως η απώλεια μέρους της μορφοποίησης ή η απώλεια της πληροφορίας κωδικοποίησης (με αποτέλεσμα π.χ. να μην εμφανίζονται σωστά οι ελληνικοί χαρακτήρες), ενώ σε άλλες περιπτώσεις είναι πιθανόν το κείμενο που περιέχουν να έχει τη μορφή εικόνας, οπότε να μην είναι εύκολη η επεξεργασία του.

Για να σας βοηθήσουμε να εξορκίσετε τον δαίμονα των PDF σταχυολογήσαμε διάφορες ιδέες από μεταφραστικά ιστολόγια και σας τις παρουσιάζουμε επιγραμματικά:

* Το PDF προκύπτει πάντοτε από κάποιο άλλο αρχείο. Άρα πάντοτε αξίζει τον κόπο να ρωτάτε τον πελάτη σας αν έχει να σας στείλει και το αρχικό αρχείο.

* Δοκιμάστε να ανοίξετε το PDF σε ένα πρόγραμμα μεταφραστικού περιβάλλοντος όπως το SDL Trados Studio, το Alchemy Publisher ή το Wordfast Pro. Το ενσωματωμένο φίλτρο του λογισμικού θα επιχειρήσει να μετατρέψει το PDF στο δίγλωσσο φορμά του (π.χ. σε αρχείο .sdlxliff στο Trados), αλλά το αρχείο που θα προκύψει από τη μετατροπή μπορεί να είναι από αλάνθαστο μέχρι άχρηστο. Αξίζει τον κόπο μια δοκιμή, πάντως. Έχετε επίσης υπόψη σας ότι με τη μέθοδο αυτή το τελικό αρχείο θα είναι σε μορφή .docx ή .rtf καθώς και ότι είναι πιθανόν να χαθεί πληροφορία που αφορά το layout του πρωτοτύπου (π.χ. να χαλάσει ένας πίνακας).

* Εάν όταν ανοίξετε το PDF σε ένα από τα παραπάνω εργαλεία παρατηρήσετε ότι μαζί με το κείμενο του πρωτοτύπου βλέπετε και πολλές άσχετες ετικέτες κώδικα (το γνωστό tag soup που εμφανίζεται συχνά πυκνά στο Trados), χρησιμοποιήστε το Translator Tools Document Cleaner , το οποίο σας είχαμε παρουσιάσει σε παλαιότερο τεύχος.

* Εάν το PDF δεν ανοίγει σωστά, εγκαταστήστε κάποιο λογισμικό που να διαθέτει δυνατότητα μετατροπής του PDF σε αρχείο .docx, .xlsx ή .rtf (π.χ. το Acrobat Professional).

* Εναλλακτικά, μπορείτε να χρησιμοποιήσετε κάποιο online εργαλείο μετατροπής, όπως το convertonlinefree.com , αλλά έχετε κατά νου ότι η χρήση τέτοιων online εργαλείων αντιβαίνει στη Σύμβαση Εμπιστευτικότητας που πιθανόν να έχετε υπογράψει για το πρωτότυπο.

* Μπορείτε επίσης να ανεβάστε το PDF στο Google Drive, να το ανοίξτε στα Google Docs και να επιλέξετε File > Download as… Κατόπιν επιλέξτε σε τι είδους αρχείο θέλετε να σας μετατρέψουν το PDF τα Google Docs (.docx, .rtf, .txt, .html ή .epub).

* Εάν το PDF σας περιέχει κείμενο σε μορφή εικόνας, μπορείτε να το ανοίξετε σε ένα λογισμικό οπτικής αναγνώρισης χαρακτήρων, όπως το ABBYY FineReader ή το OmniPage . Το λογισμικό OCR θα σαρώσει μία-μία τις σελίδες και θα αναγνωρίσει το κείμενο χαρακτήρα προς χαρακτήρα, ώστε στη συνέχεια να μπορείτε να το μεταφράσετε.

* Τέλος, εάν το PDF είναι προστατευμένο με password, πρέπει προτού επιχειρήσετε να το ανοίξετε σε κάποιο από τα παραπάνω εργαλεία, να αφαιρέσετε τον κωδικό. Χρησιμοποιήστε το PDF Password Remover της VeryPDF.

Ελπίζουμε ότι με τις παραπάνω συμβουλές θα μπορέσετε να δαμάσετε ακόμα και τα πιο απείθαρχα αρχεία PDF. Καλές δουλειές!

Advertisements

Καταμέτρηση λέξεων: προβλήματα και λύσεις

AbacusΩς γνωστόν, στις περισσότερες μεταφραστικές εργασίες η αμοιβή του μεταφραστή υπολογίζεται με βάση την αμοιβή ανά λέξη. Έτσι, αν ένα κείμενο έχει 1.000 λέξεις και η αμοιβή ανά λέξη συμφωνηθεί στα 5 λεπτά, η ολοκλήρωση του έργου θα αποφέρει 50 ευρώ στον μεταφραστή.
Απαραίτητη προϋπόθεση για τον υπολογισμό της αμοιβής είναι η καταμέτρηση του συνόλου των λέξεων των προς μετάφραση αρχείων. Στα αρχεία Word τα πράγματα είναι απλά: Επιλέγουμε Review > Word Count και βλέπουμε τις λέξεις του πρωτοτύπου. Μπορούμε, μάλιστα, να συμπεριλάβουμε στην καταμέτρηση τις λέξεις των υποσημειώσεων και των πλαισίων κειμένου που τυχόν περιλαμβάνει το αρχείο.

Αλλά αν τα πρωτότυπα δεν είναι σε μορφή Word, αρχίζουν τα προβλήματα…

Κατ’ αρχάς, είναι πιθανόν να λάβουμε το πρωτότυπο σε έντυπη μορφή. Εκεί θα πρέπει να καταφύγουμε στη σάρωση των σελίδων και την ανάγνωση των σαρωμένων αρχείων με κάποιο πρόγραμμα οπτικής αναγνώρισης χαρακτήρων (OCR), όπως π.χ. το ABBYY Finereader ή –αν θέλετε μια δωρεάν λύση– το FreeOCR. Αν δεν διαθέτετε σαρωτή, μπορείτε απλώς να φωτογραφήσετε κάθε σελίδα με το κινητό τηλέφωνό σας και να βάλετε το λογισμικό OCR να διαβάσει το κείμενο από τις φωτογραφίες. Όταν ολοκληρωθεί η διαδικασία σάρωσης και ανάγνωσης, αντιγράψτε και επικολλήστε το κείμενο στο Word και μετρήστε τις λέξεις όπως περιγράψαμε παραπάνω.

Όταν τα πρωτότυπα αρχεία είναι σε διάφορα φορμά, θα χρειαστούμε ειδικό λογισμικό. Αν δουλεύετε με λογισμικό μεταφραστικής μνήμης, μπορείτε να χρησιμοποιήσετε τη λειτουργία ανάλυσης αρχείων. Στο SDL Trados Studio, π.χ., αν επιλέξουμε Batch Tasks > Analyze Files, θα διαβάσουμε μια πληρέστατη αναφορά με καταμέτρηση λέξεων, τμημάτων κειμένου και χαρακτήρων. Αν όμως ψάχνετε μια απλούστερη και οικονομικότερη (μιας και είναι δωρεάν!) λύση, δοκιμάστε το Translator’s Abacus, ένα εύχρηστο πρόγραμμα που μετράει τις λέξεις σε αρχεία Word, Excel, PowerPoint, .TXT, .RTF, .HTML, PDF κ.ά. και μας δίνει τα αποτελέσματα της καταμέτρησης σε αναλυτικούς πίνακες ανά τύπο αρχείου και συνολικά. Οφείλουμε να επισημάνουμε, βέβαια, ότι πολύ συχνά τα προγράμματα καταμέτρησης λέξεων δεν συμφωνούν μεταξύ τους, καθώς ορίζουν διαφορετικά τη λέξη και ειδικά στις ιστοσελίδες αντιλαμβάνονται με ποικίλους τρόπους το μεταφράσιμο μέρος κάθε αρχείου. Έτσι, σε ένα πείραμα που κάναμε τροφοδοτήσαμε στο SDL Trados Studio και στο Translator’s Abacus τα αρχεία του ιστότοπου ενός ξενοδοχείου (.HTML, .PDF, .DOC) και ζητήσαμε να γίνει καταμέτρηση λέξεων. Τα αποτελέσματα που λάβαμε είχαν απόκλιση περίπου 3.000 λέξεων!

Τέλος, ειδικά για την περίπτωση όπου δεν έχουμε τα αρχεία στη διάθεσή μας, π.χ. όταν μας ζητούν προσφορά για τη μετάφραση ενός ιστότοπου και μας δίνουν απλώς τη διεύθυνσή του, μπορούμε να χρησιμοποιήσουμε ένα online εργαλείο όπως το WebWordCount. Η χρήση του είναι απλή: δίνουμε στο εργαλείο τη διεύθυνση του προς μετάφραση ιστότοπου και το email μας – ύστερα από λίγο θα λάβουμε ένα μήνυμα με μια λεπτομερέστατη καταγραφή των λέξεων κάθε αρχείου του ιστότοπου. Και εδώ υπάρχουν αδυναμίες, βεβαίως, όπως το ότι το εργαλείο μετράει σε κάθε αρχείο τα meta-keywords και το περιεχόμενο της ετικέτας meta-content, αλλά με μερικές προσθαφαιρέσεις μπορούμε να έχουμε μια σχετικά αξιόπιστη εκτίμηση του συνόλου των λέξεων.

Ελπίζουμε να καλύψαμε όλες τις υποπεριπτώσεις του προβλήματος και να σας δώσαμε ιδέες και λύσεις. Μετρήστε και μεταφράστε, λοιπόν – λέξη τη λέξη, γεμίζει το σακούλι!

OCR – Θα σας λύσει τα χέρια!

Την τελευταία δεκαετία, οι μεταφραστικές μνήμες, τα εργαλεία διασφάλισης ποιότητας και άλλα εργαλεία υποβοήθησης της μετάφρασης (CAT tools) καθιερώθηκαν ως απαραίτητα στην καθημερινή πρακτική των τεχνικών μεταφραστών. Τι γίνεται, όμως, όταν τα πρωτότυπα έρχονται σε φορμά PDF ή εκτυπωμένα σε χαρτί (ναι, συμβαίνει ακόμα αυτό) κι έτσι δεν μπορούν να τροφοδοτηθούν στα αγαπημένα μας εργαλεία; Τη λύση έρχεται να δώσει η Οπτική Ανάγνωση Χαρακτήρων (OCR), μια τεχνολογία που παρότι υπάρχει εδώ και τουλάχιστον 15 χρόνια, δεν χρησιμοποιείται από όλους τους μεταφραστές.

Ας δούμε πώς το λογισμικό OCR μπορεί να μας λύσει τα χέρια σε αυτές τις δύο δύσκολες περιπτώσεις:

1. Εκτυπωμένο πρωτότυπο
Περνάμε το πρωτότυπο από το σαρωτή (scanner) και αφήνουμε το λογισμικό OCR να διαβάσει έναν-έναν τους χαρακτήρες από το χαρτί και να τους μεταφέρει σε ένα αρχείο το οποίο θα ανοίξουμε στη συνέχεια σε έναν επεξεργαστή κειμένου. Οι εκτυπωμένες σελίδες καλό είναι να μην έχουν μουτζούρες ή χειρόγραφες σημειώσεις. Συνήθως, κάθε σαρωτής συνοδεύεται από το αντίστοιχο λογισμικό OCR, αλλά αν η ποιότητα του λογισμικού σας δεν σας ικανοποιεί, υπάρχουν πολλές λύσεις: από τα πασίγνωστα ABBYY Finereader  και OmniPage Pro  (επαγγελματικές λύσεις, για τις οποίες θα χρειαστεί να βάλετε το χέρι στην τσέπη), μέχρι τα δωρεάν FreeOCR  και Cuneiform OpenOCR.

Κι αν τυχόν δεν έχετε σαρωτή; Μη βιαστείτε να απελπιστείτε! Φωτογραφήστε το εκτυπωμένο κείμενό σας σελίδα-σελίδα και δώστε εντολή στο λογισμικό OCR να διαβάσει το κείμενο από τις φωτογραφίες!

2. Πρωτότυπο σε φορμά PDF
To PDF συχνά είναι το φορμά-εφιάλτης, μιας και είναι γνωστά τα προβλήματα που ενδέχεται να προκύψουν όταν επιχειρήσουμε να εξαγάγουμε το κείμενο από το PDF: χτυπημένοι χαρακτήρες, απώλεια της μορφοποίησης, αλλαγή της δομής του κειμένου κ.ά. Η έξυπνη και προφανής κίνηση σε αυτή την περίπτωση είναι να ζητάμε από τον πελάτη το πρωτότυπο αρχείο (Word, Excel κ.λπ.) από το οποίο δημιουργήθηκε το PDF. Αν αυτό δεν υπάρχει, τότε μπορούμε να δοκιμάσουμε διάφορα εργαλεία που κάνουν εξαγωγή κειμένου από αρχεία PDF. Οι διαθέσιμες επιλογές είναι πολλές και για πολλά βαλάντια: από το Acrobat Professional  με την τσουχτερή τιμή του (δείτε το λεπτομερή οδηγό  της Adobe) μέχρι το λιτό αλλά δωρεάν A-PDF Text Extractor. Παράλληλα, υπάρχουν αρκετές online λύσεις, όπως το Free OCR  και το Zamzar, αλλά έχουν δύο πιθανά προβλήματα:

α) αν καταφύγετε σε αυτές καλό θα είναι το πρωτότυπο αρχείο να μην προστατεύεται από κάποια σύμβαση εμπιστευτικότητας και

β) η δωρεάν χρήση αυτών των εργαλείων αφορά αρχεία PDF με λίγες σελίδες.

Τέλος, αν χρησιμοποιείτε την online σουίτα εφαρμογών γραφείου Google Docs, μπορείτε να ανεβάσετε εκεί το πρωτότυπο αρχείο PDF και να επιλέξετε “Convert text from PDF and image files to Google documents” στις ρυθμίσεις του Upload. Φροντίστε να δηλώσετε σωστά και την κύρια γλώσσα του κειμένου που περιέχει το αρχείο. Όταν το αρχείο ανεβεί στον προσωπικό σας χώρο στα Google Docs, θα έχει μετατραπεί σε ένα αρχείο κειμένου! Σημαντική λεπτομέρεια: στα Google Docs δεν υπάρχει ανώτατο όριο σελίδων!

%d bloggers like this: