PDF

Dokumente übersetzen

Einleitung

Das PDF-Format ist sowohl aus dem beruflichen als auch aus dem privaten Alltag nicht mehr wegzudenken. Seit seiner Einführung im Jahr 1993 durch das US-amerikanische Softwareunternehmen Adobe Systems hat sich das PDF-Format zu einem international anerkannten Industriestandard entwickelt.

Das Akronym PDF steht für Portable Document Format, zu Deutsch also „portables Dokumentenformat“. Ursprünglich wurde das Format entwickelt, um elektronische Dokumente auf einfache Weise austauschen zu können – und zwar plattformunabhängig und darüber hinaus bei einer originalgetreuen Darstellung. Dies bedeutet, dass die Darstellung der Inhalte einer PDF-Datei immer 1:1 der Darstellung aufseiten des Autors der Datei entspricht, egal auf welchem Endgerät oder mit welcher Software die Datei angezeigt wird.

Der Anwendungsbereich von PDF-Dateien ist heute denkbar breit gefächert. So wird das PDF-Format sehr häufig genutzt, um Informationen der unterschiedlichsten Art im Internet zu veröffentlichen und zur Verfügung zu stellen. Mit Formularen im PDF-Format lassen sich aber auch benutzerseitige Informationen erfassen, ohne auf die Vorteile des Formats zu verzichten. PDF wird darüber hinaus auch für die Erstellung und den Austausch von Druckvorlagen in der digitalen Druckvorstufe verwendet. Und es wird auch für die langfristige, elektronische Archivierung von Dokumenten genutzt sowie für die Erstellung von 3D-Modellen im Ingenieur- oder Architekturwesen.

Durch die herausragende Bedeutung des PDF-Formats wird die Übersetzung von PDF-Dateien häufig von Auftraggebern nachgefragt. Die Übersetzung von PDF-Dateien bringt aber auch einige Hürden, Herausforderungen und Probleme mit sich, die im Folgenden erläutert werden.

Editierbare vs. nicht editierbare PDF-Dateien

Für gewöhnlich werden PDF-Dateien in editierbare und nicht editierbare PDF-Dateien unterteilt. Editierbare PDF-Dateien sind solche, bei denen die enthaltenen Texte tatsächlich in Form von Textelementen vorliegen. Bei nicht editierbaren PDF-Dateien handelt es sich meist um eingescannte Dokumente. Bei diesen Dokumenten bestehen die einzelnen Seiten letztlich aus ganzseitigen Bildern.

Der darin enthaltene Inhalt stellt sich für das menschliche Auge zwar als Text dar, aus technischer Sicht handelt es sich aber letztlich um Bilder (also um hartcodierte Abfolgen von Bildpunkten) – deren Inhalte sich nicht ohne Weiteres bearbeiten lassen. „Nicht ohne Weiteres“ bedeutet, dass es nötig ist, die Inhalte zunächst mithilfe der sogenannten Texterkennung in einen editierbaren Zustand zu bringen. Das ist zwar mithilfe von spezieller Software – so genannten OCR-Programmen (Optical Character Recognition) – möglich, führt aber nur selten zu zufrieden stellenden Ergebnissen.

Der Text lässt sich natürlich manuell verbessern, dies bedeutet aber in jedem Fall einen oft nicht unerheblichen Mehraufwand, vor allem wenn die Dokumente handschriftliche Passagen enthalten.

PDF-Dateien und Übersetzung

Bei der Übersetzung von PDF-Dateien sollte ein wichtiger Aspekt beachtet werden: Bei nicht editierbaren PDF-Dateien können die Inhalte in der Ausgangssprache nicht ohne Weiteres durch die Übersetzung in der Zielsprache ersetzt werden. Und auch bei editierbaren PDF-Dateien ist eine Bearbeitung der Inhalte bestenfalls nur in sehr beschränktem Maße möglich, denn mit dem PDF-Format soll ja gerade verhindert werden, dass die Inhalte geändert werden (Stichwort: originalgetreue Darstellung). Bei der Übersetzung einer PDF-Datei ist es daher in jedem Falle nötig, die Datei zunächst in eine bearbeitbare Datei zu konvertieren. Als Format wird hierfür meist Microsoft Word verwendet.

Die Konvertierung der PDF-Datei in eine editierbare Datei erfolgt bei der Verwendung eines Translation-Management-Systems wie die Across Translator Edition zwar automatisch und stellt daher in der Regel keine Probleme dar. Das Ergebnis der Konvertierung fällt aber häufig ernüchternd aus, was z. B. die korrekte Darstellung der Inhalte im konvertierten Dokument angeht.

Aber auch konvertierte Dokumente, die sich auf den ersten Blick gut präsentieren, haben es oftmals in sich. Ein häufiges Konvertierungsproblem besteht darin, dass ein Satz, der sich über mehrere Zeilen erstreckt, jeweils am Zeilenende durch harte Zeilenumbrüche zerstückelt wird. Dies führt fast zwangsläufig zu Problemen bei der Übersetzung der konvertierten Datei. Andere häufig auftretende Konvertierungsprobleme sind Tabulatoren, die durch eine Reihe von Leerzeichen ersetzt werden; Text in Blocksatz, bei dem die Leerräume zwischen den Wörtern durch mehrere Leerzeichen wiedergegeben werden; Inhalte, die in Form von Textfeldern wiedergegeben werden oder auch Dokumente mit mehreren Spalten.

Maxime: Die Originaldatei beschaffen

Wichtig: Aus den genannten Gründen sollte stets versucht werden, die Originaldatei, aus der die PDF-Datei generiert wurde, zu beschaffen. Denn PDF-Dateien werden praktisch immer aus einem anderen Dateiformat heraus erzeugt, wie z. B. Word, Excel oder InDesign. Die Übersetzung der Originaldatei stellt im Normalfall keine Probleme dar.

Tipp: Die Anwendung, aus der heraus eine PDF-Datei erstellt wurde, ist häufig in den Metadaten der entsprechenden PDF-Datei enthalten. Diese Information kann dem Auftraggeber die Beschaffung der Originaldatei erleichtern. Hierzu wird die PDF-Datei mit einem Programm zur Anzeige von PDF-Dateien geöffnet (z. B. Adobe Reader) und die Dokumenteneigenschaften der PDF-Datei aufgerufen. Im Adobe Reader findet sich diese Information im Eintrag „Anwendung“ in den Eigenschaften der PDF-Datei, die über Datei Eigenschaften aufgerufen werden kann.

Vor dem Projektstart

Vor der Übersetzung einer PDF-Datei sind zunächst einige vorbereitende Schritte sinnvoll:

Editierbare oder nicht editierbare PDF-Datei

Der Übersetzer sollte das zu übersetzende Dokument zunächst in einem Programm zur Anzeige von PDF-Dateien öffnen und prüfen, ob es sich um eine editierbare oder eine nicht editierbare PDF-Datei handelt. Falls die Texte in der PDF-Datei markiert werden können, handelt es sich um eine editierbare Datei. Falls dem nicht so sein sollte, müssen die Texte in der PDF-Datei zunächst mithilfe einer OCR-Software editierbar gemacht werden.

Konvertierung der PDF-Datei

Die Across Translator Edition verfügt über eine integrierte Konvertierungsfunktion für PDF-Dateien: Im Anschluss an die Projektanlage wird die editierbare PDF-Datei automatisch in eine Word-Datei im DOCX-Format umgewandelt. PDF-Dateien werden also stets in Form von Word-Dateien übersetzt und nach der erfolgten Übersetzung auch wieder als Word-Datei ausgecheckt.

Tipp: In den Dokumenteneinstellungsvorlagen von PDF (unter Tools Systemeinstellungen Dokumenteneinstellungen PDF) kann angepasst werden, wie die Konvertierung von PDF-Dateien erfolgt. Es empfiehlt sich, mit den verschiedenen Einstellungsmöglichkeiten ein wenig zu experimentieren, um das bestmögliche Konvertierungsergebnis zu erreichen. Hierzu z. B. ein Projekt anlegen und die PDF-Datei einchecken. Die konvertierte Word-Datei anschließend im Übersetzungseditor crossDesk öffnen und hinsichtlich der Inhalte überprüfen. Danach am besten zusätzlich eine Vorschau der Ausgangsdatei erstellen (über Tools Vorschau Vorschau Quelltext) und die Darstellung der Datei überprüfen. Daraufhin ggf. die Einstellungen der Dokumenteneinstellungsvorlage von PDF anpassen, die PDF-Datei erneut einchecken und die konvertierte Word-Datei erneut überprüfen.

Tipp: Alternativ zur automatischen Konvertierung mit der Across Translator Edition kann die PDF-Datei natürlich auch mit einem speziellen Programm konvertiert werden.

Nachbearbeitung der konvertierten Word-Datei

Sollte die konvertierte Word-Datei Fehler hinsichtlich der konvertierten Textinhalte oder hinsichtlich der Darstellung aufweisen, empfiehlt es sich, diese Fehler vor der Übersetzung zu korrigieren. Um an die konvertierte Word-Datei zu gelangen, kann z. B. die Vorschau der Ausgangsdatei (siehe den Punkt oben „Konvertierung der PDF-Datei“) in Word abgespeichert werden. Anschließend innerhalb von Word die nötigen Änderungen vornehmen (überflüssige Zeilenumbrüche entfernen, mehrfache Leerzeichen tilgen etc.) und abschließend die nachbearbeitete Word-Datei in der Across Translator Edition einchecken.

Übersetzen von PDF-Dateien mit der Across Translator Edition

Bei der Übersetzung von PDF-Dateien gibt es im Grunde keine PDF-spezifischen Besonderheiten zu beachten, insofern die PDF-Datei vollständig und richtig konvertiert und ggf. manuell nachbearbeitet wurde (siehe oben). Dadurch hat es der Übersetzer bei seiner Arbeit im Normalfall nur noch mit der Übersetzung von Textinhalten zu tun.

Tipp: Falls bei der Konvertierung der PDF-Datei ein Satz fälschlicherweise in zwei Segmente aufgeteilt wurde (und der Fehler bei der Nachbearbeitung nicht korrigiert wurde), kann der Fehler meist unmittelbar während der Übersetzung durch Verschmelzen der beiden Segmente korrigiert werden. Hierzu die beiden Segmente im Übersetzungseditor per Mehrfachauswahl markieren, z. B. indem die Strg-Taste gedrückt gehalten wird und die gewünschten Segmente nacheinander mit der Maus angeklickt werden. Die beiden Segmente werden anschließend über den Kontextmenü-Befehl „Ausgewählte Absätze verschmelzen“ zu einem einzigen Segment zusammengefügt.

Tipps & Tricks

Finale Dokument-Prüfung

Nachdem die Übersetzung fertiggestellt und das Zieldokument aus Across ausgecheckt ist, gebietet es die Sorgfaltspflicht, die übersetzte Datei in Word zu öffnen, um dieses final zu prüfen und ggf. nochmals manuelle Anpassungen vorzunehmen. Werden alle Inhalte vollständig und korrekt angezeigt? Oder müssen z. B. Textfelder in ihrer Größe angepasst werden, damit die Inhalte vollständig dargestellt werden?

Konvertierung in PDF

PDF-Dateien werden wie gesagt zum Zwecke der Übersetzung in Word-Dokumente konvertiert. Entsprechend wird die fertige Übersetzung auch als Word-Dokument aus Across ausgecheckt. Falls der Auftraggeber die Übersetzung explizit in Form einer PDF-Datei wünscht, muss die Word-Datei entsprechend noch in eine PDF-Datei konvertiert werden. Hierzu die Word-Datei öffnen und F12 drücken, um den Dialog „Speichern unter“ aufzurufen. Im Dialog muss nun lediglich als Dateityp „PDF“ gewählt werden, um die Word-Datei als PDF-Datei abzuspeichern.

Original-PDF zum Projekt hinzufügen

Über eine Option in den Dokumenteneinstellungsvorlagen von PDF ist es möglich, die Originaldatei im PDF-Format zum entsprechenden Projekt hinzuzufügen. Dadurch kann parallel zur konvertierten Word-Datei bei Bedarf immer auch auf die originale PDF-Datei zurückgegriffen werden.

Hierzu in den Dokumenteneinstellungsvorlagen von PDF (unter Tools Systemeinstellungen Dokumenteneinstellungen PDF) auf die Schaltfläche „PDF-Einstellungen“ klicken und anschließend die Option „Originale PDF-Datei zu Dokumenten-Anhängen hinzufügen“ aktivieren. Die PDF-Datei wird dadurch als Anhang zum Projekt hinzugefügt und steht im Übersetzungseditor crossDesk über die Registerkarte „Anhänge/Referenzdokumente“ der crossView zur Verfügung.