CafeTran / CAT

Hạn chế các placeholders trong dữ liệu dịch với CAT

Các phần mềm CAT có chức năng hỗ trợ giữ định dạng văn bản: câu chữ trong văn bản gốc có format như thế nào thì format đó cũng được giữ y hệt ở văn bản dịch ra.

Tuy nhiên, trong quá trình dịch với CAT, thì người dịch chỉ làm việc với các đoạn text trơn, không có format. Để thực hiện được điều này, thì các phần mềm CAT thường tạo ra các “tag” hay còn gọi là “placeholder”, nhằm ghi lại những chỗ có thay đổi định dạng trong câu. Khi dịch, người dịch nhìn vào placeholder để phân tách nội dung dịch vào trước hoặc sau chỗ đó cho khớp với định dạng.

Đối với phần mềm CafeTran, các placeholders thể hiện trong cửa sổ soạn thảo của phần mềm là những con số màu đỏ ở thấp hơn chữ thường: 1, 2… Khi CafeTran xuất dữ liệu dịch ra file song ngữ (Export as a bilingual document), thì file Word được xuất ra sẽ dùng ký tự | cho placeholders (đây không phải là ký tự gạch đứng bình thường, mà nó chứa mã đặc biệt gì đó do Word quy định). File Word đó khi đưa vào làm dữ liệu gốc ở Google Translator Toolkit (GTT) thì GTT sẽ nhận ra các placeholders và thay bằng mã kiểu: {0}text {\0}{1}|{\1}. Xem ví dụ trong hình dưới đây:

Các placeholders giúp giữ định dạng của văn bản dịch, nhờ vậy sẽ đỡ mất công biên tập sau khi đã dịch xong tài liệu với phần mềm CAT (như CafeTran hoặc GTT). Tuy vậy, nếu xuất hiện quá nhiều placeholders trong câu dịch, thì sẽ gây vướng mắt người dịch, làm chậm tốc độ gõ nội dung dịch. Dân dịch thuật thường gọi tình trạng có quá nhiều tags / placeholders trong văn bản với cụm từ “tag soup”.

Để hạn chế xuất hiện tags / placeholders “rác” trong khi dịch với phần mềm CAT, người quản lý dữ liệu dịch cần phải “cắt gọt” các định dạng dư thừa trong văn bản gốc. Chẳng hạn ta đưa một file Word làm dữ liệu gốc để dịch với phần mềm CAT, thì hạn chế có những sự chuyển đổi format không đáng có như kiểu: có ký tự xuống dòng khi không cần thiết (xem ví dụ ở trên), hoặc có một khoảng trống bất chợt đổi kích thước hoặc loại font chữ trong câu, hoặc khoảng trống bị định dạng in đậm (bình thường không nhìn thấy).

Hình dưới đây trình bày một ví dụ cách phát hiện sự thay đổi định dạng ở file Word sẽ sinh ra placeholder thừa (và khắc phục là sửa cho đừng thay đổi định dạng). File Word này là do convert từ một tài liệu PDF sang, thông thường các phần mềm convert PDF sang Word dễ sinh ra các định dạng thừa.

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *