CAT

Quản lý một bài dịch từ file PDF bằng CafeTran và Google Translator Toolkit

THAO TÁC XỬ LÝ TÀI LIỆU DỊCH
BẰNG PHẦN MỀM CAFETRANGOOGLE TRANSLATOR TOOLKIT

Doãn Minh Đăng, tháng 11/2017

Ta bắt đầu bằng một file PDF cần dịch, chẳng hạn từ tiếng Anh sang tiếng Việt.

Tóm tắt quy trình này:

[0-nguồn]: Ta có file PDF -> chuyển thành file Word
-> [1-chia đoạn]: đưa vào phần mềm CafeTran để dùng chức năng tự động phân tách (segmenting) các đoạn dịch và xuất ra file song ngữ để chuẩn bị dịch
-> [2-dịch]: dịch file song ngữ với Google Translator Toolkit (một phần mềm CAT cơ bản, cho phép nhiều người cùng dịch và hiệu đính qua internet)
-> [3-xuất ra file trình bày]: tải dữ liệu dịch ở GTT về máy tính -> cho vào cột tiếng Việt ở file song ngữ -> nhập lại file song ngữ vào CafeTran -> xuất ra file dịch tuân theo đúng cách trình bày của file gốc (định dạng Word).

Lưu ý:

  1. Quy trình được hướng dẫn ở đây là tương ứng với quy trình mang mã số 3.b_team trong trang về các quy trình dịch thuật. Hiện nay nhóm Olymparents đang dùng quy trình này để dịch các tài liệu về giáo dục STEM.
  2. Khi làm việc với Google Translator Toolkit, có thể sử dụng các thuật ngữ (Glossary) và bộ nhớ dịch (Translation Memory) để hỗ trợ tự động tra cứu dữ liệu có sẵn (vào menu File -> Properties… ở file dịch). Xem thêm hướng dẫn ở các trang Làm việc với file Glossary và Làm việc với file Translation Memory. Hiện nay các file dịch của nhóm Olymparents sử dụng chung dữ liệu Glossary và Translation Memory, mang lại sự hỗ trợ lớn cho nhóm dịch.
  3. Ở bước thứ 2, việc dịch trên Google Translator Toolkit cho phép mời người khác tham gia dịch ở từng file (vào menu File -> Invite people… ở file dịch). Nên có: một người dịch, một người hiệu đính đối với tài liệu ngắn, nếu là file dài thì nhiều người dịch và hiệu đính nhưng cần chia rõ phân đoạn tài liệu nào thuộc trách nhiệm của ai.
  4. Ở bước 3, hiện nay cách làm ở nhóm Olymparents là tạo ra một số bản trình bày trong quá trình dịch: bản trình bày version1 khi vừa dịch xong, bản trình bày version2 khi vừa hiệu đính xong, bản xem trước (preview) khi đã điều chỉnh thêm để sẵn sàng cho người khác dùng như một bản nháp, sau khi nhận được góp ý từ người dùng thì sửa lần cuối thành bản chuẩn bị in (prepress) dành để xuất bản.

Các công cụ cần dùng:

  1. Chuyển file PDF thành file Word: nên dùng trang http://pdf2docx.com/; nếu file PDF không tách ra được chữ, thì dùng chức năng OCR để nhận dạng chữ trong file PDF trước khi chuyển sang Word. Xem thêm các công cụ xử lý file PDF: Làm việc với file PDF
  2. Phần mềm CafeTran (miễn phí cho các chức năng dùng ở đây: phân tách câu dịch, export/import dữ liệu dịch)
  3. Internet để làm việc ở trang Google Translator Toolkit, đăng nhập được với tài khoản Gmail
  4. Phần mềm để soạn thảo file Word (MS Word hoặc các phần mềm miễn phí như LibreOffice, OpenOffice)

Hướng dẫn chuỗi xử lý một tài liệu theo quy trình này được ghi lại trong video clip sau:

Tổng quan của hệ thống dịch này khá giống với mô hình được nêu ra ở trang Chuyển từ dịch tay sang dùng CAT.

Một quy trình tương tự, có hình chụp màn hình từng bước, được trình bày ở trang https://rosetta.vn/translate/tools-for-translation/cat/dich-mot-file-word-voi-cafetran-va-google-translator-toolkit/ (ở đó có nhiều bước hơn, do cần tích hợp thêm khả năng hỗ trợ người dịch bằng tay tham gia, và phù hợp với tài liệu có nhiều đoạn không cần dịch – ví dụ số liệu, công thức – chúng được bỏ đi trước khi đưa vào GTT).