Dịch một file Word với CafeTran và Google Translator Toolkit

*** Nếu bạn chưa biết bài viết này dành cho mục đích gì, hãy xem ghi chú ở cuối bài ***

*** Ví dụ áp dụng cách thức này, một file PDF tiếng Anh: https://www.dropbox.com/s/leuvyt8tdlnt17v/koplitz_japan_symposium_20150529.pdf được dịch ra file tiếng Việt như sau: https://www.dropbox.com/s/o5merhby137xmuo/koplitz_japan_symposium_20150529_vietnamese.pdf ***

THAO TÁC XỬ LÝ TÀI LIỆU DỊCH
BẰNG PHẦN MỀM CAFETRAN và GOOGLE TRANSLATOR TOOLKIT

HƯỚNG DẪN DÀNH CHO NHÓM DỊCH SÁCH ỦY BAN TƯƠNG TRỢ (VSW-UBTT)

Doãn Minh Đăng, tháng 9/2017

Ta bắt đầu bằng một file Word cần dịch (chẳng hạn: từ tiếng Đức) sang tiếng Việt.

Lưu ý:

  1. Một tài liệu Word đưa vào dịch có độ dài tùy ý. Đối với loại sách cần dịch trọn vẹn theo từng trang như trong tủ sách Nhất Nghệ Tinh, người viết đề nghị trước tiên là tách file PDF gốc ra thành từng trang, rồi convert file PDF 1-trang sang file Word (định dạng DOCX). Sau đó mỗi tài liệu Word ứng với 1 trang PDF này sẽ được làm thành một dự án dịch riêng với các công cụ CAT (ở đây dùng chức năng miễn phí của phần mềm CafeTran và trang web Google Translator Toolkit – cũng miễn phí).
  2. Khi làm việc với Google Translator Toolkit, có thể sử dụng các thuật ngữ (Glossary) và bộ nhớ dịch (Translation Memory) để hỗ trợ tự động tra cứu dữ liệu có sẵn (đây là lợi ích chính của CAT!). Xem thêm hướng dẫn ở các trang Làm việc với file Glossary và Làm việc với file Translation Memory.

Tóm tắt quy trình này:

(1-nguồn): Ta có file Word -> (2-chia đoạn): đưa vào phần mềm CafeTran để dùng chức năng tự động phân tách các đoạn dịch (segments) và xuất ra file song ngữ để chuẩn bị dịch -> (3-dịch): dịch trong file song ngữ với hai cách:

a/. Dịch với sự hỗ trợ của một phần mềm CAT khác (ở đây tập trung vào Google Translator Toolkit)

b/. Dịch trên file Word mà không dùng phần mềm CAT nào (kiểu truyền thống)

-> (4-trình bày, nếu cần): sau khi đã điền được dữ liệu dịch vào cột tiếng Việt ở file song ngữ, việc dịch coi như xong. Theo cách làm hiện nay của các dự án dịch sách, thì file song ngữ này sẽ được chuyển cho người hiệu đính. Tuy nhiên, CafeTran còn có thể giúp thêm là: cho phép nhập lại file song ngữ vào dự án đang dịch (để lấy các dữ liệu dịch), rồi sau đó xuất ra file dịch tuân theo đúng cách trình bày của file gốc. Khi đó, file trình-bày-bản-dịch có thể được gửi kèm thêm cho người hiệu đính, giúp họ dễ nhận ra vị trí của câu từ trong bản dịch khi so sánh với bản gốc. (gửi kèm thêm file này sẽ phát huy hiệu quả trong các sách có nhiều hình ảnh và chữ rải rác để minh họa hình ảnh, kiểu như sách Nhất nghệ tinh).

Một số bước trong quy trình dưới đây (IV, VIII, IX) chỉ làm những công đoạn mang tính thủ thuật, để giúp có sự tương thích giữa các công cụ (CafeTran, Word, Google Translator Toolkit), mục đích là làm cho giao diện dịch thuật với phần mềm trở nên đơn giản, và giúp dữ liệu thống nhất, dễ dàng cho việc tạo ra file trình-bày-bản-dịch.

 

Bảng trình bày quy trình: (Các bước lớn có ký hiệu STT là số La Mã, hướng dẫn thao tác, giải thích khi cần thiết, và các hình minh họa đi kèm)

STT

Công việc

Thao tác

Giải thích

Hình minh họa

I

Tạo project, nhập file Word vào CafeTran

– Mở CafeTran

– Nhấn nút “Start a new project”

– Chọn file Word của tài liệu tiếng Đức

01
02

03

II

Sửa chữa bằng tay các segments trong CafeTran

Dùng các phím tắt:

– Alt-mũi tên lên: ghép với translation unit bên dưới

– Alt-mũi tên phải: sang translation unit kế tiếp

– Alt-mũi tên trái: lùi lại translation unit trước đó

Cách CafeTran phân đoạn tự động có thể không như ý, thì ta duyệt lại từng mục (click chuột vào số ở bên phải, ứng với từng segment). Thường gặp: CafeTran tách đoạn sau khi có dấu chấm, kiểu như <đoạn 1 z.B.><đoạn 2>, nhưng thực ra z.B. có nghĩa là “thí dụ” và ta muốn ghép 2 đoạn này lại thành 1 đoạn. Để làm việc này, ta bấm vào đoạn 1, và chọn lệnh “Join segments” (phím tắt: Alt-mũi tên lên), nó sẽ được ghép với đoạn ngay sau.

04

III

Xuất ra file song ngữ

Menu: Project -> Export and exchange -> Export as bilingual document

File này do CafeTran tự động tạo ra, có đầy đủ các segments như trong CafeTran, ở đây ta chưa dịch.

05

06

IV

Xóa các dấu hiệu định dạng của CafeTran,

xóa các hàng không cần  dịch ,

và xóa chữ trong hai cột không cần thiết đối với Google Translator Toolkit

Chọn một ký hiệu gạch đứng | rồi nhấn nút lệnh “Replace” để thay thế các ký tự | bằng từ trống, chọn “Replace all” (ý nghĩa là xóa hết các ký tự | này). Chọn split ô tiêu đề (ở hàng trên cùng của bảng) thành 2, để chia tách hẳn cột nội dung gốc và dịch. Cần kiểm tra bằng mắt và xóa bằng tay với các hàng không cần dịch. Xóa chữ trong các cột thứ nhất (ID) và cột thứ ba (để dành dịch) ở file song ngữ.

Ký hiệu gạch đứng | sẽ làm rối mắt giao diện dịch trong GTT. Tương tự, 2 cột ID và cột sẽ dịch chỉ cần để trống, nếu có chữ trong đó thì sẽ làm vướng mắt khi dịch bằng GTT.

Để phân biệt với file Bilingual mà CafeTran xuất ra, ta đặt tên file mới là …dich_2_cot.docx

07
08
09

10

V

Upload file chứa cột nội dung cần dịch lên Google Translator Toolkit

Chọn “Upload” khi làm việc ở trang Google Translator Toolkit

Nếu người dịch không dùng GTT mà muốn dịch kiểu truyền thống trên file Word: ta gửi file …dich_2_cot.docx cho người dịch.

Ta upload lên GTT là để dịch với sự hỗ trợ của GTT (đây là một dạng phần mềm CAT online). Lợi ích: khai thác tự động Translation Memory và Glossary, được chia sẻ cho cả nhóm cùng dịch.

Bảng này có 3 cột, nhưng cột 1 và cột 3 để trống, nên GTT tự động hiển thị chỉ một cột, giao diện làm việc sẽ gọn gàng.

11
12
13
14
15

16

VI

Dịch ở Google Translator Toolkit, invite người cùng dịch, download về máy tính file đã dịch

Có thể mời người khác cùng dịch/hiệu đính: khi đang làm việc với file ở GTT, vào menu File -> Invite people…

Người được mời chỉ cần truy cập trang web Google Translator Toolkit, không cần cài phần mềm gì.

 

An ninh: chỉ ai được mời vào file (gửi lệnh “invite” trong GTT) thì mới truy cập được file đó, cơ chế bảo mật và làm việc cộng tác giống kiểu Google Docs.

17
18

19

VII

Ghép nội dung dịch vào file song ngữ chờ dịch

Copy cột nội dung dịch vào file …dich_2_cot.docx (file mà cột ID vẫn còn giữ các số thứ tự)

File dich_2_cot này là file Bilingual đã xóa hàng rác.

Tới đây việc dịch coi như xong. File …dich_2_cot.docx có thể gửi cho người hiệu đính. Các bước tiếp sau chỉ giúp tạo thêm file trình-bày-bản-dịch cho giống với file gốc.

20
VIII

(tùy chọn)

Dùng Excel để bổ sung các hàng trống cho đủ số hàng

– Copy cả bảng từ Word sang Excel

– Bên dưới cùng của bảng vừa copy trong Excel, điền một dãy số tăng dần từ số 1 đến số thứ tự ở hàng cuối cùng trong bảng

– Chọn khối các ô bao gồm cả bảng lẫn dãy số thứ tự vừa điền thêm vào, chọn chức năng “Sort A->Z” và căn cứ vào cột đầu tiên (cột số thứ tự – ID)

– Vẫn chọn khối các ô đó, sang toolbar Data, click chức năng “Remove duplicates” và chọn xóa những hàng có trùng lắp ở cột đầu tiên (ID)

– Bảng thu được có điền vào các hàng có số thứ tự liên tục (có thể có một hàng cột nội dung dịch bị trống, không sao)

File đã đưa đi dịch có những hàng bị xóa đi, không có cùng số hàng với bảng trong file Bilingual mà CafeTran đã xuất ra. Do vậy, nếu muốn copy lại kết quả dịch vào file Bilingual thì phải bù vào các hàng trống và xếp theo thứ tự từ 1 trở lên, giống như bảng ở file Bilingual.

21
22
23
24
25
26

27

IX

(tùy chọn)

Ghép cột nội dung dịch có bổ sung hàng trống vào file Bilingual-đầy-đủ

Copy cột nội dung dịch (đã điền thêm các ô trống cho tương ứng với dãy số thứ tự liên tục) từ Excel vào cột dịch ở file Word Bilingual-đầy-đủ

28

29

X

(tùy chọn)

Import file Bilingual-đầy-đủ-đã-dịch vào CafeTran

Menu Project -> Export and exchange -> Import bilingual document

CafeTran đã xuất ra file Bilingual trước đây, nó sẽ cập nhật nội dung dịch ở cột bên phải vào project đang dịch

30
31

32

XI

(tùy chọn)

Export document để tạo file Word cho bản dịch

Menu Project -> Export and exchange -> Export current document

File Word mới được tạo kiểu này thì sẽ được giữ các định dạng của bản gốc. File này có thể dùng để người hiệu đính tham khảo, trong khi dữ liệu chính để hiệu đính nên là file …dich_2_cot.docx (ở đó có lưu vừa đủ các thông tin cần dịch, có thể có được do làm việc với CAT hoặc không dùng CAT mà dịch trực tiếp lên file này).

33
34
35

36

Ghi chú: quy trình hướng dẫn ở đây là tương ứng với quy trình mang mã số 3.b_team trong trang về các quy trình dịch thuật. Việc sử dụng thêm phần mềm CafeTran ở đây nhằm bổ sung tính uyển chuyển để người dịch truyền thống không dùng CAT cũng tham gia dịch được (xem bước V trong bảng trên), và thêm tính năng xuất ra file kết quả dịch tuân theo các định dạng của văn bản gốc để tiện tham khảo. Hướng dẫn này nhằm đưa ra chỉ dẫn từng bước cho cách làm tôi đã nêu ra ở trang Chuyển từ dịch tay sang dùng CAT.