Tổng hợp thông tin dự án dịch tài liệu “Control in an Information Rich World”
Document-Name: Control in an Information Rich World
Document-Source: www.cds.caltech.edu/~murray/cdspanel/report/
Content-Type: PDF
Translators: Dang Doan
Editors: Dang Doan
Reviewers:
Start-Time: 01.05.2015
Finish-Time:
Quy trình:
Tài liệu là báo cáo dạng PDF -> convert sang text (file .TXT) -> convert sang file template cho việc dịch (.POT) -> đổi tên file để tạo bản tiếng Việt (.PO) -> dịch bằng tay, sử dụng phần mềm Poedit để hỗ trợ nhập dữ liệu -> sau khi dịch xong, chuyển file .PO thành file .TXT chứa nội dung dịch. (chưa tính công đoạn tạo ra file PDF từ nội dung file TXT, dự kiến sẽ xin template Latex từ giáo sư Richard Murray, để tạo ra file PDF bằng Latex).
Song song với việc dịch, mỗi bản dịch được đưa lên web bằng cách dùng phần mềm Poedit xuất ra file .HTML, một bên là nội dung gốc (tiếng Anh), một bên là nội dung dịch (tiếng Việt). Kỳ vọng: các bản dịch được đưa lên web sẽ có một số chuyên gia trong lĩnh vực kỹ thuật điều khiển đọc và góp ý (review) qua các kênh liên lạc cá nhân, nhằm hoàn thiện nội dung bản dịch.
Các công cụ phần mềm được sử dụng trong quá trình làm việc:
– Từ PDF sang TXT: dùng lệnh pdftotext trong Ubuntu Linux.
pdftotext -layout cdspanel-15aug02.pdf cdspanel-15aug02.txt
(option -layout là để giữ layout trên file TXT cho giống file PDF, Đăng đã dùng thử và thấy cũng tốt)
– Từ TXT sang PO và ngược lại: lúc đầu Đăng dùng lệnh po4a-gettextize trong gói po4a có trong Ubuntu để chuyển file .TXT sang .POT, tuy nhiên sau này nhận thấy po4a-gettextize hoạt động không ổn định (đối với một số văn bản có các ký tự hoặc mã đặc biệt, file .POT tạo ra có thể bị mất đi vài đoạn), và việc chuyển lại từ file dịch .PO sang file .TXT với lệnh po4a-translate của po4a cũng bị vướng điều kiện “cần dịch hơn 80% mới convert ra file TXT được” mà cơ chế kiểm tra 80% đó không tốt (dù đã dịch toàn bộ). Sau đó Đăng chuyển sang dùng cặp công cụ txt2po và po2txt trong gói phần mềm translate-toolkit (có trong repository của Debian, Ubuntu), thì thấy chúng hoạt động ổn định, ký tự nào cũng xử lý được.
Từ .TXT sang .POT:
txt2po cdspanel_chap2.txt cdspanel_chap2.pot
Đổi tên file .POT thành .PO:
cp cdspanel_chap2.pot cdspanel_chap2_vi.po
hoặc dùng 2 lệnh sau trong command line của Linux: (để copy dùng lại, chỉ cần sửa 1 lần với tên file)
file=”cdspanel_chap2.pot”
cp “${file%.*}.pot” “${file%.*}”_vi.po
Từ .PO (file đã dịch) sang .TXT:
po2txt cdspanel_chap2_vi.po cdspanel_chap2_vi.txt
hoặc dùng 2 lệnh sau trong command line của Linux:
file=”cdspanel_chap2″
po2txt “${file%.*}”_vi.po “${file%.*}”_vi.txt
Nếu muốn thì có thể bổ sung thêm thông tin file master cho lệnh po2txt, để chỗ nào chưa dịch xong thì nó sẽ chép text gốc từ file master vào đó:
po2txt -t cdspanel_chap2.txt cdspanel_chap2_vi.po cdspanel_chap2_vi.txt
Ngày cập nhật: 24/11/2016