Align

Aligning là hoạt động so sánh dữ liệu từ 2 file văn bản, một bản gốc và một bản dịch, để tách ra các câu tương ứng nhau giữa 2 ngôn ngữ trong cặp file đó. Công việc Align giúp tạo ra bộ nhớ dịch thuật (Translation Memory) từ các tài liệu đã dịch bằng tay trước kia.

Một phần mềm Align tốt và miễn phí là: LF Aligner. Phần mềm này đóng gói phần mềm hunalign cùng một số công cụ xử lý các định dạng file văn bản. Phần mềm hunalign được viết dựa trên giải thuật của Chuck and Gale và dùng thêm dữ liệu từ điển. Lưu ý là LF Aligner chỉ có sẵn từ điển của các ngôn ngữ trong châu Âu cùng một số ngôn ngữ lớn, chưa có từ điển cho tiếng Việt. Nếu muốn có kết quả tốt với LF Aligner/hunalign, ta cần tạo thêm các file từ điển song ngữ tiếng Việt và tiếng khác.

(Thông tin thêm: giải thuật Chuck and Gale được dùng để tách và so sánh các câu trong dự án http://www.statmt.org/europarl/ từ 1996 đến 2011, tác giả Philipp Koeln có ghi trong dự án nhỏ http://people.csail.mit.edu/koehn/publications/de-news/ là sau khi dùng thuật toán này thì mỗi tháng chỉ dành khoảng 1 giờ để sửa bằng tay).

Video clip này hướng dẫn (nói tiếng Anh) cách dùng LF Aligner:

How to align two Word documents with LF Aligner (Windows edition)

Ví dụ có giải thích bằng tiếng Việt: Dùng phần mềm align để tạo Translation Memory từ cặp file tài liệu đã dịch