Làm việc với file Glossary (bảng thuật ngữ)

File Glossary là bảng tra ngắn gọn kiểu từ điển. Trước khi bắt đầu dịch mỗi quyển sách trong Tủ sách Nhất nghệ tinh, nhóm phụ trách biên tập đều xây dựng trước bảng danh mục thuật ngữ, dựa trên danh mục “Sachwortverzeichnis” (Technical Index) ở cuối mỗi quyển sách. Do sách thường được chia ra nhiều phần cho nhiều người dịch, những người dịch được yêu cầu tra cứu bảng này, để thống nhất thuật ngữ trong suốt quyển sách.

Tuy vậy, kết quả làm việc qua 7 năm đầu tiên của nhóm dịch sách Nhất nghệ tinh là vẫn để lại rất nhiều từ dịch không thống nhất trong mỗi quyển sách.

Một trong những giải pháp để cải thiện, là dùng Glossary để gợi ý một cách tự động trong các phần mềm hỗ trợ dịch thuật.

Đối với các phần mềm CAT, glossary là một khái niệm cơ bản, phần mềm nào cũng hỗ trợ và hầu như thống nhất về cấu trúc của file glossary. Dạng file Glossary như sau được hỗ trợ phổ biến: file .CSV (comma-separated values), ghi mỗi ngôn ngữ trong một cột, đặt dòng đầu tiên ứng với mã ký hiệu của ngôn ngữ, cột cuối cùng có thể là “description” để ghi chú thêm (không có cột này cũng được). Ví dụ:

Dùng phần mềm soạn thảo bảng tính (Excel, hoặc LibreOffice Calc) để tạo bảng với cấu trúc như trên, rồi xuất ra file ở dạng .CSV, với encoding là UTF-8, dùng ký tự phân cách (delimiter) là “Tab”. Nếu muốn hạn chế lỗi nhỏ nhặt trong file .CSV do các lựa chọn khi xuất file từ chương trình bảng tính, cách đơn giản nhất là copy bảng tính lên một cái Google Sheet (upload file Excel lên đó, hoặc copy các cột dữ liệu cũng được), dùng Google Sheet để export ra file .CSV với cấu hình mặc định.

File .CSV này có thể được upload vào một Glossary nào đó trong Google Translate Toolkit, hoặc để vào thư mục “glossary” trong một dự án dịch với OmegaT. Google quy định mỗi file Glossary upload lên có dung lượng tối đa 1 MB, nếu file lớn quá thì cắt nhỏ ra và upload lên dần (một tài khoản có thể upload các Glossary lên tới 1GB mỗi năm).

Xem hướng dẫn chi tiết hơn của Google: https://support.google.com/translatortoolkit/answer/6306379


Glossary và Termbase

Phân biệt ngắn gọn: Glossary dạng 2 cột mà nội dung thuộc cùng một lĩnh vực thì tương ứng với mono-termbase. Glossary mà chứa nội dung hỗn tạp (nhiều lĩnh vực) thì không phải là termbase.

Xem tài liệu về Termbase (được giới thiệu trên trang ttt.org/tbx): (phần này sẽ được tách thành trang riêng về Termbase)

http://www.ttt.org/tbx/art_melby-JoSTransNum18.pdf