CAT

Hướng dẫn dùng Okapi Rainbow để trích xuất dữ liệu phục vụ việc dịch

Phần mềm nguồn mở Okapi Framework là một bộ công cụ hỗ trợ việc dịch thuật. Trong Okapi có một số phần mềm con, mỗi cái làm vài chức năng “lặt vặt”. Bản thân các phần mềm con của Okapi không thực hiện mấy chức năng, nhưng khi kết hợp được với các phần mềm CAT khác thì rất hữu ích.

Bài này hướng dẫn cách dùng phần mềm con Rainbow của Okapi để phân đoạn dữ liệu cần dịch (và xóa bỏ các tags định dạng trong văn bản để phù hợp với người mới bắt đầu), để sẵn sàng cho các phần mềm CAT khác sử dụng. Thuật ngữ tiếng Anh gọi công đoạn này là “segmentation“, nhiệm vụ chính là chia dữ liệu cần dịch thành các đoạn văn nhỏ.

Các hình chụp từng bước dưới đây lấy minh họa việc phân đoạn một loạt file PDF bằng phần mềm Okapi Rainbow, xuất ra file bảng so sánh văn bản ở ngôn ngữ gốc và ngôn ngữ cần dịch. Ở đây dùng chuỗi thao tác sau:

  1. Raw Document to Filter Events: đây là bước đầu tiên, bắt buộc, không có tùy chọn nào
  2. (Optional) Inline Codes Removal: dùng để xóa bỏ các tags trong văn bản; tùy chọn: chọn cái cần xóa là “Remove code marker and code content”, bên dưới có 4 tick boxes thì chọn 3 cái phía dưới:
    Strip codes in the source text
    Strip codes in the target text
    Apply to non-translatable text units
  3. Format Conversion: dùng để tạo ra file chứa văn bản trong bảng so sánh; tùy chọn: chọn định dạng xuất ra là “Word Table”. Bên dưới ở chỗ “Output path” thì chọn “Output paths are the input paths plus the new format extension”

 

Đầu tiên ta chỉnh thư mục “Root” là thư mục chứa các files cần xử lý
Dùng chức năng Add files (dấu +) để chọn các files cần xử lý

Mở menu Utilities, chọn Edit / Execute Pipeline… để chọn các thao tác mà Rainbow sẽ chạy. Chọn Add Step và sẽ thấy bảng các thao tác như thế này
Chọn 3 thao tác theo thứ tự trong hình, xem hình để biết cách chỉnh của bước Inline Codes Removal. Ý nghĩa là nó sẽ xóa hết các tags trong văn bản.

Kết quả sau khi chạy chuỗi thao tác (pipeline) thành công, với các file .rtf được tạo ra.
So sánh kết quả: file RTF chứa dữ liệu nguồn trích từ file PDF

Các files RTF thu được có thể mở bằng Word rồi lưu lại ở định dạng DOCX. Chúng phù hợp với cả người dịch bằng tay (ghi nội dung dịch vào cột “Target”), hoặc cho các file đó vào phần mềm CAT (như OmegaT, Google Translation Toolkit,…) để dịch, sử dụng được công cụ trích xuất dữ liệu của Okapi Rainbow.