Ở đây ProZ có làm một webinar để MateCAT giới thiệu về công cụ của họ:
http://cdn9.fliqz.com/bd428d5450994a64ba5f71afbbfbc0b3.mp4
Mấy điểm tóm tắt:
– Translation Memory được dùng là dạng file .TMX
– Văn bản dịch để import, export giúp kết hợp làm việc offline là dạng file .XLIFF
– Thời điểm 20:22 ở video: có ví dụ MateCAT dùng phần mềm để dịch tự động tiếng Anh -> Ý, một câu có độ phức tạp bình thường 21 từ thì cần sửa ở 3 từ (sửa nhỏ, không phải thay đổi ngữ pháp).
– Thời điểm phút 25, có thống kê lại việc sửa bản dịch thô đó của máy, phần mềm đánh giá là tốn 10% công sức “Post-editting effort (PEE)”, dựa trên thời gian bỏ ra để sửa.
– Ở phút 26, có ‘rule of thumb’ là nếu PEE nhỏ hơn 30% thì là dùng CAT có lợi, còn lớn hơn 40% thì là vô dụng, máy dịch làm cho mình làm chậm đi, khi đó nên dịch bằng tay từ đầu.
– Thời điểm phút 34 ở video: trình diễn cách biên tập viên revise một bài dịch, có phân loại 5 nhóm lỗi, và có tổng kết tự động để đánh giá lại là bản dịch chấp nhận được không. Theo tiêu chuẩn mà họ gợi ý, thì chỉ được có tối đa 3 lỗi trên 10000 từ (0.03%).
– Thời điểm 35:35 trong video, có giới thiệu về tính năng ‘dictation’, người dịch nói vào micro cho trang web dùng kỹ thuật ‘speech to text’ để nhận dạng tiếng nói và ghi ra văn bản dịch trong real-time. Tưởng tượng cụ Nguyễn Văn Vĩnh sống lại và với công nghệ tiến bộ hiện nay thì chắc không lo thư ký chép không kịp.
– Sau bài trình bày có câu hỏi về bảo mật, thì được trả lời là chỉ có bảo mật bằng địa chỉ URL có mã hóa. Vậy là họ chưa làm cơ chế phân quyền hạn của users (kiểu Google, dù cho có biết địa chỉ URL mà không được cấp quyền thì cũng không vào được). Còn cần cải tiến thêm mới đủ an toàn cho các tài liệu cần confidentiality.
– Trang web có cơ chế cho dùng private TM và update tự động TM trong quá trình dịch, cho export ra file để dùng chỗ khác, rất tốt. Tuy nhiên khi được hỏi về khả năng công sức trí tuệ của người dịch bị đưa vào Public TM cho người khác dùng lại, thì tác giả tránh trả lời. Cũng dễ hiểu là họ cho người dùng miễn phí thì họ phải lấy lợi bằng cách nào đó, ở đây ngoài việc kiếm hoa hồng khi kết nối với dịch vụ của translated.net thì chắc chắn là phần mềm sẽ tranh thủ học từ các kết quả dịch của người dùng.
– Đây có lẽ cũng là ứng dụng phổ biến của machine learning trong big data (họ nói lúc đầu là đã có khoảng 4 tỉ entry dữ liệu để cho máy học).