Thuật ngữ

Từ điển thuật ngữ của FAO, và dữ liệu mở có liên kết

Tổ chức FAO là một nơi làm từ điển thuật ngữ rất kỹ càng, chắc là vì vai trò của nó trong việc thúc đẩy truyền bá tri thức cho những vùng chậm phát triển.

FAO là động lực chính làm ra kiểu dữ liệu từ điển RDF, khi từ năm 1980 đã xây dựng kho dữ liệu thuật ngữ của họ AGROVOC và luôn xoay quanh dữ liệu RDF (để lưu trữ “linked open data”):
http://aims.fao.org/vest-registry/vocabularies/agrovoc

AGROVOC là bộ dữ liệu đầy đủ của FAO, nó cũng được dùng trong cổng tra cứu thông tin về nông lâm ngư nghiệp AGRIS của FAO: http://agris.fao.org/agris-search/index.do

Tôi tải thử dữ liệu của AGROVOC về xem (http://aims.fao.org/node/121112), file 30MB giải nén ra 800MB, một tỷ lệ lớn là để diễn tả những mối quan hệ gì đó giữa các mục từ, tuy nhiên dữ liệu thực chắc cũng nhiều. Nó có vẻ giống như là để làm lexicon, mỗi thuật ngữ có thông tin diễn giải ở các lĩnh vực, link tham khảo, khá nhiều thứ tiếng. Ta có thể tra cứu dữ liệu của họ để xem những thông tin mà một mục từ chứa:
http://agrovoc.uniroma2.it/agrovoc/agrovoc/en/search?clang=en&q=aquaculture
(có lĩnh vực mẹ, lĩnh vực con, diễn giải, dịch sang các tiếng, link ở nơi nào mô tả đúng thuật ngữ đó…) – bấm vào cái link có dấu ba chấm thì mình thấy rõ hơn.

Phần mềm để họ biên tập dữ liệu liên kết kiểu RDF có tên là VocBench, tính năng của nó ở đây: http://vocbench.uniroma2.it/doc/vb2_vs_vb3.jsf
trong đó có ghi là có module “RDF Transformer” để nhập và xuất dữ liệu ra các định dạng khác:

Can be used for dataset import and export, and for processing the results of SPARQL Graph queries (i.e. DESCRIBE and CONSTRUCT) before they are exported.
Chain of configured exporters can be stored, with different scopes (user, project, system and user-on-project)

Có nhóm SV ở ĐH Praha làm hướng dẫn về công cụ xuất dữ liệu RDF thành CSV: https://etl.linkedpipes.com/tutorials/how-to/convert_rdf_to_csv

Kiểu dữ liệu RDF hình như trở thành một chuẩn lưu trữ thông tin cho những dự án dữ liệu mở (open data), ví dụ một từ điển thuật ngữ về cân bằng giới của EU cũng dùng RDF:
http://data.europa.eu/euodp/en/data/dataset/gender-eguality-glossary-thesaurus

Vài bài báo giới thiệu thêm về kho dữ liệu có kết nối của AGROVOC:
https://www.slideshare.net/CIARD_AIMS/agrovoc-faos-multilingual-thesaurus-as-a-building-block-for-linked-open-data (slides)
https://e-archivo.uc3m.es/bitstream/handle/10016/16524/introduction_fabrizio_LOV_2012.pdf (slides)
http://aims.fao.org/sites/default/files/AGROVOC%2520Dataset_vFinal_Preprint_2.pdf (trong này có hình vẽ mô hình quản trị dữ liệu)
http://skosmos.org/publishing-skos-vocabularies-with-skosmos.pdf (mô hình làm trang web dùng link open data với các chuẩn SKOS, RDF, and SPARQL – chúng đều có liên quan đến nhau)

Tóm lại là nếu mình xử lý được file RDF thì sẽ có thể truy cập chéo được đến một rừng thuật ngữ trên mạng, trong thế giới gọi là “linked open data”. Công cụ web thì hình như trang http://skosmos.org/ có đủ hết cả bộ, để có thể triển khai một trang lưu trữ và tra cứu kiểu từ điển.