Đề tài Xây dựng tự động từ điển việt - Anh và ứng dụng trong lĩnh vực du lịch
Từ điển song ngữ là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ
tự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, … Việc xây dựng từ điển có thể được thực hiện
nhờ các phương pháp thu thập thủ công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song ngữ có gióng
hàng mức câu được mở rộng liên tục nhờ các phương pháp xây dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên này
để tự động làm giàu từ điển song ngữ cho phép chúng ta thu được kho từ vựng song ngữ ngày càng giá trị. Trong bài báo này,
chúng tôi trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từ
điển song ng
tự nhiên, như: dịch máy, tìm kiếm liên ngữ, tra cứu ngữ nghĩa giữa hai ngôn ngữ, … Việc xây dựng từ điển có thể được thực hiện
nhờ các phương pháp thu thập thủ công và/hoặc khai thác từ nguồn ngữ liệu song ngữ. Trong khi kho ngữ liệu song ngữ có gióng
hàng mức câu được mở rộng liên tục nhờ các phương pháp xây dựng bán tự động và tự động, việc tận dụng nguồn tài nguyên này
để tự động làm giàu từ điển song ngữ cho phép chúng ta thu được kho từ vựng song ngữ ngày càng giá trị. Trong bài báo này,
chúng tôi trình bày một phương pháp xây dựng tự động từ điển song ngữ và ứng dụng phương pháp này để xây dựng tự động từ
điển song ng
Bạn đang xem tài liệu "Đề tài Xây dựng tự động từ điển việt - Anh và ứng dụng trong lĩnh vực du lịch", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- de_tai_xay_dung_tu_dong_tu_dien_viet_anh_va_ung_dung_trong_l.pdf
Nội dung text: Đề tài Xây dựng tự động từ điển việt - Anh và ứng dụng trong lĩnh vực du lịch
- Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 569 Lavecchia Caroline , Smaï'li Kamel và Langlois David(2007)[5] đã đề xuất một phương pháp xây dựng từ điển song ngữ từ phụ đề phim. Đầu tiên họ xây dự kho ngữ liệu song ngữ phụ đề phim với 32720 cặp phụ đề được gióng hàng với độ chính xác 94%, sau đó dữ liệu này được đưa vào xây dựng từ điển dựa vào inter-lingual trigger với Inter-lingual trigger là một danh sách bao gồm từ ở ngôn ngữ nguồn và các từ có tương quan nhất ở ngôn ngữ đích. Từ nguồn và n từ đích có tương quan tốt nhất trong Inter-lingual trigger được đưa vào từ điển. Davor Blažekovic, Maja Matetic và Marija Brkic (2009)[6] đã đề xuất một kỹ thuật xây dựng từ điển các thuật ngữ kỹ thuật. Đầu vào là văn bản Croatia trong lĩnh vực kỹ thuật, từ điển được thực hiện như là một cây AVL với cấu trúc dữ liệu được tạo ra bởi các nhà toán học Adelson, Velskii và Landis[3]. một cây nhị phân mà đảm bảo hiệu suất của các thao tác như chèn và tìm kiếm trong khoảng thời gian logarit. Các nút của cây chứa các từ được gán nhãn từ loại. Nhãn từ loại có được bằng cách sử dụng từ điển hình thái Croatia, thông tin từ loại cho phép lọc nhiễu trong tìm kiếm các cụm từ thường hay đi cùng với nhau để đưa vào xây dựng từ điển. Ajay Dubey and Vasudeva Varma(2013)[7] đã đề xuất một phương pháp xây dựng tự động từ điển song ngữ Anh-Hindi từ việc khai thác các thuộc tính cấu trúc của văn bản. Đầu tiên nhóm tác giả xây dựng một từ điển nhỏ sử dụng phương pháp kết hợp từ và phiên âm, sau đó sử dụng từ điển này để tìm ra các mục giống nhau của văn vản trên các ngôn ngữ. Các câu song ngữ được trích rút từ các mục giống nhau này. Tất cả các từ đồng xuất hiện trong các câu song ngữ được trích rút để đưa vào từ điển. Yasuda K, Sumita E. (2013)[8] đã đề xuất một phương pháp xây dựng tự động từ điển song ngữ từ kho ngữ liệu song ngữ liệu song ngữ Nhật - Trung. Phương pháp được đề xuất này sử dụng sự tương đồng về ký tự giữa tiếng Nhật và tiếng Trung. Đầu tiên, trích rút các cặp dịch từ từ kho ngữ liệu song ngữ dựa vào sự tương đồng ký tự, sau đó huấn luyện các bảng cụm từ sử dụng hai công cụ huấn luyện dịch máy thống kê khác nhau, sau đó trích rút các cặp dịch từ chung. Cuối cùng huấn luyện hệ thống dịch máy thống kê sử dụng các cặp dịch từ thu được ở trên để thu được từ điển. Văn Ngọc Sang và cộng sự (2015)[9] đã trình bày một cách tiếp cận mới cho việc xây dựng từ điển điện tử Chăm - Việt xuất phát từ 3 thành phần là dữ liệu, cơ sở dữ liệu và đánh giá. Mô hình ADDIE (Analysis, Design, Develop, Implement, and Evaluate) đã được nhóm tác giả sử dụng trong toàn bộ quá trình tiếp cận. Đầu tiên nhóm thực hiện việc phân tích và thiết kế hệ thống với dữ liệu đầu vào là hai cuốn từ điển Việt-Chăm và Chăm-Việt, sau đó giai đoạn phát triển và thực hiện được tiến hành từng bước như phân tích và thiết kế. Cuối cùng, sản phẩm từ điển điện tử được đánh giá bởi chuyên gia và người sử dụng. Phương pháp xây dựng từ điển Việt - Anh của chúng tôi khác với các phương pháp trên ở các điểm cơ bản sau: - Từ điển được xây dựng dựa trên kho ngữ liệu song ngữ Việt - Anh gióng hàng mức câu. Đây là một lợi thế của phương pháp, vì kho ngữ liệu này hiện đang được các nhóm nghiên cứu thu thập và bổ sung mở rộng từng ngày. - Chúng tôi trích rút từ, cụm từ dựa vào giá trị xác suất, trọng số dịch ở cả hai chiều dịch từ, cụm từ và phương án gióng hàng từ được tính toán nhờ hệ thống Moses. - Việc lấy các cặp từ Việt - Anh để đưa vào từ điển song ngữ Việt-Anh chúng tôi dựa vào nhãn từ loại ở các hai phía tiếng Việt và tiếng Anh. Phương pháp này đơn giản, hiệu quả và có thể áp dụng cho bất kỳ cặp ngôn ngữ nào. Đặc biệt trong bài báo này, chúng tôi cũng trình bày một áp dụng của phương pháp để xây dựng tự động từ điển song ngữ theo miền dữ liệu, một áp dụng có thể thực hiện cho bất kỳ miền dữ liệu nào. III. PHƯƠNG PHÁP XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN SONG NGỮ VIỆT-ANH III.1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh Phương pháp xây dựng tự động từ điển Việt - Anh mà chúng tôi đề xuất sử dụng tài nguyên là kho ngữ liệu song ngữ gióng hàng mức câu được thể hiện trong Hình 1. Đầu tiên, “Câu tiếng Việt” từ “Kho ngữ liệu song ngữ” được “Tách từ và Gán nhãn từ loại”, sau đó chúng tôi viết một chương trình JAVA đơn giản sử dụng đầu vào là tài nguyên này và cho đầu ra là hai kho ngữ liệu: Kho ngữ liệu “Từ tiếng Việt đã gán nhãn” và kho ngữ liệu “Câu tiếng Việt đã gán nhãn”. Tiếp theo, “Câu tiếng Anh” từ “Kho ngữ liệu song ngữ” cũng được “Gán nhãn từ loại” để thu được kho ngữ liệu “Câu tiếng Anh đã gán nhãn”.
- Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 571 Begin While (not EOF(Ctw)) do Get wv in line; While (not EOF(T)) do Get line; Get v; e; pv;pe; p(v|e); p(e|v); alignve in line; If(wv=v)and(p(v|e)max) and (p(e|v)>=0.1) and (v not in Dv)and((v,e) in alignve) then Return v, pv in Dv; Return e, pe in De; While (not EOF(Cv)and not EOF(Ce)) do Get linev in Cv; Get linee in Ce; If (wv in linev) then {Return linev in Dv; Return linee in De;} EndIf; EndWhile; EndIf; EndWhile; End. Giải thuật 1. Giải thuật xây dựng tự động từ điển Việt - Anh. IV. PHƯƠNG PHÁP XÂY DỰNG TỰ ĐỘNG TỪ ĐIỂN SONG NGỮ VIỆT-ANH MIỀN DU LỊCH IV.1. Tần số xuất hiện của 1 từ trong 1 văn bản - Ký hiệu v là một văn bản bất kỳ; ws là một từ bất kỳ trong văn bản v. - Gọi f(w,v) là số lần xuất hiện của từ w trong văn bản v. - Khi đó, tần số xuất hiện của từ w trong văn bản v được tính như sau: tf(w,v)=f(w,v)/max{f(ws,v):ws in v} (1) Trong đó: max{f(ws,v):ws in v} là số lần xuất hiện nhiều nhất của một từ bất kỳ ws trong văn bản v. IV.2. Tần số nghịch của một từ trong tập văn bản - Tính tần số nghịch của một từ trong tập văn bản để giảm giá trị của những từ phổ biến. - Gọi |V| là tổng số văn bản có trong tập V; |{v in V: w in v}|: Số văn bản chứa từ w, với điều kiện w thuộc v. - Khi đó, tần số nghịch của một từ trong tập văn bản được tính bởi công thức: idf(w,V)=log(|V|/1+|{v in V: w in v}|; (2) IV.3. Tìm từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác Gọi tfidf(w,v,V) là giá trị cho biết mức độ từ, xuất hiện nhiều trong văn bản v, nhưng xuất hiện ít trong các văn bản khác thuộc V. Khi đó tfidf(w,v,V) được tính bởi công thức: tfidf(w,v,V) = tf(w,v)*idf(w,V) (3) IV.4. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch IV.4.1. Phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch
- Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 573 While (not EOF(Ctv)) do Get wv in Ctv; tf(wv, Ctv)=f(wv, Ctv)/max{f(ws, Ctv):ws in Ctv }; // Áp dụng công thức (1) idf(wv, Cgv)=log(|Cgv|/(1+|{C in Cgv: wv in C}|)); // Áp dụng công thức (2) tfidf(wv,Ctv, Cgv) = tf(wv,Ctv)*idf(wv, Cgv); // Áp dụng công thức (3) If tfidf(wv,Ctv, Cgv) > 0.5 then { Return wv in file;} Endif; EndWhile; End. Giải thuật 2. Giải thuật trích rút từ tiếng Việt miền du lịch. V. THỰC NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ V.1. Thực nghiệm V.1.1. Kho ngữ liệu song ngữ Việt - Anh gióng hàng mức câu Kho ngữ liệu song ngữ được gióng hàng mức câu là một nguồn tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên: Tìm kiếm xuyên ngữ, dịch máy, xây dựng từ điển song ngữ, Đã có một số công trình nghiên cứu xây dựng, điển hình là: Đề tài VLSP3 nhánh đề tài xử lý văn bản chia sẻ 100.000 cặp câu song ngữ Việt - Anh. Công trình nghiên cứu của Hồ Bảo Quốc và cộng sự năm 2014 đã xây dựng được kho ngữ liệu 120.000 cặp câu song ngữ Việt - Anh. Công trình của Ngô Quốc Hùng công bố năm 2018 với kho ngữ liệu song ngữ gióng hàng mức câu 2292077 cặp câu song ngữ Việt - Anh4, Công trình của Nguyễn Tiến Hà và cộng sự năm 2018 đã xây dựng được kho ngữ liệu song ngữ Việt-Anh miền du lịch với 12.000 cặp câu [12], Hiện nay, kho ngữ liệu song ngữ Việt - Anh có gióng hàng mức câu được các nhóm nghiên cứu tiếp tục thu thập và bổ sung ngày một lớn. Trong công trình này chúng tôi sử dụng kho ngữ liệu 100.000 cặp câu song ngữ Việt-Anh của đề tài VLSP và 500389 cặp câu song ngữ Việt-Anh miền chung, 14237 cặp câu song ngữ Việt-Anh miền du lịch là các kho ngữ liệu song ngữ mà chúng tôi thu thập được để làm tài nguyên thực nghiệm phương pháp đề xuất của mình. V.1.2. Tách từ và gán nhãn từ loại tiếng Việt, tiếng Anh Đối với tiếng Việt, có một số công cụ thực hiện tách từ và gán nhãn từ loại đã được công bố và chia sẻ cho cộng đồng nghiên cứu sử dụng với độ chính xác khác cao, trong số đó công cụ tách từ và gán nhãn từ loại văn bản tiếng Việt VncoreNLP5 được viết bởi nhóm tác giả Thành Vũ và cộng sự năm 2018. Công cụ được đánh giá là có độ chính xác hơn hẳn so với các công cụ tách từ và gán nhãn từ loại cho văn bản tiếng Việt. Đối với tiếng Anh, hiện nay có công cụ Stanford tách từ đạt mức độ chính xác khá cao: Công cụ Stanford Log- linear Part-Of-Speech Tagger6 phiên bản đầu tiên được viết bởi tác giả Kristina Toutanova và sau đó là các phiên bản cải tiến của các tác giả Dan Klein, Christopher Manning, William Morgan, Anna Rafferty, Michel Galley, and John Bauer. Trong công trình này, chúng tôi sử dụng công cụ tách từ và gán nhãn từ loại VncoreNLP cho tiếng Việt và công cụ gán nhãn từ loại Stanford Log-linear Part-Of-Speech Tagger cho tiếng Anh. V.2. Kết quả V.2.1. Xây dựng từ điển song ngữ Việt-Anh 3 4 5 6
- Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền 575 được đưa vào xây dựng từ điển, kho ngữ liệu của chúng tôi thu thập được còn chưa tốt ở những vấn đề chẳng hạn như lỗi chính tả, lỗi dư thừa các dấu, ký hiệu, ngoài ra chất lượng của từ điển còn chịu ảnh hưởng từ mức độ chính xác của bảng cụm từ được tạo ra từ moses. Từ điển du lịch được xây dựng theo phương pháp mà chúng tôi đề xuất vẫn còn chứa một số từ ngoài miền, do kho ngữ liệu song ngữ miền du lịch của tác giả là nhỏ mà tác giả lại muốn trích rút được số lượng từ nhiều, do đó trong từ điển miền du lịch vẫn còn chứa một vài từ ngoài miền du lịch. VI. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đề xuất phương pháp xây dựng tự động từ điển song ngữ Việt - Anh từ kho ngữ liệu song ngữ có gióng hàng mức câu và phương pháp xây dựng tự động từ điển song ngữ Việt-Anh miền du lịch. Các kỹ thuật mà chúng tôi đề xuất là tổng quát, có thể áp dụng để xây dựng tự động từ điển song ngữ cho bất kỳ cặp ngôn ngữ nào và cho bất cứ miền dữ liệu giới hạn nào. Phương pháp mà chúng tôi đề xuất trích rút cặp từ vựng song ngữ để xây dựng từ điển từ kho ngữ liệu song ngữ có gióng hàng câu vẫn còn hạn chế về số lượng từ trích rút được so với khả năng của nó, đặc biệt là chưa trích rút được các cặp cụm từ song ngữ, trong tương lai chúng tôi sẽ tập trung cải tiến kỹ thuật để có thể thu được số lượng cặp từ, cụm từ tương xứng với khả năng của kho ngữ liệu song ngữ có gióng hàng mức câu và nâng cao chất lượng của từ điển thu được. Đặc biệt là triển khai nghiên cứu việc ứng dụng từ điển này vào xử lý các từ mới (unknown word) trong dịch máy nơ-ron Việt-Anh. VII. TÀI LIỆU THAM KHẢO [1] Sang, Van Ngoc, “Building Vietnamese -Jrai; Jrai - Vietnamese dictionary”, Research project and technologt, Ministry level, Vietnam, 2007. [2] Van Ngoc Sang, Mohamad Bin Bilal Ali, Noor Dayana Abd Halim, “Building Cham - Vietnamese Electronic Dictionary”, Jurnal Pendidikan Nusantara, ISSN 2289 -9375 (Print). Special Edition April 2016, No. 1, pp. 215- 223. Published by Jurnal Pendidikan Nusantara, 2014. [3] R. F. Gilberg, B. A. Forouza, “Data Structures: A Pseudocode Approach With C”, Course Technology Press, 1998. [4] Amsalu, Saba, “Data-driven Amharic-English Bilingual Lexicon Acquisition”, Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06), Genoa, Italy, 2006. [5] Lavecchia Caroline , Smaï'li Kamel, Langlois David, “Building a bilingual dictionary from movie subtitles based on inter-lingual triggers”, Translating and the Computer, Londres, United Kingdom. (inria-00184421), Nov 2007. [6] Blažeković, Davor and Matetic, Maja and Brkic Bakaric, Marija, “Automatic Building of a Dictionary of Technical Terms and Collocations Based on AVL Tree”, Inproceedings, 2009. [7] Ajay Dubey and Vasudeva Varma, “Generation of Bilingual Dictionaries using Structural Properties”, computacion y Sistemas Vol.17 No.2 pp.161-168 ISSN 1405-5546, 2013. [8] Yasuda K., Sumita E, “Building a Bilingual Dictionary from a Japanese-Chinese Patent Corpus”, In: Gelbukh A. (eds) Computational Linguistics and Intelligent Text Processing. CICLing 2013. Lecture Notes in Computer Science, vol 7817. Springer, Berlin, Heidelberg, 2013. [9] Van, Ngoc Sang and Bilal Ali, Mohamad and Abd. Halim, Noor Dayana, “Building Cham Vietnamese electronic dictionary”, In: 2nd International Education Postgraduate Seminar (IEPS2014), 20-21 Dec, 2015, Johor Bahru, Johor, 2015. [10] Philipp Koehn. MOSES Statistical Machine Translation System User Manual and Code Guide, 2019. [11] H. Johnson, J. Martin, G. Foster and R. Kuhn, “Improving Translation Quality by Discarding Most of the Phrasetable”, In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), pp. 967-975, 2007 [12] Nguyễn Tiến Hà, Nguyễn Thị Minh Huyền, Nguyễn Minh Hải, “Xây dựng kho ngữ liệu du lịch song ngữ Việt - Anh gióng hàng mức câu cho dịch máy”. Các công trình nghiên cứu phát triển công nghệ thông tin và truyền thông Tập V-1, số 39, Bộ Thông tin và Truyền thông, 11.2018.