Đề tài Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng
Khai phá quan điểm giúp xác định hướng quan điểm (tích cực, tiêu cực) của người
dùng về một chủ đề, sản phẩm hay dịch vụ. Có một số cách tiếp cận khác nhau về khai phá
quan điểm, trong đó phương pháp khai phá quan điểm dựa trên từ vựng là khá phổ biến. Độ
chính xác của phương pháp khai phá quan điểm dựa trên từ vựng phụ thuộc rất nhiều vào
từ điển được sử dụng, trong đó chứa các từ quan điểm về các lĩnh vực cụ thể. Một bộ dữ liệu
có thể thực hiện phân lớp tốt trong lĩnh vực này, nhưng lại kém hiệu quả đối với một số lĩnh
vực khác. VietSentiWordNet là từ điển quan điểm tiếng Việt được sử dụng khá phổ biến hiện
nay, nhưng thiếu nhiều từ quan điểm cho miền dữ liệu thuộc lĩnh vực du lịch. Bài báo này do
đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm
thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng
phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều
chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm.
Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan
điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.
dùng về một chủ đề, sản phẩm hay dịch vụ. Có một số cách tiếp cận khác nhau về khai phá
quan điểm, trong đó phương pháp khai phá quan điểm dựa trên từ vựng là khá phổ biến. Độ
chính xác của phương pháp khai phá quan điểm dựa trên từ vựng phụ thuộc rất nhiều vào
từ điển được sử dụng, trong đó chứa các từ quan điểm về các lĩnh vực cụ thể. Một bộ dữ liệu
có thể thực hiện phân lớp tốt trong lĩnh vực này, nhưng lại kém hiệu quả đối với một số lĩnh
vực khác. VietSentiWordNet là từ điển quan điểm tiếng Việt được sử dụng khá phổ biến hiện
nay, nhưng thiếu nhiều từ quan điểm cho miền dữ liệu thuộc lĩnh vực du lịch. Bài báo này do
đó tập trung vào việc mở rộng từ điển VietSentiWordNet với việc làm giàu các từ quan điểm
thuộc lĩnh vực du lịch, trong đó một mô hình mở rộng từ điển VietSentiWordNet sử dụng
phương pháp dựa trên từ vựng được đề xuất và một tiến trình tiền xử lý dữ liệu với nhiều
chức năng được tích hợp cũng được bổ sung nhằm nâng cao hiệu quả phân lớp quan điểm.
Kết quả thực nghiệm cho thấy rằng việc từ điển VietSentiWordNet được mở rộng đã phân lớp quan
điểm chính xác hơn đối với các câu quan điểm trong lĩnh vực du lịch.
Bạn đang xem tài liệu "Đề tài Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- de_tai_mo_rong_tu_dien_vietsentiwordnet_cho_mien_du_lieu_thu.pdf
Nội dung text: Đề tài Mở rộng từ điển Vietsentiwordnet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng
- Lê Văn Hoà Tập 129, Số 2A, 2020 Khai phá quan điểm dựa trên từ vựng thực tế cũng đã thu hút được nhiều nhà khoa học quan tâm. Cụ thể, nghiên cứu của C. Bucur [3] đã xây dựng một mô hình khai phá quan điểm, trích xuất các đánh giá về khách sạn từ các diễn đàn trên Internet và phân loại chúng dựa vào từ điển SentiWordNet [4]; V. Soni và cộng sự [5] sử dụng phương pháp dựa trên từ vựng kết hợp từ điển SentiWordNet để tìm ra các khía cạnh tích cực và tiêu cực của sản phẩm điện thoại di động trên website Amazon.com; M. Kundi và cộng sự [6] đã đề xuất một mô hình sử dụng phương pháp dựa trên từ vựng để phân lớp quan điểm với dữ liệu là các tweet trên mạng xã hội Twitter và G. Qiu và cộng sự [7] đã sử dụng phương pháp dựa trên từ điển để xác định các câu quan điểm trong quảng cáo theo ngữ cảnh. Đối với tiếng Việt, nghiên cứu của Kiều Thanh Bình và cộng sự [8] sử dụng từ điển liên quan đến các đặc trưng về cấu hình và kiểu dáng máy tính. Vũ Tiến Thành và cộng sự [9] đã xây dựng mô hình khai phá quan điểm khách hàng về các sản phẩm điện thoại di động dựa vào luật cú pháp tiếng Việt và từ điển VietSentiWordNet [10]. Rõ ràng, tùy thuộc vào từng lĩnh vực ứng dụng mà các nghiên cứu này làm giàu thêm các từ quan điểm cho lĩnh vực đó và kết quả là các mô hình khai phá quan điểm dựa trên các từ điển mở rộng này đã nâng cao được hiệu quả phân lớp quan điểm. Riêng với lĩnh vực du lịch, chưa có nghiên cứu nào về khai phá quan điểm đối với miền dữ liệu tiếng Việt. Theo P. Haseena Rahmath [11], thách thức lớn nhất đối với khai phá quan điểm là đặc tính phụ thuộc lĩnh vực của các từ quan điểm. Một bộ dữ liệu tại cùng một thời điểm có thể thực hiện phân lớp tốt trong lĩnh vực này trong khi thực hiện phân lớp kém hiệu quả đối với các lĩnh vực khác. Cùng chung với quan điểm này, Hong Nam Nguyen và cộng sự [12] cho rằng những từ điển quan điểm đang tồn tại một số giới hạn nhất định khi áp dụng để phân tích các bình luận và đánh giá tiếng Việt trong khai phá quan điểm người sử dụng. Đa số các từ điển được sử dụng trong các mô hình khai phá dữ liệu này thiếu khá nhiều từ quan điểm, đặc biệt trong các lĩnh vực cụ thể, dẫn đến hiệu quả phân lớp không cao. Từ những lý do đó, chúng tôi đề xuất mở rộng từ điển VietSentiWordNet của Vũ Xuân Sơn và cộng sự [10] với việc làm giàu thêm các từ quan điểm liên quan đến lĩnh vực du lịch. Để thực hiện điều đó, chúng tôi đề xuất một mô hình mở rộng từ điển VietSentiWordNet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng. Ý tưởng xây dựng mô hình này xuất phát từ các nghiên cứu trong [6, 8, 13, 14] với dữ liệu vào là các bình luận liên quan đến lĩnh vực du lịch. Thêm vào đó, chúng tôi đề xuất một tiến trình tiền xử lý dữ liệu với một số chức năng tích hợp nhằm nâng cao hiệu quả phân lớp, như thêm dấu, chuẩn hóa láy âm tiết (đối với những từ thể hiện cảm xúc đặc biệt), chuẩn hóa chữ viết tắt, xử lý biểu tượng cảm xúc. Các đề xuất này nhằm hướng đến xây dựng một từ điển quan điểm tiếng Việt mà có thể áp dụng cho việc phân lớp quan điểm trong lĩnh vực du lịch. Các phần tiếp theo của bài báo gồm: các phân tích về các nghiên cứu liên quan được mô tả trong Phần 2; Phần 3 đề xuất phương pháp mở rộng từ điển VietSentiWordNet cho miền dữ liệu du lịch, trong đó hai sơ đồ bổ sung từ quan điểm và tiền xử lý dữ liệu được mô tả chi tiết. Phần 4 là thực nghiệm và phân tích kết quả. Kết luận của bài báo được trình bày trong Phần 5. 16
- Lê Văn Hoà Tập 129, Số 2A, 2020 Mức khai phá Giả định được thực hiện Nhiệm vụ liên quan quan điểm Mức đặc trưng 1. Nguồn dữ liệu tập trung vào các đặc Nhiệm vụ 1: Xác định và trích xuất trưng của một đối tượng được đăng bởi các đặc trưng đối tượng đã được nhận duy nhất người nêu quan điểm. xét bởi người nêu quan điểm. 2. Không áp dụng cho bài đăng trên Nhiệm vụ 2: Xác định hướng các blog và diễn đàn vì có thể có nhiều quan quan điểm về các đặc trưng là tích cực, điểm về nhiều đối tượng trong các nguồn tiêu cực hay trung lập. đó. Nhiệm vụ 3: Gom nhóm đặc trưng đồng nghĩa. Tạo một bản tóm tắt quan điểm dựa trên đặc trưng của nhiều đánh giá. Đã có một số nghiên cứu liên quan đến khai phá quan điểm sử dụng phương pháp dựa trên từ vựng. Cụ thể, nghiên cứu của C. Bucur [3] đã đề xuất một mô hình để trích xuất và phân loại các đánh giá khách sạn được đăng bởi người dùng trên các website du lịch. Hệ thống trích xuất các đánh giá của khách sạn từ internet và sử dụng kỹ thuật khai phá quan điểm để phân loại chúng dựa vào từ điển SentiWordNet [4]. Tuy nhiên, mô hình khai phá quan điểm của tác giả xử lý ở nhiều mức (mức từ, mức câu và mức tài liệu) nên sẽ gặp khó khăn khi tổng hợp quan điểm đối với các bình luận chứa nhiều quan điểm liên quan đến nhiều đối tượng. Tương tự, nghiên cứu của V. Soni và cộng sự [5] cũng đã sử dụng phương pháp dựa trên từ vựng kết hợp với từ điển SentiWordNet. Nhóm tác giả tập trung vào việc phân tích quan điểm ở cấp độ khía cạnh để tìm ra các khía cạnh tích cực và tiêu cực của sản phẩm điện thoại trên website Amazon.com. Mục tiêu chính của phân tích mức khía cạnh là xác định các đặc trưng sẽ được phân tích, trích xuất các đặc trưng này và tính toán độ phân cực của nó. Trong nghiên cứu này, nhóm tác giả đã thiết kế một bộ từ điển dữ liệu mới cho lĩnh vực điện thoại di động. Tuy nhiên, trong giai đoạn tiền xử lý dữ liệu của nhóm tác giả chưa tích hợp các chức năng xử lý chữ viết tắt và biểu tượng cảm xúc để tăng ngữ nghĩa cho văn bản. Trong khi đó, nghiên cứu của M. Kundi và cộng sự [6] đã đề xuất một mô hình sử dụng phương pháp dựa trên từ vựng để phân lớp quan điểm với dữ liệu là các tweet trên mạng xã hội Twitter. Mô hình này dựa trên sự tổng hợp của nguồn dữ liệu là các bộ từ vựng và từ điển khác nhau. Nghiên cứu này quan tâm đến việc xử lý tiếng lóng và biểu tượng cảm xúc giúp cho việc phân lớp đạt hiệu quả cao. Ngoài ra, nghiên cứu của G. Qiu và cộng sự [7] đã sử dụng phương pháp dựa trên từ điển để xác định các câu quan điểm trong quảng cáo theo ngữ cảnh. Nhóm tác giả đã đề xuất một chiến lược quảng cáo để cải thiện mức độ phù hợp của quảng cáo và trải nghiệm người dùng. Nhóm tác giả cũng đã sử dụng phân tích cú pháp và từ điển quan điểm sau đó đề xuất một cách tiếp cận dựa trên các luật để giải quyết vấn đề trích xuất chủ đề và nhận dạng thái độ của người tiêu dùng trong trích xuất từ khóa quảng cáo. Kết quả của nhóm tác giả đã chứng minh tính hiệu quả của phương pháp đề xuất về trích xuất từ khóa quảng cáo và lựa chọn quảng cáo. Tuy nhiên, nhóm tác giả chỉ quan tâm đến việc trích xuất 18
- Lê Văn Hoà Tập 129, Số 2A, 2020 quan điểm sử dụng phương pháp dựa trên từ vựng. Hình 1 mô tả mô hình mở rộng từ điển VietSentiWordNet cho miền dữ liệu thuộc lĩnh vực du lịch sử dụng phương pháp dựa trên từ vựng. Mô hình bao gồm 4 giai đoạn thực hiện như sau: (1) Thu thập dữ liệu (2) Tiền xử lý dữ liệu (3) Phân lớp quan điểm (4) Bổ sung và loại bỏ dữ liệu trong từ điển. Hình 1. Mô hình mở rộng từ điển VietSentiWordNet cho miền dữ liệu thuộc lĩnh vực du lịch 3.1 Giai đoạn 1: Thu thập dữ liệu Để có dữ liệu đưa vào phân tích, chúng tôi tiến hành thu thập các bình luận, ý kiến đánh giá từ nhiều nguồn khác nhau như các Fanpage, diễn đàn, website liên quan đến khách sạn, nhà hàng, điểm du lịch, công ty lữ hành. Với mục tiêu thu thập được dữ liệu từ nhiều nguồn khác nhau, quá trình thu thập dữ liệu được thực hiện tự động đối với nguồn dữ liệu là các Fanpage điểm du lịch và bán tự động đối với các nguồn dữ liệu là các website, diễn đàn. Bảng 2 liệt kê hơn 31.630 câu bình luận thu thập được từ nhiều nguồn dữ liệu khác nhau. Từ dữ liệu sau khi thu thập, chúng tôi tách ra làm 2 bộ dữ liệu (bộ dữ liệu đầu vào cho quá trình xây dựng từ điển dữ liệu và bộ dữ liệu kiểm thử). 20
- Lê Văn Hoà Tập 129, Số 2A, 2020 tắt, xử lý biểu tượng cảm xúc. Trong chức năng tiền xử lý dữ liệu đầu tiên, chúng tôi tiến hành thêm dấu cho câu bình luận đối với các câu tiếng Việt không dấu. Vấn đề thêm dấu được đưa về bài toán dịch máy trong đó ngôn ngữ nguồn là tiếng Việt không dấu và ngôn ngữ đích là tiếng Việt có dấu. Bài toán dịch máy cụ thể là Sequence-to-Sequence Learning với kiến trúc Encoder- Decoder đạt hiệu quả cao khi sử dụng mô hình Transformer [18]. Trong chức năng tiền xử lý dữ liệu tiếp theo, chúng tôi tiến hành chuẩn hóa dữ liệu tiếng Việt sử dụng các quy tắc trong biểu thức chính quy (Regular Expression). Trường hợp thứ nhất: chuẩn hóa láy âm tiết (đối với những từ thể hiện cảm xúc đặc biệt), ví dụ: câu bình luận “Chất lượng dịch vụ tuyệt vờiiiiiiii” sẽ được chuẩn hóa thành “Chất lượng dịch vụ tuyệt vời” hoặc “Thức ăn ngonnn quá điiiiiiii !!!!!!!!” sẽ được chuẩn hóa thành “Thức ăn ngon quá đi !”. Trường hợp thứ hai: chuẩn hóa chữ viết tắt, hệ thống thực hiện việc thay thế các từ như: “ko”, “khong” thành từ “không” hoặc “đc”, “dc” thành từ “được” hay “ok”, “nice”, “good” thành từ “tốt” để nâng cao hiệu quả xác định hướng quan điểm cho các câu bình luận. Ngoài ra, chúng tôi còn dựa vào công cụ Demojize [19] để xử lý biểu tượng cảm xúc bằng cách chuyển các biểu tượng cảm xúc này thành văn bản. Bảng 3 mô tả danh sách các biểu tượng cảm xúc được chuyển sang dạng văn bản theo quy định của công cụ Demojize. Kết thúc giai đoạn này, chúng tôi thu thập được các câu bình luận đã chuẩn hóa và xử lý biểu tượng cảm xúc. Bảng 3. Danh sách các biểu tượng cảm xúc được chuyển sang dạng văn bản STT Biểu tượng Dạng văn bản STT Biểu tượng Dạng văn bản angry_face 8. loudly_crying_fa 1. ce 2. anguished_face 9. pensive_face 3. broken_heart 10. red_heart 4. cold_face face_blowing_a_kis 103. smiling_face 5. s 6. grimacing_face 104. thumbs_down 7. grinning_face 105. thumbs_up 3.3 Giai đoạn 3: Phân lớp quan điểm Dữ liệu đầu vào của giai đoạn này là các câu bình luận đã qua xử lý. Bước đầu tiên, chúng tôi dựa vào công cụ ViTokenizer [20] để thực hiện tách từ trong câu. Công cụ ViTokenizer sử 22
- Lê Văn Hoà Tập 129, Số 2A, 2020 2612. 1 0 :relieved_face Biển đẹp, đồ ăn lại ngon nữa chứ 2613. 0 0,625 nguy_hiểm Trời mưa đi nguy hiểm 2614. 0 0,875 lộn_xộn Biển dạo này đông đúc và lộn xộn lắm 2615. 0 0,625 gồ_ghề Đường kiệt vào khách sạn khá gồ ghề Ngoài ra, để nâng cao hiệu quả phân lớp của dữ liệu trong từ điển dữ liệu, chúng tôi thực hiện giai đoạn loại bỏ dữ liệu nhiễu. Mục đích của giai đoạn này nhằm loại bỏ những từ quan điểm trong từ điển phân lớp không chính xác thuộc lĩnh vực du lịch. Trong quá trình chạy thử nghiệm từ điển VietSentiWordNet ban đầu, chúng tôi đã phát hiện 12 từ quan điểm phân lớp không chính xác (câu tích cực mà hệ thống cho là câu tiêu cực). Bảng 5 mô tả danh sách các từ quan điểm phân lớp không chính xác. Bộ từ điển VietSentiWordNetPlus đã khắc phục được hạn chế này giúp cho kết quả phân lớp chính xác hơn. Bảng 5. Danh sách các từ quan điểm phân lớp không chính xác STT Từ quan điểm Ví dụ câu bình luận phân lớp không chính xác 1. cho Thuận tiện cho việc di chuyển; Địa điểm lí tưởng cho du lịch 2. lành Không khí rất trong lành 3. sống Chỗ này sống ảo thì tuyệt vời 4. mát mẻ Không khí trong lành mát mẻ 11. phong phú Mặt hàng phong phú; Kiến trúc phong phú 12. xanh Vườn cây xanh mát; Biển đẹp và xanh 4 Thực nghiệm và phân tích kết quả Trong thực nghiệm, có rất nhiều độ đo được sử dụng để đánh giá hiệu suất của bộ phân loại. Trong đó, bốn độ đo được sử dụng rộng rãi bao gồm: Accuracy, Precision, Recall, và F1-score [21]. Ngoài ra, ma trận Confusion là một công cụ rất hữu ích giúp phân tích mức độ hiệu quả mà bộ 24
- Lê Văn Hoà Tập 129, Số 2A, 2020 Một ví dụ minh họa về kết quả đánh giá thực nghiệm của hệ thống phân lớp sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế được mô tả như trong Bảng 7. Bảng 7. Kết quả đánh giá thực nghiệm đối với điểm du lịch Đại Nội Huế Mẫu dữ liệu thực Kết quả đánh giá tế Accurac Precisio Positive Negative Recall F-score y n TP là FP là 92,00 94,85 93,40 Hệ Positive 92 08 90,58 % % % thống % phân lớp Negativ FN là TN là 86,84 80,49 83,54 e 05 33 % % % 89,42 87,67 88,47 Trung bình % % % Từ kết quả đánh giá thực nghiệm trong Bảng 7, chúng ta thấy hiệu suất phân lớp sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế là khá cao. Trong đó, hệ thống dự đoán một lớp là Positive có Precision(Positive) là 92,00%, Recall(Positive) là 94,85%, F- score(Positive) là 93,40%; dự đoán một lớp là Negative có Precision(Negative) là 86,84%, Recall(Negative) là 80,49%, F-score(Negative) là 83,54%; độ chính xác tổng quát (Accuracy) là 90,58%. Như vậy, hiệu suất phân lớp trung bình sử dụng từ điển VietSentiWordNetPlus đối với điểm du lịch Đại Nội Huế có độ chính xác tổng quát (Accuracy) là 90,58%, độ chính xác (Precision) là 89,42%, độ đầy đủ (Recall) là 87,67% và độ đầy đủ điều hòa (F-score) là 88,47%. Chúng tôi thực hiện cài đặt với các thiết lập tương tự như trong hệ thống phân lớp quan điểm của Vũ Xuân Sơn và cộng sự để so sánh kết quả thực nghiệm phân lớp quan điểm giữa bộ từ điển VietSentiWordNet và bộ từ điển VietSentiWordNetPlus (của chúng tôi mở rộng). Bảng 8 so sánh hiệu suất xác định hướng quan điểm (theo phương pháp Accuracy và Precision - Recall) của 10 điểm du lịch giữa từ điển VietSentiWordNetPlus với từ điển VietSentiWordNet. Kết quả đánh giá hiệu suất trung bình xác định hướng quan điểm của bộ từ điển VietSentiWordNetPlus về độ chính xác tổng quát, độ chính xác, độ đầy đủ, và độ đầy đủ điều hòa lần lượt là là 87,42%; 86,32%; 85,41%; 85,63% so với 60,34%; 57,73%; 57,75%; 57,16% của bộ từ điển VietSentiWordNet ban đầu. 26
- Lê Văn Hoà Tập 129, Số 2A, 2020 Tài liệu tham khảo 1. A. Arora, C. Patil, S. Correia (2015), Opinion Mining: An Overview, International Journal of Advanced Research in Computer and Communication Engineering Vol. 4, Issue 11, pp. 94-98. 2. W. Medhat, A. Hassan, H. Korashy (2014), Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), pp. 1093-1113. 3. C. Bucur (2015), Using opinion mining techniques in tourism, in Proceedings of the 2nd Global Conference on Business, Economics, Management and Tourism, Procedia Economics and Finance 23, pp. 1666-1673. 4. S. Baccianella, A. Esuli, F. Sebastiani (2010), SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining, In: Proceedings of the 7th Conference on International Language Resources and Evaluation, pp. 2200–2204 5. V. Soni, M. Patel (2014), Unsupervised Opinion Mining From Text Reviews Using SentiWordNet, International Journal of Computer Trends and Technology (IJCTT) V11(5), pp. 234-238. 6. F. M. Kundi, A. Khan, S. Ahmad, M. Z. Asghar (2014), Lexicon-Based Sentiment Analysis in the Social Web, Journal of Basic and Applied Scientific Research, 4(6), pp. 238-248. 7. G. Qiu, X. He, F. Zhang, Y. Shi, J. Bu, C. Chen (2010), DASA: Dissatisfaction-oriented Advertising based on Sentiment Analysis. Expert Systems with Applications 37, pp. 6182–6191. 8. Kieu Thanh Binh, Pham Bao Son (2010), Sentiment Analysis for Vietnamese, In: 2010 Second International Conference on Knowledge and Systems Engineering, pp. 152–157. 9. Vu Tien Thanh, Pham Huyen Trang, Luu Cong To, Ha Quang Thuy (2011), A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese. In Semantic Methods for Knowledge Management and Communication (SCI 381), pp. 23-33. 10. Vu Xuan Son, P. Seong-Bae (2014), Construction of Vietnamese SentiWordNet by using Vietnamese Dictionary, The 40th Conference of the Korea Information Processing Society, pp. 745-748, South Korea. 11. P. Haseena Rahmath (2014), Opinion Mining and Sentiment Analysis challenges and Applications, International Journal of Application or Innovation in Engineering & Management. Volume 3, Issue 5. 12. Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, (2014). Domain Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text. The 8th Multi-Disciplinary International Workshop on Artificial Intelligence (MIWAI 2014), pp. 136-148. 13. A. Sadia, F. Khan, F. Bashir (2018), An Overview of Lexicon-Based Approach For Sentiment Analysis, International Electrical Engineering Conference, IEP Centre, Karachi, Pakistan 14. K. Aung, N. Myo (2017), Sentiment Analysis of Students’ Comment Using Lexicon Based Approach, Computer and Information Science (ICIS), IEEE/ACIS 16th International Conference IEEE, pp. 149-154. 15. B. Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage data, Springer, Second Edition. 16. N. Mishra, C.K.Jha, PhD. (2012), Classification of Opinion Mining Techniques, International Journal of Computer Applications, Volume 56 – No.13. 17. Võ Tuyết Ngân, Đỗ Thanh Nghị (2015), Phân loại ý kiến trên Twitter, Tạp chı́ Khoa học Trường Đại học Cần Thơ, pp. 32-38. 18. A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser (2017), Attention Is All You Need, arXiv:1706.03762v5 [cs.CL]. 19. T. Kim, K. Wurster (2015), emoji v.0.3.4, BSD License. 20. Viet Trung Tran (2016), Python Vietnamese Toolkit, MIT License. 21. M. Khalid, I. Ashraf, A. Mehmood, S. Ullah, M. Ahmad, G. S. Choi (2020), GBSVM: Sentiment Classification from Unstructured Reviews Using Ensemble Classifier, Appl. Sci. 10(8), 2788. 28