• Chia sẻ bài viết Sử dụng công cụ dịch Google Translate trên Wikipedia: thảm họa chất lượng nội dung lên Linkhay
  • Giúp ictnews sửa lỗi

Sử dụng công cụ dịch Google Translate trên Wikipedia: thảm họa chất lượng nội dung

Các phiên bản ngôn ngữ quy mô nhỏ thực sự cần có các công cụ dịch máy để mở rộng kho nội dung của mình, trong bối cảnh có quá ít tình nguyện viên tham gia xây dựng chúng. Tuy vậy, liệu các công cụ dịch máy hiện nay có thể đáp ứng được yêu cầu về chất lượng dịch thuật và độ chính xác về mặt tri thức đối với một bách khoa toàn thư mà mọi người đều tin dùng hay chưa?

Wikipedia được thành lập với mục tiêu cung cấp các tri thức mở, miễn phí cho tất cả mọi người trên khắp thế giới — song ở thời điểm hiện tại, đa số nội dung chất lượng của bách khoa toàn thư này đều viết bằng tiếng Anh. Phiên bản Wikipedia tiếng Anh là phiên bản có quy mô lớn nhất ở thời điểm hiện tại, với khoảng 5,5 triệu bài viết. Trong tổng số 301 phiên bản ngôn ngữ khác nhau của Wikipedia, chỉ có 15 phiên bản ngôn ngữ có trên 1 triệu bài viết. Chất lượng của các bài viết này có sự khác biệt rất đáng kể. Nhiều phiên bản ngôn ngữ thiếu khá nhiều bài viết cơ bản. Có 206/301 phiên bản ngôn ngữ không có bài viết về "hạnh phúc" và có quá nửa trong số 301 phiên bản ngôn ngữ không có bài viết về "loài homo sapiens" (người hiện đại).

Có vẻ như vấn đề này hoàn toàn có thể được giải quyết nhờ vào các công cụ dịch máy. Hồi tháng 1 vừa qua, Google đã phối hợp với Quỹ Wikimedia (tổ chức điều hành các dự án tri thức mở, trong đó có Wikipedia) để bước đầu tìm cách khắc phục vấn đề trên, thông qua việc tích hợp dịch vụ dịch thuật Google Translate của Google vào công cụ biên dịch nội dung của chính Wikimedia. Trước đây, công cụ biên dịch nội dung của Wikipedia là một phần mềm mã nguồn mở ít được sử dụng, do đó tồn tại nhiều vấn đề. Vì vậy, việc sử dụng công cụ dịch thuật Google Translate vô cùng phổ biến của Google được coi như đã mở ra những tiềm năng rất lớn với sự phát triển về nội dung của bách khoa toàn thư này. Dù vậy, các biên tập viên đang hoạt động trên các phiên bản ngôn ngữ không phải tiếng Anh lại cho rằng công cụ biên dịch nội dung mới giống như một "lời nguyền" nhiều hơn là phép màu, từ đó dấy lên cuộc tranh luận về việc liệu có nên ứng dụng dịch máy vào bách khoa toàn thư Wikipedia hay không.

Được tích hợp dưới dạng một tính năng thử nghiệm, công cụ biên dịch nội dung của Wikipedia cho phép các biên tập viên xem trước một bản dịch (máy) mẫu của bài viết tương đương từ phiên bản ngôn ngữ khác. Nếu được sử dụng một cách hợp lý, công cụ này có thể giúp tiết kiệm thời gian cho các biên tập viên đang hoạt động tại các phiên bản ngôn ngữ có nguồn nhân lực hạn chế — nhưng nếu bị lạm dụng sai cách, hậu quả có thể sẽ rất nghiêm trọng. Một quản trị viên toàn hệ thống của Wikipedia đã chỉ ra một lỗi dịch thuật rất "nguy hiểm" khi sử dụng công cụ dịch máy tự động từ phiên bản tiếng Anh sang tiếng Bồ Đào Nha. Trang "Village Pump" (nghĩa đen: khu bơm nước chung của làng, nghĩa bóng: một khu vực công cộng cho phép các biên tập viên có thể trao đổi những vấn đề chung, giúp đỡ người mới…) thì khi chuyển sang tiếng Bồ Đào Nha, máy lại dịch thành "đánh bom ngôi làng" (!)

"Nhiều người cho rằng Google Translate là một công cụ hoàn hảo," vị quản trị viên trên cho hay. Phóng viên chuyên trang The Verge liên hệ với người này thông qua tên tài khoản của anh/chị ta trên Wikipedia là Vermont. "Nhưng chắc chắn là nó không thể là phương tiện thay thế hoàn toàn để hiểu được một ngôn ngữ."

Những bản dịch máy lủng củng và thậm chí là sai lệch hẳn về ý nghĩa đã trở thành một vấn đề nhức nhối của Wikipedia trong một thời gan dài, đến mức mà một số phiên bản ngôn ngữ đã thiết lập những quy tắc đặc biệt cho phép các quản trị viên loại bỏ những bài viết như vậy mà không cần thông qua thảo luận của cộng đồng. Phiên bản Wikipedia tiếng Anh đã biểu quyết để xây dựng một tiêu chuẩn "xoá nhanh bài viết" tạm thời nhằm cho phép các quản trị viên xoá "bất kỳ trang nào được tạo bởi công cụ biên dịch nội dung trước ngày 27 tháng 7 năm 2016," miễn là trong lịch sử trang đó không có phiên bản nào do người thực dịch. Tên của tiêu chuẩn xoá nhanh bài "đặc biệt" này là "X2. Trang được tạo ra bởi công cụ biên dịch nội dung."

Đây có thể là điều bất ngờ nếu bạn theo dõi thông tin trên các phương tiện truyền thông gần đây rằng trí tuệ nhân tạo đang đạt được những kết quả dịch thuật "ngang ngửa" với người thực. Tuy nhiên kết quả trên thu được trong điều kiện những bài test nhỏ lẻ, được thiết kế riêng để phù hợp với khả năng trung bình của công nghệ dịch máy. Còn khi phần mềm được triển khai ứng dụng ngoài thực tế, các hạn chế của trí tuệ nhân tạo được thể hiện rõ hơn rất nhiều. Theo ông Douglas Hofstadter, Giáo sư về Khoa học nhận thức tại Trường Đại học Indiana Bloomington, trí tuệ nhân tạo (AI) thường cho ra những bản dịch khá "nông" về nghĩa. Mặc dù nó có thể dịch ra những văn bản bề ngoài khá lưu loát, song lại thường để sót mất những tầng ý nghĩa sâu xa của các từ ngữ và câu. Các hệ thống AI học cách dịch văn bản thông qua việc nghiên cứu và chọn ra các mô hình lặp đi lặp lại từ những khối dữ liệu lớn được sử dụng để đào tạo chúng. Nhưng điều đó có nghĩa là chúng sẽ hoàn toàn "bất lực" với các sắc thái ngôn ngữ không được sử dụng thường xuyên, nếu thiếu đi những tư duy thường thức của con người.

Vấn đề của các biên tập viên trên Wikipedia là khoảng cách về trình độ và kĩ năng giữa họ. Các bản dịch máy cần có con người kiểm tra cẩn thận; bản thân những tình nguyện viên tham gia dịch bài phải có hiểu biết tốt cả ngôn ngữ nguồn và ngôn ngữ đích. Đây là một khó khăn thực sự đối với các phiên bản Wikipedia nhỏ, vốn đã luôn ở trong tình trạng thiếu tình nguyện viên.

Guilherme Morandini, quản trị viên phiên bản Wikipedia tiếng Bồ Đào Nha, thường thấy các tình nguyện viên trực tiếp xuất bản các bài viết được dịch máy từ các phiên bản ngôn ngữ khác sang mà không có sự kiểm tra, đối chiếu nào. Theo kinh nghiệm của anh, kết quả của những bài viết dịch máy như thế thường là những câu văn lủng củng hoặc thậm chí là hoàn toàn vô nghĩa, là một "thảm hoạ" đối với một trang web vốn được coi như một trong những nguồn thông tin đáng tin cậy nhất của thế giới Internet. Trả lời phóng viên chuyên trang The Verge, Morandini lấy ví dụ là bài viết về nhân vật Jusuf Nurkić, được "dịch máy" từ bài viết tiếng Anh sang tiếng Bồ Đào Nha. Dòng đầu tiên "... é um Bósnio profissional que atualmente joga ..." dịch ra có nghĩa là "... một chuyên gia người Bosnian hiện đang chơi cho ...," khác khá nhiều so với phiên bản tiếng Anh "… is a Bosnian professional basketball player" (là một vận động viên bóng rổ chuyên nghiệp người Bosnia).

Cộng đồng Wikipedia tiếng Indonesia thậm chí còn có những động thái quyết liệt hơn khi yêu cầu Quỹ Wikimedia loại bỏ công cụ trên khỏi phiên bản Wikipedia của họ. Quỹ Wikimedia tỏ thái độ miễn cưỡng với yêu cầu này (dựa trên các cuộc trao đổi qua lại giữa Quỹ và cộng đồng Wikipedia tiếng Indonesia) – trên thực tế, trong quá khứ Wikimedia đã từng sử dụng "quyền lực" của mình để ngăn cản các yêu cầu dựa trên ý kiến đồng thuận chung của cộng đồng. Một số người còn bày tỏ lo ngại sự việc tương tự như với công cụ Media Viewer hồi năm 2014 có thể sẽ lặp lại, vốn đã gây mâu thuẫn và mất niềm tin sâu sắc giữa Quỹ Wikimedia và các cộng đồng người dùng mà Quỹ này đang vận hành.

João Alexandre Peschanski, Giáo sư chuyên ngành Báo chí tại Trường Đại học Faculdade Cásper Líbero, Brazil, người hiện đang giảng dạy một khoá học trên nền tảng Wikiversity (cũng do Quỹ Wikimedia vận hành), là một trong những người cũng tham gia chỉ trích hệ thống dịch máy hiện tại của Quỹ. Peschanski cho biết "cần thảo luận một chiến lược áp dụng với toàn bộ cộng đồng người dùng để cải thiện chất lượng máy học, bởi hiệu quả công việc của chúng ta đang bị giảm sút rất nhiều chủ yếu bởi mất quá nhiều thời gian vào công đoạn dịch thuật phức tạp." Việc dịch thuật là mấu chốt, là chìa khoá, và theo kinh nghiệm của Peschanski, các hệ thống dịch thuật tự động hoạt động "khá tốt". Theo ông, vấn đề chính ở đây là việc tìm những trang "bản mẫu" (template) tương đương giữa các phiên bản ngôn ngữ khác nhau. Các bản mẫu là nơi lưu trữ những nội dung lặp đi lặp lại ở nhiều bài viết và thậm chí là giữa các phiên bản ngôn ngữ với nhau. Nhờ chúng mà việc phân tích và xử lý ngôn ngữ có thể diễn ra một cách tự động và giảm bớt lượng nội dung cần dịch.

Peschanski nhìn nhận dịch thuật là một hoạt động "tái sử dụng" và "thích nghi", trong đó việc "tái sử dụng" dữ liệu giữa các phiên bản ngôn ngữ còn phải phụ thuộc vào việc liệu các ngôn ngữ khác có chứa những bài viết với chủ đề tương đương hay không. Trong khi đó, "thích nghi" là quá trình "chuyển tải những bối cảnh văn hoá và ngôn ngữ đặc trưng, cụ thể của một ngôn ngữ hoàn toàn khác" vào bản dịch. Giải pháp vĩ mô hơn cần triển khai lúc này là phải áp dụng một hệ thống quy định cấm hoàn toàn các bản dịch máy mà không qua biên tập viên kiểm tra lại.

Đa số người dùng trả lời phỏng vấn của chuyên trang The Verge đều cho biết họ mong muốn kết hợp giữa dịch thuật thủ công và dịch máy, tuy nhiên dịch máy chỉ được áp dụng để tra cứu một số thuật ngữ cụ thể. Tất cả mọi người đều đồng tình với ý kiến của Vermont cho rằng "dịch máy sẽ không bao giờ có thể trở thành một phương thức viết bài trên Wikipedia, đơn giản là bởi máy móc hiện nay vẫn chưa thể hiểu hoàn toàn được những cụm từ phức tạp mà con người sử dụng, nhất là trong những trường hợp các ngôn ngữ khác nhau không có những cụm từ với ý nghĩa tương đương," song cũng không hoàn toàn phủ nhận vai trò của dịch máy.

Đối mặt với những rào cản như vậy, các dự án ngôn ngữ quy mô nhỏ sẽ luôn ở trong tình trạng thua kém về chất lượng so với Wikipedia tiếng Anh. Trên thực tế, chất lượng là một khái niệm tương đối; việc loại bỏ hoàn toàn những bài viết chưa hoàn thiện hoặc chất lượng viết kém là bất khả thi. Tuy vậy, điều gì cũng có cái giá của nó. "Ở Brazil," Morandini chia sẻ, "Wikipedia vẫn được coi là một nguồn không đáng tin cậy," và những bài viết dịch thuật cẩu thả từ phiên bản tiếng Anh sang chắc chắn sẽ không thể giúp cải thiện tiếng xấu đó. Cả Vermont và Morandini đều đồng tình rằng, đối với trường hợp những bài viết hoàn toàn là dịch máy, thì thà xoá những bài đó đi còn hơn. Bởi đa số các bài viết đó đều có "chất lượng quá tệ để mà giữ lại."

Quang Huy

 

Theo VnReview

Tương tác trực tiếp với ICTnews trên Facebook

CEO Sundar Pichai tiết lộ tiềm năng "hái ra tiền" của Google Translate trong dịp World Cup 2018
ICTnews - Trong báo cáo tài chính hôm thứ 2 vừa qua CEO Sundar Pichai đầy tự hào khi nhắc về sự tăng trưởng trong việc sử dụng dịch vụ Google...
Google Translate đã hỗ trợ tiếng Việt cho tính năng dịch qua camera
Hôm nay, tính năng dịch qua máy ảnh của ứng dụng Google Translate sẽ hỗ trợ thêm 13 ngôn ngữ mới, trong đó có tiếng Việt.

Video đang được xem nhiều

  • Chia sẻ bài viết Sử dụng công cụ dịch Google Translate trên Wikipedia: thảm họa chất lượng nội dung lên Linkhay
  • Giúp ictnews sửa lỗi

Bài viết chưa có bình luận nào.

lên đầu trang