Các nhà nghiên cứu vừa giới thiệu một kỹ thuật tổng quát nhằm tìm hiểu ý nghĩa của các mạng thần kinh được đào tạo để thực hiện các tác vụ xử lý ngôn ngữ tự nhiên, trong đó máy tính cố gắng giải thích các văn bản tự do viết bằng ngôn ngữ bình thường hoặc tự nhiên (trái ngược với ngôn ngữ lập trình).

Ngành nghiên cứu trí tuệ nhân tạo đã biến chuyển mạnh mẽ nhờ các hệ thống machine learning được gọi là hệ thống mạng thần kinh, cho phép thực hiện nhiều nhiệm vụ bằng cách phân tích một khối lượng cực lớn dữ liệu nhằm huấn luyện máy tính.

Trong quá trình đó, mạng thần kinh liên tục điều chỉnh hàng nghìn tham số nội vi cho đến khi máy tính có thể thực hiện được nhiệm vụ một cách đáng tin cậy, như xác định đối tượng trong các hình ảnh kỹ thuật số hoặc chuyển thể văn bản từ ngôn ngữ này sang ngôn ngữ khác. Nhưng bản thân các giá trị sau cuối của các tham số này lại cho biết rất ít về cơ chế hoạt động của hệ thống mạng thần kinh.

Hiểu được nguyên lý tư duy của mạng thần kinh có thể giúp các nhà nghiên cứu cải thiện hiệu suất của chúng và áp dụng những kiến thức này vào các ứng dụng khác.

Tại hội nghị về Các phương pháp thực nghiệm Xử lý ngôn ngữ tự nhiên năm 2017 đang diễn ra, các nhà nghiên cứu từ Phòng thí nghiệm Trí tuệ nhân tạo và Khoa học máy tính của MIT đang trình bày một kỹ thuật đa năng nhằm đánh giá các mạng thần kinh được đào tạo thực hiện các nhiệm vụ xử lý ngôn ngữ tự nhiên, trong đó máy tính cố gắng tìm cách chuyển dịch những đoạn văn bản tự do được viết theo kiểu thông thường sang một ngôn ngữ khác (cần phân biệt với ngôn ngữ “có cấu trúc” như ngôn ngữ truy vấn cơ sở dữ liệu).

Kỹ thuật này áp dụng cho bất kỳ hệ thống nào hoạt động theo kiểu xử lý văn bản đầu vào và sản sinh các chuỗi biểu tượng đầu ra, chẳng hạn như các cỗ máy dịch tự động.

Kỹ thuật này có thể phân tích các kết quả từ nhiều nguồn đầu vào khác nhau cũng như kiểm tra các tác động phía đầu ra, nó có thể đánh giá các dịch vụ xử lý ngôn ngữ tự nhiên trực tuyến mà không cần nghiên cứu phần mềm bên dưới chúng.

Trên thực tế, kỹ thuật này có thể áp dụng như là một phương pháp kiểm thử hộp đen (Black box testing) đối với mọi hệ thống xử lý ngôn ngữ mà không cần quan tâm đến cơ chế vận hành bên trong. Với thí nghiệm của mình, các nhà nghiên cứu còn có thể áp dụng kỹ thuật này để nhận diện những diễn đạt không đồng nhất trong cách dịch của một người.

Kịch bản kiểm tra và Các biến thể

Ý tưởng này tương tự như kỹ thuật đã được sử dụng để phân tích các mạng thần kinh thực hiện các nhiệm vụ thị giác máy tính như nhận dạng đối tượng. Phần mềm có khả năng xáo trộn hình ảnh một cách hệ thống – hoặc tạo ra các biến thể – những phần khác nhau của một hình ảnh và gửi lại hình ảnh đến bộ nhận dạng đối tượng có thể nhận biết những đặc tính của ảnh để phân loại. Tuy nhiên, việc điều chỉnh cách tiếp cận đó đối với việc xử lý ngôn ngữ tự nhiên không đơn giản như vậy.

Tommi Jaakkola, nhà khoa học đang giữ chức danh Giáo sư Thomas Siebel của khoa Kỹ thuật Điện và Khoa học Máy tính thuộc viện MIT, một trong hai tác giả của bài báo cho biết: “Chúng tôi không thể chỉ đơn giản là xáo trộn ngẫu nhiên câu chữ như đối với hình ảnh. Mục tiêu dự đoán của hệ thống máy tính bây giờ là một đối tượng phức tạp hơn, một câu văn đầy đủ, do đó rất khó để đưa ra giải thích cụ thể”.

Trớ trêu là, để tạo ra những câu thoại thử nghiệm áp dụng trong kỹ thuật kiểm tra black-box các mạng thần kinh, Jaakkola và David Alvarez-Melis lại sử dụng một mạng thần kinh black-box khác.

(David Alvarez-Melis là một nghiên cứu sinh của MIT về kỹ thuật điện và khoa học máy tính đồng thời là tác giả đứng đầu của nghiên cứu này).

Hai nhà khoa học đã bắt đầu thí nghiệm bằng cách đào tạo một mạng lưới để “nén” và “giải nén” các câu văn tự nhiên nhằm tạo ra một số mẫu đại diện trung tính cho câu văn đó dưới dạng số hóa, sau đó cố gắng mở rộng nó lại thành dạng ban đầu. Trong quá trình đào tạo, bộ mã hóa và giải mã được xem xét đồng thời, căn cứ trên độ trung thực đầu ra của bộ giải mã có phù hợp với thông tin đầu vào của bộ mã hoá hay không.

Bình thường, mạng thần kinh phân chia sự việc theo xác suất: Ví dụ, hệ thống nhận dạng đối tượng được cung cấp hình ảnh của một con chó nhỏ, nó có thể kết luận rằng hình ảnh này có 70% xác suất đại diện cho một con chó và 25% là đại diện cho một con mèo. Tương tự như vậy, hệ thống mạng nén câu của Jaakkola và Alvarez-Melis đưa ra các phương án lựa chọn thay thế cho mỗi từ trong một câu khi giải mã, cùng với xác suất tương ứng chính xác dành cho mỗi phương án.

Bởi vì hệ thống mạng này sử dụng các từ đồng xuất hiện để tăng độ chính xác khi giải mã, cho nên xác suất đầu ra sẽ thể hiện một cụm các câu có tính liên quan đến nhau về mặt ngữ nghĩa. Ví dụ, nếu câu được mã hoá là “Cô gái thở hổn hển vì ngạc nhiên”, hệ thống có thể chỉ định các phương án thay thế với xác xuất cao nhất là “Cô ấy đã kêu lên trong sự ngạc nhiên” hoặc “Cô ấy hổn hển vì kinh dị”, bên cạnh những câu có xác suất thấp hơn như “Cô ấy choáng váng vì bất ngờ” hoặc “Cô ấy thở hổn hển vì cà phê”.

Với bất kỳ câu nào, hệ thống cũng có thể tạo ra một danh sách các câu liên quan chặt chẽ đến bản gốc, khi đó Jaakkola và Alvarez-Melis có thể dùng những câu đó để làm nguồn thông tin đào tạo mạng xử lý ngôn ngữ của mình. Kết quả là họ đã xây dựng được một danh sách dài các cặp đầu vào – đầu ra giúp cho các nhà nghiên cứu có thể phân tích bằng thuật toán để xác định những thay đổi nào ở đầu vào gây ra thay đổi tương ứng ở đầu ra.

Thí nghiệm

Các nhà nghiên cứu áp dụng kỹ thuật của họ cho 3 trường hợp khác nhau của hệ thống xử lý ngôn ngữ tự nhiên. Một là một hệ thống liên quan đến phát âm của từ; hai là bộ các công cụ dịch thuật gồm 2 hệ thống tự động và 1 người dịch; và thứ ba là một hệ thống đối thoại máy tính đơn giản, cố gắng cung cấp phản hồi cho những nhận xét hay câu hỏi tùy ý.

Đúng như mong đợi, thí nghiệm phân tích các hệ thống dịch thuật đã chứng tỏ sự phụ thuộc mạnh mẽ giữa các từ riêng lẻ trong các chuỗi đầu vào và đầu ra.

Tuy nhiên, một trong những kết quả thú vị của phân tích trên là khả năng của máy trong việc xác định các khuynh hướng giới tính trong câu văn mà hệ thống dịch được.

Ví dụ, từ “dancer” trong tiếng Anh không phân biệt giới tính nhưng trong tiếng Pháp lại phân chia thành hai loại là “danseur” và “danseuse“. Khi dịch câu “Vũ công thật là duyên dáng” theo ngôi nữ, kết quả cho ra là “la danseuse est charmante.”

Các phân tích cho thấy việc chọn từ “danseuse” chịu ảnh hưởng nặng nề bởi từ “quyến rũ” đứng sau từ “vũ công“. Nếu sử dụng một tính từ khác ở vị trí đó, có thể sẽ dẫn đến một bản dịch khác của từ này.

Hệ thống đối thoại, công cụ được lập trình dựa trên những câu trò chuyện trích từ các bộ phim Hollywood, đã được cố tình khống chế vai trò trong thử nghiệm này. Mặc dù bộ dữ liệu lập trình trên là rất lớn, bản thân mạng thần kinh lại không mấy tận dụng nó.

Alvarez-Melis giải thích: “Thử nghiệm mà chúng tôi thực hiện là trên các hệ thống chưa hoàn thiện. Nếu bạn có một mô hình kiểm thử black-box không được tốt lắm, bạn có mạo hiểm sử dụng phương pháp tiếp cận này ngay từ đầu để xác định vấn đề? Mục đích của kỹ thuật mà chúng tôi xây dựng là cải thiện quá trình chuyển dịch ngôn ngữ để sửa chữa, cải thiện các hệ thống dịch tự động hiện nay bằng cách tìm hiểu những sai sót và nguyên nhân gây nên chúng”.

Trong trường hợp này, các nhà nghiên cứu đã phân tích rằng một hệ thống đối thoại thường chỉ dựa vào một vài từ trong một cụm dữ liệu đầu vào rồi sử dụng nó để lựa chọn các từ cho đầu ra – ví dụ bất cứ câu hỏi nào bắt đầu với một từ để hỏi như “Ai” hoặc “Cái gì” đều sẽ có khả năng lớn được máy chuẩn bị sẵn câu trả lời là “Tôi không biết”.

BÌNH LUẬN

Please enter your comment!
Please enter your name here