Các nhà khoa học máy tính vừa công bố một phương pháp tiếp cận mới dựa trên kỹ thuật machine learning để phân loại chất lượng các bài báo hiện nay với độ chính xác đến 80%.

Với tiêu chí đề cao “mật độ nội dung”, Ani Nenkova của Google và và Yinfei Yang thuộc Đại học Pennsylvania vừa đề xuất một hệ thống có khả năng phân loại chính xác các đầu mục tin tức trên nhiều lĩnh vực từ kinh doanh, quan hệ quốc tế cho đến thể thao và khoa học bằng cách đánh giá dựa trên một bộ dữ liệu thực tế đã được phân loại chính xác.

Hệ thống này hoạt động tương tự hầu hết các hệ thống machine learning đang có hiện nay. Bắt đầu với một loạt các bài báo làm dữ liệu nguồn đi kèm đánh dấu (annotation) chúng thuộc về một danh mục cụ thể nào đó. Chi tiết hơn, nghiên cứu này tập trung vào các đoạn mở bài, đoạn đầu tiên hoặc thứ hai của bài báo dạng truyền thống nhằm tổng kết nội dung và thu hút người đọc.

Những bài báo trên được lấy từ nguồn bài viết hiện có của trang New York Times, bao gồm bài gốc kết hợp với các siêu dữ liệu (metadata) và các thông tin tóm tắt được viết bởi các nhà nghiên cứu.

Thông qua việc tổng kết các bài viết và đoạn mở đầu của chúng, người ta đem so sánh sự khác biệt giữa hai dữ kiện này để lấy làm chỉ số về sự phong phú thông tin. Qua đó, các nhà nghiên cứu có thể giả định rằng các dòng tóm tắt sẽ đóng vai trò tối đa hóa mật độ nội dung, tức là chúng có thể đóng vai trò như là tiêu chuẩn để so sánh các bài viết.

Điều này sẽ thay đổi tùy vào lĩnh vực báo chí nhưng nhìn chung đều cho kết quả rất khả quan khi dựa trên một tập hợp các dữ liệu với 80% số liệu thống kê đã được tổng hợp. Kết quả là trong số các bài báo được phân tích, chỉ có khoảng một nửa là có mật độ nội dung được đánh giá là cao.

Quá trình chú thích nội dung tự động của dữ liệu thể hiện sự khác biệt về thông tin theo nhận thức của người đọc. Nghiên cứu này còn giúp gợi ý cho thấy cách tiếp cận nào giúp cải thiện việc tóm tắt tài liệu và đưa ra những đoạn trích ngắn trong các ứng dụng duyệt tin tức.

Trong tương lai, nhiệm vụ này có thể được mở rộng với dự đoán về mức độ câu và tích hợp trong một hệ thống tóm tắt đầy đủ chức năng. Có thể, đây sẽ là giải pháp cho vấn nạn tin tức giả mạo, một vấn nạn nổi cộm của truyền thông thế giới trong năm qua.

Theo Motherboard

BÌNH LUẬN

Please enter your comment!
Please enter your name here