Google đang thu thập mẫu thanh âm của con người trên toàn cầu trong một nỗ lực xây dựng khả năng nhận dạng giọng nói đơn giản trên quy mô rộng khắp, mở đường cho việc tích hợp điều khiển bằng giọng nói vào đồ gia dụng cho mọi nhà.

Các dịch vụ nhận dạng giọng nói dựa trên công nghệ đám mây hiện nay còn tồn tại nhiều vấn đề như độ tin cậy, độ trễ, vấn đề riêng tư và năng lượng tiêu thụ, khiến cho các nhà phát triển không thích kết hợp chúng với một thiết bị luôn lắng nghe (always-listening device) như loa thông minh.

Nhóm nghiên cứu Trí tuệ nhân tạo (AIY) tại Google đã quyết định tự xây dựng một bộ dữ liệu điều khiển giọng nói mở rộng của riêng họ (khoảng 1.4GB), bao gồm 65.000 phát ngôn có độ dài khoảng 1 giây với 30 từ tiếng Anh ngắn và đang tiếp tục phát triển nó. Bộ dữ liệu này sẽ là công cụ lập trình các hệ thống AI nhằm thực hiện một số nhiệm vụ đơn giản thể hiện qua một số lệnh phổ biến – như “Có” và “Không”, ‘Bật’ và ‘Tắt’ hay một lựa chọn phương hướng.

Bằng cách mở các dữ liệu và công cụ cần thiết trên cho cộng đồng phát triển, Google hướng tới xây dựng các mô hình hiệu quả hơn. Muốn vậy, họ cần tạo ra một chương trình hướng dẫn đào tạo hệ thống nhận dạng giọng nói bằng cách sử dụng nguồn dữ liệu mở này, bỏ qua nhu cầu chuẩn bị bất kỳ loại dữ liệu nào khác.

Hiện nay Google đã thu nhỏ được các mạng nơ-ron tích chập (CNN) có khả năng nhận ra các từ lệnh đơn giản với độ chính xác đến 85%. Mục tiêu tiếp theo của công ty này là làm cho nó có thể hoạt động được trên các bộ xử lý ARM Cortex M điện thế thấp và giá thành rẻ đang phổ biến hiện nay.

Xu hướng dịch chuyển công nghệ hiện tại là mở rộng năng lực xử lý thần kinh trên các phần cứng di động. Một khi đạt đến tiềm năng đó, Google dự đoán sẽ có rất nhiều thiết bị mới có thể hoạt động đơn giản bằng cách nghe lệnh bằng giọng nói của chúng ta.

Theo Tech Republic

BÌNH LUẬN

Please enter your comment!
Please enter your name here