Các thành viên nhóm nghiên cứu “dạy” nói cho người ảo - Ảnh: Trần Huỳnh Tác giả hệ thống độc đáo này là nhóm nghiên cứu thuộc Phòng trí óc nhân tạo (AILab) Trường ĐH Khoa học thiên nhiên (ĐHQG TP.HCM).
- Quý khách muốn kết nối đến phòng, ban nào? - Xin cho gặp phòng đào tạo - Quý khách muốn kết nối đến phòng đào tạo đúng hay sai? - Đúng rồi!” Đoạn đối thoại này chúng tôi ghi nhận bao da ipad đà nẵng được khi gọi vào số điện thoại 73089… - tổng đài của Trường ĐH Khoa học tự nhiên. Cảm nhận của người gọi là đang được một điện thoại viên đáp ở đầu dây bên kia. Nhưng thật bất ngờ khi PGS.TS Vũ Hải Quân, trưởng phòng thí điểm AILab, chủ nhiệm đề tài, tiết lậu không có người nào ở đầu dây bên kia, chỉ là “người ảo” mà thôi. Người ảo đó chính là hệ thống hỏi đáp thông báo tự động bằng nhận dạng giọng nói (VIS). Sau khi “nghe” tiếng nói từ đầu dây bên kia, “người ảo” sẽ hấp thu thông báo thông qua bộ phận nhận dạng giọng nói, rồi xử lý và giải đáp tức khắc y như một con người thật sự. ThS Lê Hà Minh, thành viên nhóm nghiên cứu, cho biết để tạo được sự tương tác trực tiếp với người dùng thông qua giọng nói tiếng Việt, VIS được tích hợp hai công nghệ nhận dạng tiếng nói, tổng hợp ngôn ngữ trên phần mềm giao tiếp với mạng điện thoại bên ngoài. “Người ảo” này có thể “hiểu”, giải đáp được người nói tiếng Việt với phương ngữ chính yếu của ba miền tại VN: Bắc, Trung, Nam. Trong đó, lợi thế hơn cả là tiếng Sài Gòn, tiếng Hà Nội và một số địa phương ở miền Trung. Để giúp “máy” có thể hiểu và xử lý được tiếng nói, nhóm nghiên cứu đã phải “tập nói, tập nghe” cho bộ xử lý. ThS Phạm Minh Nhựt, một thành viên khác của nhóm, cho biết việc làm này giống như dạy một đứa trẻ nói tiếng Việt vậy, “dạy” được càng nhiều thì hệ thống sẽ hiểu và đáp càng trôi chảy. Bộ nhớ của kho dữ liệu sẽ quyết định “trí sáng ý” của hệ thống. Nhóm nghiên cứu đã làm đầy kho dữ liệu nhận dạng giọng nói bằng cách thu âm giọng nói mẫu và cập nhật vào “hạt nhân” của hệ thống. “Chúng tôi thu mẫu giọng Sài Gòn nhiều nhất và cũng là giọng chuẩn nhất mà hệ thống có thể phục vụ ở thời khắc ngày nay. Giọng miền Bắc thì cho máy “nghe” giọng từ Đài tiếng nói VN và cũng phải “nghe” nhiều lần máy mới “nhớ và hiểu được giọng của từng phương ngữ khác nhau” - ThS Lê Hà Minh kể. bao da ipad 4 vivaNhư đứa trẻ bắt đầu xúc tiếp với một ngôn ngữ mới, công nghệ nhận dạng giọng nói cũng bắt đầu từ các âm vị, âm tiết và từ từ mới tiến đến câu… Thế nên, nhóm nghiên cứu đã mất một thời gian dài “vật lộn” mới hoàn tất được công nghệ nhận dạng giọng nói Việt để tích hợp trên VIS. Tuy rứa giải quyết tối đa các phương ngữ tiếng Việt (bằng cả giọng nam và nữ), nhưng theo ThS Minh, ngoài tiếng nói phổ biến thì phương ngữ tiếng Việt nhiều vùng miền (đặc biệt là miền Trung và miền Tây Nam bộ) có thể là một rào cản giải đáp của hệ thống. Tại nhiều nước, các hệ thống giải đáp tự động bằng tiếng Anh đã được đưa vào sử dụng nhưng ở VN, một hệ thống hỏi đáp bằng tiếng Việt qua tổng đài điện thoại mới chỉ dừng lại ở các nghiên cứu lý thuyết. Một trong những lý do quan yếu mà nhóm nghiên cứu quyết đeo bám đề tài này chính là bài toán điện thoại nội bộ với quá nhiều đầu số và không bác ái viên trực tổng đài ở Trường ĐH Khoa học tự nhiên. Trường có hai cơ sở và trước đó phải sử dụng đến hơn 100 đầu số, rất tốn bao da ipad mini hà nội kém và khó ghi nhớ. Vào thời điểm tuyển sinh, số điện thoại của trường ngay bị nghẽn. Từ năm 2010, nhóm nghiên cứu bắt đầu phát triển VIS dựa trên những nghiên cứu về nhận dạng ngôn ngữ và tổng hợp tiếng nói mà nhóm thực hành từ năm 2009 do ĐHQG TP.HCM, Sở KH&CN TP.HCM tài trợ. Đến cuối năm 2012, một hệ thống đáp tự động đã chính thức được lắp đặt thử nghiệm thay thế tổng đài mà Trường ĐH Khoa học thiên nhiên đã dùng trước đó. VIS có những ưu thế riêng như không cần người trực, hệ chuyển mạch riêng có thể xử lý cùng lúc nhiều cuộc gọi. Ngoài ra, người dùng cũng rất ấn tượng với chức năng “người ảo” hoàn toàn mới này. Ứng dụng của VIS không dừng lại ở việc trở thành những “tổng đài sáng dạ”. VIS có thể dùng làm hạt nhân cho các phần mềm tương tác ngôn ngữ của AILab như áp dụng báo nói, trợ lý du lịch, tương trợ người khiếm thị. Ngoại giả, VIS có thể dùng làm hệ thống bình chọn; cung cấp các loại thông tin; hỏi từ khóa; tổng hợp các thông báo về tỉ giá, sức khỏe; có thể giúp điều khiển đèn, tivi… bằng giọng nói; các hệ thống dịch vụ hàng không, ngân hàng phê chuẩn điện thoại… TRẦN HUỲNH - MỸ DUNG
|

0 nhận xét:
Đăng nhận xét