Trong 10 năm trở lại đây, việc ứng dụng trí tuệ nhân tạo (Intelligent Artificial) trong các ngành kỹ thuật nói chung và ngành xử lý ngôn ngữ nói riêng đạt nhiều kết quả rất ấn tượng, mang tính đột phá. Ngành nhận dạng tiếng nói (Automatic Speech Recognition hay Speech-To-Text) cũng nhờ vậy mà thu được những thành tựu to lớn…

Lời nói đầu:
Trong 10 năm trở lại đây, việc ứng dụng trí tuệ nhân tạo (Intelligent Artificial) trong các ngành kỹ thuật nói chung và ngành xử lý ngôn ngữ nói riêng đạt nhiều kết quả rất ấn tượng, mang tính đột phá. Ngành nhận dạng tiếng nói (Automatic Speech Recognition hay Speech-To-Text) cũng nhờ vậy mà thu được những thành tựu to lớn. Lý do quan trọng nào mà các ứng dụng của trí tuệ nhân tạo trở nên rộng rãi như vậy? Trong khuân khổ bài viết này, tôi sẽ tìm cách trả lời câu hỏi này và giới thiệu một số nét sơ lược về ngành nhận dạng tiếng nói, đặc biệt là các văn bản nói. Từ đó bàn thêm những xu hướng chính hiện nay trong ngành và khái quát một số vấn đề đặc thù và các nghiên cứu hiện nay về tiếng Việt.
Tổng quan
Trong thời đại của chúng ta, các ứng dụng sử dụng tiếng nói để giao tiếp với máy tính hay các thiết bị thông minh đang dần trở nên thông dụng trong cuộc sống đời thường. Bạn có thể ra lệnh bằng giọng nói cho thiết bị Google hay Amazon để bật đèn lên khi bạn về nhà hay giảm bớt âm lượng của dàn âm thanh khi bạn có khách đến nhà chơi. Bạn cũng có thể ra lệnh cho điện thoại iPhone quay số điện thoại cho khách hàng, hỏi về thời tiết ngày mai tại New York hay giúp bạn nhắn tin bằng giọng nói khi bạn đang lái xe hơi. Các hệ thống nhận dạng tiếng nói tích hợp trong các thiết bị kết nối đang ngày một trở nên chính xác hơn, thông minh hơn dẫn tới hữu ích cho cuộc sống hơn.
Tuy vậy ứng dụng về nhận dạng tiếng nói không chỉ dừng ở mức giúp bạn giao tiếp thuận tiện với hệ thống thông minh. Bạn xem video trên Youtube mà bạn không hiểu nội dung? Không vấn đề gì, bạn có thể bật phụ đề và thậm trí dịch phụ đề này sang ngôn ngữ mà bạn muốn xem. Một số video được người tạo ra nó tự biên tập phụ đề. Nhưng đa số phụ đề của Youtube được sinh ra bằng hệ thống nhận dạng văn bản tiếng nói của Google, công ty mẹ của Youtube. Ngoài ra, hệ thống nhận dạng văn bản nói kiểu này có thể được áp dụng để sinh phụ đề cho các chương trình TV phát trực tiếp, ghi lại biên bản các buổi họp trực tuyến, hay chuyển các tệp video/audio, các cuộc nói chuyện điện thoại sang văn bản để quản lý tìm kiếm được dễ dàng trong các trung tâm lưu trữ quốc gia về tài liệu đa phương tiện hay tại các trung tâm phân tích về chất lượng dịch vụ khách hàng của các tổng đài điện thoại.
Một hệ thống nhận dạng văn bản nói đầy đủ hơn và phức tạp hơn là nhận dạng tiếng nói trực tiếp từ micro. Như mô tả ở hình 1, hệ thống nhận dạng văn bản nói bao gồm một số bước chính: phát hiện tiếng nói (speech detection), phân đoạn theo người nói (speaker diarization) và nhận dạng tiếng nói cho từng phân đoạn tín hiệu tiếng nói (speech-to-text).

Nhận dạng tiếng nói trực tiếp từ micro hay từ các phân đoạn tiếng nói trong một văn bản nói sử dụng các kỹ thuật giống nhau. Các kỹ thuật này bắt đầu được nghiên cứu rộng rãi trên thế giới từ hơn 30 năm nay. Hình 2 giới thiệu về cấu trúc cơ bản của một bộ nhận dạng với mô hình ngữ âm (acoustic model), mô hình phát âm (pronunciation model) và mô hình ngôn ngữ (language model).

Mô hình phát âm thường đơn giản chỉ là một từ điển phát âm với xác suất sử dụng cho mỗi phiên âm của cùng một từ. Mô hình ngôn ngữ thường là mô hình thống kê từ vựng n-gram, mạng nơ-ron quy hổi (Recurrent Neural Network) không hoặc có bộ nhớ LSTM (Long Short-Term Memory[1]).
Từ nhiều năm nay, mô hình ngữ âm dựa trên mô hình Markov ẩn (HMM[2]) trong đó mỗi âm vị (phoneme) được mô hình hóa bằng một mô hình GMM (Gaussian Mixture Model) hoặc tất cả các âm vị được mô hình hóa trong một mạng nơ-ron (Neural Network)[3]
Từ khoảng chục năm lại đây, sức mạnh của máy tính cho phép các nhà khoa học thử nghiệm nhiều mô hình mạng nơ-ron lớn hơn, phức tạp hơn, hiệu quả đạt được cũng cao hơn rất nhiều. Tuy vậy, những mô hình mạng nơ-ron được sử dụng rộng rãi gần đây như mạng tích chập CNN (Convolutional Neural Network), LSTM hay mạng thời gian trễ TDNN (Time Delay Neural Network[4]) thực ra đã được thử nghiệm trong nhận dạng tiếng nói từ những năm 90 của thế kỷ trước. Với tôi, chính sức mạnh của máy tính thời gian gần đây mới chính là chìa khóa để các tính toán trên mạng nơ-ron (lên đến vài chục lớp ẩn với vài chục triệu nơ-ron) gặt hái được nhiều thành công đến như vậy.
Nhận dạng tiếng nói tiếng Việt
Theo các nhà nghiên cứu về ngôn ngữ học, tiếng Việt là ngôn ngữ có thanh điệu (gồm 6 thanh điệu), đơn âm tiết (gồm khoảng 6500 âm tiết, chưa tính các từ nước ngoài hay từ mượn từ ngôn ngữ khác). Các nghiên cứu về hệ thống nhận dạng tiếng nói tiếng Việt (phát âm liên tục với từ điển nhận dang không hạn chế) được bắt đầu từ khoảng những năm 2005 (V. B. Le 2005[5], T. T. Vu 2005[6]). Các nghiên cứu về tiếng Việt tập trung vào những đặc điểm riêng của ngôn ngữ so với các ngôn ngữ phổ biến khác như: ít dữ liệu để luyện mô hình (V. B. Le 2005), ngôn ngữ có thanh điệu (T. T. Vu 2005, N. T. Vu 2009[7]) hay phân tách từ trong mô hình ngôn ngữ (H. Q. Nguyen, 2008[8]). Thực ra những đặc điểm về thanh điệu hay phân tách từ cũng tồn tại ở nhiều ngôn ngữ khác ở châu Á như tiếng Trung, tiếng Hàn hay tiếng Nhật. Do vậy, các nhà nghiên cứu về tiếng Việt có thể học tập, thử nghiêm hay cùng trao đổi các phương pháp đã áp dụng thành công cho các ngôn ngữ này.
Từ một vài năm trở lại đây khi các ứng dụng về trí tuệ nhân tạo được áp dụng rộng rãi trên thế giới, công đồng các nhà khoa học hay các doanh nghiệp Việt cũng háo hức nghiên cứu, thử nghiệm, tìm các giải pháp giải quyết các bài toán của doanh nghiệp. Các nghiên cứu và ứng dụng về nhận dạng tiếng nói tiếng Việt cũng được quan tâm đầu tư sâu và rộng hơn nhiều. Chúng ta có thể kể đến các hoạt động nghiên cứu phát triển cùng với giải pháp của các công ty trong nước như ViettelAI[9], FPT.AI[10], VAIS[11] hay Zalo. Tuy nhiên, các giải pháp này đa phần được thiết kế cho các ứng dụng về trợ giúp thông minh (chatbot, voicebot), giao tiếp người máy hay điều khiển các thiết bị thông minh. Hiện vẫn ít giải pháp được thiết kế cho văn bản nói.
Để các nhà nghiên cứu và phát triển ứng dụng trong nước có cơ hội cùng làm việc hay trao đổi các giải pháp với nhau, cộng đồng Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP[12]) được thành lập và là nơi tập hợp các nhóm nghiên cứu thuộc cả hai khối hàn lâm và công nghiệp trong lĩnh vực xử lí ngôn ngữ và tiếng nói tiếng Việt. Hàng năm, VLSP tổ chức một cuộc thi về các lĩnh vực về xử lý ngôn ngữ và tiếng nói. Ban tổ chức VLSP cung cấp đầy đủ dữ liệu, tài nguyên để các nhà nghiên cứu và phát triển xây dựng hệ thống, từ đó thi đua với nhau, cùng đánh giá hiệu quả và xếp hạng từng hệ thống tham gia. Hình thức tổ chức các cuộc thi này khá giống với các cuộc thi quốc tế được tổ chức bởi Viện Tiêu chuẩn và Kỹ thuật quốc gia Mỹ (NIST[13]). Hội thảo khoa học sau mỗi cuộc thi là lúc các nhà nghiên cứu và phát triển trao đổi, đóng góp, nhìn lại về các hệ thống và giải pháp áp dụng, từ đó có những giải pháp mới và đầu tư trọng tâm hơn.
Lời kết và một số hướng nghiên cứu hiện nay
Trong bài báo này, tôi trình bày tổng quan về nhận dạng tiếng nói nói chung và một số nét về nhận dạng tiếng nói cho tiếng Việt nói riêng. Nhờ sức mạnh máy tính, việc ứng dụng một cách hiệu quả của mạng nơ-ron trong nhận dạng tiếng nói tăng tính chính xác của hệ thống và giảm thời gian tính toán rất nhiều.
Xu hướng lớn hiện nay là tạo ra một bộ nhận dạng hoàn chỉnh được thiết kế đơn giản nhưng hiệu quả. Giải pháp đầu-cuổi (End-to-End) sử dụng một mô hình duy nhất (mạng nơ-ron Transformer chẳng hạn) gộp chung các thành phần khác nhau của hệ thống (mô hình ngữ âm, mô hình phát âm và mô hình ngôn ngữ). Đầu vào của mô hình là dữ liệu âm thanh, đầu ra của mô hình là các một chuỗi các từ tương ứng với dữ liệu âm thanh đó. Giải pháp này cũng cho phép chúng ta mô hình hóa các đơn vị phát âm khác trong tiếng Việt như chữ cái (grapheme), âm đầu và vần (initial/final) và có khi cả một âm tiết với thanh điệu hoặc không. Tôi tin rằng chỉ cần có đủ dữ liệu, các bộ nhận dạng tiếng nói tiếng Việt sẽ đạt được hiệu quả ngang với các ngôn ngữ thông dụng khác, thậm trí vượt cả khả năng nhận dạng của chính con người. Chúng ta hãy cùng chờ xem.