Phần lớn sự chú ý trong lĩnh vực trí tuệ nhân tạo tạo sinh (generative AI) từ trước đến nay tập trung vào các giao diện dựa trên văn bản để tạo ra văn bản, hình ảnh và nhiều nội dung khác. Xu hướng tiếp theo dường như đang hướng về công nghệ giọng nói, và nó đang phát triển với tốc độ chóng mặt. Trong bước tiến mới nhất, Google vừa thông báo sẽ tích hợp Chirp 3 – mô hình chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói chất lượng cao (HD) – vào nền tảng phát triển Vertex AI bắt đầu từ tuần tới.
Tuần trước, Google đã âm thầm công bố Chirp 3 sẽ bổ sung 8 giọng nói mới cho 31 ngôn ngữ. Các ứng dụng thực tế của nền tảng này bao gồm xây dựng trợ lý ảo bằng giọng nói, tạo sách nói, phát triển tổng đài hỗ trợ và lồng tiếng cho video. Thông báo được đưa ra tại một sự kiện tổ chức ở văn phòng DeepMind của Google tại London.
Những nỗ lực của Google diễn ra đồng thời với việc nhiều công ty khác cũng đang có những bước tiến mạnh mẽ trong lĩnh vực AI giọng nói. Tuần trước, Sesame – startup đứng sau các ứng dụng AI “Maya” và “Miles” với giọng nói cực kỳ chân thực đã gây sốt – đã công bố ra mắt mô hình cho phép các nhà phát triển xây dựng ứng dụng và dịch vụ tùy chỉnh riêng dựa trên công nghệ của họ.
Đáng chú ý, Google sẽ áp dụng các hạn chế sử dụng đối với Chirp 3 nhằm kiểm soát việc lạm dụng. “Chúng tôi đang làm việc với đội ngũ an toàn để giải quyết một số vấn đề này,” Thomas Kurian, CEO của Google Cloud, cho biết tại sự kiện báo chí hôm nay.
ElevenLabs là một trong những startup lớn đã huy động hàng trăm triệu đô la vốn đầu tư để mở rộng hoạt động trong lĩnh vực dịch vụ giọng nói AI.
Thông báo này sẽ đưa Chirp 3 vào cùng hệ sinh thái với các phiên bản mới hơn của mô hình ngôn ngữ lớn (LLM) chủ lực Gemini đang được thử nghiệm, cũng như mô hình tạo hình ảnh Imagen và công cụ tạo video Veo 2 có giá thành cao.
Vẫn chưa thể xác nhận liệu giọng nói mà Google phát hành với Chirp 3 có “chân thực” như các nỗ lực AI khác trong việc tạo ra giọng nói “con người” (đặc biệt là công nghệ của Sesame nổi bật hơn cả). Tuy nhiên, như Demis Hassabis, CEO của DeepMind đã nhấn mạnh, đây vẫn là một cuộc đua marathon, không phải chạy nước rút.
“Trong ngắn hạn… ý tưởng cho rằng [AI] là giải pháp toàn năng cho mọi vấn đề trong vài năm tới, tôi không thấy điều đó sẽ xảy ra ngay lập tức. Tôi nghĩ chúng ta vẫn còn cách khá xa để đạt được điều gì đó như trí tuệ nhân tạo tổng quát (AGI),” ông nói. “AI sẽ thay đổi mọi thứ… trong thập kỷ tới, tức là trong trung và dài hạn. Đây là một trong những thời điểm thú vị trong lịch sử.”
Sự phát triển của Vertex AI
Google ra mắt Vertex AI từ năm 2021 như một nền tảng cho các nhà phát triển xây dựng dịch vụ học máy trên đám mây. Điều này diễn ra, tất nhiên, từ trước khi có sự bùng nổ quan tâm đến AI, đặc biệt là AI tạo sinh, xuất hiện cùng với việc ra mắt các dịch vụ GPT của OpenAI.
Kể từ đó, Google đã tập trung phát triển Vertex AI một phần để bắt kịp các công ty khác như Microsoft và Amazon – những đối thủ cũng đang xây dựng công cụ AI tạo sinh cho nhà phát triển. Ngoài việc xây dựng AI tạo sinh dựa trên Gemini, các nhà phát triển có thể sử dụng Vertex AI để phân loại dữ liệu, huấn luyện mô hình và thiết lập mô hình cho sản xuất. Sẽ rất thú vị nếu Google mở rộng hệ sinh thái khép kín của mình đến các mô hình ngoài những mô hình do chính Google tạo ra.
Google đã phát triển các dịch vụ giọng nói “Chirp” trong nhiều năm, bắt đầu từ việc sử dụng tên này như một mã nội bộ cho những nỗ lực ban đầu nhằm cạnh tranh với dịch vụ Alexa của Amazon.