Tận Dụng Tối Đa Khả Năng Về Giọng Nói Của AI Thuyết Trình
Một nội dung truyền đạt bằng giọng nói thành công không chỉ nằm ở việc đọc nó lên với tông giọng người bản xứ mà còn nằm ở việc nhấn nhá, những nhịp ngắt quảng hợp lý, và cách đọc cụm từ theo ngữ cảnh.
Chúng mình tạm phân loại ra ba cấp độ sử dụng để các bạn có thể tham khảo và qua đó sử dụng được tối đa khả năng của AI.
1/ Sử dụng ở mức cơ bản
Khi các bạn dán nội dung văn bản vào khung yêu cầu hãy chú ý các dấu phẩy và chấm của đoạn văn. AI sẽ dựa vào chúng để ngắt câu và nghỉ quãng.
2/ Sử dụng ở mức nâng cao
Nhu cầu sử dụng mức này có nhiều đòi hỏi hơn như có thể điều khiển AI nói nhanh, chậm, nhấn từ theo ý hoặc phức tạp hơn nữa là nói đúng theo số giây ngắt của hàng loạt câu thoại theo file phụ đề (vtt)
Hãy xem một file phụ đề mẫu của chúng mình
WEBVTT
00:00:00.000 --> 00:00:05.000
người học tiếng Hàn
00:00:05.000 --> 00:00:07.000
người học tiếng Hàn
00:00:07.000 --> 00:00:15.000Xin chào. Đây là phát thanh viên Jeong Da-yeon của đài ABC, người phụ trách điều hành Công ty DEF Hàn Quốc.
00:00:15.000 --> 00:00:21.000Nhiều người nước ngoài học tiếng Hàn do ảnh hưởng của K-POP và phim truyền hình Hàn Quốc.
00:00:21.000 --> 00:00:26.000
Số lượng người học tiếng Hàn ngày càng tăng trên toàn thế giới.
00:00:26.000 --> 00:00:32.000Có rất nhiều người đến Hàn Quốc với sự quan tâm đến ngôn ngữ và văn hóa Hàn Quốc.
00:00:32.000 --> 00:00:38.000Làm thế nào tôi có thể trở nên giỏi tiếng Hàn? chuẩn bị cho người cần
00:00:38.000 --> 00:00:55.000Tiết học đầu tiên của Công ty DEF Hàn Quốc bắt đầu.
Khi chúng ta copy toàn bộ nội dung của file phụ đề này và dán vào khung yêu cầu
Hệ thống máy học cơ động cao sẽ tự động giúp các bạn chuyển ngữ nó sang ngôn ngữ giao tiếp với AI
<speak>
<par>
<media xml:id="start0" begin="0s" end="5s">
<speak>người học tiếng Hàn</speak>
</media>
<media xml:id="start1" begin="5s" end="7s">
<speak>người học tiếng Hàn</speak>
</media>
<media xml:id="start2" begin="7s" end="15s">
<speak>Xin chào. Đây là phát thanh viên Jeong Da-yeon của đài ABC, người phụ trách điều hành Công ty DEF Hàn Quốc.</speak>
</media>
<media xml:id="start3" begin="15s" end="21s">
<speak>Nhiều người nước ngoài học tiếng Hàn do ảnh hưởng của K-POP và phim truyền hình Hàn Quốc.</speak>
</media>
<media xml:id="start4" begin="21s" end="26s">
<speak>Số lượng người học tiếng Hàn ngày càng tăng trên toàn thế giới.</speak>
</media>
<media xml:id="start5" begin="26s" end="32s">
<speak>Có rất nhiều người đến Hàn Quốc với sự quan tâm đến ngôn ngữ và văn hóa Hàn Quốc.</speak>
</media>
<media xml:id="start6" begin="32s" end="38s">
<speak>Làm thế nào tôi có thể trở nên giỏi tiếng Hàn? chuẩn bị cho người cần</speak>
</media>
<media xml:id="start7" begin="38s" end="55s">
<speak>Tiết học đầu tiên của Công ty DEF Hàn Quốc bắt đầu.</speak>
</media>
</par>
</speak>
Ngoài ra nó còn giúp đảm bảo số từ gửi lên không vượt quá 170 từ bởi các ký tự XML được thêm vào.
Sau đó các bạn click ‘Chạm’ và chờ kết quả nhé. AI sẽ nói ngắt quãng chính xác từng giây theo file phụ đề mà bạn yêu cầu.
Nghe thử kết quả:
<audio class="ai-voice" controls="" src="https://cdn.choigame.today/temp/talkfollowsubzip.mp3" crossorigin="anonymous"></audio>
3/ Sử dụng ở mức chuyên gia
Để có thể yêu cầu AI thực hiện nhiều tùy chỉnh chuyên sâu hơn như: thời gian dừng ở mỗi câu, cách đọc các cụm từ viết tắt, ngày tháng, thời gian, nhúng file âm thanh, kết hợp nhiều giọng nói, vv.. Chúng ta sẽ giao tiếp với AI bằng ngôn ngữ đánh dấu tổng hợp giọng nói (SSML).
Ở khung nhập văn bản của AI Thuyết trình cho phép chúng ta dán nội dung SSML. Các bạn hãy xem một số VD cụ thể bên dưới:
Nội dung văn bản luôn phải nằm bên trong thẻ
<speak></speak>
VD cơ bản:
<speak>
Nội dung SSML của tôi.
</speak>
Tạm dừng lấy hơi 2 giây sau câu đầu tiên và ở câu thứ ba tạm dừng lấy hơi nhẹ:
<speak>
Step 1, hít một hơi thật sâu. <break time="2000ms"/>
Step 2, thở ra.
Step 3, hít thở sâu một lần nữa. <break strength="weak"/>
Step 4, thở ra.
</speak>
Đánh vần từng chữ cái:
<speak>
<say-as interpret-as="verbatim">abcdefg</say-as>
</speak>
Đọc ngày tháng năm:
<speak>
<say-as interpret-as="date" format="yyyymmdd" detail="1">
1960-09-10
</say-as>
</speak>
Đọc số điện thoại:
<speak>
<say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as>
</speak>
Đọc to rõ từng chữ một:
<speak>
<say-as interpret-as="characters">can</say-as>
</speak>
Những từ này cần được kiểm duyệt hãy làm âm thanh beep cho nó:
<speak>
<say-as interpret-as="expletive">censor this</say-as>
</speak>
Nhúng file âm thanh khác vào bên trong bài đọc:
<speak>
Và đây là bản thu của Jack nhân viên hiện trường:
<audio src="https://yoursoundpath.mp4">
<desc>Bản ghi âm của Jack</desc>
PURR (sound didn't load)
</audio>
</speak>
Cho biết rằng hãy đọc văn bản trong thẻ sub "World Wide Web Consortium" cho text anchor "W3C":
<sub alias="World Wide Web Consortium">W3C</sub>
Đọc nhấn đoạn này và hạ giọng đoạn kia:
<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>
Hãy đọc nhấn mạnh toàn bộ nội dung này cho tôi:
<emphasis level="moderate">
Xin chú ý! Đây là nội dung rất quan trọng.
</emphasis>
Một VD tổ hợp ngắt quảng, nhúng file âm thanh, đọc nhấn nhá:
<speak>
<seq>
<media begin="0.5s">
<speak>Who invented the Internet?</speak>
</media>
<media begin="2.0s">
<speak>The Internet was invented by cats.</speak>
</media>
<media soundLevel="-6dB">
<audio
src="https://actions.google.com/.../cartoon_boing.ogg"/>
</media>
<media repeatCount="3" soundLevel="+2.28dB"
fadeInDur="2s" fadeOutDur="0.2s">
<audio
src="https://actions.google.com/.../cat_purr_close.ogg"/>
</media>
</seq>
</speak>
Kết hợp 2 giọng nói nam lẫn nữ trong cùng một văn bản:
Giọng Vietnam dẫn truyện và giọng nữ nói tiếng Pháp đoạn thoại `qu'est-ce quit'amène ici`
<speak>
Và rôi anh ấy đã hỏi cô gái rằng:
<voice language="fr-FR" gender="female">
qu'est-ce quit'amène ici
</voice>
<break time="250ms"/>
và anh ấy cảm nhận sự ngọt ngào trong giọng nói của cô ấy.
</speak>