Cách tạo video từ hình ảnh bằng hệ thống AI EMO

0:00 / 0:00
0:00
  • Nam miền Bắc
  • Nữ miền Bắc
  • Nữ miền Nam
  • Nam miền Nam

(PLO)- Vừa qua, các nhà nghiên cứu của Alibaba đã phát triển thành công một hệ thống AI mới có tên là EMO (Emote Portrait Alive), hỗ trợ tạo video từ hình ảnh với đầy đủ biểu cảm trên khuôn mặt.

Hệ thống AI EMO là gì?

Bài nghiên cứu về hệ thống AI EMO được đăng tải arXiv, đề cập đến việc hỗ trợ người dùng tạo ra các video sống động (có chuyển động khuôn mặt, tư thế đầu và biểu cảm phù hợp với phần âm thanh được cung cấp).

Hệ thống AI EMO hỗ trợ tạo video từ hình ảnh. Ảnh chụp màn hình
Hệ thống AI EMO hỗ trợ tạo video từ hình ảnh. Ảnh chụp màn hình

Linrui Tian, tác giả chính của bài báo cho biết: “Các kỹ thuật truyền thống thường không nắm bắt được toàn bộ biểu cảm của con người và sự độc đáo trên khuôn mặt của từng cá nhân. Để giải quyết những vấn đề này, chúng tôi đề xuất EMO, một hệ thống AI mới sử dụng phương pháp tổng hợp âm thanh thành video trực tiếp, bỏ qua nhu cầu về mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt.”

Hệ thống AI EMO sử dụng kỹ thuật AI được gọi là mô hình khuếch tán, cho thấy khả năng to lớn trong việc tạo ra hình ảnh tổng hợp thực tế. Các nhà nghiên cứu đã đào tạo mô hình này trên một tập dữ liệu gồm hơn 250 giờ video nói chuyện được tuyển chọn từ các bài phát biểu, phim, chương trình truyền hình và biểu diễn ca hát.

Biến hình ảnh thành video có biểu cảm. Ảnh chụp màn hình
Tạo video từ hình ảnh bằng công nghệ AI. Ảnh chụp màn hình

Không giống như các phương pháp trước đây dựa vào mô hình khuôn mặt 3D hoặc kết hợp các hình dạng để ước tính chuyển động trên khuôn mặt, EMO chuyển đổi trực tiếp dạng sóng âm thanh thành khung hình video. Điều này cho phép nó ghi lại những chuyển động tinh tế và những đặc điểm nhận dạng cụ thể liên quan đến giọng nói tự nhiên.

Theo các thử nghiệm được mô tả trong bài báo, EMO vượt trội đáng kể so với các phương pháp tiên tiến hiện có về các số liệu đo lường chất lượng video, bảo toàn danh tính và tính biểu cảm. Các nhà nghiên cứu cũng đã tiến hành một nghiên cứu về người dùng và nhận thấy video do EMO tạo ra tự nhiên và giàu cảm xúc hơn so với video do các hệ thống khác sản xuất.

Video được tạo từ hệ thống AI EMO. Nguồn: humanaigc.github.io

Tạo video ca hát thực tế

Ngoài các video hội thoại, EMO còn có thể tạo hoạt ảnh cho các bức chân dung ca hát với hình dạng miệng thích hợp và nét mặt gợi cảm đồng bộ với giọng hát. Hệ thống hỗ trợ tạo video từ hình ảnh với thời lượng tùy ý dựa trên độ dài của âm thanh đầu vào.

Bài báo nêu rõ: “Kết quả thử nghiệm chứng minh rằng EMO có thể tạo ra không chỉ các video thuyết trình thuyết phục mà còn cả video hát theo nhiều phong cách khác nhau, vượt trội đáng kể so với các phương pháp hiện đại nhất về mặt biểu cảm và tính chân thực”.

Tuy nhiên, vẫn còn những lo ngại về mặt đạo đức về khả năng lạm dụng công nghệ đó để mạo danh mọi người mà không có sự đồng ý hoặc truyền bá thông tin sai lệch.

Đọc thêm