Meta giới thiệu Chameleon, mô hình đa phương tiện đẳng cấp

Tường Minh
28/05/2024 15:06
D

Khi sự cạnh tranh trong lĩnh vực trí tuệ nhân tạo (AI) sáng tạo chuyển sang các mô hình đa phương tiện, Meta đã công bố một phiên bản xem trước của những gì có thể trở thành câu trả lời của họ cho các mô hình được phát hành bởi các phòng thí nghiệm tiên phong. Chameleon, gia đình mô hình mới của Meta, được thiết kế để tự nhiên đa phương tiện thay vì gộp các thành phần với các phương tiện khác nhau.

Mặc dù Meta chưa phát hành các mô hình, những thí nghiệm được báo cáo của Meta cho thấy Chameleon đạt hiệu suất đẳng cấp thế giới trong nhiều tác vụ, bao gồm phụ đề hình ảnh và trả lời câu hỏi theo hình ảnh (VQA), đồng thời vẫn cạnh tranh trong các tác vụ chỉ có văn bản. Kiến trúc của Chameleon có thể mở ra các ứng dụng trí tuệ nhân tạo mới yêu cầu sự hiểu biết sâu sắc về cả thông tin hình ảnh và văn bản.

Cách phổ biến để tạo các mô hình nền tảng đa phương tiện là ghép nối các mô hình đã được đào tạo cho các phương tiện khác nhau. Cách tiếp cận này được gọi là "hợp nhất muộn". Mặc dù hợp nhất muộn hoạt động tốt, nhưng nó hạn chế khả năng của các mô hình tích hợp thông tin trên các phương tiện và tạo ra các chuỗi hình ảnh và văn bản được xen kẽ.

Meta giới thiệu Chameleon, mô hình đa phương tiện

VentureBeat được tạo ra bằng OpenAI DALL-E 3.

Chameleon sử dụng kiến trúc "hợp nhất sớm dựa trên token đa phương tiện hỗn hợp", có nghĩa là nó được thiết kế ngay từ đầu để học từ một hỗn hợp các hình ảnh, văn bản, mã và các phương tiện khác được xen kẽ. Chameleon biến đổi hình ảnh thành các token rời rạc, giống như các mô hình ngôn ngữ làm với từ. Nó cũng sử dụng một bộ từ vựng thống nhất bao gồm các token văn bản, mã và hình ảnh. Điều này làm cho việc áp dụng cùng một kiến trúc transformer đối với các chuỗi chứa cả token hình ảnh và văn bản trở nên có thể.

Mô hình tương tự nhất với Chameleon là Google Gemini, cũng sử dụng cách tiếp cận dựa trên token hợp nhất sớm. Tuy nhiên, Gemini sử dụng các bộ giải mã hình ảnh riêng biệt trong giai đoạn tạo, trong khi Chameleon là một mô hình hoàn chỉnh cả xử lý và tạo ra token. Không gian token thống nhất của Chameleon cho phép nó suy luận và tạo ra các chuỗi hình ảnh và văn bản xen kẽ một cách mạch lạc, mà không cần các thành phần cụ thể cho phương tiện.

Mặc dù hợp nhất sớm rất hấp dẫn, nhưng nó đặt ra những thách thức đáng kể khi đào tạo và mở rộng quy mô mô hình. Để vượt qua những thách thức này, các nhà nghiên cứu đã áp dụng một loạt các điều chỉnh kiến trúc và kỹ thuật đào tạo, được chi tiết trong bài báo của họ.

Quá trình đào tạo Chameleon diễn ra trong hai giai đoạn, với một tập dữ liệu chứa 4,4 nghìn tỷ token văn bản, cặp hình ảnh-văn bản và các chuỗi văn bản và hình ảnh xen kẽ. Các nhà nghiên cứu đã đào tạo phiên bản có 7 tỷ và 34 tỷ tham số của Chameleon trên hơn 5 triệu giờ GPU Nvidia A100 80GB.

Meta giới thiệu Chameleon, mô hình đa phương tiện

Logic mã hóa và giải mã của Chameleon (nguồn: arxiv)

Theo các thí nghiệm được báo cáo, Chameleon có thể thực hiện một loạt các nhiệm vụ chỉ có văn bản và đa phương tiện. Trên các bộ đánh giá trả lời câu hỏi theo hình ảnh (VQA) và phụ đề hình ảnh, Chameleon-34B đạt hiệu suất đẳng cấp thế giới, vượt trội so với các mô hình như Flamingo, IDEFICS và Llava-1.5. Theo các nhà nghiên cứu, Chameleon đạt hiệu suất tương đương các mô hình khác với ít ví dụ đào tạo nội tuyến hơn và kích thước mô hình nhỏ hơn, trong cả đánh giá mô hình tiền đào tạo và tinh chỉnh.

Mặt khác, một sự đánh đổi của tính đa phương tiện là sự giảm hiệu suất trong các yêu cầu phương tiện đơn. Ví dụ, các mô hình ngôn ngữ-hình ảnh có xu hướng có hiệu suất thấp hơn trên các câu đầu vào chỉ có văn bản. Tuy nhiên, Chameleon vẫn cạnh tranh trên các bộ đánh giá chỉ có văn bản, đạt hiệu suất tương đương các mô hình như Mixtral 8x7B và Gemini-Pro trên nhiệm vụ suy luận thông thường và đọc hiểu.

Điểm đáng chú ý, Chameleon có thể mở ra khả năng mới cho việc suy luận và tạo ra đa phương tiện hỗn hợp, đặc biệt khi các câu đầu vào mong đợi phản hồi đa phương tiện với văn bản và hình ảnh xen kẽ. Các thí nghiệm với phản hồi được đánh giá bởi con người cho thấy nhìn chung, người dùng ưu tiên các tài liệu đa phương tiện do Chameleon tạo ra.

Vừa qua, cả OpenAI và Google đều công bố các mô hình mới cung cấp trải nghiệm đa phương tiện phong phú. Tuy nhiên, họ chưa công bố nhiều chi tiết về các mô hình đó. Nếu Meta tiếp tục công khai phát hành các "trọng lượng" (weights) của mô hình này, điều đó có nghĩa là bất kỳ ai cũng có thể tải về và sử dụng mô hình cho các ứng dụng của riêng mình.

Việc phát hành trọng lượng mô hình miễn phí giúp Chameleon trở thành một "lựa chọn mở" cho các mô hình ngôn ngữ riêng tư, vì người dùng không cần phải huấn luyện lại mô hình từ đầu mà có thể sử dụng mô hình đã được huấn luyện trước đó bởi Meta.

Điều này khác với các mô hình thương mại hóa chỉ cung cấp API truy cập, vì người dùng có thể triển khai Chameleon trên phần cứng riêng để xử lý dữ liệu nhạy cảm mà không cần phải chia sẻ dữ liệu đó với bên thứ ba.

Hợp nhất sớm cũng có thể thúc đẩy các hướng nghiên cứu mới cho các mô hình tiên tiến hơn, đặc biệt khi thêm nhiều phương tiện vào hỗn hợp. Ví dụ, các startup robot đã bắt đầu thử nghiệm việc tích hợp các mô hình ngôn ngữ vào hệ thống điều khiển robot. Sẽ rất thú vị để xem hợp nhất sớm có thể cải thiện các mô hình nền tảng robot như thế nào.

"Chameleon đại diện cho một bước tiến quan trọng trong việc hiện thực hóa tầm nhìn về các mô hình nền tảng thống nhất có khả năng suy luận và tạo ra nội dung đa phương tiện một cách linh hoạt," các nhà nghiên cứu cho biết.

Theo tạp chí Điện tử và Ứng dụng

Tin cùng chuyên mục

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

AI, phim ngắn và quảng cáo theo lợi nhuận dẫn dắt thị trường ứng dụng năm 2026

AI, phim ngắn và quảng cáo theo lợi nhuận dẫn dắt thị trường ứng dụng năm 2026

Phi đội - Hành trình 20 năm giữ lửa game không chiến Việt

Phi đội - Hành trình 20 năm giữ lửa game không chiến Việt

CORSAIR GALLEON 100 SD: siêu phẩm bàn phím tại CES 2026 chính thức mở bán toàn cầu

CORSAIR GALLEON 100 SD: siêu phẩm bàn phím tại CES 2026 chính thức mở bán toàn cầu

Esports World Cup công bố Road to EWC, thiết lập mùa giải vòng loại toàn cầu cho EWC 2026

Esports World Cup công bố Road to EWC, thiết lập mùa giải vòng loại toàn cầu cho EWC 2026

Màn hình gaming Xiaomi Redmi G25, giá hơn 2 triệu đồng có gì mới?

Màn hình gaming Xiaomi Redmi G25, giá hơn 2 triệu đồng có gì mới?

Google ra mắt Project Genie: AI tạo thế giới ảo theo thời gian thực

Google ra mắt Project Genie: AI tạo thế giới ảo theo thời gian thực

Ayaneo ra mắt Pocket S Mini: Máy chơi game retro cấu hình cao

Ayaneo ra mắt Pocket S Mini: Máy chơi game retro cấu hình cao

Vietnam GameVerse 2026: Bước ngoặt đưa game và Esports Việt Nam ra sân chơi quốc tế

Vietnam GameVerse 2026: Bước ngoặt đưa game và Esports Việt Nam ra sân chơi quốc tế

AI Moltbot hành động thay con người: Bước ngoặt hay hiểm họa an ninh?

AI Moltbot hành động thay con người: Bước ngoặt hay hiểm họa an ninh?

Cisco ra mắt Cisco 360 Partner Program

Cisco ra mắt Cisco 360 Partner Program

Tổng kết Ngày hội tiếng Anh STEM Robotics: Hà Nội mở rộng mô hình

Tổng kết Ngày hội tiếng Anh STEM Robotics: Hà Nội mở rộng mô hình

Tin mới cập nhật

Gen Z làm 'Đường Táo Quân' gìn giữ Tết xưa

Gen Z làm 'Đường Táo Quân' gìn giữ Tết xưa

Ford Kuga 2026: phiên bản mới với công nghệ hỗ trợ lái bán tự động BlueCruise

Ford Kuga 2026: phiên bản mới với công nghệ hỗ trợ lái bán tự động BlueCruise

Bộ trưởng Nguyễn Mạnh Hùng gửi lá thư đặc biệt tới bố mẹ cán bộ công chức viên chức, người lao động Bộ KH&CN

Bộ trưởng Nguyễn Mạnh Hùng gửi lá thư đặc biệt tới bố mẹ cán bộ công chức viên chức, người lao động Bộ KH&CN

Sony WF-1000XM6: Chống ồn tốt hơn 25%, giá cao nhất dòng 1000X

Sony WF-1000XM6: Chống ồn tốt hơn 25%, giá cao nhất dòng 1000X

Hoàn thiện lộ trình kiểm định khí thải xe máy, báo cáo Thủ tướng trong tháng 2

Hoàn thiện lộ trình kiểm định khí thải xe máy, báo cáo Thủ tướng trong tháng 2

Đội tuyển Liên Minh Huyền Thoại Hàn Quốc lộ diện HLV tại ASIAD 2026

Đội tuyển Liên Minh Huyền Thoại Hàn Quốc lộ diện HLV tại ASIAD 2026

BYD cung cấp xe điện cho Manchester City, logo xuất hiện trên áo tập

BYD cung cấp xe điện cho Manchester City, logo xuất hiện trên áo tập

Người dân không phải nộp phiếu lý lịch tư pháp từ 1/7/2026

Người dân không phải nộp phiếu lý lịch tư pháp từ 1/7/2026

Kết nối gia đình ngay trên nền tảng Zalo dịp Tết này

Kết nối gia đình ngay trên nền tảng Zalo dịp Tết này

BNK FearX đánh bại DN Soopers, tiến sâu nhánh thắng LCK Cup 2026

BNK FearX đánh bại DN Soopers, tiến sâu nhánh thắng LCK Cup 2026

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

Dấu ấn 'AGIBOT Night - Đêm Kỳ Diệu của Robot 2026'

Dấu ấn 'AGIBOT Night - Đêm Kỳ Diệu của Robot 2026'

Tin đọc nhiều

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

Kỷ nguyên AI: Khi hàng rào phòng thủ mạng truyền thống dần trở nên 'lỗi thời'

AI, phim ngắn và quảng cáo theo lợi nhuận dẫn dắt thị trường ứng dụng năm 2026

AI, phim ngắn và quảng cáo theo lợi nhuận dẫn dắt thị trường ứng dụng năm 2026

Phi đội - Hành trình 20 năm giữ lửa game không chiến Việt

Phi đội - Hành trình 20 năm giữ lửa game không chiến Việt

CORSAIR GALLEON 100 SD: siêu phẩm bàn phím tại CES 2026 chính thức mở bán toàn cầu

CORSAIR GALLEON 100 SD: siêu phẩm bàn phím tại CES 2026 chính thức mở bán toàn cầu

Esports World Cup công bố Road to EWC, thiết lập mùa giải vòng loại toàn cầu cho EWC 2026

Esports World Cup công bố Road to EWC, thiết lập mùa giải vòng loại toàn cầu cho EWC 2026

Màn hình gaming Xiaomi Redmi G25, giá hơn 2 triệu đồng có gì mới?

Màn hình gaming Xiaomi Redmi G25, giá hơn 2 triệu đồng có gì mới?

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

Cách mạng hóa hoạt động bảo trì trong công nghiệp sản xuất

Cách mạng hóa hoạt động bảo trì trong công nghiệp sản xuất

Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?

Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

Video xem nhiều

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Giới thiệu chương trình bình chọn “Xe của năm 2022"

Giới thiệu chương trình bình chọn “Xe của năm 2022"

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Đại học Miami tạo ra cảm biến chất lượng không khí phát hiện Covid-19

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Hà Nội họp khẩn, Chủ tịch Nguyễn Đức Chung Báo cáo về trường hợp thứ 17 nhiễm Covid 19

Hà Nội họp khẩn, Chủ tịch Nguyễn Đức Chung Báo cáo về trường hợp thứ 17 nhiễm Covid 19

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Pretzel - Bánh quy cây: Biểu tượng văn hoá châu Âu với nhiều tranh cãi về nguồn gốc

Pretzel - Bánh quy cây: Biểu tượng văn hoá châu Âu với nhiều tranh cãi về nguồn gốc

Những gì bạn muốn biết về 5G

Những gì bạn muốn biết về 5G

5G thay đổi tương lai của bạn như thế nào?

5G thay đổi tương lai của bạn như thế nào?

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G
04/03/2022
Chip xử lý A15 Bionic của Apple có gì mới
15/09/2021
Sex Education mùa 3 được Netflix công chiếu vào 17/9
14/09/2021
iPhone 13 không thay đổi nhiều về ngoại hình, camera được nâng cấp mạnh
13/09/2021
Cách xem trực tiếp sự kiện ra mắt iPhone 13 và Apple Watch 7
10/09/2021
VNEID của Bộ Công an khác các ứng dụng đang được vận hành?
10/09/2021
'Cái tôi' thời 4.0 và tính hai mặt của mạng xã hội
04/09/2021
'Muôn màu' cảm xúc của trẻ trong ngày khai giảng online
24/08/2021
Chủ tịch Chu Ngọc Anh giải toả 'ách tắc' về Giấy đi đường cho người dân Thủ đô
10/08/2021
Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?
02/08/2021
6 bộ phim hay nhất để xem trên VieON
29/01/2021
Bắc Ninh: Không ký kết triển khai dự án Owifi 5G với CSE Singapore
27/06/2020
Bị World Bank cấm dự thầu 7 năm, công ty Sao Bắc Đẩu thừa nhận sai sót
27/06/2020
Wefinex - Mô hình hoạt động đa cấp "đội lốt" đầu tài chính trên mạng internet
10/06/2020
Khai trừ MISA khỏi Câu lạc bộ Chữ ký số và Giao dịch điện tử Việt Nam
27/05/2020
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Chống thất thu thuế là thách thức lớn đối với nền kinh tế số
29/04/2020
Cách chuyển tập tin sang máy tính mới
10/11/2019
VNPT, MobiFone, VTC sẽ hoàn thành cổ phần hóa trước năm 2021
20/08/2019
5G thay đổi tương lai của bạn như thế nào?
26/07/2019
Nhận diện hành vi lừa đảo trên không gian mạng
25/07/2019
Truyền hình OTT - Hướng đi mới của các “nhà Đài”
24/07/2019