Mở rộng cụm AI cho các doanh nghiệp Big Tech

Xuân Anh
22/06/2025 10:13
D

AI đang phát triển với tốc độ chưa từng có, tạo ra nhu cầu cấp thiết về các trung tâm dữ liệu mạnh mẽ và hiệu quả hơn. Để đáp ứng nhu cầu này, các quốc gia và các doanh nghiệp đang tăng cường đầu tư vào cơ sở hạ tầng AI.

Mở rộng cụm AI cho các doanh nghiệp Big Tech

Theo Forbes, chi tiêu cho AI của các công ty công nghệ lớn sẽ đạt hơn 250 tỷ USD vào năm 2025, phần lớn dành cho đầu tư hạ tầng. Tới năm 2028, tổng đầu tư toàn cầu vào hạ tầng AI, bao gồm các trung tâm dữ liệu, mạng và phần cứng sẽ đạt 423 tỷ USD .

Tuy nhiên, những đổi mới sáng tạo nhanh chóng của AI cũng tạo ra áp lực chưa từng có lên mạng lưới trung tâm dữ liệu. Chẳng hạn, bài viết gần đây của Meta cho thấy cụm huấn luyện mô hình Llama 3 405B cần hơn 700 TB bộ nhớ và 16.000 bộ xử lý đồ họa (GPU) NVIDIA H100 trong giai đoạn trước huấn luyện. Epoch AI ước tính rằng tới năm 2030, các mô hình AI sẽ cần sức mạnh tính toán gấp 10.000 lần so với các mô hình hàng đầu hiện nay.

Sự trỗi dậy của các cụm AI

Cụm AI (AI clusters) là mạng lưới tài nguyên điện toán lớn, được kết nối chặt chẽ để xử lý các ứng dụng AI.

Khác với các cụm máy tính truyền thống, các cụm AI được tối ưu hóa cho các tác vụ như huấn luyện mô hình AI, suy luận và phân tích theo thời gian thực. Các cụm AI này sử dụng hàng nghìn GPU, kết nối tốc độ cao và mạng có độ trễ thấp để đáp ứng các yêu cầu khổng lồ về thông lượng dữ liệu và tính toán của AI.

Xây dựng các cụm AI

Về cơ bản, cụm AI vận hành như một mạng lưới thu nhỏ. Xây dựng cụm AI đồng nghĩa với kết nối các GPU để tạo mạng điện toán hiệu năng cao, có thể truyền dữ liệu liền mạch giữa các GPU. Vì được thực hiện nhờ sự phối hợp lâu dài giữa hàng nghìn GPU, quá trình huấn luyện phân tán cần có kết nối mạng ổn định.

Các thành phần chính của cụm AI

Các cụm AI bao gồm nhiều thành phần thiết yếu, như được thể hiện trong hình 1.

Mở rộng cụm AI cho các doanh nghiệp Big Tech
Hình 1: Cụm trung tâm dữ liệu AI
  • Các nút (node) tính toán là bộ não của cụm AI, với hàng nghìn GPU kết nối với các thiết bị chuyển mạch trên giá máy. Khi độ phức tạp của bài toán tăng lên, nhu cầu về GPU cũng tăng theo.
  • Kết nối tốc độ cao như Ethernet cho phép truyền dữ liệu nhanh giữa các nút tính toán.
  • Cơ sở hạ tầng mạng bao gồm phần cứng mạng và các giao thức hỗ trợ truyền dữ liệu giữa hàng nghìn GPU trong thời gian dài.

Mở rộng cụm AI

Các cụm AI mở rộng quy mô để đáp ứng khối lượng công việc và mức độ phức tạp ngày càng tăng của AI. Cho tới nay, do hạn chế về băng thông mạng, độ trễ và một số yếu tố khác, các cụm AI chỉ hỗ trợ được khoảng 30.000 GPU. Tuy nhiên, dự án siêu máy tính Colossus của xAI đã phá vỡ rào cản này khi nâng quy mô cụm lên hơn 100.000 GPU NVIDIA H100, một bước đột phá chỉ có thể có được nhờ những tiến bộ trong công nghệ mạng và bộ nhớ.

Các thách thức chính khi mở rộng quy mô

Trong bối cảnh các mô hình AI phát triển lên tới hàng ngàn tỷ tham số, việc mở rộng quy mô các cụm AI gặp vô số rào cản cả kỹ thuật cũng như tài chính.

Các thách thức về mạng

Các GPU có thể thực hiện hiệu quả các phép toán song song. Tuy nhiên, nếu một GPU không có đủ dữ liệu cần thiết hoặc bị trễ trong khi hàng nghìn - thậm chí hàng trăm nghìn GPU - cùng xử lý một tác vụ trong một cụm AI, tất cả GPU khác đều bị ảnh hưởng. Độ trễ gói tin kéo dài hoặc tình trạng mất gói tin do mạng bị tắc nghẽn có thể dẫn đến việc truyền lại gói tin, làm tăng đáng kể thời gian hoàn thành công việc (JCT) và khiến các GPU trị giá hàng triệu USD rơi vào trạng thái chờ.

Ngoài ra, các ứng dụng AI gia tăng đáng kể lưu lượng hướng đông-tây (dữ liệu di chuyển giữa các nút trong trung tâm dữ liệu), có thể dẫn đến tình trạng tắc nghẽn mạng và các vấn đề về độ trễ nếu cơ sở hạ tầng mạng truyền thống không được tối ưu hóa cho các ứng dụng này.

Các thách thức về kết nối

Khi các cụm AI mở rộng, các kết nối truyền thống có thể không đáp ứng được nhu cầu về thông lượng. Để tránh tình trạng tắc nghẽn, các tổ chức phải nâng cấp tốc độ lên kết nối, bằng các giải pháp như 800G hoặc thậm chí 1.6T. Tuy nhiên, không dễ triển khai và xác nhận các liên kết tốc độ cao này để đáp ứng các yêu cầu khắt khe của các ứng dụng AI. Các tuyến liên kết nối tiếp tốc độ cao này cần được tinh chỉnh và đo kiểm kỹ lưỡng để bảo đảm tính toàn vẹn của tín hiệu, tỷ lệ bit lỗi thấp và hiệu năng sửa lỗi trước (FEC) đáng tin cậy. Mọi bất ổn trong các tuyến liên kết nối tiếp tốc độ cao có thể làm suy giảm độ chính xác và tốc độ huấn luyện AI. Các doanh nghiệp cần các hệ thống đo kiểm chính xác và hiệu quả cao để xác nhận hợp chuẩn trước khi triển khai.

Các thách thức tài chính

Tổng chi phí mở rộng các cụm AI thường cao hơn chi phí mua GPU. Các tổ chức còn phải tính đến chi phí cấp nguồn, làm mát, thiết bị mạng và hạ tầng trung tâm dữ liệu nói chung. Tuy nhiên, các ứng dụng AI có liên kết tốt hơn và hiệu năng mạng tối ưu có thể chạy nhanh hơn, rút ngắn chu kỳ huấn luyện và giải phóng nguồn lực cho các tác vụ bổ sung. Mỗi ngày huấn luyện được rút ngắn có thể quy đổi thành giá trị tiết kiệm chi phí đáng kể, khiến rủi ro tài chính cao tương đương rủi ro kỹ thuật.

Các thách thức về xác nhận hợp chuẩn

Để tối ưu hóa hiệu năng mạng của các cụm AI cần thực hiện đo kiểm và đối chuẩn hiệu năng của nền tảng (fabric) mạng và kết nối giữa các GPU. Tuy nhiên, việc xác nhận hợp chuẩn các linh kiện và hệ thống này gặp nhiều khó khăn do mối quan hệ phức tạp giữa phần cứng, thiết kế kiến trúc và các đặc điểm linh động của ứng dụng.

Trong xác nhận hợp chuẩn, có ba vấn đề chung nhất.

Thứ nhất: Những cản trở khi triển khai trong môi trường lab

Chi phí phần cứng AI cao, tính khả dụng hạn chế của thiết bị và thiếu kỹ sư mạng khiến việc nhân rộng toàn phần trở nên không thực tế. Ngoài ra, môi trường phòng thí nghiệm thường có những hạn chế về không gian, nguồn điện và nhiệt độ khác với điều kiện thực tế của trung tâm dữ liệu.

Thứ hai: Tác động đến hệ thống sản xuất

Việc đo kiểm trên hệ thống sản xuất có thể gây gián đoạn, ảnh hưởng đến các hoạt động AI trọng yếu.

Thứ ba: Ứng dụng AI phức tạp

Bản chất đa dạng của các ứng dụng AI và tập dữ liệu khác nhau đáng kể về quy mô và mô hình giao tiếp, khiến khó tái tạo nhất quán các vấn đề và đối chuẩn.

Trong quá trình AI định hình các trung tâm dữ liệu, cần chuẩn bị cơ sở hạ tầng mạng sẵn sàng cho tương lai để theo kịp các công nghệ và tiêu chuẩn đang nhanh chóng phát triển. Các giải pháp mô phỏng tiên tiến của Keysight cho phép xác nhận hợp chuẩn toàn diện các giao thức mạng và tình huống vận hành trước khi triển khai, mang đến lợi ích trọng yếu cho quá trình này.

Thông tin chi tiết về chủ đề này được cung cấp bổ sung trong sách trắng của Keysight, Cải thiện khả năng mở rộng trong cụm trung tâm dữ liệu AI.

Mở rộng cụm AI cho các doanh nghiệp Big Tech

Giới thiệu về tác giả

Emily Yan là giám đốc tiếp thị sản phẩm tại Keysight Technologies. Trước Keysight, cô đã làm việc trong lĩnh vực AI và tiếp thị dữ liệu lớn trong nhiều ngành nghề.

Emily có bằng MBA của Đại học Columbia và bằng cử nhân của Đại học California, Berkeley chuyên ngành toán ứng dụng và kinh tế.

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Bản sao số hệ thống mạng: Cuộc cách mạng tiếp theo trong quản lý mạng

Bản sao số hệ thống mạng: Cuộc cách mạng tiếp theo trong quản lý mạng

Chủ tịch DTT Nguyễn Thế Trung chứng minh AI không thể thay thế trực giác con người trong toán học

Chủ tịch DTT Nguyễn Thế Trung chứng minh AI không thể thay thế trực giác con người trong toán học

Chuyên gia bác bỏ tin đồn về 'mây động đất' tại Nhật Bản

Chuyên gia bác bỏ tin đồn về 'mây động đất' tại Nhật Bản

Chuyên gia lo ngại về 'thử nghiệm diệt vệ tinh có tính hủy diệt'

Chuyên gia lo ngại về 'thử nghiệm diệt vệ tinh có tính hủy diệt'

Tiếp năng lượng cho kỷ nguyên xe điện

Tiếp năng lượng cho kỷ nguyên xe điện

Trí tuệ nhân tạo: Giải mã những nghi vấn trong văn hóa đại chúng 

Trí tuệ nhân tạo: Giải mã những nghi vấn trong văn hóa đại chúng 

Nguyên nhân cháy rừng không chỉ đơn thuần do biến đổi khí hậu

Nguyên nhân cháy rừng không chỉ đơn thuần do biến đổi khí hậu

CEO Nvidia: Hãy nắm vững AI nếu không muốn bị tụt lại phía sau

CEO Nvidia: Hãy nắm vững AI nếu không muốn bị tụt lại phía sau

ChatGPT, AI và báo chí: Lợi ích, rủi ro cùng những vấn đề về pháp lý và đạo đức

ChatGPT, AI và báo chí: Lợi ích, rủi ro cùng những vấn đề về pháp lý và đạo đức

Sự thúc đẩy của Công nghệ tiên tiến trong quá trình tiến hóa tiếp theo của loài người

Sự thúc đẩy của Công nghệ tiên tiến trong quá trình tiến hóa tiếp theo của loài người

Đo kiểm trong sản xuất đại trà bảng mạch giá thấp: Đương đầu thách thức

Đo kiểm trong sản xuất đại trà bảng mạch giá thấp: Đương đầu thách thức

Dự báo công nghệ năm 2023 của Keysight - Kiến giải từ hãng đo lường và kiểm thử hàng đầu thị trường (phần 2)

Dự báo công nghệ năm 2023 của Keysight - Kiến giải từ hãng đo lường và kiểm thử hàng đầu thị trường (phần 2)

Tin mới cập nhật

Mercedes EQB 250+ phiên bản nâng cấp ra mắt Việt Nam, giá 2 tỷ 309 triệu đồng

Mercedes EQB 250+ phiên bản nâng cấp ra mắt Việt Nam, giá 2 tỷ 309 triệu đồng

Keysight hoàn thành đánh giá Chứng nhận PSA cấp 4 cho sản phẩm SiXG301 SoC của Silicon Labs

Keysight hoàn thành đánh giá Chứng nhận PSA cấp 4 cho sản phẩm SiXG301 SoC của Silicon Labs

Nhìn lại khoảnh khắc Khối đứng A80 di chuyển trước Lễ Sơ duyệt 27/8

Nhìn lại khoảnh khắc Khối đứng A80 di chuyển trước Lễ Sơ duyệt 27/8

Tesla lao dốc tại Châu Âu, BYD và xe điện Trung Quốc vươn lên mạnh mẽ

Tesla lao dốc tại Châu Âu, BYD và xe điện Trung Quốc vươn lên mạnh mẽ

Cục Tần số phạt tiền hơn 70 tổ chức, cá nhân sử dụng micro không dây sai quy định

Cục Tần số phạt tiền hơn 70 tổ chức, cá nhân sử dụng micro không dây sai quy định

Lan toả tinh thần yêu nước, khát vọng vươn mình qua Triển lãm Thành tựu đất nước

Lan toả tinh thần yêu nước, khát vọng vươn mình qua Triển lãm Thành tựu đất nước

Bosch Rexroth ‘trình diễn’ nhà máy thông minh tại Automation World Vietnam

Bosch Rexroth ‘trình diễn’ nhà máy thông minh tại Automation World Vietnam

Hệ sinh thái VNPT Cyber Immunity 'tiến vào' thị trường Nhật Bản

Hệ sinh thái VNPT Cyber Immunity 'tiến vào' thị trường Nhật Bản

Hoàn thiện dải sản phẩm laptop AI, ASUS tung ra 4 mẫu laptop Vivobook trước thềm năm học mới

Hoàn thiện dải sản phẩm laptop AI, ASUS tung ra 4 mẫu laptop Vivobook trước thềm năm học mới

Kỳ vọng Jerome Powell cắt giảm lãi suất: Thị trường sôi động sau một gợi ý

Kỳ vọng Jerome Powell cắt giảm lãi suất: Thị trường sôi động sau một gợi ý

DN tư nhân trước cơ hội mới: Thiếu vốn dài hạn, đi vay chịu lãi suất cao

DN tư nhân trước cơ hội mới: Thiếu vốn dài hạn, đi vay chịu lãi suất cao

Trump đang biến chính phủ thành người chơi lớn trên phố Wall

Trump đang biến chính phủ thành người chơi lớn trên phố Wall

Tin đọc nhiều

Bản sao số hệ thống mạng: Cuộc cách mạng tiếp theo trong quản lý mạng

Bản sao số hệ thống mạng: Cuộc cách mạng tiếp theo trong quản lý mạng

Chủ tịch DTT Nguyễn Thế Trung chứng minh AI không thể thay thế trực giác con người trong toán học

Chủ tịch DTT Nguyễn Thế Trung chứng minh AI không thể thay thế trực giác con người trong toán học

Chuyên gia bác bỏ tin đồn về 'mây động đất' tại Nhật Bản

Chuyên gia bác bỏ tin đồn về 'mây động đất' tại Nhật Bản

Sự thúc đẩy của Công nghệ tiên tiến trong quá trình tiến hóa tiếp theo của loài người

Sự thúc đẩy của Công nghệ tiên tiến trong quá trình tiến hóa tiếp theo của loài người

Đo kiểm trong sản xuất đại trà bảng mạch giá thấp: Đương đầu thách thức

Đo kiểm trong sản xuất đại trà bảng mạch giá thấp: Đương đầu thách thức

5G và các thách thức trong thiết kế hệ thống IoT công nghiệp

5G và các thách thức trong thiết kế hệ thống IoT công nghiệp

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G

Khủng hoảng năng lượng - Hồi chuông 'cảnh tỉnh' nhân loại trước sự phụ thuộc vào nhiên liệu hoá thạch

Khủng hoảng năng lượng - Hồi chuông 'cảnh tỉnh' nhân loại trước sự phụ thuộc vào nhiên liệu hoá thạch

Hoàn thiện thể chế và các điều kiện nền tảng để phát triển nền kinh tế số tại Việt Nam

Hoàn thiện thể chế và các điều kiện nền tảng để phát triển nền kinh tế số tại Việt Nam

Cách mạng công nghiệp lần thứ 4 - Industry 4.0 là gì?

Cách mạng công nghiệp lần thứ 4 - Industry 4.0 là gì?

Video xem nhiều

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Isuzu Mu-X 2021 hoàn toàn mới: Thiết kế hiện đại và đầy công nghệ

Isuzu Mu-X 2021 hoàn toàn mới: Thiết kế hiện đại và đầy công nghệ

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Geneva Motor Show 2020: Bentley hé lộ siêu xe Bacalar triệu đô

Geneva Motor Show 2020: Bentley hé lộ siêu xe Bacalar triệu đô

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Xe máy điện VinFast được CNN chọn là 1 trong 5 biểu tượng mới của Hà Nội

Xe máy điện VinFast được CNN chọn là 1 trong 5 biểu tượng mới của Hà Nội

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Bắc Sơn mây hát

Bắc Sơn mây hát

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Sếp nhà bán lẻ làm lộ ngày bán iPhone 11

Sếp nhà bán lẻ làm lộ ngày bán iPhone 11

Chiếc điều hòa cá nhân này của Sony là tất cả những gì bạn cần để sống sót qua mùa hè nóng nực

Chiếc điều hòa cá nhân này của Sony là tất cả những gì bạn cần để sống sót qua mùa hè nóng nực

5G thay đổi tương lai của bạn như thế nào?

5G thay đổi tương lai của bạn như thế nào?

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G
04/03/2022
Chip xử lý A15 Bionic của Apple có gì mới
15/09/2021
Sex Education mùa 3 được Netflix công chiếu vào 17/9
14/09/2021
iPhone 13 không thay đổi nhiều về ngoại hình, camera được nâng cấp mạnh
13/09/2021
Cách xem trực tiếp sự kiện ra mắt iPhone 13 và Apple Watch 7
10/09/2021
VNEID của Bộ Công an khác các ứng dụng đang được vận hành?
10/09/2021
'Cái tôi' thời 4.0 và tính hai mặt của mạng xã hội
04/09/2021
'Muôn màu' cảm xúc của trẻ trong ngày khai giảng online
24/08/2021
Chủ tịch Chu Ngọc Anh giải toả 'ách tắc' về Giấy đi đường cho người dân Thủ đô
10/08/2021
Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?
02/08/2021
6 bộ phim hay nhất để xem trên VieON
29/01/2021
Bắc Ninh: Không ký kết triển khai dự án Owifi 5G với CSE Singapore
27/06/2020
Bị World Bank cấm dự thầu 7 năm, công ty Sao Bắc Đẩu thừa nhận sai sót
27/06/2020
Wefinex - Mô hình hoạt động đa cấp "đội lốt" đầu tài chính trên mạng internet
10/06/2020
Khai trừ MISA khỏi Câu lạc bộ Chữ ký số và Giao dịch điện tử Việt Nam
27/05/2020
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Chống thất thu thuế là thách thức lớn đối với nền kinh tế số
29/04/2020
Cách chuyển tập tin sang máy tính mới
10/11/2019
VNPT, MobiFone, VTC sẽ hoàn thành cổ phần hóa trước năm 2021
20/08/2019
5G thay đổi tương lai của bạn như thế nào?
26/07/2019
Nhận diện hành vi lừa đảo trên không gian mạng
25/07/2019
Truyền hình OTT - Hướng đi mới của các “nhà Đài”
24/07/2019