Google ra mắt TPU 8 hiệu năng gấp 3 lần, thách thức chip AI của Nvidia

Tiến Dũng
23/04/2026 11:26
D

Google công bố thế hệ chip TPU thứ tám tại Google Cloud Next với hai phiên bản chuyên biệt: TPU 8t dành riêng cho huấn luyện mô hình AI đạt 121 exaflops trên một siêu cụm 9.600 chip, và TPU 8i dành cho suy luận với hiệu năng trên mỗi đô la tốt hơn 80% so với thế hệ trước. Đây là lần đầu tiên Google thiết kế hai chip hoàn toàn tách biệt theo chức năng, phản ánh sự trưởng thành của hạ tầng AI và áp lực cạnh tranh ngày càng lớn với Nvidia.

Google vừa công bố thế hệ chip TPU thứ tám tại sự kiện Google Cloud Next, lần đầu tiên trong lịch sử dòng sản phẩm này công ty tách hẳn hai con chip riêng biệt theo chức năng: TPU 8t chuyên huấn luyện mô hình AI quy mô lớn và TPU 8i chuyên xử lý suy luận. Cả hai sẽ được bán rộng rãi qua Google Cloud vào cuối năm nay.

Quyết định tách đôi TPU 8 không phải là lựa chọn kỹ thuật đơn thuần. Nó phản ánh một thay đổi căn bản trong cách các công ty lớn tiêu thụ điện toán AI: huấn luyện và suy luận là hai bài toán khác nhau về bản chất, đòi hỏi kiến trúc phần cứng khác nhau, và việc dùng một chip đa năng cho cả hai ngày càng trở nên lãng phí.

Google ra mắt TPU 8 hiệu năng gấp 3 lần, thách thức chip AI của Nvidia
Dòng chip TPU 8 được Gooogle công bố trong bối cảnh nhu cầu về điện toán AI nhanh hơn và hiệu quả hơn đang tăng cao. Ảnh: Google

Tại sao Google tách đôi thay vì gộp chung

Huấn luyện một mô hình AI lớn là công việc xảy ra một lần hoặc vài lần, kéo dài hàng tuần đến hàng tháng, cần tối đa hóa tốc độ tính toán thuần túy trên số lượng chip khổng lồ. Suy luận là công việc xảy ra hàng tỷ lần mỗi ngày khi người dùng gửi câu hỏi đến ChatGPT, Gemini hay bất kỳ dịch vụ AI nào, ưu tiên là độ trễ thấp, chi phí mỗi lần xử lý phải cực kỳ thấp và hệ thống phải chạy liên tục không gián đoạn.

Một chip tối ưu cho cả hai mục tiêu đó thường không xuất sắc ở mục tiêu nào. Google nhận ra điều này và thiết kế TPU 8t với từng thông số hướng đến huấn luyện: một siêu cụm duy nhất có thể mở rộng lên tới 9.600 chip, đạt tổng hiệu năng 121 exaflops, con số gấp gần 3 lần so với thế hệ trước Ironwood. Quan trọng hơn, Google cho biết TPU 8t đặt mục tiêu "hiệu suất thực tế" trên 97%, tức là hơn 97% thời gian chip đang tính toán thực sự thay vì chờ dữ liệu hoặc xử lý sự cố.

Con số 97% đó nghe có vẻ kỹ thuật nhưng mang ý nghĩa thực tiễn rất lớn. Trên một cụm hàng nghìn chip chạy liên tục nhiều tuần, mỗi phần trăm thời gian nhàn rỗi tích lũy thành hàng ngày lịch trình bị kéo dài và hàng triệu đô la chi phí bị lãng phí. Việc nâng hiệu suất thực tế lên 97% là một trong những cải tiến có giá trị kinh tế cao nhất mà một nhà sản xuất chip huấn luyện có thể thực hiện, dù nó không xuất hiện trong bất kỳ con số marketing nào.

TPU 8i và bài toán chi phí của kỷ nguyên AI agent

TPU 8i giải quyết bài toán hoàn toàn khác. Con chip này mang 288 GB bộ nhớ băng thông cao và 384 MB SRAM tích hợp trực tiếp trên chip, cho phép giữ dữ liệu mô hình ở sát bộ xử lý để phản hồi nhanh hơn mà không phải chờ đọc từ bộ nhớ ngoài. Nó còn tích hợp CPU Axion của Google dựa trên kiến trúc Arm và được tối ưu cho kiến trúc Mixture of Experts, loại mô hình chỉ kích hoạt một phần tham số tại mỗi thời điểm thay vì toàn bộ, giúp cắt giảm chi phí tính toán mà không đánh đổi hiệu năng.

Tại sao hiệu năng trên mỗi đô la lại là thước đo quan trọng hơn hiệu năng thô trong giai đoạn hiện tại? Vì cuộc đua AI đã chuyển sang giai đoạn triển khai đại trà. Huấn luyện GPT-4 hay Gemini Ultra là công việc của vài trăm kỹ sư trong vài tháng. Nhưng phục vụ hàng trăm triệu người dùng mỗi ngày là công việc kéo dài vô thời hạn, chi phí cộng dồn theo từng giờ. Google cho biết TPU 8i mang lại hiệu năng trên mỗi đô la tốt hơn 80% so với Ironwood, tức là cùng ngân sách điện toán đám mây, khách hàng xử lý được gần gấp đôi khối lượng công việc.

Google cũng tiết lộ chiến lược hai chip này hình thành trực tiếp từ sự trỗi dậy của AI agent, các hệ thống AI tự động lập kế hoạch, thực thi nhiệm vụ nhiều bước và tương tác liên tục với công cụ khác. Không giống người dùng gõ câu hỏi rồi đọc câu trả lời, AI agent chạy liên tục trong nền, đòi hỏi hạ tầng suy luận vừa nhanh vừa rẻ vừa ổn định, đúng những gì TPU 8i được xây dựng để đáp ứng.

Tuyên chiến thực sự với Nvidia

Tại sao TPU 8 là đòn tấn công trực tiếp nhất vào Nvidia so với mọi thế hệ TPU trước đó? Vì lần này Google không chỉ cải thiện chip mà còn xây dựng toàn bộ hệ sinh thái xung quanh để triệt tiêu lý do khách hàng phải chọn Nvidia.

TPU 8t và TPU 8i hỗ trợ đầy đủ các framework phổ biến gồm JAX, PyTorch, SGLang và vLLM – tức là các nhóm kỹ thuật không cần viết lại code hay học công cụ mới khi chuyển sang TPU. Đây là rào cản lớn nhất mà các thế hệ chip thay thế Nvidia từng vấp phải: hệ sinh thái CUDA của Nvidia quá sâu rễ trong cộng đồng AI, ai muốn thoát ra phải trả chi phí chuyển đổi cao. Google đang trực tiếp tháo gỡ rào cản đó.

Cả hai chip còn dùng hệ thống làm mát bằng chất lỏng thế hệ thứ tư và đạt hiệu năng trên mỗi watt gấp đôi Ironwood, thông số ngày càng quan trọng khi chi phí điện và làm mát tại trung tâm dữ liệu leo thang cùng quy mô AI toàn cầu.

Nếu Google duy trì lộ trình này và giải quyết được câu hỏi về hệ sinh thái phần mềm, TPU 8 có thể tạo ra áp lực giá thực sự lên dịch vụ đám mây AI của Nvidia và các đối tác phân phối GPU H100, H200, điều mà các thế hệ TPU trước chưa làm được vì còn phụ thuộc nhiều vào nhu cầu nội bộ của Google.

Với các doanh nghiệp Việt Nam đang sử dụng Google Cloud để chạy mô hình AI, TPU 8i khả thi về chi phí hơn nhiều so với việc thuê GPU H100, loại chip đang có giá thuê cao và thường xuyên hết hàng trên các nền tảng đám mây toàn cầu. Mức cải thiện 80% hiệu năng trên mỗi đô la, nếu được xác nhận trong thực tế, có thể rút ngắn thời gian hoàn vốn cho các dự án AI đang triển khai theo mô hình pay-as-you-go.

Giá thuê cụ thể của TPU 8t và TPU 8i trên Google Cloud chưa được công bố tại thời điểm bài viết.

Bốn khái niệm cần biết để hiểu về TPU 8

Exaflops là đơn vị đo tốc độ tính toán, tương đương một tỷ tỷ phép tính dấu phẩy động mỗi giây. 121 exaflops của siêu cụm TPU 8t là con số cho thấy quy mô tính toán mà trước đây chỉ các siêu máy tính quốc gia mới đạt được.

Hiệu suất thực tế (utilization) đo tỷ lệ thời gian chip đang tính toán hữu ích thay vì chờ dữ liệu hoặc xử lý lỗi – 97% là mức rất cao, phản ánh chất lượng phần cứng lẫn phần mềm điều phối.

Mixture of Experts là kiến trúc mô hình AI chỉ kích hoạt một phần tham số cho mỗi tác vụ thay vì toàn bộ, giảm chi phí tính toán mà không cắt giảm năng lực tổng thể của mô hình.

AI agent là hệ thống AI tự lên kế hoạch và thực thi chuỗi nhiệm vụ nhiều bước, khác với chatbot chỉ trả lời từng câu hỏi đơn lẻ, agent cần hạ tầng suy luận chạy liên tục và phản hồi nhanh để xử lý hàng nghìn bước trong một luồng công việc.

Theo tạp chí Điện tử và Ứng dụng

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Synology giới thiệu loạt giải pháp quản trị dữ liệu thế hệ mới

Synology giới thiệu loạt giải pháp quản trị dữ liệu thế hệ mới

Lenovo công bố chiến dịch toàn cầu mới cùng David Beckham

Lenovo công bố chiến dịch toàn cầu mới cùng David Beckham

Bên trong trái bóng World Cup 2026: Khi công nghệ hỗ trợ trọng tài

Bên trong trái bóng World Cup 2026: Khi công nghệ hỗ trợ trọng tài

Ăng-ten 10 watt giúp robot dưới nước liên lạc xuyên 700 mét

Ăng-ten 10 watt giúp robot dưới nước liên lạc xuyên 700 mét

Meta xác nhận mở rộng dịch vụ trả phí trên Facebook, Instagram và WhatsApp

Meta xác nhận mở rộng dịch vụ trả phí trên Facebook, Instagram và WhatsApp

Zalo tiếp tục nâng cao năng lực tiếp cận công nghệ cho nhiều nhóm người dùng

Zalo tiếp tục nâng cao năng lực tiếp cận công nghệ cho nhiều nhóm người dùng

Làm thế nào để bứt phá hiệu quả cùng AI?

Làm thế nào để bứt phá hiệu quả cùng AI?

Trao Giải thưởng Sao Khuê và công bố Bản đồ Giải pháp Công nghệ số Việt Nam 2026

Trao Giải thưởng Sao Khuê và công bố Bản đồ Giải pháp Công nghệ số Việt Nam 2026

Google mở rộng công cụ xác thực AI trên Google Search, Chrome và Pixel

Google mở rộng công cụ xác thực AI trên Google Search, Chrome và Pixel

Google mở rộng tìm kiếm bằng AI, mở ra kỷ nguyên 'tác nhân thông minh'

Google mở rộng tìm kiếm bằng AI, mở ra kỷ nguyên 'tác nhân thông minh'

Tin mới cập nhật

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Eo biển Hormuz làm thay đổi tư duy an ninh năng lượng toàn cầu

Eo biển Hormuz làm thay đổi tư duy an ninh năng lượng toàn cầu

Trước thềm World Cup 2026, Netflix ra mắt tựa game bóng đá miễn phí

Trước thềm World Cup 2026, Netflix ra mắt tựa game bóng đá miễn phí

Ứng dụng công nghệ số trong phát triển nông nghiệp xanh

Ứng dụng công nghệ số trong phát triển nông nghiệp xanh

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Thanh tra VNPT Huế phát hiện 138 SIM và 17 trạm BTS sai quy định

Thanh tra VNPT Huế phát hiện 138 SIM và 17 trạm BTS sai quy định

Công an phường Hòa Cường số hóa quản lý tạm trú người nước ngoài

Công an phường Hòa Cường số hóa quản lý tạm trú người nước ngoài

Tổng Bí thư, Chủ tịch nước Tô Lâm: Phát huy tinh thần Diên Hồng trong thời đại mới

Tổng Bí thư, Chủ tịch nước Tô Lâm: Phát huy tinh thần Diên Hồng trong thời đại mới

Hỗ trợ, phát triển các doanh nghiệp công nghệ số vươn ra toàn cầu

Hỗ trợ, phát triển các doanh nghiệp công nghệ số vươn ra toàn cầu

Honda ra mắt bộ đôi xe máy điện CUV e: và UC3 tại Việt Nam

Honda ra mắt bộ đôi xe máy điện CUV e: và UC3 tại Việt Nam

MOVA ra mắt bộ đôi hút bụi thông minh E50 Ultra và V70 Ultra Complete

MOVA ra mắt bộ đôi hút bụi thông minh E50 Ultra và V70 Ultra Complete

Phát hiện hơn 800 phụ tùng ô tô nghi giả mạo nhãn hiệu PEUGEOT, lộ nhiều vi phạm trên TMĐT

Phát hiện hơn 800 phụ tùng ô tô nghi giả mạo nhãn hiệu PEUGEOT, lộ nhiều vi phạm trên TMĐT

Tin đọc nhiều

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Google ra mắt Search Profiles dành riêng cho website và nhà sáng tạo nội dung

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Quy hoạch tần số truyền hình số mặt đất băng tần 470-694 MHz có gì mới

Synology giới thiệu loạt giải pháp quản trị dữ liệu thế hệ mới

Synology giới thiệu loạt giải pháp quản trị dữ liệu thế hệ mới

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

MISA AMIS OneAI: Nền tảng AI hợp nhất phổ cập cho tổ chức, doanh nghiệp và gia đình

Microchip giới thiệu tiện ích mở rộng MPLAB cho Visual Studio Code

Microchip giới thiệu tiện ích mở rộng MPLAB cho Visual Studio Code

Ảo hoá trải nghiệm - Cuộc đua mới của ngành công nghiệp ô tô toàn cầu

Ảo hoá trải nghiệm - Cuộc đua mới của ngành công nghiệp ô tô toàn cầu

Brazil: Dữ liệu tiêm chủng COVID-19 của 243 triệu công dân bị đánh cắp đòi tiền chuộc

Brazil: Dữ liệu tiêm chủng COVID-19 của 243 triệu công dân bị đánh cắp đòi tiền chuộc

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

ITU Digital World 2020: Doanh nghiệp kỳ vọng vào các cơ hội mới

Tấn công mạng lừa đảo chiếm một nửa số cuộc tấn công mạng ở Việt Nam trong 5 tháng qua

Tấn công mạng lừa đảo chiếm một nửa số cuộc tấn công mạng ở Việt Nam trong 5 tháng qua

Google Maps: Xem tốc độ bạn đang lái xe như thế nào ngay trên Ứng dụng

Google Maps: Xem tốc độ bạn đang lái xe như thế nào ngay trên Ứng dụng

Video xem nhiều

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Toàn cảnh xác lập kỷ lục Bản đồ Việt Nam được xếp từ nhiều xe ô tô nhất năm 2022

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Ford F-150 Lightning 2022 ra mắt: Bán tải chạy điện giá khởi điểm chưa đến 40 nghìn USD

Isuzu Mu-X 2021 hoàn toàn mới: Thiết kế hiện đại và đầy công nghệ

Isuzu Mu-X 2021 hoàn toàn mới: Thiết kế hiện đại và đầy công nghệ

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Honda MSX 125 Grom 2021 mẫu xe côn tay phiên bản đường đua

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Clip: Khuyến cáo đối với người lao động, người làm việc, người bán hàng tại khu dịch vụ trong dịch Covid-19

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

Lộ diện siêu xe hypercar Czinger 21C tăng tốc 0-100km/h chưa tới 2 giây

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

“Rắn tiên tri” dự đoán đội tuyển Việt Nam thắng Thái Lan

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Một ngày trải nghiệm giấc mơ trở thành tay đua F1 chuyên nghiệp ở Nhật Bản

Làm thế nào để nâng cao tương tác giữa loa và phòng nghe hiệu quả

Làm thế nào để nâng cao tương tác giữa loa và phòng nghe hiệu quả

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Trực tiếp: Apple ra mắt Iphone 11 tại Cupertino, California, Mỹ

Những gì bạn muốn biết về 5G

Những gì bạn muốn biết về 5G

5G thay đổi tương lai của bạn như thế nào?

5G thay đổi tương lai của bạn như thế nào?

Bàn về tầm nhìn và các trụ cột của công nghệ thông tin di động 6G
04/03/2022
Chip xử lý A15 Bionic của Apple có gì mới
15/09/2021
Sex Education mùa 3 được Netflix công chiếu vào 17/9
14/09/2021
iPhone 13 không thay đổi nhiều về ngoại hình, camera được nâng cấp mạnh
13/09/2021
Cách xem trực tiếp sự kiện ra mắt iPhone 13 và Apple Watch 7
10/09/2021
VNEID của Bộ Công an khác các ứng dụng đang được vận hành?
10/09/2021
'Cái tôi' thời 4.0 và tính hai mặt của mạng xã hội
04/09/2021
'Muôn màu' cảm xúc của trẻ trong ngày khai giảng online
24/08/2021
Chủ tịch Chu Ngọc Anh giải toả 'ách tắc' về Giấy đi đường cho người dân Thủ đô
10/08/2021
Hàng loạt Macbook M1 tự dưng vỡ màn hình, Apple có đồng ý bảo hành?
02/08/2021
6 bộ phim hay nhất để xem trên VieON
29/01/2021
Bắc Ninh: Không ký kết triển khai dự án Owifi 5G với CSE Singapore
27/06/2020
Bị World Bank cấm dự thầu 7 năm, công ty Sao Bắc Đẩu thừa nhận sai sót
27/06/2020
Wefinex - Mô hình hoạt động đa cấp "đội lốt" đầu tài chính trên mạng internet
10/06/2020
Khai trừ MISA khỏi Câu lạc bộ Chữ ký số và Giao dịch điện tử Việt Nam
27/05/2020
Chuyển đổi số - Nên hiểu như thế nào cho đúng
25/05/2020
Chống thất thu thuế là thách thức lớn đối với nền kinh tế số
29/04/2020
Cách chuyển tập tin sang máy tính mới
10/11/2019
VNPT, MobiFone, VTC sẽ hoàn thành cổ phần hóa trước năm 2021
20/08/2019
5G thay đổi tương lai của bạn như thế nào?
26/07/2019
Nhận diện hành vi lừa đảo trên không gian mạng
25/07/2019
Truyền hình OTT - Hướng đi mới của các “nhà Đài”
24/07/2019