Trí khôn của AI đang bị thử thách bằng game Super Mario ~ TRƯƠNG CÔNG THẮNG

Wednesday, March 5, 2025

Theo TechCrunch, nhiều người nghĩ Pokémon đã là bài kiểm tra khó nhằn nhất cho trí tuệ nhân tạo (AI)? Nhưng công cuộc thử thách AI chưa dừng lại ở đó, mới đây, các nhà nghiên cứu tại đại học California San Diego (Mỹ) vừa đưa ra một thách thức mới với trò chơi Super Mario Bros. Kết quả cho thấy, không phải AI nào cũng có thể 'về đích' thành công.

Trí khôn của AI đang được thử thách bằng game Super Mario - Ảnh 1.

Game Mario đang được dùng để thử nghiệm hiệu suất các mô hình AI lớn

ẢNH: CHỤP MÀN HÌNH TECHCRUNCH

Super Mario mang đến thách thức lớn cho các mô hình AI

Phòng thí nghiệm Hao AI đã đưa AI vào thế giới của Mario, nhằm kiểm tra khả năng của các mô hình ngôn ngữ hàng đầu hiện nay. Kết quả cho thấy, Claude 3.7 của Anthropic hoạt động tốt nhất, theo sau là Claude 3.5. Trong khi đó, Gemini 1.5 Pro của Google và GPT-4o của OpenAI gặp nhiều khó khăn hơn trong việc tự chơi game.

Cần lưu ý, đây không phải là phiên bản Super Mario Bros. gốc năm 1985. Trò chơi được chạy trên trình giả lập, tích hợp với framework GamingAgent để AI điều khiển chú lùn Mario. GamingAgent cung cấp hướng dẫn cơ bản cho AI và ảnh chụp màn hình trò chơi. AI sau đó tạo ra mã Python để điều khiển nhân vật.

Theo Hao AI, trò chơi buộc các mô hình phải 'học' cách lập kế hoạch di chuyển phức tạp và xây dựng chiến lược chơi. Điều thú vị là các mô hình 'lý luận' (reasoning models) như o1 của OpenAI, vốn mạnh hơn trên hầu hết các bài kiểm tra, lại gặp khó khăn hơn so với các mô hình 'phi lý luận' (non-reasoning models).

Lý do được đưa ra là các mô hình lập luận mất thời gian để đưa ra quyết định, trong khi Super Mario Bros. đòi hỏi phản xạ nhanh nhạy. Một giây chậm trễ có thể dẫn đến thất bại.

Việc sử dụng trò chơi để đánh giá AI đã diễn ra từ lâu, nhưng nhiều chuyên gia vẫn hoài nghi về tính chính xác của phương pháp này. Họ cho rằng trò chơi quá đơn giản và cung cấp quá nhiều dữ liệu để huấn luyện AI, không phản ánh đúng khả năng của AI trong thế giới thực.

Andrej Karpathy, một nhà khoa học nghiên cứu tại OpenAI, gọi đây là 'khủng hoảng đánh giá'. Ông thừa nhận rằng hiện tại không có thước đo chính xác nào để đánh giá năng lực của AI.

Dù những tranh luận về tính chính xác của việc đánh giá AI qua trò chơi vẫn còn, việc chứng kiến AI 'chiến đấu' trong thế giới của Mario vẫn mang đến những trải nghiệm thú vị và giúp mọi người hiểu rõ hơn về khả năng của AI.


0 comments:

Post a Comment

Mỹ phẩm

DUNG DỊCH TẮM GỘI KHÔ – PH
90.000₫
MẶT NẠ TÓC PHỤC HỒI HƯ TỔN PREMIUM REPAIR MASK 180G – TSUBAKI
225.000₫
BỒ KẾT HOA BƯỞI 300ML – NCT3
340.000₫
DẦU XẢ THẢO DƯỢC BỒ KẾT SẢ CHANH HOA BƯỞI 300ML – TRƯỜNG HƯNG THỊNH
100.000₫
DẦU GỘI THẢO DƯỢC BỒ KẾT SẢ CHANH HOA BƯỞI 300ML – TRƯỜNG HƯNG THỊNH
100.000₫
SERUM DƯỠNG TÓC HOA BƯỞI GIẢM GÃY RỤNG 50ML – POMELO
84.000₫
299.000đ
QUẦN JEAN ỐNG RỘNG CẠP CAO, DÀI XẺ GẤU PHONG CÁCH J6
99.000đ
ÁO KHOÁC CARDIGAN MẶT CƯỜI NỮ CHẤT NỈ COTTON
150.000đ
ÁO KHOÁC HOODIE NAM NỮ PHỐI THEO PHONG CÁCH HÀN QUỐC FORM RỘNG HÌNH THÊU SIÊU ĐẸP CỰC CHẤT LƯỢNG HÀNG HOT TREND
148.000đ
QUẦN DÀI NỮ SUÔNG KẺ CARO
148.000đ
SET ĐẦM MẶC HAI KIỂU KÈM BÔNG CỔ MOCKING THÂN SAU(CÓ MÚT) MD126
49.000đ
ÁO THUN NỮ, ÁO PHÔNG UNISEX COTTON SU MÁT MẺ EDIE BAUER
LinkCollider - Website Ranking Tool Using Social Media

Popular Posts

Phụ kiện tóc

270.000đ
Tông đơ cắt tóc sokany 721
270.000đ
Tông đơ LK-2002 sạc USB
242.000đ
Tông đơ cắt tóc sokany 805B
235.000đ
Tông đơ cắt tóc sokany 5108
209.000đ
TÔNG ĐƠ CẮT TÓC KIÊM CẠO RÂU, TỈA LÔNG MŨI 3IN1 Kemei
449.000đ
Tông Đơ Đa Năng Kemei

10khits

Back Link

(x)
(x)