Vòng l
2. Sự Giàu Có: Một Quan Niệm Mở RộngMột trong những cải tiến của Transformer là sử dụng multi-head attention. Thay vì tính toán chỉ một phép attention duy nhất, mô hình này chia nhỏ các vector Query, Key và Value thành nhiều đầu nhỏ và tính toán phép attention cho từng đầu riêng biệt. Sau đó, kết quả của tất cả các đầu được kết hợp lại để tạo ra một đầu ra