Transformers và các Cải tiến - Cùng Học Cùng Mơ

Kiến trúc Transformer lần đầu tiên được giới thiệu trong bài báo mang tính bước ngoặt năm 2017 “Attention Is All You Need” của các nhà nghiên cứu Google. Bài báo này đánh dấu một sự thay đổi mang tính cách mạng trong học sâu, đặc biệt đối với các tác vụ tuần tự-sang-tuần tự. Trước Transformer, các mô hình học sâu truyền thống như Mạng nơ-ron hồi quy (RNNs) và Bộ nhớ ngắn hạn dài (LSTMs) đã thống trị việc xử lý dữ liệu tuần tự, nhưng chúng gặp phải những hạn chế đáng kể. RNNs xử lý văn bản tuần tự, từng từ một, dẫn đến tốc độ xử lý chậm và khó khăn trong việc ghi nhớ thông tin từ đầu câu (vấn đề độ dốc biến mất). Mạng nơ-ron tích chập (CNNs) cũng có những hạn chế riêng vì chúng xử lý cục bộ, khiến việc nắm bắt các phụ thuộc xa trở nên khó khăn.

“Attention Is All You Need” đã thách thức quan niệm thông thường rằng sự đệ quy và tích chập là cần thiết cho các tác vụ tuần tự-sang-tuần tự. Thay vào đó, nó đề xuất một sự phụ thuộc hoàn toàn vào cơ chế tự chú ý. Đổi mới cốt lõi này cho phép Transformer xử lý toàn bộ các chuỗi dữ liệu đồng thời, thay vì tuần tự từng mã thông báo một. Khả năng xử lý song song này đã giảm đáng kể thời gian huấn luyện và cải thiện khả năng mở rộng so với các mô hình tuần tự trước đây. Tên bài báo, “Attention Is All You Need”, nhấn mạnh sự khác biệt căn bản này, khẳng định rằng cơ chế chú ý là đủ cho các tác vụ ngôn ngữ phức tạp.

Sự chuyển đổi cơ bản từ xử lý đệ quy/tích chập sang tự chú ý đã trực tiếp dẫn đến bước đột phá trong khả năng song song hóa. Điều này, đến lượt nó, đã cho phép huấn luyện các mô hình lớn hơn nhiều trên các tập dữ liệu khổng lồ, điều mà trước đây không thể thực hiện được, từ đó thúc đẩy “bùng nổ AI” gần đây. Khả năng xử lý toàn bộ chuỗi đồng thời, thay vì từng mã thông báo một, đã thay đổi cơ bản cách các mô hình học các phụ thuộc tầm xa.

Ý nghĩa và Tác động đến AI Hiện đại, đặc biệt là NLP

Các mô hình Transformer nhanh chóng trở thành xương sống của các mô hình học sâu hiện đại trong xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính và thậm chí cả các ứng dụng đa phương thức. Chúng cung cấp năng lượng cho các mô hình tạo văn bản như GPT của OpenAI, Llama của Meta và Gemini của Google. Khả năng song song hóa của kiến trúc là lý do chính cho việc nó được áp dụng rộng rãi trong các Mô hình ngôn ngữ lớn (LLMs), đóng góp đáng kể vào sự bùng nổ AI gần đây.

Transformer vượt trội trong việc hiểu ngữ cảnh và nắm bắt các phụ thuộc tầm xa trong văn bản, khắc phục những hạn chế của RNNs. Khả năng xử lý tất cả các phần của dữ liệu đầu vào đồng thời, thay vì tuần tự, đã cho phép mức độ tính toán song song cao trên GPU. Khả năng song song hóa này là yếu tố chính cho phép mở rộng quy mô mô hình đến kích thước chưa từng có, từ đó mở khóa các khả năng mới nổi được thấy trong LLMs và đóng góp vào “bùng nổ AI”. Sự thay đổi không chỉ là một cải tiến mà là một sự thay đổi cơ bản trong cách dữ liệu tuần tự có thể được mô hình hóa hiệu quả ở quy mô lớn.

Kiến trúc Transformer Nền tảng

Các Thành phần Cốt lõi và Luồng Dữ liệu

Mọi mô hình Transformer tạo văn bản về cơ bản bao gồm ba thành phần chính: Lớp nhúng (Embedding), Khối Transformer (Transformer Block) và Xác suất đầu ra (Output Probabilities). Quy trình xử lý dữ liệu bao gồm Mã hóa mã thông báo (Tokenization), Nhúng mã thông báo (Token Embedding), Mã hóa vị trí (Positional Encoding) và Nhúng cuối cùng (Final Embedding).

Mã hóa mã thông báo: Văn bản đầu vào được chia thành các đơn vị nhỏ hơn, dễ quản lý hơn gọi là mã thông báo (tokens), có thể là từ hoặc từ con. Ví dụ, từ “empowers” có thể được tách thành hai mã thông báo. Mỗi mã thông báo có một ID duy nhất, và vốn từ vựng đầy đủ của các mã thông báo được quyết định trước khi huấn luyện mô hình; vốn từ vựng của GPT-2 có 50.257 mã thông báo duy nhất.
Nhúng mã thông báo: Các mã thông báo này sau đó được chuyển đổi thành các vectơ số gọi là nhúng, nắm bắt ý nghĩa ngữ nghĩa của từ. Kích thước của các vectơ này phụ thuộc vào mô hình; ví dụ, GPT-2 (nhỏ) biểu diễn mỗi mã thông báo bằng một vectơ 768 chiều. Các vectơ nhúng này được lưu trữ trong một ma trận lớn, cho phép mô hình gán ý nghĩa ngữ nghĩa cho từng mã thông báo.
Mã hóa vị trí: Vì Transformer thiếu cấu trúc tuần tự vốn có như RNNs, thông tin về vị trí của mỗi mã thông báo trong chuỗi đầu vào phải được mã hóa và thêm vào. Các mô hình khác nhau sử dụng các phương pháp khác nhau cho mã hóa vị trí, chẳng hạn như các hàm hình sin hoặc ma trận mã hóa vị trí được huấn luyện từ đầu, như trong GPT-2. Mã hóa vị trí cho phép cơ chế tự chú ý phân biệt các mã thông báo dựa trên vị trí tương đối hoặc tuyệt đối của chúng.
Nhúng cuối cùng: Cuối cùng, các mã hóa mã thông báo và mã hóa vị trí được cộng lại để tạo ra biểu diễn nhúng cuối cùng. Biểu diễn kết hợp này nắm bắt cả ý nghĩa ngữ nghĩa của mã thông báo và vị trí của chúng trong chuỗi đầu vào.

Khối Transformer là khối xây dựng cơ bản của mô hình, xử lý và biến đổi dữ liệu đầu vào. Hầu hết các mô hình bao gồm nhiều khối như vậy được xếp chồng lên nhau tuần tự. Biểu diễn mã thông báo phát triển qua các lớp, từ khối đầu tiên đến khối cuối cùng, cho phép mô hình xây dựng sự hiểu biết phức tạp về từng mã thông báo.

Xác suất đầu ra là các lớp tuyến tính và softmax cuối cùng biến đổi các nhúng đã xử lý thành xác suất, cho phép mô hình đưa ra dự đoán về mã thông báo tiếp theo trong một chuỗi.

Cơ chế Tự chú ý: Vectơ Truy vấn, Khóa, Giá trị

Cơ chế tự chú ý là đổi mới cốt lõi của Transformer, cho phép các mã thông báo “giao tiếp” với các mã thông báo khác, nắm bắt thông tin ngữ cảnh và mối quan hệ giữa các từ. Đối với mỗi mã thông báo, ba vectơ được tạo: Truy vấn (Query – Q), Khóa (Key – K) và Giá trị (Value – V). Các vectơ này thường được lấy bằng cách chiếu nhúng của mã thông báo với các ma trận trọng số đã học.

Chú ý tích vô hướng có tỷ lệ: Điểm chú ý được tính bằng cách lấy tích vô hướng có tỷ lệ của Q và K, sau đó là phép toán softmax để tạo ra trọng số chú ý. Các trọng số này sau đó được sử dụng để tính tổng có trọng số của các vectơ Giá trị. Yếu tố tỷ lệ (chia cho căn bậc hai của chiều khóa) giúp ngăn chặn các giá trị lớn làm hỏng độ dốc. Cơ chế tự chú ý cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào đồng thời, nắm bắt các phụ thuộc tầm xa hiệu quả hơn các kiến trúc trước đây.

Chú ý Đa đầu: Nâng cao Khả năng Biểu diễn

Chú ý đa đầu nâng cao cơ chế tự chú ý bằng cách giới thiệu nhiều “đầu” chú ý song song. Mỗi đầu học các phép chiếu tuyến tính khác nhau của ma trận Q, K và V, cho phép mô hình nắm bắt các khía cạnh đa dạng của mối quan hệ giữa các từ đồng thời. Điều này đảm bảo rằng các nhúng đầu vào được cập nhật từ một tập hợp các quan điểm đa dạng hơn. Sau khi các đầu ra chú ý từ tất cả các đầu được tính toán, chúng được nối lại và truyền qua một phép biến đổi tuyến tính cuối cùng để tạo ra đầu ra.

Mạng truyền thẳng và Chuẩn hóa lớp

Mạng truyền thẳng (FFNs): Các lớp này bao gồm một mạng nơ-ron truyền thẳng hai lớp được áp dụng độc lập cho từng vị trí. Chúng xử lý đầu ra của cơ chế tự chú ý, tinh chỉnh biểu diễn của từng mã thông báo và chiếu nó trở lại chiều mong muốn. Lớp đầu tiên thường có hàm kích hoạt ReLU, đưa vào tính phi tuyến tính.

Lớp Cộng và Chuẩn hóa: Các kết nối còn lại được sử dụng để cộng đầu vào của một lớp vào đầu ra của nó, đảm bảo rằng độ dốc chảy trơn tru trong quá trình lan truyền ngược. Chuẩn hóa lớp được áp dụng sau phép cộng để ổn định quá trình huấn luyện bằng cách chuẩn hóa đầu ra của lớp để có giá trị trung bình bằng 0 và phương sai bằng đơn vị.

Thiết kế mô-đun của Transformer, với việc xếp chồng các khối giống hệt nhau và tách biệt rõ ràng giữa cơ chế chú ý và mạng truyền thẳng, cùng với việc sử dụng chuẩn hóa lớp, đã đóng góp đáng kể vào khả năng mở rộng và tổng quát hóa của nó trên nhiều tác vụ và lĩnh vực khác nhau. Các lớp “Cộng và Chuẩn hóa” đặc biệt quan trọng để duy trì sự ổn định của quá trình huấn luyện trong các mạng sâu, một bài học được rút ra từ các nghiên cứu học sâu trước đây. Khả năng mở rộng này là yếu tố chính cho xu hướng “mở rộng quy mô” được thấy trong các mô hình ngôn ngữ lớn (LLMs), vì nó cung cấp một nền tảng ổn định để thêm nhiều tham số và lớp hơn. Điều này cũng làm cho kiến trúc có thể thích ứng với các phương thức dữ liệu khác nhau (ví dụ: hình ảnh), vì cơ chế cốt lõi (chú ý) có thể được áp dụng cho các biểu diễn “mã thông báo” khác nhau.

Các Biến thể Transformer Chính và Đổi mới Cốt lõi của chúng

BERT (Bidirectional Encoder Representations from Transformers)

Được Google giới thiệu vào năm 2018, BERT đã cách mạng hóa khả năng hiểu ngôn ngữ bằng cách cung cấp ngữ cảnh hai chiều. Không giống như các mô hình trước đây xử lý văn bản theo một chiều, BERT xem xét đồng thời các từ đứng trước và sau một từ mục tiêu.

Mô hình ngôn ngữ bị che (Masked Language Modeling – MLM): Một đổi mới chính trong quá trình tiền huấn luyện của BERT là MLM. BERT ngẫu nhiên che đi một tỷ lệ phần trăm các mã thông báo đầu vào (ví dụ: 15%) và huấn luyện mô hình để dự đoán các từ bị che ban đầu dựa trên ngữ cảnh xung quanh chúng. Điều này cho phép mô hình hiểu sâu hơn, hai chiều về các sắc thái ngôn ngữ.

Dự đoán câu tiếp theo (Next Sentence Prediction – NSP): Một tác vụ tiền huấn luyện khác trong đó mô hình dự đoán liệu hai câu có theo sau nhau hay không.

Kiến trúc chỉ Bộ mã hóa (Encoder-Only Architecture): BERT sử dụng bộ mã hóa Transformer hai chiều nhiều lớp. Thiết kế này nhấn mạnh việc hiểu các chuỗi đầu vào hơn là tạo ra các chuỗi đầu ra.

Mô hình tiền huấn luyện, tinh chỉnh (Pre-train, Fine-tune Paradigm): BERT đã thiết lập phương pháp này như một cách tiếp cận tiêu chuẩn trong NLP, trong đó một mô hình được tiền huấn luyện trên các tập dữ liệu văn bản lớn không gắn nhãn và sau đó được tinh chỉnh trên các tập dữ liệu nhỏ hơn, gắn nhãn cho từng tác vụ cụ thể. Điều này đã giảm đáng kể các yêu cầu về tài nguyên để huấn luyện mô hình chất lượng cao.

GPT (Generative Pre-trained Transformer)

Các mô hình GPT, được OpenAI phát triển, tập trung vào việc tạo văn bản tự hồi quy.

Kiến trúc chỉ Bộ giải mã (Decoder-Only Architecture): Các mô hình GPT chỉ sử dụng ngăn xếp bộ giải mã của kiến trúc Transformer, tập trung vào việc tạo đầu ra trực tiếp theo trình tự.

Tự chú ý bị che (Masked Self-Attention): Trong kiến trúc GPT, cơ chế tự chú ý được áp dụng theo cách bị che, đảm bảo rằng một mã thông báo chỉ có thể chú ý đến các mã thông báo trước đó trong chuỗi, điều này rất quan trọng cho việc tạo văn bản tuần tự.

Tạo tự hồi quy (Autoregressive Generation): GPT dự đoán mã thông báo tiếp theo trong một chuỗi dựa trên các mã thông báo trước đó, cho phép tổng hợp văn bản trôi chảy và mạch lạc.

Mở rộng quy mô (Scaling Up): Sự thành công của các mô hình GPT, đặc biệt là GPT-3, đã chứng minh sức mạnh to lớn của việc mở rộng quy mô tham số mô hình (ví dụ: GPT-3 sử dụng số lượng tham số lớn hơn khoảng 1000 lần so với GPT-2) dẫn đến những tiến bộ đáng kể trong khả năng ngôn ngữ.

T5 (Text-to-Text Transfer Transformer)

Được Google Research phát triển, T5 (Text-to-Text Transfer Transformer) hợp nhất nhiều tác vụ NLP khác nhau bằng cách định hình mọi vấn đề thành một tác vụ văn bản-sang-văn bản. Điều này bao gồm tóm tắt, dịch thuật, trả lời câu hỏi và phân loại.

Kiến trúc Bộ mã hóa-Bộ giải mã (Encoder-Decoder Architecture): T5 sử dụng kiến trúc Transformer bộ mã hóa-bộ giải mã đầy đủ, trong đó bộ mã hóa xử lý đầu vào và bộ giải mã tạo đầu ra, cả hai đều dưới dạng văn bản.

Hư hỏng khoảng (Span Corruption): Một mục tiêu tiền huấn luyện không giám sát quan trọng trong đó các khoảng (chuỗi con của mã thông báo) trong đầu vào bị che đi, và mô hình được huấn luyện để dự đoán các khoảng bị che đó. Điều này dạy T5 hiểu cách các từ và cụm từ liên quan với nhau trong ngữ cảnh.

Khung thống nhất (Unified Framework): Cách tiếp cận này đơn giản hóa kiến trúc và làm cho nó trở nên rất linh hoạt, cho phép một mô hình duy nhất xử lý nhiều thách thức NLP khác nhau.

Sự khác biệt trong triết lý kiến trúc giữa BERT (chỉ bộ mã hóa), GPT (chỉ bộ giải mã) và T5 (bộ mã hóa-bộ giải mã) cho thấy mỗi mô hình được điều chỉnh cho các mục tiêu chính khác nhau (hiểu, tạo, chuyển đổi thống nhất). Điều này làm nổi bật rằng trong khi cơ chế Transformer cốt lõi là phổ quát, việc áp dụng nó đòi hỏi các lựa chọn kiến trúc cụ thể tùy thuộc vào tác vụ. Kiến trúc chỉ bộ mã hóa của BERT xuất sắc trong việc hiểu và biểu diễn (MLM, NSP). Kiến trúc chỉ bộ giải mã của GPT xuất sắc trong việc tạo ra (tự hồi quy). Kiến trúc bộ mã hóa-bộ giải mã của T5 xuất sắc trong việc chuyển đổi giữa các chuỗi đầu vào và đầu ra (văn bản-sang-văn bản). Điều này chứng minh tính linh hoạt của khối Transformer như một khối xây dựng cơ bản. Các nhà nghiên cứu có thể chọn và kết hợp các khối này để tạo ra các mô hình được tối ưu hóa cho các loại tác vụ AI cụ thể, thể hiện khả năng thích ứng và mạnh mẽ của kiến trúc trên các mô hình vấn đề khác nhau (ví dụ: phân loại so với tạo). Nguyên tắc “Attention is All You Need” mở rộng đến tính linh hoạt của cách chú ý được áp dụng.

Các tác vụ tiền huấn luyện cụ thể (MLM/NSP cho BERT, tự hồi quy cho GPT, hư hỏng khoảng cho T5) không phải là ngẫu nhiên mà được thiết kế cẩn thận để truyền cho các mô hình những khả năng cụ thể (hiểu hai chiều, tạo trôi chảy, xử lý tác vụ thống nhất). Điều này nhấn mạnh vai trò quan trọng của học tự giám sát trong sự thành công của các mô hình Transformer lớn. Sự thành công của các mô hình này không chỉ nằm ở kiến trúc Transformer mà còn ở phương pháp luận tiền huấn luyện trên dữ liệu không gắn nhãn khổng lồ. Mô hình “tiền huấn luyện, tinh chỉnh” này đã trở thành nền tảng của NLP hiện đại, dân chủ hóa quyền truy cập vào các mô hình mạnh mẽ bằng cách giảm nhu cầu về các tập dữ liệu gắn nhãn lớn cho từng tác vụ cụ thể.

Bảng 1: So sánh các Biến thể Transformer Nền tảng

Mô hình	Loại Kiến trúc Chính	Mục tiêu Tiền huấn luyện/Tác vụ Chính	Đổi mới/Trọng tâm Cốt lõi	Trường hợp Sử dụng Tiêu biểu
BERT	Chỉ Bộ mã hóa	Mô hình ngôn ngữ bị che (MLM), Dự đoán câu tiếp theo (NSP)	Hiểu ngữ cảnh hai chiều	Phân loại văn bản, Trả lời câu hỏi, Nhận dạng thực thể có tên
GPT	Chỉ Bộ giải mã	Tạo văn bản tự hồi quy	Tạo văn bản trôi chảy, tổng hợp ngữ cảnh	Tạo văn bản, Chatbots, Dịch máy, Tóm tắt nội dung
T5	Bộ mã hóa-Bộ giải mã	Hư hỏng khoảng (Span Corruption)	Khung văn bản-sang-văn bản thống nhất	Tóm tắt, Dịch máy, Trả lời câu hỏi, Phân tích cảm xúc

Giải quyết các Hạn chế của Transformer: Hiệu quả và Khả năng mở rộng

Thách thức về Độ phức tạp Bậc hai

Mặc dù thành công rực rỡ, các kiến trúc Transformer tiêu chuẩn vẫn phải đối mặt với một hạn chế đáng kể: độ phức tạp về thời gian và không gian của cơ chế tự chú ý là bậc hai theo độ dài của chuỗi đầu vào (O(n²)). Điều này có nghĩa là tăng gấp đôi độ dài chuỗi sẽ làm tăng gấp bốn lần yêu cầu về thời gian chạy và bộ nhớ. Điều này đặt ra những thách thức tính toán nghiêm trọng cho cả quá trình huấn luyện và suy luận, đặc biệt đối với các chuỗi đầu vào rất dài như tài liệu, hình ảnh độ phân giải cao hoặc video. Mức tiêu thụ bộ nhớ của các mô hình lớn có thể rất đáng kể (ví dụ: GPT-3 yêu cầu hơn 200 GB bộ nhớ), khiến việc triển khai trên các thiết bị tài nguyên hạn chế trở nên khó khăn.

Hơn nữa, có bằng chứng cho thấy việc mở rộng cửa sổ ngữ cảnh ngoài một điểm nhất định có thể mang lại lợi ích biên giảm dần, và các mô hình có thể gặp khó khăn với khả năng tổng hợp, các tác vụ nhạy cảm và các ràng buộc tầm xa trong tương lai. Cơ chế tự chú ý cho phép các mã thông báo “giao tiếp” trên toàn bộ chuỗi, cho phép xử lý song song và nắm bắt các phụ thuộc tầm xa. Tuy nhiên, “giao tiếp” này vốn dĩ liên quan đến các phép so sánh theo cặp (tích QKᵀ), dẫn đến một ma trận chú ý có kích thước tỷ lệ với n x n (trong đó n là độ dài chuỗi). Hậu quả toán học trực tiếp này dẫn đến độ phức tạp bộ nhớ và tính toán O(n²). Đây không chỉ là một thách thức kỹ thuật mà là một hạn chế cốt lõi của công thức tự chú ý ban đầu. Nghiên cứu tiếp theo (Mục 4.2) phần lớn là một nỗ lực để giảm thiểu sự đánh đổi cơ bản này, bằng cách xấp xỉ chú ý hoặc tối ưu hóa tính toán của nó, để mở khóa các cửa sổ ngữ cảnh dài hơn nữa và cho phép các ứng dụng mới.

Đổi mới Kiến trúc cho Ngữ cảnh Dài

Nhiều cách tiếp cận đã được đề xuất để tăng tốc cơ chế tự chú ý và đạt được thời gian chạy dưới bậc hai.

Cơ chế chú ý thưa thớt (Sparse Attention Mechanisms):

Ý tưởng cốt lõi: Thay vì tính toán chú ý trên mọi cặp mã thông báo, các cơ chế chú ý thưa thớt chỉ tập trung vào một tập hợp con, giảm đáng kể các phép tính.
Ví dụ:
- Longformer: Thay đổi Transformer để mở rộng tuyến tính theo độ dài chuỗi bằng cách sử dụng một mẫu chú ý kết hợp chú ý cửa sổ cục bộ với chú ý toàn cục theo nhiệm vụ. Điều này cho phép xử lý các tài liệu dài hàng nghìn mã thông báo.
- Big Bird: Mở rộng BERT với cơ chế chú ý thưa thớt kết hợp các kết nối trượt, toàn cục và ngẫu nhiên, cho phép mỗi mã thông báo chú ý đến một tập hợp con của các mã thông báo khác. Điều này giảm độ phức tạp từ bậc hai xuống tuyến tính.
Lợi ích: Giảm độ phức tạp tính toán (O(n log n) hoặc O(n)), hiệu quả cho các chuỗi dài, cải thiện khả năng mở rộng.
Đánh đổi: Có thể có khả năng mô hình hóa hạn chế so với chú ý đầy đủ.

Mô hình chú ý tuyến tính (Linear Attention Models):

Ý tưởng cốt lõi: Xấp xỉ cơ chế chú ý để đưa độ phức tạp từ O(n²) xuống O(n). Các mô hình này thường thay thế trạng thái ẩn kích thước cố định bằng một tập hợp các trạng thái ẩn tăng theo logarit.
Ví dụ:
- Reformer: Đạt được độ phức tạp O(L log L) bằng cách thay thế chú ý tích vô hướng truyền thống bằng chú ý băm nhạy cảm cục bộ (LSH) và sử dụng các lớp hồi quy đảo ngược để quản lý bộ nhớ. Nó có thể xử lý các chuỗi dài tới 1 triệu từ chỉ với 16GB bộ nhớ.
- Performer: Ước tính các Transformer chú ý toàn hạng softmax với độ chính xác có thể chứng minh được bằng cách sử dụng độ phức tạp không gian và thời gian tuyến tính, mà không cần dựa vào bất kỳ tiên nghiệm nào như tính thưa thớt hoặc hạng thấp. Nó sử dụng cách tiếp cận Chú ý nhanh thông qua các tính năng ngẫu nhiên trực giao dương (FAVOR+).
Lợi ích: Giảm đáng kể độ phức tạp tính toán và bộ nhớ (mở rộng tuyến tính), cho phép xử lý chuỗi rất dài.
Đánh đổi: Đưa ra lỗi xấp xỉ, có khả năng làm giảm độ chính xác để đổi lấy hiệu quả.

FlashAttention:

Ý tưởng cốt lõi: Một thuật toán sắp xếp lại tính toán chú ý và tận dụng các kỹ thuật cổ điển (xếp gạch, tính toán lại) để tăng tốc đáng kể và giảm mức sử dụng bộ nhớ từ bậc hai xuống tuyến tính trong thực tế. Nó tối ưu hóa chú ý tiêu chuẩn mà không có bất kỳ sự xấp xỉ nào.
Lợi ích: Nhanh hơn từ 2,2 đến 2,7 lần đối với các chuỗi dài (8K) so với triển khai PyTorch tiêu chuẩn và nhanh hơn 2,2 lần so với Megatron-LM. Cải thiện hiệu quả huấn luyện và cho phép huấn luyện với độ dài ngữ cảnh dài hơn với mức giảm hiệu quả phần cứng tối thiểu.
Điểm khác biệt: Không giống như chú ý thưa thớt hoặc tuyến tính, FlashAttention không thay đổi độ phức tạp lý thuyết O(n²) cơ bản mà làm cho việc thực thi thực tế của nó hiệu quả hơn nhiều trên phần cứng.

Mã hóa vị trí cải tiến (Improved Positional Encodings):

Ý tưởng cốt lõi: Các cải tiến đối với mã hóa vị trí rất quan trọng để cho phép ngoại suy độ dài, cho phép các mô hình tổng quát hóa cho các chuỗi dài hơn những gì đã thấy trong quá trình huấn luyện.
Ví dụ: RoPE (Mã nhúng vị trí quay), ALiBi (Chú ý với độ lệch tuyến tính), Nội suy vị trí.
Lợi ích: Giải quyết thách thức của việc Transformer gặp khó khăn trong việc tổng quát hóa từ các chuỗi huấn luyện ngắn sang các chuỗi suy luận dài hơn.

Tối ưu hóa Bộ nhớ và Huấn luyện

Lượng tử hóa (Quantization):

Ý tưởng cốt lõi: Giảm độ chính xác của trọng số và kích hoạt của mô hình (ví dụ: từ độ chính xác dấu phẩy động 32-bit/16-bit xuống 8-bit hoặc thấp hơn).
Lợi ích: Giảm đáng kể yêu cầu bộ nhớ (ví dụ: giảm 50% đối với GPT-3 với INT8) và cho phép tính toán nhanh hơn và sử dụng bộ nhớ thấp hơn, cho phép kích thước lô lớn hơn hoặc chuỗi dài hơn.

Cắt tỉa (Pruning):

Ý tưởng cốt lõi: Loại bỏ các kết nối hoặc trọng số không cần thiết khỏi mô hình.
Lợi ích: Giảm kích thước mô hình và mức sử dụng bộ nhớ, cải thiện tốc độ suy luận.

Bộ nhớ đệm Khóa-Giá trị (Key-Value (KV) Caching):

Ý tưởng cốt lõi: Trong quá trình suy luận tự hồi quy, các vectơ Khóa và Giá trị cho các mã thông báo đã tạo trước đó có thể được lưu vào bộ nhớ đệm và sử dụng lại, tránh tính toán lại.
Lợi ích: Giảm tính toán dư thừa, tăng tốc đáng kể quá trình suy luận, đặc biệt đối với việc tạo tuần tự.

Song song hóa (Tensor, Pipeline):

Ý tưởng cốt lõi: Phân phối tính toán và tham số mô hình trên nhiều GPU hoặc thiết bị để xử lý các mô hình và tập dữ liệu lớn hơn.
- Song song hóa Tensor: Chia các tham số của mô hình (ví dụ: các đầu chú ý) trên các GPU, xử lý các phần khác nhau của cùng một đầu vào song song.
- Song song hóa Pipeline: Chia mô hình thành các đoạn tuần tự, mỗi đoạn được xử lý bởi một GPU khác nhau, giảm mức sử dụng bộ nhớ trên mỗi GPU.
Lợi ích: Cho phép huấn luyện và suy luận các mô hình quá lớn đối với một thiết bị duy nhất, cải thiện thông lượng tổng thể.

Giải mã dự đoán (Speculative Decoding):

Ý tưởng cốt lõi: Một kỹ thuật tối ưu hóa tiên tiến giúp giảm độ trễ bằng cách sử dụng một mô hình “nháp” nhỏ hơn, nhanh hơn để dự đoán một vài mã thông báo phía trước, sau đó được xác minh bởi mô hình chính, lớn hơn.
Lợi ích: Song song hóa việc tạo mã thông báo, tăng tốc đáng kể tốc độ suy luận cho các ứng dụng thời gian thực.

Xử lý theo lô (Batching):

Ý tưởng cốt lõi: Xử lý nhiều đầu vào đồng thời.
Lợi ích: Cải thiện việc sử dụng GPU và chia sẻ chi phí bộ nhớ của trọng số mô hình trên nhiều yêu cầu, dẫn đến thông lượng cao hơn.

Sự đa dạng của các kỹ thuật tối ưu hóa (thưa thớt, tuyến tính, FlashAttention, lượng tử hóa, bộ nhớ đệm, song song hóa, giải mã dự đoán) cho thấy độ phức tạp bậc hai của cơ chế tự chú ý là nút thắt quan trọng nhất đối với Transformer. Không có giải pháp đơn lẻ nào là viên đạn bạc; thay vào đó, cần có sự kết hợp giữa các sửa đổi kiến trúc, tối ưu hóa thuật toán và chiến lược triển khai để vượt qua giới hạn về quy mô và hiệu quả. Điều này hàm ý rằng những tiến bộ trong tương lai có thể liên quan đến các cách tiếp cận lai kết hợp các kỹ thuật này, có thể là động, để đạt được hiệu suất tối ưu trên các độ dài chuỗi và ràng buộc phần cứng khác nhau. Mục tiêu không chỉ là làm cho Transformer có thể xử lý các chuỗi dài, mà là hiệu quả trong thực tế.

FlashAttention là một ví dụ về sự chuyển dịch từ việc giảm độ phức tạp thuần túy về mặt lý thuyết (như chú ý tuyến tính) sang việc triển khai thực tế được tối ưu hóa cao. Điều này làm nổi bật tầm quan trọng ngày càng tăng của các thuật toán nhận biết phần cứng và tối ưu hóa cấp hệ thống trong việc thúc đẩy khả năng AI. Sự song hành giữa các mô hình chú ý thưa thớt và tuyến tính, nhằm giảm độ phức tạp lý thuyết từ O(n²) xuống O(n) hoặc O(n log n), và FlashAttention, tối ưu hóa tính toán chú ý tiêu chuẩn mà không cần xấp xỉ, đạt được tốc độ thực tế đáng kể, cho thấy hai con đường cải tiến khác nhau. Sự song hành này chỉ ra rằng đổi mới trong AI không chỉ về các thuật toán mới lạ mà còn về việc đồng thiết kế thuật toán với phần cứng. Khi các mô hình phát triển, khoảng cách giữa hiệu quả lý thuyết và hiệu suất thực tế trở nên quan trọng, thúc đẩy nghiên cứu về các tối ưu hóa nhận biết phần cứng như FlashAttention. Điều này cũng gợi ý rằng các đột phá trong tương lai có thể đến từ sự tích hợp sâu hơn giữa thiết kế mô hình và cơ sở hạ tầng tính toán.

Bảng 2: Các Kỹ thuật Hiệu quả cho Transformer Chuỗi dài

Danh mục Kỹ thuật	Kỹ thuật/Mô hình Cụ thể	Ý tưởng/Cơ chế Cốt lõi	Giảm Độ phức tạp	Lợi ích Chính	Đánh đổi/Hạn chế
Chú ý Thưa thớt	Longformer	Chú ý cửa sổ cục bộ + chú ý toàn cục	O(n²) -> O(n)	Xử lý tài liệu rất dài (hàng nghìn mã thông báo)	Khả năng mô hình hóa hạn chế so với chú ý đầy đủ
	Big Bird	Kết hợp kết nối trượt, toàn cục, ngẫu nhiên	O(n²) -> O(n)	Xử lý chuỗi dài hiệu quả hơn	Khả năng mô hình hóa hạn chế so với chú ý đầy đủ
Chú ý Tuyến tính	Reformer	Băm nhạy cảm cục bộ (LSH), lớp hồi quy đảo ngược	O(L²) -> O(L log L)	Xử lý chuỗi rất dài (1 triệu từ với 16GB bộ nhớ)	Đưa ra lỗi xấp xỉ, có thể giảm độ chính xác
	Performer	Ước tính chú ý softmax toàn hạng bằng FAVOR+	O(n²) -> O(n)	Độ chính xác có thể chứng minh, không dựa vào tiên nghiệm thưa thớt	Đưa ra lỗi xấp xỉ, có thể giảm độ chính xác
Tối ưu hóa Tính toán	FlashAttention	Sắp xếp lại tính toán, xếp gạch, tính toán lại	O(n²) (thực tế hiệu quả hơn)	Tăng tốc độ huấn luyện/suy luận đáng kể (2.2-2.7x)	Không thay đổi độ phức tạp lý thuyết O(n²)
Tối ưu hóa Bộ nhớ	Lượng tử hóa	Giảm độ chính xác trọng số/kích hoạt (ví dụ: INT8)	Giảm yêu cầu bộ nhớ	Giảm 50% bộ nhớ, tăng thông lượng	Có thể ảnh hưởng nhỏ đến độ chính xác
	Cắt tỉa	Loại bỏ kết nối/trọng số không cần thiết	Giảm kích thước mô hình	Giảm bộ nhớ, tăng tốc suy luận	Có thể ảnh hưởng đến hiệu suất nếu không được thực hiện cẩn thận
	Bộ nhớ đệm KV	Lưu trữ và sử dụng lại các vectơ Q, K đã tính toán	Giảm tính toán dư thừa	Tăng tốc suy luận tự hồi quy	Tăng yêu cầu bộ nhớ cho bộ đệm
Chiến lược Triển khai	Song song hóa (Tensor, Pipeline)	Phân phối tính toán/tham số trên nhiều GPU	Cho phép mô hình lớn hơn	Huấn luyện/suy luận các mô hình quá lớn cho một thiết bị	Phức tạp trong triển khai, có thể có thời gian chờ
	Giải mã dự đoán	Sử dụng mô hình nháp nhỏ hơn để dự đoán trước	Giảm độ trễ	Tăng tốc đáng kể việc tạo mã thông báo	Yêu cầu mô hình nháp bổ sung
	Xử lý theo lô	Xử lý nhiều đầu vào đồng thời	Cải thiện sử dụng GPU	Tăng thông lượng tổng thể	Có thể tăng độ trễ cho các yêu cầu riêng lẻ

Bảng này cung cấp một cái nhìn tổng quan rõ ràng về các chiến lược đa dạng được sử dụng để mở rộng quy mô Transformer cho các chuỗi dài và các ràng buộc về tài nguyên. Nó làm nổi bật cách các phương pháp khác nhau giải quyết độ phức tạp bậc hai (lý thuyết so với thực tế), các cơ chế cụ thể của chúng (ví dụ: cửa sổ, băm, sắp xếp lại, giảm độ chính xác) và các thỏa hiệp liên quan (ví dụ: lỗi xấp xỉ so với không xấp xỉ).

Tác động Rộng lớn và Ứng dụng Ngoài Xử lý Ngôn ngữ Tự nhiên

Thị giác Máy tính (Vision Transformers – ViTs)

Vision Transformers (ViTs) đại diện cho một sự thay đổi đột phá trong thị giác máy tính, tận dụng các cơ chế tự chú ý từ NLP. Thay vì Mạng nơ-ron tích chập (CNNs) truyền thống, ViTs xử lý hình ảnh dưới dạng chuỗi các mảng nhỏ hơn, với mỗi mảng hoạt động như một “mã thông báo hình ảnh”. Các mảng hình ảnh được làm phẳng thành các vectơ 1D, được nhúng tuyến tính và sau đó được xử lý bởi bộ mã hóa Transformer với chú ý đa đầu. Mã nhúng vị trí được thêm vào để giữ lại thông tin không gian.

ViTs nắm bắt các mối quan hệ toàn cục và các phụ thuộc tầm xa trong dữ liệu hình ảnh, khắc phục tính cục bộ của CNNs. Chúng đạt được hiệu suất vượt trội trong phân loại hình ảnh, phát hiện đối tượng và mô hình tạo sinh. ViTs có thể vượt trội hơn CNNs về hiệu quả tính toán và độ chính xác, đặc biệt khi được tiền huấn luyện với đủ dữ liệu.

Khám phá Thuốc và Tin sinh học

Transformer đang cách mạng hóa thiết kế thuốc bằng cách tăng tốc quá trình tạo ra các phân tử thuốc mới và dự đoán tương tác của chúng với protein.

Các ứng dụng chính:

Phân tích chuỗi sinh học: Transformer có thể phân tích chuỗi protein (axit amin) để dự đoán hành vi hoặc tương tác của chúng với thuốc.
Ánh xạ cấu trúc hóa học: Sử dụng các biểu diễn giống ngôn ngữ (ví dụ: SMILES), Transformer hiểu và điều chỉnh cấu trúc hóa học để tạo ra các loại thuốc hoạt động tốt hơn.
Thiết kế thuốc De Novo: Tạo ra các ứng cử viên thuốc mới từ đầu. Ví dụ, khung drugAI tích hợp bộ giải mã Transformer với Tìm kiếm cây Monte Carlo (MCTS) để tinh chỉnh lặp đi lặp lại và đảm bảo các phân tử hợp lệ, giống thuốc.
Dự đoán tương tác Protein-Ligand: Dự đoán mức độ mạnh của các phân tử sẽ liên kết với các protein cụ thể.
Tối ưu hóa đa mục tiêu: Cân bằng các mục tiêu như an toàn, hiệu quả, độ hòa tan và độc tính.
Phát triển thuốc đặc hiệu mục tiêu: Thiết kế các phân tử được tối ưu hóa cho các tương tác chính xác với các mục tiêu sinh học cụ thể.

Ưu điểm so với các phương pháp truyền thống: Phân tích song song nhanh hơn, khám phá không gian hóa học lớn hơn, khả năng thích ứng với các vấn đề mới mà không cần các quy tắc được mã hóa cứng.

AI Đa phương thức

Transformer đang trở thành trung tâm của học đa phương thức, kết hợp các loại dữ liệu khác nhau như văn bản, hình ảnh, âm thanh và video vào các mô hình thống nhất. Các ví dụ bao gồm các mô hình như VisualBERT và VL-BERT mở rộng BERT cho các tác vụ thị giác và ngôn ngữ. MAGVIT lượng tử hóa video thành các mã thông báo không gian-thời gian để xử lý. Sự tích hợp này cho phép hiểu và tạo phong phú hơn trên các phương thức dữ liệu khác nhau, điều này rất quan trọng cho các tác nhân AI trong tương lai tương tác với môi trường thế giới thực phức tạp.

Các Ứng dụng Mới nổi khác

Phân tích tài chính: Phát hiện các mẫu gian lận và dự đoán xu hướng thị trường.
Người máy: Cải thiện lập kế hoạch chuyển động và hiểu môi trường.
AI đàm thoại: Cung cấp năng lượng cho chatbot và trợ lý ảo.
Tạo mã và gỡ lỗi: Tạo các đoạn mã và hỗ trợ gỡ lỗi.

Sự thành công của Transformer trên các lĩnh vực đa dạng (NLP, thị giác, khám phá thuốc, đa phương thức) cho thấy chúng đang trở thành một kiến trúc gần như phổ quát cho dữ liệu tuần tự phức tạp, bất kể phương thức (văn bản, pixel, axit amin). Điều này là do cơ chế chú ý cốt lõi không phụ thuộc vào bản chất của các mã thông báo, mà chỉ vào các mối quan hệ của chúng. Nếu dữ liệu có thể được mã hóa hiệu quả thành một chuỗi (ví dụ: các mảng hình ảnh, axit amin), thì khả năng của Transformer trong việc nắm bắt các phụ thuộc tầm xa và song song hóa tính toán sẽ trở nên phổ biến. Khả năng ứng dụng rộng rãi này định vị Transformer là một công nghệ nền tảng cho Trí tuệ nhân tạo tổng quát (AGI), vì chúng có thể tích hợp và xử lý thông tin từ các đầu vào cảm giác và các miền kiến thức khác nhau, vượt ra ngoài các hệ thống AI chuyên biệt. Nguyên tắc “Attention Is All You Need” mở rộng thành “Attention is all you need để xử lý bất kỳ chuỗi nào.”

Định hướng Tương lai và Xu hướng Mới nổi

Những Tiến bộ Tiếp theo về Hiệu quả và Mô hình hóa Ngữ cảnh Dài

Lĩnh vực này sẽ tiếp tục tập trung vào việc mở rộng độ dài ngữ cảnh để cho phép các mô hình hiểu các đầu vào dài hơn nữa như toàn bộ sách, hình ảnh độ phân giải cao và video dài. Nghiên cứu sẽ khám phá những cải tiến sâu hơn đối với cơ chế chú ý, bao gồm các sơ đồ chú ý lai kết hợp tốc độ và khả năng mở rộng. Các tối ưu hóa như FlashAttention chỉ là một bước tiến tới việc trang bị cho các mô hình ngữ cảnh dài, giúp quá trình huấn luyện nhanh hơn và hiệu quả hơn về phần cứng.

Mô hình Hỗn hợp Chuyên gia (Mixture-of-Experts – MoE) và Tính toán Thích ứng

Các xu hướng mới nổi bao gồm tính thưa thớt và các mô hình Hỗn hợp Chuyên gia (MoE). Kiến trúc MoE cho phép các mô hình chọn lọc chỉ kích hoạt một tập hợp con các tham số của chúng cho một đầu vào nhất định, dẫn đến tính toán hiệu quả hơn cho các mô hình rất lớn. Tính toán thích ứng có thể tinh chỉnh thêm Transformer trong những năm tới.

Các xu hướng tương lai chỉ ra một sự chuyển dịch từ việc chỉ đơn giản là làm cho các mô hình lớn hơn (mở rộng quy mô tham số) sang việc làm cho chúng có khả năng mở rộng và hiệu quả một cách thông minh (ví dụ: MoE, tính toán thích ứng). Điều này cho thấy sự công nhận rằng số lượng tham số thô có thể đạt đến điểm lợi nhuận giảm dần hoặc trở nên không khả thi về mặt kinh tế nếu không có các mô hình kiến trúc và huấn luyện thông minh hơn. Các mô hình MoE cho phép số lượng tham số khổng lồ nhưng chỉ kích hoạt một tập hợp con cho mỗi đầu vào, dẫn đến suy luận hiệu quả cho các mô hình lớn. Tính toán thích ứng ngụ ý các mô hình điều chỉnh nỗ lực tính toán của chúng dựa trên độ phức tạp của tác vụ. Sự trưởng thành của lĩnh vực này, nơi các nhà nghiên cứu không chỉ đẩy giới hạn của những gì có thể mà còn tập trung vào AI bền vững và có thể triển khai. Điều này có thể dẫn đến các mô hình lớn tiết kiệm năng lượng và dễ tiếp cận hơn, mở rộng tác động thực tế của chúng ra ngoài môi trường tài nguyên cao hiện tại.

Tích hợp với Học máy Lượng tử

Các mô hình Transformer đang được khám phá trong học máy lượng tử, tập trung vào các cách tiếp cận mạch tham số cho các thiết bị NISQ (Noisy Intermediate-Scale Quantum) hiện tại. Các thách thức bao gồm khả năng mở rộng và các cao nguyên cằn cỗi, đòi hỏi nghiên cứu sâu hơn về các kiến trúc lai.

Sự phát triển của các Tác nhân AI và Hiểu biết Đa phương thức

Các tác nhân AI trong tương lai sẽ cần ghi nhớ các hành động trong quá khứ và phản hồi của người dùng, đòi hỏi mô hình hóa ngữ cảnh dài hơn nữa. Việc tích hợp dữ liệu đa phương thức (văn bản, thị giác, lời nói) sẽ đóng vai trò lớn hơn nữa, với Transformer là cốt lõi. Những đổi mới trong AI tác nhân, nơi nhiều tác nhân AI làm việc cùng nhau để giải quyết các vấn đề phức tạp, sẽ tận dụng khả năng của Transformer.

Sự tập trung liên tục vào mô hình hóa ngữ cảnh dài trong tất cả các định hướng tương lai nhấn mạnh rằng khả năng xử lý và giữ lại lượng thông tin khổng lồ được coi là chìa khóa để mở khóa thế hệ khả năng AI tiếp theo, đặc biệt đối với các tác nhân AI cá nhân hóa và đa phương thức. Khả năng xử lý và tích hợp thông tin trên các chuỗi rất dài trực tiếp cho phép hiểu biết tinh vi hơn (ví dụ: hiểu tài liệu đầy đủ, cảnh quan trực quan phức tạp) và tạo ra sự mạch lạc, nhận biết ngữ cảnh hơn. Điều này là một phần mở rộng trực tiếp của sức mạnh ban đầu của Transformer trong việc nắm bắt các phụ thuộc tầm xa. Điều này cho thấy rằng “cửa sổ ngữ cảnh” không chỉ là một tham số kỹ thuật mà là một yếu tố quyết định cơ bản của trí tuệ và tiện ích của AI. Khi các hệ thống AI trở nên tương tác hơn và đa phương thức, khả năng “ghi nhớ” và tích hợp lịch sử tương tác và đầu vào cảm giác rộng lớn, đa dạng của chúng sẽ xác định khả năng của chúng, biến mô hình hóa ngữ cảnh dài trở thành một biên giới bền vững.