Mỗi biến trung gian mã hóa một trạng thái năm 2024

Mạng lưới thần kinh biến áp được mô tả

Máy biến áp là một loại học máy mô hình chuyên xử lý và giải thích dữ liệu tuần tự, làm cho chúng trở nên tối ưu cho xử lý ngôn ngữ tự nhiên nhiệm vụ. Để hiểu rõ hơn máy biến áp học máy là gì và cách chúng hoạt động, chúng ta hãy xem xét kỹ hơn các mô hình máy biến áp và cơ chế vận hành chúng.

Bài viết này sẽ bao gồm:

  • Mô hình tuần tự đến tuần tự
  • Kiến trúc mạng lưới thần kinh biến áp
  • Cơ chế chú ý
  • Sự khác biệt giữa Máy biến áp và RNN/LSTM

Mô hình tuần tự đến tuần tự

Các mô hình nối tiếp theo trình tự là một loại mô hình NLP được sử dụng để chuyển đổi các chuỗi của một loại thành một chuỗi thuộc loại khác. Có nhiều loại mô hình nối tiếp nhau, chẳng hạn như Mạng thần kinh tái diễn các mô hình và Bộ nhớ ngắn hạn dài (LSTM) .

Các mô hình tuần tự theo trình tự truyền thống như RNN và LSTMS không phải là trọng tâm của bài viết này, nhưng cần hiểu về chúng để đánh giá cách thức hoạt động của các mô hình máy biến áp và lý do tại sao chúng vượt trội so với các mô hình tuần tự theo trình tự truyền thống.

Tóm lại, RNN các mô hình và mô hình LSTM bao gồm các mạng bộ mã hóa và giải mã phân tích dữ liệu đầu vào ở các bước thời gian khác nhau. Mô hình bộ mã hóa chịu trách nhiệm hình thành một biểu diễn được mã hóa của các từ trong dữ liệu đầu vào. Ở mỗi bước thời gian, mạng bộ mã hóa nhận một chuỗi đầu vào và trạng thái ẩn từ bước thời gian trước đó trong chuỗi. Các giá trị trạng thái ẩn được cập nhật khi dữ liệu tiến hành qua mạng, cho đến bước cuối cùng, nơi tạo ra một “véc-tơ ngữ cảnh”. Vectơ ngữ cảnh sau đó được chuyển đến mạng bộ giải mã, được sử dụng để tạo chuỗi mục tiêu bằng cách dự đoán từ có khả năng nhất sẽ ghép với từ đầu vào cho các bước thời gian tương ứng.

Những mô hình này có thể được tăng cường thông qua việc sử dụng một “cơ chế chú ý”. Cơ chế chú ý xác định phần nào của vectơ đầu vào mà mạng nên tập trung vào để tạo đầu ra phù hợp. Nói cách khác, một cơ chế chú ý cho phép mô hình máy biến áp xử lý một từ đầu vào đồng thời chú ý đến thông tin liên quan chứa trong các từ đầu vào khác. Cơ chế chú ý cũng che giấu những từ không chứa thông tin liên quan.

Kiến trúc mạng lưới thần kinh máy biến áp

Chúng ta sẽ đi vào cơ chế chú ý chi tiết hơn ở phần sau, còn bây giờ chúng ta hãy xem qua kiến trúc của một mạng lưới thần kinh máy biến áp ở cấp độ cao hơn.

Nói chung, một mạng lưới thần kinh máy biến áp trông giống như sau:

Mỗi biến trung gian mã hóa một trạng thái năm 2024

Mặc dù cấu trúc chung này có thể thay đổi giữa các mạng, nhưng các phần cốt lõi sẽ không thay đổi: mã hóa vị trí, vectơ từ, cơ chế chú ý, mạng thần kinh chuyển tiếp nguồn cấp dữ liệu.

Mã hóa vị trí và vectơ từ

Một mạng lưới thần kinh máy biến áp hoạt động bằng cách lấy một chuỗi các đầu vào và chuyển đổi các đầu vào này thành hai chuỗi khác. Máy biến áp tạo ra một chuỗi các từ nhúng vectơ và mã hóa vị trí.

Từ vector nhúng chỉ là văn bản được biểu diễn ở định dạng số mà mạng thần kinh có thể xử lý. Trong khi đó, mã hóa vị trí là biểu diễn véc tơ chứa thông tin về vị trí của từ hiện tại trong câu đầu vào, liên quan đến các từ khác.

Các mô hình mạng thần kinh dựa trên văn bản khác như RNN và LSTM sử dụng vectơ để biểu thị các từ trong dữ liệu đầu vào. Các phép nhúng vectơ này ánh xạ các từ thành các giá trị không đổi, nhưng điều này bị hạn chế vì các từ có thể được sử dụng trong các ngữ cảnh khác nhau. Mạng máy biến áp giải quyết vấn đề này bằng cách làm cho các giá trị từ trở nên linh hoạt hơn, sử dụng các hàm hình sin để cho các vectơ từ nhận các giá trị khác nhau tùy thuộc vào vị trí của từ trong câu.

Điều này cho phép mô hình mạng thần kinh lưu giữ thông tin liên quan đến vị trí tương đối của các từ đầu vào, ngay cả sau khi các vectơ di chuyển qua các lớp của mạng máy biến áp.

Mã hóa vị trí và nhúng vectơ từ được tổng hợp lại với nhau sau đó được chuyển vào cả mạng bộ mã hóa và bộ giải mã. Mặc dù các mạng thần kinh biến áp sử dụng các lược đồ bộ mã hóa/giải mã giống như RNN và LSTM, nhưng một điểm khác biệt chính giữa chúng là tất cả dữ liệu đầu vào được đưa vào mạng cùng một lúc, trong khi ở RNN/LSTM, dữ liệu được truyền theo trình tự.

Mạng bộ mã hóa chịu trách nhiệm chuyển đổi đầu vào thành biểu diễn mà mạng có thể học hỏi, trong khi mạng bộ giải mã làm ngược lại và chuyển đổi mã hóa thành phân phối xác suất được sử dụng để tạo ra các từ có khả năng nhất trong câu đầu ra. Điều quan trọng là cả mạng mã hóa và giải mã đều có cơ chế chú ý.

Do GPU có khả năng xử lý song song nên nhiều cơ chế chú ý được sử dụng song song, tính toán thông tin liên quan cho tất cả các từ đầu vào. Khả năng chú ý đến nhiều từ này, được gọi là chú ý “nhiều đầu”, tại một thời điểm giúp mạng nơ-ron tìm hiểu ngữ cảnh của một từ trong câu và đó là một trong những lợi thế chính mà mạng máy biến áp có được so với RNN và LSTM.

Cơ chế chú ý

Cơ chế chú ý là phần quan trọng nhất của mạng máy biến áp. Cơ chế chú ý là thứ cho phép các mô hình máy biến áp vượt ra ngoài giới hạn chú ý của mô hình RNN hoặc LSTM điển hình. Các mô hình Sequence-to-Sequence truyền thống loại bỏ tất cả các trạng thái trung gian và chỉ sử dụng vectơ ngữ cảnh/trạng thái cuối cùng khi khởi tạo mạng bộ giải mã để tạo dự đoán về một chuỗi đầu vào.

Loại bỏ mọi thứ trừ vectơ ngữ cảnh cuối cùng hoạt động tốt khi các chuỗi đầu vào khá nhỏ. Tuy nhiên, khi độ dài của chuỗi đầu vào tăng lên, hiệu suất của mô hình sẽ giảm khi sử dụng phương pháp này. Điều này là do việc tóm tắt một chuỗi đầu vào dài dưới dạng một véc-tơ đơn trở nên khá khó khăn. Giải pháp là tăng “sự chú ý” của mô hình và sử dụng các trạng thái bộ mã hóa trung gian để xây dựng các vectơ ngữ cảnh cho bộ giải mã.

Cơ chế chú ý xác định mức độ quan trọng của các mã thông báo đầu vào khác đối với mô hình khi mã hóa được tạo cho bất kỳ mã thông báo cụ thể nào. Ví dụ, “nó” là một đại từ chung, thường được dùng để chỉ động vật khi chưa biết giới tính của chúng. Một cơ chế chú ý sẽ cho phép một mô hình máy biến áp xác định rằng trong ngữ cảnh hiện tại, “nó” đề cập đến một con sóc, bởi vì nó có thể kiểm tra tất cả các từ có liên quan trong câu đầu vào.

Cơ chế chú ý có thể được sử dụng theo ba cách khác nhau: bộ mã hóa sang bộ giải mã, chỉ bộ mã hóa, chỉ bộ giải mã.

Sự chú ý của bộ giải mã-bộ mã hóa cho phép bộ giải mã xem xét các chuỗi đầu vào khi tạo đầu ra, trong khi các cơ chế chú ý chỉ dành cho bộ mã hóa và bộ giải mã cho phép các mạng xem xét tất cả các phần của chuỗi trước đó và hiện tại tương ứng.

Việc xây dựng một cơ chế chú ý có thể được chia thành năm bước:

  1. Tính điểm cho tất cả các trạng thái của bộ mã hóa.
  2. Tính trọng số chú ý
  3. Tính toán các vectơ ngữ cảnh
  4. Cập nhật vector ngữ cảnh với đầu ra bước thời gian trước đó
  5. Tạo đầu ra với bộ giải mã

Bước đầu tiên là yêu cầu bộ giải mã tính điểm cho tất cả các trạng thái của bộ mã hóa. Điều này được thực hiện bằng cách đào tạo mạng bộ giải mã, đây là mạng thần kinh chuyển tiếp nguồn cấp dữ liệu cơ bản. Khi bộ giải mã được đào tạo trên từ đầu tiên trong chuỗi đầu vào, chưa có trạng thái bên trong/ẩn nào được tạo, vì vậy trạng thái cuối cùng của bộ mã hóa thường được sử dụng làm trạng thái trước đó của bộ giải mã.

Để tính toán các trọng số của sự chú ý, một hàm softmax được sử dụng để tạo phân phối xác suất cho các trọng số của sự chú ý.

Khi các trọng số chú ý đã được tính toán, vectơ bối cảnh cần được tính toán. Điều này được thực hiện bằng cách nhân các trọng số chú ý và trạng thái ẩn với nhau cho mỗi bước thời gian.

Sau khi vectơ ngữ cảnh được tính toán, nó được sử dụng cùng với từ được tạo trong bước thời gian trước đó để tạo từ tiếp theo trong chuỗi đầu ra. Vì bộ giải mã không có đầu ra trước đó để tham chiếu trong bước đầu tiên, nên một mã thông báo "bắt đầu" đặc biệt thường được sử dụng để thay thế.

Sự khác biệt giữa Máy biến áp & RNN/LSTM

Hãy nhanh chóng đề cập đến một số khác biệt giữa RNN và LSTM.

RNN xử lý các đầu vào một cách tuần tự, trong khi một vectơ trạng thái ẩn được duy trì và thay đổi bởi các từ đầu vào khi chúng di chuyển qua mạng. Các trạng thái ẩn của RNN thường chứa rất ít thông tin liên quan đến các đầu vào trước đó. Đầu vào mới thường ghi đè lên trạng thái hiện tại, gây mất thông tin và làm giảm hiệu suất theo thời gian.

Ngược lại, các mô hình máy biến áp xử lý toàn bộ chuỗi đầu vào cùng một lúc. Cơ chế chú ý cho phép mọi từ đầu ra được thông báo bởi mọi trạng thái đầu vào và trạng thái ẩn, làm cho mạng trở nên đáng tin cậy hơn đối với các đoạn văn bản dài.

LSTM là phiên bản sửa đổi của RNN, được điều chỉnh để xử lý các chuỗi đầu vào dài hơn. Kiến trúc LSTM sử dụng một cấu trúc có tên là “cổng”, với “cổng đầu vào”, “cổng đầu ra” và “cổng quên”. Thiết kế gated giải quyết vấn đề mất thông tin phổ biến đối với các mô hình RNN. Dữ liệu vẫn được xử lý tuần tự và thiết kế lặp lại của kiến ​​trúc khiến các mô hình LSTM khó đào tạo bằng điện toán song song, khiến thời gian đào tạo tổng thể lâu hơn.

Các kỹ sư LSTM sẽ thường xuyên thêm các cơ chế chú ý vào mạng, được biết là cải thiện hiệu suất của mô hình. Tuy nhiên, cuối cùng người ta phát hiện ra rằng chỉ riêng cơ chế chú ý đã cải thiện độ chính xác. Khám phá này dẫn đến việc tạo ra các mạng máy biến áp sử dụng cơ chế chú ý và tính toán song song nhờ GPU.