Word2vec là gì

     

Ngôn ngữ tự nhiên là một khối hệ thống phức tạp nhưng con người sử dụng để diễnđạt ngữ nghĩa. Trong khối hệ thống này, trường đoản cú là đơn vị cơ phiên bản của ngữ nghĩa.Như tên thường gọi của nó, một vector tự (word vector) là 1 trong những vector được sửdụng để màn biểu diễn một từ. Vector trường đoản cú cũng hoàn toàn có thể được xem như là vector đặctrưng của một từ. Nghệ thuật ánh xạ từ ngữ lịch sự vector số thực còn đượcgọi là chuyên môn embedding tự (word embedding). Vào vài năm gần đây,embedding từ dần dần trở thành kỹ năng cơ bản trong xử lý ngôn ngữ tựnhiên.

Bạn đang xem: Word2vec là gì


14.1.1. Lý do không áp dụng Vector One-hot?¶

Chúng ta đã áp dụng vector one-hot để đại diện thay mặt cho từ bỏ (thực chất là kýtự) trong Section 8.5. Nhớ lại rằng khi mang sử số lượngcác từ đơn lẻ trong từ bỏ điển (tức form size từ điển) là (N),mỗi từ có thể tương ứng một-một với những số nguyên liên tiếp từ 0 đến(N-1), được điện thoại tư vấn là chỉ số của từ. Trả sử chỉ số của một từ là(i). Để thu được trình diễn vector one-hot của từ bỏ đó, ta chế tác mộtvector có (N) thành phần có quý hiếm là 0 cùng đặt bộ phận thứ (i)bằng 1. Theo đó, mỗi từ được trình diễn dưới dạng vector có độ dài(N) rất có thể được trực tiếp đưa vào mạng nơ-ron.

Mặc dù rất dễ dàng xây dựng các vector one-hot, nhưng chúng thường không phảilà chọn lọc tốt. Trong số những lý do chính là các vector one-hot khôngthể màn trình diễn một cách đúng đắn độ tương tự giữa những từ không giống nhau,chẳng hạn như độ giống như cô-sin nhưng ta thường xuyên sử dụng. Độ tương tựcô-sin của nhì vectors (mathbfx, mathbfy in mathbbR^d)là giá trị cô-sin của góc thân chúng:


Do độ tương tự cô-sin giữa các vector one-hot của bất kỳ hai trường đoản cú khácnhau như thế nào đều bởi 0, yêu cầu rất khó thực hiện vector one-hot để biểu diễn độtương trường đoản cú giữa các từ không giống nhau.

Word2vec là một côngcụ được phát minh để giải quyết vấn đề trên. Nó biểu diễn mỗi trường đoản cú bằngmột vector tất cả độ dài cố định và thực hiện những vector này để biểu lộ tốthơn độ giống như và và các quan hệ một số loại suy (analogy relationship) giữacác từ. Chính sách Word2vec gồm hai tế bào hình: skip-gam cùng túi từ thường xuyên (continuousbag of words – CBOW) . Tiếp theo,ta sẽ để mắt tới hai mô hình này và cách thức huấn luyện chúng.


14.1.2. Quy mô Skip-Gram¶

Mô hình skip-gam mang định rằng một từ hoàn toàn có thể được thực hiện để hiện ra cáctừ xung quanh nó trong một chuỗi văn bản. Ví dụ, mang sử chuỗi văn bạn dạng là“the”, “man”, “loves”, “his” và “son”. Ta áp dụng “loves” có tác dụng từ đíchtrung vai trung phong và đặt form size cửa sổ ngữ cảnh bởi 2. Như bộc lộ trongFig. 14.1.1, với từ đích trung trung tâm “loves”, tế bào hìnhskip-gram xem xét xác suất có điều kiện sinh ra những từ ngữ cảnh(“the”, “man”, “his” và “son”) ở trong khoảng cách không vượt 2 từ:


Ta trả định rằng, với tự đích trung trung khu cho trước, những từ văn cảnh đượcsinh ra hòa bình với nhau. Vào trường hòa hợp này, cách làm trên gồm thểđược viết lại thành


(14.1.3)¶
*

Fig. 14.1.1 quy mô skip-gram suy nghĩ xác suất có đk sinh ra những từngữ cảnh với một từ đích trung trung ương cho trước.¶


Trong quy mô skip-gam, mỗi từ được trình diễn bằng hai vector(d)-chiều để tính xác suất có điều kiện. Mang sử chỉ số của một từtrong từ điển là (i), vector của từ bỏ được trình diễn là(mathbfv_iinmathbbR^d) khi từ này là từ đích trung chổ chính giữa vàlà (mathbfu_iinmathbbR^d) khi từ này là 1 trong những từ ngữ cảnh.Gọi (c) với (o) theo lần lượt là chỉ số của từ bỏ đích trung tâm(w_c) và từ văn cảnh (w_o) vào từ điển. Có thể thu đượcxác suất có đk sinh ra từ bỏ ngữ cảnh cho một từ đích trung trung khu chotrước bằng phép toán softmax bên trên tích vô hướng của vector:


(14.1.4)¶

trong đó, tập chỉ số trong cỗ từ vựng là(mathcalV = -1\). Trả sử trongmột chuỗi văn phiên bản có độ nhiều năm (T), từ trên bước thời hạn (t)được cam kết hiệu là (w^(t)). Trả sử rằng các từ văn cảnh được sinhđộc lập với từ trung vai trung phong cho trước. Khi size cửa sổ ngữ cảnh là(m), hàm phải chăng (likelihood) của quy mô skip-gam là xác suấtkết hợp sinh ra toàn bộ các từ văn cảnh với ngẫu nhiên từ trung trung tâm cho trướcnào


14.1.2.1. Huấn luyện mô hình Skip-Gram¶

Các tham số trong mô hình skip-gram là vector từ bỏ đích trung trung ương vàvector tự ngữ cảnh mang lại từng từ riêng biệt lẻ. Trong quy trình huấn luyện,chúng ta vẫn học các tham số tế bào hình bằng phương pháp cực đại hóa hàm hòa hợp lý,còn hotline là mong lượng hợp lí cực đại. Câu hỏi này giống như với bài toán giảmthiểu hàm mất đuối sau đây:


(14.1.6)¶<- sum_t=1^T sum_-m leq j leq m, j eq 0 extlog, P(w^(t+j) mid w^(t)).>

Nếu ta cần sử dụng SGD, thì trong mỗi vòng lặp, ta chọn ra một chuỗi con nhỏhơn bằng câu hỏi lấy mẫu tự nhiên để đo lường và tính toán mất mát cho chuỗi con đó,rồi tiếp đến tính gradient để cập nhật các tham số tế bào hình. Điểm then chốtcủa việc đo lường và tính toán gradient là tính gradient của logarit phần trăm cóđiều kiện mang đến vector từ bỏ trung trọng điểm và vector tự ngữ cảnh. Đầu tiên, theođịnh nghĩa ta có


(14.1.7)¶
(14.1.8)¶<eginspliteginalignedfracpartial extlog, P(w_o mid w_c)partial mathbfv_c&= mathbfu_o - fracsum_j in mathcalV exp(mathbfu_j^ op mathbfv_c)mathbfu_jsum_i in mathcalV exp(mathbfu_i^ op mathbfv_c)\&= mathbfu_o - sum_j in mathcalV left(frac extexp(mathbfu_j^ op mathbfv_c) sum_i in mathcalV extexp(mathbfu_i^ op mathbfv_c) ight) mathbfu_j\&= mathbfu_o - sum_j in mathcalV P(w_j mid w_c) mathbfu_j.endalignedendsplit>

Phép tính đến ra xác suất có điều kiện cho hầu hết từ tất cả trong tự điển vớitừ đích trung vai trung phong (w_c) cho trước. Sau đó, ta lại áp dụng phươngpháp đó để tìm gradient cho những vector trường đoản cú khác.

Xem thêm: Cách Cắt May Quần Sooc Nữ Đơn Giản, Cách May Quần Sooc Đơn Giản Nhất

Sau khi giảng dạy xong, với từ bất kỳ có chỉ số là (i) vào từđiển, ta sẽ nhận ra tập nhị vector tự (mathbfv_i) và(mathbfu_i). Trong số ứng dụng xử lý ngôn ngữ tự nhiên, vectortừ đích trung trung ương trong mô hình skip-gram thường xuyên được sử dụng để làmvector màn trình diễn một từ.


14.1.3. Mô hình Túi từ liên tục (CBOW)¶

Mô hình túi từ thường xuyên (Continuous bag of words - CBOW) giống như nhưmô hình skip-gram. Khác hoàn toàn lớn nhất là quy mô CBOW mang định rằng từđích trung trung khu được tạo ra dựa trên các từ văn cảnh phía trước cùng sau nótrong một chuỗi văn bản. Với cùng 1 chuỗi văn bản gồm những từ “the”,“man”, “loves”, “his” cùng “son”, trong đó “love” là từ bỏ đích trung tâm,với size cửa sổ ngữ cảnh bởi 2, mô hình CBOW lưu ý đến xácsuất có đk để có mặt từ đích “love” dựa trên những từ ngữ cảnh“the”, “man”, “his” và “son” (minh họa sinh sống Fig. 14.1.2) như sau:


*

Fig. 14.1.2 mô hình CBOW suy xét xác suất bao gồm điều kiện tạo nên từ đích trungtâm dựa trên các từ ngữ cảnh đến trước.¶


Vì có vô số từ ngữ cảnh trong quy mô CBOW, ta đã lấy vừa đủ cácvector tự của bọn chúng và sau đó sử dụng cách thức tương từ bỏ như trong môhình skip-gram để tính phần trăm có điều kiện. đưa sử(mathbfv_iinmathbbR^d) và(mathbfu_iinmathbbR^d) là vector từ bỏ ngữ cảnh với vector từđích trung trung khu của từ bao gồm chỉ số (i) vào từ điển (lưu ý rằng cácký hiệu này ngược với những ký hiệu trong quy mô skip-gram). Gọi(c) là chỉ số của tự đích trung trọng tâm (w_c), và(o_1, ldots, o_2m) là chỉ số các từ ngữ cảnh(w_o_1, ldots, w_o_2m) vào từ điển. Bởi vì đó, phần trăm cóđiều kiện hình thành từ đích trung tâm phụ thuộc các từ ngữ cảnh mang lại trước là


(14.1.10)¶

Để rút gọn, cam kết hiệu(mathcalW_o= w_o_1, ldots, w_o_2m\), và(armathbfv_o = left(mathbfv_o_1 + ldots, + mathbfv_o_2m ight)/(2m)).Phương trình trên được đơn giản dễ dàng hóa thành


(14.1.11)¶

Cho một chuỗi văn bản có độ nhiều năm (T), ta đưa định rằng tự xuất hiệntại bước thời hạn (t) là (w^(t)), và kích cỡ của cửasổ văn cảnh là (m). Hàm hợp lý và phải chăng của mô hình CBOW là phần trăm sinhra bất kỳ từ đích trung trung ương nào dựa vào những trường đoản cú ngữ cảnh.


(14.1.12)¶

14.1.3.1. Huấn luyện mô hình CBOW¶

Quá trình huấn luyện mô hình CBOW khá như thể với quy trình huấn luyện môhình skip-gram. Uớc lượng hợp lý cực đại của quy mô CBOW tương đươngvới vấn đề cực đái hóa hàm mất mát:


(14.1.13)¶<-sum_t=1^T extlog, P(w^(t) mid w^(t-m), ldots, w^(t-1), w^(t+1), ldots, w^(t+m)).>
(14.1.14)¶

Thông qua phép đạo hàm, ta hoàn toàn có thể tính log của tỷ lệ có đk củagradient của bất kỳ vector từ văn cảnh nào(mathbfv_o_i)((i = 1, ldots, 2m)) trong công thứctrên.


(14.1.15)¶

Sau đó, ta thực hiện cùng phương pháp đó để tính gradient cho các vectorcủa tự khác. Không giống như mô hình skip-gam, trong quy mô CBOW tathường thực hiện vector từ bỏ ngữ cảnh làm cho vector màn biểu diễn một từ.

Xem thêm: Cách Vẽ Chùa Một Cột Đơn Giản Nhất, Vẽ Tranh Phong Cảnh Chùa Một Cột, Chùa Diên Hựu


14.1.4. Nắm tắt¶

Vector từ là 1 vector được sử dụng để biểu diễn một từ. Kỹ thuậtánh xạ những từ thanh lịch vector số thực còn gọi là kỹ thuật embeddingtừ.Word2vec bao gồm cả mô hình túi từ liên tiếp (CBOW) với mô hìnhskip-gam. Mô hình skip-gam đưa định rằng những từ văn cảnh được sinh radựa trên từ đích trung tâm. Mô hình CBOW đưa định rằng từ bỏ đích trungtâm được hiện ra dựa trên những từ ngữ cảnh.

14.1.5. Bài xích tập¶

Độ phức tạp đo lường của từng gradient là bao nhiêu? ví như từ điển chứamột lượng lớn các từ, điều này sẽ gây nên vấn đề gì?Có một số cụm từ cố định trong giờ Anh bao gồm nhiều từ, chẳng hạnnhư “new york”. Các bạn sẽ huấn luyện những vector từ bỏ của chúng như thếnào? Gợi ý: coi phần 4 trong bài xích báo Word2vec<2>.Sử dụng quy mô skip-gam làm cho ví dụ để tìm hiểu về xây đắp của môhình word2vec. Mối quan hệ giữa tích vô hướng của hai vector từ và độtương từ bỏ cô-sin trong mô hình skip-gam là gì? Đối với cùng 1 cặp từ cóngữ nghĩa gần nhau, vì sao hai vector từ này lại thường gồm độ tươngtự cô-sin cao?

14.1.7. Những người thực hiện¶

Bản dịch trong trang này được thực hiện bởi:

Đoàn Võ Duy ThanhNguyễn Văn QuangNguyễn Văn CườngPhạm Đăng KhoaLê tương khắc Hồng Phúc

Table Of Contents

14.1. Embedding tự (word2vec)14.1.2. Mô hình Skip-Gram14.1.3. Mô hình Túi từ tiếp tục (CBOW)