CORPORA LÀ GÌ

     
*


2. Corpus

2.1 kháiniệm về Corpus

Corpus là 1 trong những dữ liệu tập hợp những văn bản,ngôn ngữ đã có số hoá. Cách dịch thông thường ở cả nước là “kho ngữ liệu”. Lấy ví dụ như vềcorpus như “tuyển tập các tác phẩm của nam giới Cao”, tuyệt “tuyển tập ca từ của TrịnhCông Sơn”, …

 

Cáccorpus là một tài nguyên đặc biệt trong NLP. Từ các corpus, ta hoàn toàn có thể rút ra nhữngdữ liệu đặc biệt sau :

1. Từ những corpus, ta rất có thể chiết suất 1cách tự động các qui tắc ngữ pháp “văn mạch trường đoản cú do”.

Bạn đang xem: Corpora là gì

2. Từ những corpus hoàn toàn có thể tính toán được xácsuất, tần suất lộ diện của những từ.

 

Để bảo đảm tính chính xác cho 2 kết luậntrên, corpus phải đảm bảo an toàn 1 số phép tắc nhất định :

1. Tính đại diện : các thành phần trongcorpus phải có tính phổ quát, nhiều chủng loại và phong phú.

Xem thêm: Hướng Dẫn Cách Trồng Rau Diếp Cá Bằng Hạt, Bật Mí Kỹ Thuật Gieo Trồng Hạt Giống Rau Diếp Cá

2. Kích cỡ : kích cỡ của corpus cànglớn thì sẽ càng được đánh giá cao.

 

Dựa vào mục đích, bí quyết xây dựng corpus, ngườita phân chia corpus thành các loại sau :

1. Corpus thô (raw corpus): dễ dàng chỉ làtập hợp những dữ liệu mà không tồn tại xử lý gì thêm.

2. Corpus được đính thêm nhãn (tagged corpus) :các dữ liệu trong corpus vẫn được cách xử lý như so với từ, so với cú pháp, gắnnhãn trường đoản cú loại, …

3. Parallel Corpus : được áp dụng nhiềutrong vận dụng máy dịch.

 

Ngoài cách chia trên, ta cũng rất có thể chiacorpus theo cấu trúc của nó.

1. Corpus khác biệt : tài liệu lấy vào 1 cáchngẫu nhiên, khác biệt và không phân minh với nhau.

2. Corpus theo danh mục : phụ thuộc các danhmục nhằm chia dữ liệu trong corpus thành các nhóm.

Xem thêm: ' Fruitful Là Gì ? Fruitful Nghĩa Là Gì Trong Tiếng Việt

3. Corpus giống nhau : những dữ liệu trongcorpus hoàn toàn có thể ở những nhóm thuộc lúc.

4. Corpus theo thời gian : những dữ liệu sắpxếp theo thời hạn thu thập và thời gian xuất hiện.

 

2.2Thống kê vào corpus

Khái niệm về n-gram : là gia tốc xuất hiệncủa n kí tự ( hoặc tự ) liên tiếp nhau gồm trong tài liệu của corpus.

 

Với n = 1 cùng tính bên trên kí tự, ta có thôngtin về tần suất mở ra nhiều nhất của các chữ cái. Điều này vận dụng để làmkeyboard : các phím hay mở ra nhất sẽ ở đông đảo vị trí dễ áp dụng nhất.

 

Với n = 2, ta tất cả khái niệm bigram. Ví dụ như vớicác chữ cái tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là các cặp kí tự tốt xuất hiệnnhất. Ko kể ra, ta hoàn toàn có thể biết thêm rằng sau kí tự ‘q’ thì phần lớn đều là kí tự‘u’.

 

Với n = 3, ta có trigram. Nhưng bởi n càng lớnthì số trường hợp càng lớn đề xuất thường bạn ta chỉ thực hiện với n = 1,2 hoặc đôilúc là 3. Lấy một ví dụ với các kí tự giờ đồng hồ Anh, giờ Anh áp dụng 26 kí tự, vậy với n= 1 thì số trường hợp là 26, n = 2 thì số trường thích hợp là 26^2 = 676 trường hợp,n = 3 bao gồm 17576 ngôi trường hợp.

 

Bigram được thực hiện nhiều trong việc phântích hình dáng (từ, các từ, tự loại) cho các ngôn ngữ cực nhọc phân tích như tiếngViệt, giờ đồng hồ Nhật, tiếng Trung, … phụ thuộc vào tần suất xuất hiện cạnh nhau của các từ,người ta đang tính phương pháp chia 1 câu thành những từ làm sao để cho tổng bigram là cao nhấtcó thể. Với thuật giải so sánh hình thái nhờ vào trọng số nhỏ nhất, bạn tasử dụng n = 1 để xác định tuần suất xuất hiện của những từ cùng tính trọng số.

 

Để đảm bảo tính thống kê đúng mực đòi hỏicác corpus phải lớn và tất cả tính thay mặt đại diện cao.