Nghiên cứu Khoa học

Phương pháp phân loại văn bản bằng thuật toán SVM

  • 17/11/2021
  • Nghiên cứu Khoa học

1.1. Phát biểu bài toán

Bài toán phân loại văn bản có thể được phát biểu như sau : Cho trước một tập văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}. Nhiệm vụ của bài toán là gán lớp di thuộc về cj đã được định nghĩa. Hay nói cách khác, mục tiêu của bài toán là đi tìm hàm f :undefined

1.2. Mô hình tổng quát

Có rất nhiều hướng tiếp cận bài toán phân loại văn bản đã được nghiên cứu như: tiếp cận bài toán phân loại dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, cách tiếp cận thống kê… Tuy nhiên, tất cả các phương pháp trên đều dựa vào các phương pháp chung là máy học đó là : học có giám sát, học không giám sát và học tăng cường.

Vấn đề phân loại văn bản theo phương pháp thống kê dựa trên kiểu học có giám sát được đặc tả bao gồm 2 giai đoạn : giai đoạn huấn luyện và giai đoạn phân lớp.

-         Giai đoạn huấn luyện

Chúng ta có một tập huấn luyện, mỗi phần tử trong tập huấn luyện được gán vào một hoặc nhiều lớp mà chúng ta sẽ thể hiện chúng bằng một mô hình mã hoá. Thông thường, mỗi phần tử trong tập huấn luyện được thể hiện theo dạng .Trong đó,   là vector biểu diễn cho văn bản trong tập huấn luyện.

Sau đó, chúng ta định nghĩa một lớp mô hình và một thủ tục huấn luyện. Lớp mô hình là họ các tham số của bộ phân loại, thủ tục huấn luyện là một giải thuật (hay thuật toán) để chọn ra một họ các tham số tối ưu cho bộ phân loại.

undefined

Hình 1.1 Mô hình giai đoạn huấn luyện

Đầu vào : ngữ liệu huấn luyện và thuật toán huấn luyện

Đầu ra : mô hình phân lớp (bộ phân lớp – classifier)

Các bước trong giai đoạn huấn luyện:

undefined

 Hình 1.2 Các bước trong giai đoạn huấn luyện

Trong đó :

Ngữ liệu huấn luyện : kho ngữ liệu thu thập từ nhiều nguồn khác nhau.

Tiền xử lý : chuyển đổi tài liệu trong kho ngữ liệu thành một hình thức phù hợp để phân loại.

Vector hoá : mã hoá văn bản bởi một mô hình trọng số

Trích chọn đặc trưng : loại bỏ những từ (đặc trưng) không mang thông tin khỏi tài liệu nhằm nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn luyện.

Thuật toán huấn luyện : Thủ tục huấn luyện bộ phân lớp để tìm ra họ các tham số tối ưu.

Đánh giá : bước đánh giá hiệu suất (chất lượng) của bộ phân lớp

-         Giai đoạn phân lớp

Sau khi đã hoàn thành giai đoạn huấn luyện, mô hình phân lớp sẽ được áp dụng cho các văn bản mới cần phân loại.

undefined

Hình 1.3 Mô hình giai đoạn phân lớp

Các bước trong giai đoạn phân lớp:

undefined

 Hình 1.4 Các bước trong giai đoạn phân lớp

Các tin khác