classification

Chuẩn bị dữ liệu cho bài toán phân loại văn bản SVM

1. Hiểu cách dữ liệu được biểu diễn như thế nào? Đối với bài toán phân loại văn bản, dữ liệu mà chúng ta thường có là tập dữ liệu văn bản ngôn ngữ tự nhiên, hoặc là Tiếng Việt hoặc một ngôn ngữ khác như tiếng Anh chẳng hạn. Và chúng ta cần phải phân loại chúng vào các nhóm giả định trước. Ví dụ, bạn có một tập các câu Trích dẫn và muốn tìm những câu trích dẫn về tình yêu, hay bạn có những emails và muốn lọc ra nhưng email rác và bỏ chúng vào thùng rác.

Hướng dẫn sử dụng LibSVM cơ bản

LibSVM là công cụ hỗ trợ giải bài toán phân lớp SVM và hồi quy, một số bài toán như: Phân lớp C-SVM, nu-SVM, hồi qui epsilon-SVM và hồi qui nu-SVM. Thư viện này, cung cấp một công cụ lựa chọn mô hình tự động đối với phân lớp C-SVM. Một số chương trình có trong bộ thư viện này: svm-scale: Đây là một công cụ đối với việc xác định file dữ liệu vào.