Scikit-learn – Thư viện mã nguồn mở của Python trong học máy
Scikit-learn là một thư viện mã nguồn mở của Python được sử dụng phổ biến trong học máy (machine learning). Nó được xây dựng trên các thư viện như NumPy, SciPy và matplotlib, hỗ trợ nhiều thuật toán học máy và công cụ xử lý dữ liệu.

Các tính năng chính của Scikit-learn
- Thuật toán học máy cơ bản và nâng cao:
- Phân loại (Classification): SVM, Random Forest, KNN, Logistic Regression…
- Hồi quy (Regression): Linear Regression, Ridge, Lasso…
- Gom cụm (Clustering): K-Means, DBSCAN, Mean-Shift…
- Giảm chiều (Dimensionality Reduction): PCA, t-SNE, TruncatedSVD…
- Tiền xử lý dữ liệu (Preprocessing):
- Chuẩn hóa dữ liệu (StandardScaler, MinMaxScaler)
- Mã hóa dữ liệu phân loại (OneHotEncoder, LabelEncoder)
- Xử lý dữ liệu thiếu (SimpleImputer)
- Lựa chọn mô hình (Model selection):
- Cross-validation
- Grid search & Random search (GridSearchCV, RandomizedSearchCV)
- Đánh giá mô hình (Model evaluation):
- Ma trận nhầm lẫn (confusion matrix)
- Các chỉ số đánh giá: accuracy, precision, recall, F1-score, ROC AUC…
- Pipeline và quản lý quy trình:
- Kết hợp các bước tiền xử lý và huấn luyện mô hình trong một quy trình tự động (
Pipeline
)
- Kết hợp các bước tiền xử lý và huấn luyện mô hình trong một quy trình tự động (
Ưu điểm của Scikit-learn
- Dễ sử dụng, cú pháp thống nhất và tài liệu phong phú
- Tương thích tốt với các thư viện Python phổ biến
- Phù hợp cho cả người mới bắt đầu và chuyên gia
Truy cập ngay trang chủ Scikit-learn https://scikit-learn.org