Використання бібліотек Pandas та Matplotlib.
Зчитування даних з csv. Маніпуляції зі стовпцями (видалення, додавання нових), виправлення невалідних
даних (наприклад, "123"
(str
) приводимо до числового типу int
або float
). Побудова діаграм.
Дерева прийняття рішень. Використання Scikit-learn (tree.DecisionTreeClassifier
),
Graphviz, Matplotlib.
Побудова класифікаційної моделі дерева прийняття рішень. Навчання на тренувальній вибірці. Обчислення класифікаційних метрик збудованої моделі для тренувальної та тестової вибірки.
Логістична регресія. Використання Scikit-learn
(linear_model.LogisticRegression, ShuffleSplit
).
Побудова класифікаційної моделі логістичної регресії та навчання її. Графічне представлення результату. Обчислення класифікаційних метрик збудованої моделі. Аналіз ступіню впливу атрибутів на результат класифікації.
Метод k найближчих сусідів. Використання Scikit-learn
(neighbors.KNeighborsClassifier, ShuffleSplit
).
Побудова класифікаційної на основі методу k найближчих сусідів та навчання її. Обчислення класифікаційних метрик збудованої моделі. З’ясування впливу степеня метрики Мінковського (від 1 до 20) на результати класифікації.
Методи кластеризації. Використання Scikit-learn
(cluster.AgglomerativeClustering, cluster.KMeans, neighbors.NearestCentroid
).
Виконання розбиття набору даних на кластери, використовуючи функцію KMeans
та AgglomerativeClustering
.
Виведення центрів кластерів. Порівняння результатів двох методів кластеризації.