2021/7/30に実施したワークショップの内容をご紹介します。
【オンライン】#02 データサイエンス勉強会 クラスタリング入門@初学者歓迎
対象
Pythonに興味がある方
データの分析に興味がある方
※上記に当てはまらなくてもお気軽にご参加ください!
概要
機械学習手法の一つである、クラスタリング分析について、GoogleColaboratory上で事前に用意されたサンプルコードを実行し、 実際にデータ前処理を実施して可視化しながら、ハンズオン形式でクラスタリングの手法について理解を深めていきます。
教師無し学習とは
データの前処理
k近傍法
SVM
実施方法
Google Meet
タイムテーブル
19:00〜 開始
19:05〜 講師自己紹介
19:10〜 データの説明とクラスタリング手法の解説
19:40〜 実際にクラスタリングを適用してみる
20:30 終了
クラスタリング とは
データ同士の類似度によって、グループ分けを行うことです。
下図の例では、データごとに形・色という特徴量を持っている中、
形でグループを判断している。
クラスタリングは、機械学習の手法の一つではありますが、
機械学習と一口に言っても、様々あります。
そこで、クラスタリング はどこに分類されるか、というものを表したのが、次の図です。
教師あり学習というのは、予め正解が分かっているデータに対して、分類するためにどのようなルール(モデル)を組むか、といった学習方法になります。
未知のデータをそのルールに適用したときに、予測の答えが返ってくるという仕組みです。
教師なし学習というのは、予め正解がわからないデータに対して、データそのものの特徴を検出して、複数のグループに振り分けるという仕組みです。
人が見てもよく判らないデータに対して、この教師なし学習を適用すると、
なんとなくデータの傾向が見えてくることがあります。
あとはディープラーニングとかと違って、
データを振り分ける過程、つまり、どんなルールでこのグループにふられたのか、ってのが
出てきます。
アルゴリズムがブラックボックス化しないということですね。
Irisデータセットを用いてクラスタリング を実践
当日は、Irisデータセット(3種類のアヤメの萼と花弁に関する特徴量データ)
を用いて、様々なクラスタリングの手法を実際にコーディングして実演をしました。
興味がある方はこちらにJupyterNotebookのサンプルコードをご用意しておりますので、
ダウンロードして実践してみて下さい。
Komentar