#2 Python勉強会クラスタリング入門

rkuraya
2021年12月8日
読了時間: 2分

2021/7/30に実施したワークショップの内容をご紹介します。

【オンライン】#02 データサイエンス勉強会クラスタリング入門@初学者歓迎

対象

Pythonに興味がある方

データの分析に興味がある方

※上記に当てはまらなくてもお気軽にご参加ください！

概要

機械学習手法の一つである、クラスタリング分析について、GoogleColaboratory上で事前に用意されたサンプルコードを実行し、実際にデータ前処理を実施して可視化しながら、ハンズオン形式でクラスタリングの手法について理解を深めていきます。

教師無し学習とは
データの前処理
k近傍法
SVM

実施方法

Google Meet

タイムテーブル

19:00〜開始

19:05〜講師自己紹介

19:10〜データの説明とクラスタリング手法の解説

19:40〜実際にクラスタリングを適用してみる

20:30 終了

クラスタリングとは

データ同士の類似度によって、グループ分けを行うことです。

下図の例では、データごとに形・色という特徴量を持っている中、

形でグループを判断している。

クラスタリングは、機械学習の手法の一つではありますが、

機械学習と一口に言っても、様々あります。

そこで、クラスタリングはどこに分類されるか、というものを表したのが、次の図です。

教師あり学習というのは、予め正解が分かっているデータに対して、分類するためにどのようなルール(モデル)を組むか、といった学習方法になります。

未知のデータをそのルールに適用したときに、予測の答えが返ってくるという仕組みです。

教師なし学習というのは、予め正解がわからないデータに対して、データそのものの特徴を検出して、複数のグループに振り分けるという仕組みです。

人が見てもよく判らないデータに対して、この教師なし学習を適用すると、

なんとなくデータの傾向が見えてくることがあります。

あとはディープラーニングとかと違って、

データを振り分ける過程、つまり、どんなルールでこのグループにふられたのか、ってのが

出てきます。

アルゴリズムがブラックボックス化しないということですね。

Irisデータセットを用いてクラスタリングを実践

当日は、Irisデータセット(3種類のアヤメの萼と花弁に関する特徴量データ)

を用いて、様々なクラスタリングの手法を実際にコーディングして実演をしました。

興味がある方はこちらにJupyterNotebookのサンプルコードをご用意しておりますので、

ダウンロードして実践してみて下さい。

Activity Log Posts

#2 Python勉強会クラスタリング入門

対象

概要

実施方法

タイムテーブル

クラスタリングとは

Irisデータセットを用いてクラスタリングを実践

最新記事

コメント

Activity Log Posts

対象

概要

実施方法

タイムテーブル

クラスタリング とは

Irisデータセットを用いてクラスタリング を実践

コメント

クラスタリングとは

Irisデータセットを用いてクラスタリングを実践