【python】Scikit-learnのデータセットについて【make_blobs,make_moons,make_circles】
この記事のポイント
  • 機械学習を習得するために必要なデータセットについて学ぶ.
  • Scikit-learnのライブラリについて学ぶ.
  • make_blobs,make_moons,make_circlesについて学ぶ.

こんにちは.けんゆー(@kenyu0501_)です.
機械学習のアルゴリズムを学習する際のデータセットとして非常に有名な3つのものを紹介します.

  1. make_blobs
  2. make_moons
  3. make_circles 

pythonのscimitar-learnのライブラリですが,機械学習の分類クラスタリングなどを,とりあえず手を動かしてやってみたい!という方に非常にオススメなものです.
この記事では,簡単なプログラムと,データ構造の図示化を行っていきます.

make_blobs

プログラムはこちら

実際に,上記のプログラムを回すと,以下のような画像が出力されます.
サンプルの数や,乱数の度合いによっても変わるので,色々を試してみてください.
cluster_stdrandom_stateの値を色々と変更して,結果の出力しました.

ペンのすけ

ちなみに,データ構造はこのようになっているよ!

make_moons

noiseの値を色々と変えて,結果を出力してみました.
noise = 0.3くらいになると,三日月型の分布が徐々に崩れ出してきてますね.

make_moons

noiseの値を色々と調整して分布を出しました.
noise=0.2くらいになると,円の分布が崩れてきますね.


ペンのすけ

機械学習を学ぶ際にも,助かるデータセットだと思うので,是非活用してみてね