plotnine:ggplot2を使ってテータの分布を可視化する〜Python
Pythonの可視化ツールとして、MatplotlibとSeabornが有名です。MatplotlibとSeabornは非常に複雑なグラフを作ることができますが、グラフを完成するまで時間がかかりますし、グラフを構成する要素をコントロールする…
Pythonの可視化ツールとして、MatplotlibとSeabornが有名です。MatplotlibとSeabornは非常に複雑なグラフを作ることができますが、グラフを完成するまで時間がかかりますし、グラフを構成する要素をコントロールする…
LDA(Latent Dirichlet allocation)トピックモデルは教師なし学習アルゴリズムで、BOW(Bag-of-Word)モデルの一種です。一つドキュメントは語彙で構成されますが、語彙同士に前後関係がないと仮定します。また…
以前機会があってナレッジグラフのプロジェクトに参画したことがあり、大学院時代にXMLデータベースの研究をやった経験からナレッジグラフに非常に興味を持ちました。今回は知識の整理を踏まえてナレッジグラフについて記事を書くことに決めました。 機械…
特徴量選択(feature selection)はデータサイエンスにおいて非常に重要なプロセスです。通常アルゴリズムでモデルを構築する前に、どういうデータを使うかを判断する必要があります。ここではドメイン知識が大きな力を発揮しますが、ドメイ…
以前線形回帰を使って時系列データ予測の記事を書きました。但し、線形回帰は時間系列の関連性を考慮しない、つまり各データポイントは独立であるという仮説の基で提案されたアルゴリズムです。時系列データを扱うにはARIMA等の専用のアルゴリズムがあり…
クラスタリングアルゴリズムは、教師なし学習アルゴリズムです。教師あり学習アルゴリズムと違って、クラスタリングアルゴリズムは事前にデータにラベルを付ける必要がなく、そのままデータをクラスタリングできます。グループ分けがクラスタリングの目的です…
こんにちは、シュです。 今回は自分の資源を利用してデータレイクの構築について書きたいと思います。データレイクに関する記事はたくさんあるので、ここでは詳しく紹介しません。私が今使っているドメインサーバーはWeb Diskサービス(WebDav…
こんにちわ〜。シュです。今回の記事では、データ駆動型AIアプリをすばやく作成する方法を紹介します。 完全な例を使用して、簡単なWebアプリを作成し、学習済みの深層学習モデルを呼び出す方法をご紹介します。 1. データサイエンスをやるのになぜ…