データ分析

スポンサーリンク
Python

SIRモデルで新型コロナウイルスの感染者数の収束を予測してみた

SIRモデルのパラメータの推定は、オーソドックスには最尤推定などが用いられるようですが、今回はベイズで定式化して、ベイズ推定もやってみました。 国別のデータを使った分析は最近よく見ますので、今回は以下のデータを使って、都道府県別の感染流行の予測を行ってみます。
Python

WordCloudとpyLDAvisによるLDAの可視化について

潜在ディリクレ配分法(LDA; Latent Dirichlet Allocation)によるトピックモデルを学習させて、WordCloud・pyLDAvisで可視化までやってみます。 今回は日本語でやってみたかったので、以下のlivedoorニュースコーパスを利用させていただきました。
Python

因子分析でテニスのサーブ力・リターン力を定量化してみた

各選手には、サーブが得意な選手やリターンが得意な選手がいると思います。 そこで、今回は、各選手にサーブ力とリターン力の潜在変数があると仮定して、これを因子分析で推定し定量化をしてみました。 結構なサイズのファイルで、一気に読み込むことは不可能でした。
Python

文書分散表現SCDVと他の分散表現を比較してみた

今回は、以下の論文の文章分散表現、SCDVについて書きます。 SCDVは、文章ベクトルを取得する方法の1つです。 文章ベクトルを取得する手法はDoc2Vecなど色々ありますが、論文において、取得した文章ベクトルを用いたマルチラベル分類では、他の方法よりも高い精度を出せているようです。
Python

クレジットカード不正利用予測モデルを作成・評価してみた

表題の通り、Kaggleデータセットに、クレジットカードの利用履歴データを主成分化したカラムが複数と、それが不正利用であったかどうかラベル付けされているデータがあります。 - 今回は普通に、このデータを用いてクレジット...
Python

テクニカル分析で買いシグナルからの株価推移を調べてみた

実際にテクニカル分析でよく使われている指標をPythonで実装してみて、過去の株価推移のデータで効果について調べてみました。 ちなみに私は金融素人なので、専門家から見れば、とんちんかんなことをやっている可能性ありです。
Python

ベイズモデリングで男子プロテニスの強さを分析してみた

Kaggleのデータセットで公開されている、男子プロテニスの試合結果データがありましたので、これを使って各プレイヤーの強さをモデル化してみます。 今回は、開催した年と、勝ったか負けたか、その時の勝ちプレイヤー、負けプレイヤーの情報だけで、各プレイヤーの強さを分析してみます。
Edward

Edward、PyStan、PyMC3で状態空間モデルを実装してみた

状態空間モデルの勉強をしていましたので、実装について書きます。 PyStanやPyMC3の実装は、ある程度参考になる例が多いのですが、Edwardの実装例は見当たりませんでしたので、どんな感じになるか試しに実装してみました。
Python

Python、Rで基本的な統計的推測まとめ

2標本のF検定 ウィルコクソン(Wilcoxon)の順位和検定 ウェルチ(Welch)のt検定 スチューデント(Student)のt検定 カイ二乗検定 コルモゴロフ・スミルノフ(Kolmogorov-Smirnov)検定 シャピロ・ウィルク(Sapiro-Wilk)検定 フィッシャーの正確確率検定
Edward

ベイジアンニューラルネットワークで毒キノコ分類を実装してみた

最近勉強中のEdwardを使って、ベイジアンニューラルネットワークを実装してみました。 公式ページには、ちょっとした参考程度にしかコードが書いてなくて、自信はありませんが、とりあえず学習はしてくれたようです。 ちなみに今回は、データをKaggleのデータセットで行い、実装もKaggleのkernelを使ってみました。
Python

オンライン機械学習(CW、SCW)を実装してみた

今回は、下記の論文で紹介されているオンライン機械学習のモデルをPythonで実装してみました。 表題の通り、Confidence Weighted Learning(CW)、Soft Confidence Weighted Learning(SCW)を実装してみます。
PyMC

Pythonで地理データを階層ベイズモデルで推定・可視化してみた

e-Statから取得した地理データから階層ベイズモデルを用いて地域特徴を推定する事例を紹介されており、面白そうなのでやってみました。 Stan/BUGSなどのベイズ統計言語でデータを推定し、そこからまた別の地理データ可視化ソフトウェアを使って、推定結果を可視化していましたので、今回はそれらを全てPythonで一括してやってみようと思います。
R

性別、職業別、趣味別の行動者数データを対応分析してみた

政府統計データのいろんな地域別のデータを眺めながら、先日のマップ可視化に乗せるだけでも面白いなぁとか考えていました。 今回は、タイトルの通りの集計データから、業種別で趣味の傾向があるのかどうか、見えたりするのかとか思ったので、調べてみました。
Ruby

青空文庫のデータを形態素解析・感情分析してみた

青空文庫の文書データを形態素解析し、分割された単語ごとにネガティブかポジティブかの判定を行なって、スコアを計算させてみました。 形態素解析にはMecabを、ネガポジの判定には下記の単語感情極性対応表を使わせていただきました。
D3.js

都道府県・市区町村別人口データをD3.jsで可視化してみた

D3.jsを使って、日本の人口データを可視化してみました。 データ(都道府県や市区町村の緯度経度の座標・人口)は、ESRIジャパン様からダウンロードさせていただきました。
D3.js

各地域の時系列気象データをCanvasとD3.jsで可視化してみた

各地域の気象データをHTML5のCanvasとD3.jsを使って可視化しました。 データは気象庁からダウンロードして、加工させていただきました。
D3.js

都道府県別のデータをD3.jsで可視化してみた

都道府県別のデータをD3.jsを使って可視化しました。 データはe-Statからダウンロードしてきて、Rubyで加工しています。 e-Statは政府統計データを閲覧・ダウンロードができるサイトです。
スポンサーリンク