赤飯にかかったアレ

雑多なメモ帳

テキストマイニング

太宰治の文章からボットを作る

マルコフ連鎖の練習も兼ねてマルコフ連鎖を使用した対話モデルを作って遊んでます。 (マルコフ連鎖とその学習のやり方は、ほぼ以下の書籍の写経です) Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみ…

テキストマイニングがしたい! part4.word2vec用のモデル作成

こんなことができるモデルを作ります。 word2test.pyの実行結果 金魚 = 余,まし,曲,表面,これ,勝利,あれ,見付け,実,研究生生命 = 溢れ,名品,例,美事,理想,なり,失敗,財政,死ぬ,絢爛作る = 普通,神秘,調べ,一緒,華鬘,進ん,出し,来,遣り繰り,それWord2Vec(voca…

テキストマイニングがしたい! part2.分かち書きと文の文字数の平均とヒストグラムと

このページでは以下のことについて書きます。 MeCabで品詞分解(インストール方法はないよ) 今日 キョウ 今日 名詞-副詞可能も モ も 助詞-係助詞 も モ も 助詞-係助詞復 フク 復 名詞-サ変接続一 イチ 一 名詞-数 は ハ は 助詞-係助詞 ようやく ヨウヤク …

テキストマイニングがしたい! part1.準備編

はじめに テキストをダウンロードする