赤飯にかかったアレ

雑多なメモ帳

太宰治の文章からボットを作る

 マルコフ連鎖の練習も兼ねて
マルコフ連鎖を使用した対話モデルを作って遊んでます。

(マルコフ連鎖とその学習のやり方は、ほぼ以下の書籍の写経です)

マルコフ連鎖とは

 マルコフ連鎖は確率過程の一つと考えていいのかな

  • 別名マルコフ過程
  • 確率過程を使って文章をつなぎ合わせて文を作る
  • マルコフ性(次に予測される状態が過去の状態に依存せず、現在の状態によってのみ決まる性質)を持つ確率過程のうち取り売る値が離散的なもの(マルコフ性を備えた確率過程を総称したマルコフ過程の中でも取る可能性のある値が連続的でなく離散的)これを特にマルコフ連鎖という・・・らしいよ

文の類似度を調べるN-gramの基本原理ってことでいいかな

 

次に来る文字を予測するLSTMでも試したけど、こっちの方が意味が通じる
パラメータ調整をミスってるのもあると思うけど、学習に時間かかりすぎるので却下

続きを読む

AIに文章を書かせたい! [Keras-LSTMサンプルコードで太宰治に文章を書かせたい]

機械の文章力の成長過程が見たい!!

テキストマイニングがしたい! part3. ディープラーニング幼稚園児の文章生成編 [Keras-LSTM文字生成サンプルコード] - 赤飯にかかったアレ

の続きです。

前は

  • 使ったテキストが少なかった(短編1作品のみ)
  • 形態素解析してない文章を使っていた
  • 理解度0でサンプルコード実行しただけ(今回もだけど...)

太宰治の文章をMeCab分かち書きし、KerasのLSTMサンプルコードにちょっと手を加えて文章を生成します。

ついでにWord2Vecでモデルも作ってみます。

 

機械の文章力の成長過程が見たい!!

ジュババァって機械動くの気持ちいいよね

 

あっ!ついでだけど芥川龍之介でこれやったら芥川賞クラスの文になるのかな? 試せたら試そう。

# 念のため_______________

AIという言葉は、色々な解釈ができると思います。

僕のAIの定義は学習し、判断できるものです。

今回は、

  • 事前に文章から辞書を作る。
  • テキストをベクトル化する、モデルを作る。
  • 学習して文章を生成する。

ということを行います。

学習と判断を行うため、タイトルにAIを入れました。

これをみっちゃった人のAIの定義と違ってたらごめんね

 _________________

続きを読む

テキストマイニングがしたい! part4.word2vec用のモデル作成

こんなことができるモデルを作ります。 

word2test.pyの実行結果

金魚 = 余,まし,曲,表面,これ,勝利,あれ,見付け,実,研究生
生命 = 溢れ,名品,例,美事,理想,なり,失敗,財政,死ぬ,絢爛
作る = 普通,神秘,調べ,一緒,華鬘,進ん,出し,来,遣り繰り,それ
Word2Vec(vocab=1337, size=100, alpha=0.025) = 普通,神秘,調べ,一緒,華鬘,進ん,出し,来,遣り繰り,それ

に ニ に 助詞-格助詞-一
続きを読む

テキストマイニングがしたい! part3. ディープラーニング幼稚園児の文章生成編 [Keras-LSTM文字生成サンプルコード]

機械に文章を書かせたい!

これを見つけてしまいそういう頭になってしまった。

今学習中でワクワクでテンション高いです。

以降本題、

 

 Kerasには文章生成のサンプルコードがあります。

github.com

 しかも、それを日本語で解説してくれている方がいました。

qiita.com

さらに、その中でリファクタリングしたものまで用意されてました。 

https://github.com/YankeeDeltaBravo225/lstm_text_generation_comment/blob/master/lstm_text_generation_refactored.py

 

これをそのまま実行しよう!

と思ったのですが、使う文章がニーチェの文集。しかも英語。

 あいにく幼稚園児なので英語は読めないし、時間もないので哲学も苦手です。

 

KerasのLSTMサンプルコードを日本語の文章で生成しようぜ!(前置き長い)

続きを読む

テキストマイニングがしたい! part2.分かち書きと文の文字数の平均とヒストグラムと

このページでは以下のことについて書きます。

MeCabで品詞分解(インストール方法はないよ)

今日 キョウ 今日 名詞-副詞可能
も モ も 助詞-係助詞 も モ も 助詞-係助詞
復 フク 復 名詞-サ変接続
一 イチ 一 名詞-数
は ハ は 助詞-係助詞
ようやく ヨウヤク ようやく 副詞-一般
変色 ヘンショク 変色 名詞-サ変接続
し シ する 動詞-自立 サ変・スル 連用形
始め ハジメ 始める 動詞-非自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形
仔魚 仔魚 仔魚 名詞-一般
を ヲ を 助詞-格助詞-一般
一 イチ 一 名詞-数
匹 ヒキ 匹 名詞-接尾-助数詞
二 ニ 二 名詞-数
匹 ヒキ 匹 名詞-接尾-助数詞
と ト と 助詞-並立助詞
皿 サラ 皿 名詞-一般
に ニ に 助詞-格助詞-一般

 

1文当たりの文字数のヒストグラム

f:id:sekihan_0290:20180715175728p:plain

ほぼこの本の写経です。

Pythonによるテキストマイニング入門

Pythonによるテキストマイニング入門

 
続きを読む