文体診断ロゴーンは作者を見分けられるか




 文体診断ロゴーンというサイトがある。入力した文章を解析して、その文体の特徴を診断し、64名の著者の内、誰の文章に似ているか診断してくれるサービスだ。
 このサイトは利用者が自分の文章を入力して特徴を診断することを想定しているようだ。だが、私が興味を持ったのは、64名の著者自身の文章を入力した時、どの程度作者を見分けられるのか、ということだ。
 そこで、芥川龍之介、太宰治、宮沢賢治、夏目漱石の四人について、青空文庫から有名な5作品を選んで診断してみた。
一致指数ベスト3の1位になったら的中、2〜3位は半分的中、4位以下なら外れとして、どの程度見分けられるのか調べたのが以下の結果だ。

芥川龍之介


地獄変
1 海野十三 91.5
2 佐高信 88
3 末弘厳太郎 86.7

蜘蛛の糸
1 芥川龍之介 90
2 森鴎外 88.7
3 菊池寛 87.5


1 芥川龍之介 92
2 菊池寛 90.5
3 森鴎外 89.3

羅生門
1 菊池寛 93.3
2 芥川龍之介 90.8
3 太宰治 89

藪の中
1 三田誠広 87.4
2 芥川龍之介 87.4
3 森鴎外 86.3

芥川龍之介→的中率60%(=(0+1+1+0.5+0.5)/5)

『地獄変』以外は比較的良く的中させている。2位の二作も点数的にはかなり惜しい。芥川の文章はあまり癖がないだけに、良く的中させたな、という印象だ。


太宰治


お伽草子
1 太宰治 91.5
2 吉川英治 87.1
3 中原中也 84.4

斜陽
1 太宰治 81.7
2 阿刀田高 81.1
3 江戸川乱歩 81

人間失格
1 太宰治 89.7
2 海野十三 89.1
3 新美南吉 87.1

走れメロス
1 太宰治 87.8
2 小林多喜二 82
3 吉川英治 80.9

津軽
1 中原中也 92.4
2 三島由紀夫 89.2
3 佐高信 87.1

太宰治→的中率80%

『津軽』以外はばっちり的中させた。ハイテンションな三人称から上品な一人称まで文体的にはバラエティに富んでいるだけに、どれも太宰だと見ぬいたのには驚いた。機械にしか見抜けない書き癖があるのだろう。


宮沢賢治


セロ弾きのゴーシュ
1 宮沢賢治 74.4
2 有島武郎 74.2
3 井上ひさし 70.3

よだかの星
1 新美南吉 90.4
2 三田誠広 84.3
3 宮沢賢治 84.2

銀河鉄道の夜
1 井上ひさし 85.7
2 有島武郎 82.1
3 梅原猛 81.6

注文の多い料理店
1 新美南吉 86.2
2 太宰治 83.2
3 海野十三 81.9

やまなし
1 太宰治 90.8
2 阿刀田高 86.2
3 阿川弘之 82.4

宮沢賢治→的中率30%

意外と的中した太宰と逆に、意外と当たらなかったのが賢治だ。賢治の文章って滅茶苦茶特徴があるので、人間がやったらすぐ当たりそうだが、形態素解析結果はバラエティに富んでいたらしい。しかし、新美南吉と間違うのは分かるけど、やまなしのどの辺が太宰っぽいのだろうか。


夏目漱石


吾輩は猫である
1 有島武郎 92.6
2 井上ひさし 88.1
3 井上靖 84

坊っちゃん
1 森鴎外 89.4
2 有島武郎 86.8
3 坂口安吾 85.2

夢十夜
1 森鴎外 85.7
2 中島敦 85.5
3 三田誠広 85.3

三四郎
1 森鴎外 91.4
2 有島武郎 85.8
3 井上ひさし 85.4

こころ
1 井上ひさし 90.6
2 有島武郎 89.9
3 坂口安吾 89.7

夏目漱石→的中率0%

見事に一つも当たらなかったのが漱石だ。判断指標の「それから」と全然文体が違う「吾輩は猫である」なんかはともかく、比較的似ていそうな「三四郎」なども当たらなかったのは驚きだ。一作ごとに文体をがらりと変えているということだろうか。恐るべし漱石。


 累計的中率は42.5%だった。検証の結果、作者によって的中率が大きく異なることが分かった。
 

 「文体診断ロゴーン」と「青空文庫」に感謝致します。



注:検証に用いたテキストは以下の手順で処理した。
1)青空文庫のhtmファイルからテキストをコピーし、()で囲まれた部分(ふりがな)を一括変換で削除した。→正規表現で青空文庫のルビを削除
2)25字×25行のワードファイルに貼り付けて、8ページ目(4000字以内)の最後の読点までをコピーし、ロゴーンに貼りつけた。

トップページに戻る