juliaで前処理大全 11.文字型

juliaで前処理大全その10です。今回は文字型を取り扱います。

形態素解析による分解

Q 名詞、動詞の抽出

走れメロスのテキストデータをまず読み込んでみます。

using  Chain, Downloads
meros_url =  "https://raw.githubusercontent.com/hanafsky/awesomebook/master/data/txt/meros.txt"

meros = @chain meros_url begin
                Downloads.download
                read
                String
            end
first(meros, 10) |> println
メロスは激怒した。必
using Awabi
tokenizer = Sys.iswindows() ? Tokenizer(Dict("dicdir" => "C:\\Program Files (x86)\\MeCab\\dic\\ipadic")) : Tokenizer()

tokenize(tokenizer, "すもももももももものうち") |> println
[("すもも", "名詞,一般,*,*,*,*,すもも,スモモ,スモモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("の", "助詞,連体化,*,*,*,*,の,ノ,ノ"), ("うち", "名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ")]

単語の集合データに変換

bag of wordsの作成

TF-IDFによる単語の重要度調整

TF-IDFを利用したbag of wordsの作成

つづく