juliaで前処理大全 11.文字型
juliaで前処理大全その10です。今回は文字型を取り扱います。
形態素解析による分解
Q 名詞、動詞の抽出
走れメロスのテキストデータをまず読み込んでみます。
using Chain, Downloads
meros_url = "https://raw.githubusercontent.com/hanafsky/awesomebook/master/data/txt/meros.txt"
meros = @chain meros_url begin
Downloads.download
read
String
end
first(meros, 10) |> println
メロスは激怒した。必
using Awabi
tokenizer = Sys.iswindows() ? Tokenizer(Dict("dicdir" => "C:\\Program Files (x86)\\MeCab\\dic\\ipadic")) : Tokenizer()
tokenize(tokenizer, "すもももももももものうち") |> println
[("すもも", "名詞,一般,*,*,*,*,すもも,スモモ,スモモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("の", "助詞,連体化,*,*,*,*,の,ノ,ノ"), ("うち", "名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ")]
単語の集合データに変換
bag of wordsの作成
TF-IDFによる単語の重要度調整
TF-IDFを利用したbag of wordsの作成
つづく
© Kei Hanafusa. Last modified: February 08, 2024. Website built with Franklin.jl and the Julia programming language.