Dio

Kei Hanafusa

Chemical Engineer,
living in Osaka, 🗾

juliaで前処理大全 11.文字型

juliaで前処理大全その10です。今回は文字型を取り扱います。

形態素解析による分解
1. Q 名詞、動詞の抽出
単語の集合データに変換
1. bag of wordsの作成
TF-IDFによる単語の重要度調整
1. TF-IDFを利用したbag of wordsの作成

形態素解析による分解

Q 名詞、動詞の抽出

走れメロスのテキストデータをまず読み込んでみます。

using  Chain, Downloads
meros_url =  "https://raw.githubusercontent.com/hanafsky/awesomebook/master/data/txt/meros.txt"

meros = @chain meros_url begin
                Downloads.download
                read
                String
            end
first(meros, 10) |> println

メロスは激怒した。必

using Awabi
tokenizer = Sys.iswindows() ? Tokenizer(Dict("dicdir" => "C:\\Program Files (x86)\\MeCab\\dic\\ipadic")) : Tokenizer()

tokenize(tokenizer, "すもももももももものうち") |> println

[("すもも", "名詞,一般,*,*,*,*,すもも,スモモ,スモモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("も", "助詞,係助詞,*,*,*,*,も,モ,モ"), ("もも", "名詞,一般,*,*,*,*,もも,モモ,モモ"), ("の", "助詞,連体化,*,*,*,*,の,ノ,ノ"), ("うち", "名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ")]

単語の集合データに変換

bag of wordsの作成

TF-IDFによる単語の重要度調整

TF-IDFを利用したbag of wordsの作成

つづく

前の記事

juliaで前処理大全カテゴリー型

© Kei Hanafusa. Last modified: February 08, 2024. Website built with Franklin.jl and the Julia programming language.