因子分析→クラスター分析→クロス集計の流れをやりたいと考えています。
例えば、2000人に質問したアンケートで、ある一つの質問項目に解答項目が20個あったとし、その質問項目を7つの軸に集約したいとします。回答者2000人に対し因子得点を振り、クラスター分析をします。5つのクラスターが、かりにできたとして、回答者にクラスタのフラグを振ります(例えばクラスタ1に属するならば1を振る)。そのフラグと回答者の属性(性別、年齢、職業など)でクロス分析をして、クラスタに属する人の特徴を調べたい…ということをやりたいと考えています。
解答は
-すぐに試せるデータ(Rのswissデータやirisデータなどの部類)かデータへのリンクが明記してある
-解答となるソースが書いてある、もしくは解答となりうるソースが書いてあるところへのリンクが書いてある
の条件でお願いします。
適当な大きさのものが見あたらず、少々小さめですが、state.x77 という米国の州データ(50データ8変数)を使いました。データが2000×20になっても、同じコマンドを使って不都合はないと思います。
当方、R2.4.0使用。
[参考にしたサイト]
因子分析
http://www1.doshisha.ac.jp/~mjin/R/25.pdf
クラスター分析
http://www1.doshisha.ac.jp/~mjin/R/28.pdf
http://www1.doshisha.ac.jp/~mjin/R/29.pdf
[コマンドライン]
# データのロード
data(state)
# 使用データはstate.x77。50データ8変数。
state.x77
# 因子分析。因子数は指定しなければならないので、
# 適当な数を入れてみて最適な数を決める。
factanal(state.x77, factors=2)
# 因子分析の因子得点(ここでは四因子)をres1に格納
res1 <- factanal(state.x77, factors=4, scores="Bartlett")$scores
# クラスター分析
res1.hc <- hclust(dist(res1))
# デンドログラム表示
plot(res1.hc)
# とりあえず四つに分類してみる
res1.cl <- cutree(res1.hc,k=4)
# この後の集計用に、new.x77 という名前で、state.x77データ
# の最終列に分類結果をくっつけたものを作成
new.x77 <- cbind(state.x77, res1.cl)
Rに入っているデータで、すぐに試せる&一連の流れが説明されていてすごく分かりやすいです。ありがとうございます。助かります。
一連の流れで説明してあるところが見当たりません。因子分析・クラスター分析などが単体で載っているようなページへのリンクは必要としていません。
ここの分析単独ではなく、この一連の流れで載っているところを求めています。