統計ソフトRについての質問です。


因子分析→クラスター分析→クロス集計の流れをやりたいと考えています。
例えば、2000人に質問したアンケートで、ある一つの質問項目に解答項目が20個あったとし、その質問項目を7つの軸に集約したいとします。回答者2000人に対し因子得点を振り、クラスター分析をします。5つのクラスターが、かりにできたとして、回答者にクラスタのフラグを振ります(例えばクラスタ1に属するならば1を振る)。そのフラグと回答者の属性(性別、年齢、職業など)でクロス分析をして、クラスタに属する人の特徴を調べたい…ということをやりたいと考えています。

解答は
-すぐに試せるデータ(Rのswissデータやirisデータなどの部類)かデータへのリンクが明記してある
-解答となるソースが書いてある、もしくは解答となりうるソースが書いてあるところへのリンクが書いてある
の条件でお願いします。

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2007/08/14 23:25:06
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答3件)

id:minkpa No.1

回答回数4178ベストアンサー獲得回数55

id:syou6162

ここの分析単独ではなく、この一連の流れで載っているところを求めています。

2007/08/08 12:47:51
id:momoko2004 No.2

回答回数178ベストアンサー獲得回数2

ポイント27pt

適当な大きさのものが見あたらず、少々小さめですが、state.x77 という米国の州データ(50データ8変数)を使いました。データが2000×20になっても、同じコマンドを使って不都合はないと思います。

当方、R2.4.0使用。

[参考にしたサイト]

因子分析 

http://www1.doshisha.ac.jp/~mjin/R/25.pdf

クラスター分析

http://www1.doshisha.ac.jp/~mjin/R/28.pdf

http://www1.doshisha.ac.jp/~mjin/R/29.pdf

[コマンドライン]

# データのロード

data(state)

# 使用データはstate.x77。50データ8変数。

state.x77

# 因子分析。因子数は指定しなければならないので、

# 適当な数を入れてみて最適な数を決める。

factanal(state.x77, factors=2)

# 因子分析の因子得点(ここでは四因子)をres1に格納

res1 <- factanal(state.x77, factors=4, scores="Bartlett")$scores

# クラスター分析

res1.hc <- hclust(dist(res1))

# デンドログラム表示

plot(res1.hc)

# とりあえず四つに分類してみる

res1.cl <- cutree(res1.hc,k=4)

# この後の集計用に、new.x77 という名前で、state.x77データ

# の最終列に分類結果をくっつけたものを作成

new.x77 <- cbind(state.x77, res1.cl)

id:syou6162

Rに入っているデータで、すぐに試せる&一連の流れが説明されていてすごく分かりやすいです。ありがとうございます。助かります。

2007/08/09 00:41:08
id:hiramatsu_kg No.3

回答回数424ベストアンサー獲得回数3

id:syou6162

一連の流れで説明してあるところが見当たりません。因子分析・クラスター分析などが単体で載っているようなページへのリンクは必要としていません。

2007/08/09 00:38:46

コメントはまだありません

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません