12/04
形質の群分けの最適化
とりあえず連続量データで考える→離散値も結果がついてくる?でも血液型みたいな不連続的な場合は??
まずどうしたいか
いい判別分析が出る群分けを考える
(i) 素早く、割と正確に出したい。アルゴリズム考える
(ii) めっちゃ正確に出したい。全探索
(i)の場合
判別結果をもとに、さらに何かを調べたい…etc
例)結果にはずれデータが出ましたー、こいつらを含む(たとえばはずれデータが全てメスだったとか)パターンを除外してもう一度判別分析を行ってみたい
coution:邪魔なのを消すって言うだけだったら、ただのデータ改竄
(ii)の場合
時間かかってもいいからいい結果を出したい
まずどっちが必要か考える!
(i)をしたいときの案その一
まず判別分析をとりあえず行う(2群でよい、形質かサンプル数の中央値などを境界として)
そして例えば三箇所行う↓
ーーー*---*---*---
こんな感じ。
これでスコア高くなったポイントの近くを、半分、半分して探していけばいいとこが見つかる…はず(※)
※できる根拠
ある程度連続的なはず…適合率の高くなる山を見落とさないように。。。
また、この山を数えることにより、群数を数えることができる!かもかも??
上を踏まえた上で…
問題
境界線をひきたい、でも境界線付近は反対の群にサンプルが交じり合ってる可能性がある。
だから上であたりをつけたポイントの周りのある程度の幅をデータ落とす(具体的な方法は未定)そして、適合率が高くなるように、データを落とす幅を広げていく。
最終更新:2006年12月05日 17:48