[AI] Data Mining @ Edison.X. Blog

不確定一般 Data Mining 課程學校裡面是怎麼上的，印象中翻國內不同領域之相關文獻，

所著重之流程不盡相同，應是不同科系對於 Data Mining 之重點應不同。

資工 -> 著重演算法分析。

資管 -> 著重現成軟體實際操作。

其餘商管 (企管、財經、行銷等) -> 著重探勘結果後之分析與解釋。

站在商管角度而言，Data Mining 之目的乃是希望藉由一些現有之 recorder，

進行複雜、表面上看不出有任何關係的變數，探討是否存在著某些相關性變化等，

最有名、成功之 Data Mining 結果，應屬 Walmart 發現「啤酒與尿布」神奇的關係，

每個星期五晚上，會買啤酒的人大多也會買尿布，藉由此規則改變實體店面商品之擺設，

期望能帶動其他商品之銷售額。當然若能再以 Data Mining 發現，

某些股票之 K 線 (或其他構面、變量) 與未來市場之走向，不就代表賺錢的機會就變高了嗎？

對某些人而言，Data Mining 也許只是，

在完全沒有任何關係的二樣商品或事件裡，硬要以較科學化的方式「牽拖」在一起，

並不讓人感到是個明智的作法；但 Data Mining 重點應是在後半段，

當這些看起來沒任何相關性的任何資料，可以解釋其背後發生的原因，那它就是有價值的，

如星期五晚上想喝啤酒的男人，會順手去買小孩的尿布。

資料探勘裡前半段大多屬資料前置作業、敘述統計等，

中間講些 Classification、Clustering，

此二議題在 Data Mining 裡佔了大多篇幅，後面提一些演化式演算法。

Classification 是已知要分哪些類別後，再根據現有資料，研究各變數與類別之間的關係，

如 ( 性別、年齡層、職業、教育程度、地區 ---> 會不會申辦信用卡)，

這裡便是想探討哪些因素影響了申辦信用卡的原因，

一開始便知道輸入資料上的人，他們會不會申辦信用卡。

當然這例子很明顯以類神經網路方式可得到不錯之效果，

(前提是要將各變量先做相關性測試，把相關性高之變量排除)，

其實做的便是 Classification。故也有人稱， Classification 是屬於監督式的分類，

因在原始資料中，手頭已有一些人有沒有申辦信用卡的紀錄。

Clustering 不少中文稱為「分叢」，和 Classification 相似，

最後結果都是有「幾個類別」跑出來；和 Classification 不同，

一開始只知道要分類，但一開始就不知道這些輸入資料是屬於哪些類別。

如，在一地區中由於沒有配水站，欲設之，但鑑於手邊資源有限與規劃要求，

欲設 5 個配水站。根據目前所有居民的居住位置，

問題一，這五個配水站該設在哪才能使得水管管線長度最少？

問題二，承問題一，每個配水站要分配哪些居民之用水？

上述問題在一開始只會知道所有居民的位置，但並不知道哪些居民是由哪些

配水站所供應，屬於「非監督式」學習。

實際上，Data Mining 最麻煩的步驟，應是事前資料的準備，

因實際資料裡面，常有一些雜訊、缺失等出現，這會花大半的時間；

再來是對於原始資料 scale 上之調整，scale 之調整藝術，

單出一份 paper 也不是問題。

edisonx

Edison.X. Blog

edisonx 發表在痞客邦留言(0) 人氣()

E-mail轉寄

Edison.X. Blog

YouLoveMe() ? LetItBe() : LetMeFree() ;

[AI] Data Mining

歷史上的今天

留言列表

站方公告

活動快報

BIONAP...

我的好友

熱門文章

文章分類

開發手札 (2)

C/C++ (8)

應用軟體/工具 (1)

數值分析 (9)

程式之美 (1)

VB.Net (1)

英文 (1)

AutoIt!! (2)

VBA (4)

MFC (1)

Win32 (8)

環境與Script (5)

數學整理 (2)

演算法 (7)

程設亂語 (1)

SmallTalk (1)

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY