【筆記】機器學習基石 數學基礎 Week1

這是第一週的的上課筆記,有四支上課影片,另外還有一些閱讀教材,不過因為是第一周課程,所以上課內容不外乎是

  1. 這堂課程的簡介與進度安排之類的
  2. 機器學習簡介



什麼是機器學習?

簡單來說,就是希望用電腦來模擬或者模仿類似學習的過程。

在人類的學習過程中有的其中一個共通性就是觀察出發,無論是觀察書本或是教導者,並將這些觀察結果經由我們腦袋的內化轉變成我們所掌握的知識或技能。

電腦的學習腦也是如此,它經由一番觀察學習後,進行內化,將這些觀察結果變成對機器來說有用的技能。具體的來定義,我們將電腦所觀察的東西稱為資料、所學習的技巧則是實際上想要做的事情或想要增進某一種東西的表現**,而所謂的內化則是中間的訓練與逼近過程。



什麼情況適用機器學習?

在現實所有情境都適用於機器學習, 教授認為應符合下列三個關鍵才適用:

  1. 有某一種效能或是某一種表現能夠增進
    這代表此問題是可以學習的,因此可以透過機器學習來發覺潛藏的模式,以達到增進效能或表現目的。而且此問題必須存在學習目標讓機器學習,如此一來最終才能評估效能是否有更上一層樓。
    不存在任何潛藏模式能夠增進的話,那就表示你這個問題要可以學。也就說你有一些這個 潛藏的這些模式。這些潛藏的模式資料,不論給了再多資料、訓練再久,它最終還是學不到東西,因為根本沒東西讓他學。

  2. 存在潛藏模式,但無法明確歸納成規則
    如果可以輕易的歸納出規則,直接使用規則模式(Rule-Based)的方式直接寫死就好,無需動用到機器學習。只有真的是可以學的。因為你如果完全沒有模式 的一個問題的話,就算你餵了再多資料給機器,就算你讓機器跑得再久,它最終還是學不到東西。所以你要有某些目標,這些目標是讓機器去學的。這樣子最終才知道你的效能有沒有增強。

  3. 我們不知道怎麼把它寫下來,所以才會想要使用機器學習。

  4. 資料
    這是重點阿!沒有資料就什麼都不用玩了…XD



符號定義

以銀行核發信用卡為例

  1. Input
    xXx \in X ,這個例子中有就是顧客申請書上的相關資料,例如:年齡、性別、年收入、信用資料、貸款…等。

  2. Ouput
    yYy \in Y,根據input的顧客資料決定是否發卡給這位顧客 。

  3. Data
    D={(x1,y1),(x2,y2),...,(xn,yn)}D= \{ (x_1,y_1),(x_2,y_2),...,(x_n,y_n) \},過往的歷史資料,也就是用來訓練的資料,資料中 xx 包含了他們的基本資料,而 yy 則是記錄 發給他們有沒有好下場 實際發卡後的結果是好或不好。

  4. Target function
    f:XYf : X \rightarrow Y,資料中潛藏的模式,也就是機器學習試圖學習的目標,注意:我們並不知曉f到底長怎樣…如果知道直接寫方程式就好,不用學了,瞬間秒解阿XD

  5. Hypothesis
    g:XYg : X \rightarrow Y,機器觀察餵入的資料所學到函數,在期望上我們會希望 gg 越接近 ff 越好。這個函數是機器學習所要學習的技巧,它的輸出結果會告訴我們是否應該發卡給顧客,也就是 YY

  6. Hypothesis Set
    HH,所有可能用來進行預測的公式我們稱之為 hh,例如 h1h_1 的話是年收入大於50萬才核准、h2h_2 的負債大於100萬的不核准…之類的,所有的可能條件集合稱之為 HHHH 中可能並非都是可用的公式,演算法會從中選擇一個最符合資料的 hh,做為最後 gg

  7. Model
    在機器學習中,一般所指的模型是Learning Algorithm AA 與Hypothesis Set HH 兩個集合。

  8. Loss Function
    不在這次的課程內,損失函數是用計算實際值和預測值的殘差,也就是用來評估 gg 挑選的是否夠好的一個依據。



機器學習流程

從資料出發經由模型得到一個Hypothesisgg,這個gg期望上能盡可能接近ff
機器學習流程



與相關領域的關係

機器學習的定義:資料經由模型得到一個 Hypothesis gg ,且 gg 越接近越好 ff



資料探勘 Data Mining

一個簡單的定義,資料探勘是希望使用非常大量的資料,去找出一些有趣或有用的性質。

如果找出有用的性質是指,找出一個有用的 Hypothesis,讓我們可以進行預測,則在這種情況下資料探勘與機器學習的目標是一致的;但多數的資料探勘目的並非用來預測,而是是用找出來的性質幫助人類針對問題做進一步的分析,因此兩個領域雖然相像,但在其目的卻是有所不同的。

雖說兩者目的不同,但兩者間可以互相借鏡、幫忙。若資料探勘所找出來的性質與機器學習想做的有相關,機器學習或許可以藉由資料探勘所找出的性質,來找出找出更好的 Hypothesis。也就是說可以用資料探勘的工具,來幫助機器學習做得更好 ;反之亦然,也可以用機器學習的工具,來幫助在資料探勘裡面找出有趣的東西。



人工智慧 Artificial Intelligence

定義上,是希望電腦表現出一個具有 intelligent behavior 的行為,EX:下棋、自動駕駛。在理解上可以視機器學習是實現人工智慧的一種方法,以下棋的例子來說,我們可以透過給定大量的棋譜,經由設計演算法,讓機器從中學到如何下棋。



統計 Statistics

統計是想要用資料來推論一些未知的事情。而在機器學習中 gg 是我們從資料中所推論的結果,ff 則是未知的事情,以這個方向來說,統計實際上是實現機器學習的一種方法。些微的差異是,機器學習中的演算法會更重視過程(怎麼樣算出來),而不只是結果。



課程資料

  1. 課程影片: Course Introduction
  2. 課程影片: What is Machine Learning
  3. 課程影片: Applications of Machine Learning
  4. 課程影片: Components of Machine Learning
  5. 課程影片: Machine Learning and Other Fields
  6. 閱讀材料: 閱讀材料延伸閱讀
  7. 閱讀材料: homework 0



機器學習基石筆記目錄 -> 這裡走

留言

這個網誌中的熱門文章

用Markdown寫Blogger文章

【Vue.js 學習筆記】02. 基礎 Vue 概述