統計決策
專注于為中小企業提供成都做網站、網站建設服務,電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業北安免費做網站提供優質的服務。我們立足成都,凝聚了一批互聯網行業人才,有力地推動了成百上千家企業的穩健成長,幫助中小企業通過網站建設實現規模擴充和轉變。先驗概率 p(x)
條件概率p(x|w)
貝葉斯公式 p(w|x)=$frac{p(x|w)*p(w)}{p(x)}$
決策規則(最小錯誤率貝葉斯決策):p(w1|x)>p(w2|x), 為w1;反之,為w2。
求最小錯誤率分界點:p(x|w1)*p(w1)=p(x|w2)*p(w2), 解得x=t,t為分界點。
最小風險貝葉斯決策:
條件風險:R(a1|x)=$lambda11*p(w1|x)+lambda12*p(w2|x)$
$lambda12$表示類別為2,判別為1的損失;R(a1|x)為判決為1的條件風險。
接收機特性曲線(ROC曲線):
擊中率+虛警率>=1;
x*為判決邊界。x<x*,則拒絕;x>x*,則認為存在外部脈沖;
當存在外部脈沖但是x<x*,則漏檢(miss),若x>x*,則擊中(hit);
當不存在外部脈沖但是x>x*,則虛警(false alarm),若x<x*,則正確拒絕(correct rejection).
擊中率(靈敏度):tp/(tp+fn)
虛警率(假陽性):fp/(tn+fp)
ROC曲線為擊中率和虛警率隨x*在坐標上移動的變化。
當x*為最小可能值時,所有樣本都呈陽性,此時坐標為(1,1);當x*為大可能值時,所有樣本陰性,坐標(0,0);
當接收機為理想的,即無脈沖和有脈沖同為沖激且沒有重疊,擊中率始終為1,虛警率始終為0.
極小極大準則:
$R_{minimax}=lambda22+(lambda12-lambda22)int_{R1}{p(x|w2)}dx=lambda12int_{R1}{p(x|w2)}dx$ 第二類判為第一類,對第一類區間積分,再乘以條件風險
$=lambda11+(lambda21-lambda11)int_{R2}{p(x|w1)}dx=lambda21int_{R2}{p(x|w1)}dx$
PCA:
計算x所有樣本的協方差矩陣,求其特征向量作為方差最小投影方向。
$Sigma u_{i}=lambda u_{i}$
$u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數據。
白化:對PCA所得的特征值進行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協方差矩陣為$U*^{T}Sigma U*=I$.
貝葉斯置信網:看作業
概率密度函數的估計
大似然估計:已知分布,根據樣本求分布函數的參數,使樣本概率大。通常取對數求導,使導數為0。高斯方差大似然估計有偏。
貝葉斯估計:根據貝葉斯定理,根據訓練樣本求測試樣本概率,模型參數是隱含的,已經包含在條件分布的積分里了。難點是積分。通過選擇合適的先驗分布,如指數分布族,使積分容易求得。
PCA:
計算x所有樣本的協方差矩陣,求其特征向量作為方差最小投影方向。
$Sigma u_{i}=lambda u_{i}$
$u_{i}^{T}x為x在u_{i}方向的投影。$ 依次選取特征值大的主方向,U=[u1 u2 … (后面可以取零,起到降維的作用)],$U^{T}x為$投影后數據。參考PCA程序,后續》》》
白化:對PCA所得的特征值進行歸一。特征值向量為h=[$lambda1space lambda2…$],U*=$Uh^{-1/2}$,新的協方差矩陣為$U*^{T}Sigma U*=I$.
LDA(Fisher Linear Discriminant Analysis):將數據降到一維,同時具有大的區分度。
類內散度矩陣:$Si=Sigma(x-mi)(x-mi)^T, Sw=S1+S2(總類內散布矩陣)$
類間散度矩陣:$S_{B}=(m1-m2)(m1-m2)^T (總類間散布矩陣,秩小于等于1)$
準則函數:$J(w)=frac{w^tS_{B}w}{w^tS_{w}w}$
瑞利熵:$R(w)=frac{w^tAw}{w^tw}$
大化準則函數時,$S_{B}w=lambda S_{w}w$ ,而$S_{B}w總在m1-m2方向上$,$w=S_{w}^{-1}(m1-m2)$,此w即為使類間散布和類內散布的比值達到大的線性函數。
KFD-Kernel Fisher’s Discriminant
x=$phi (x)$
曼哈頓距離:馬氏距離(Mahalanobis distance)表示數據的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關于身高的信息會帶來一條關于體重的信息,因為兩者是有關聯的)并且是尺度無關的(scale-invariant),即獨立于測量尺度。對于一個均值為μ,協方差矩陣為Σ的多變量向量,其馬氏距離為(x-μ)'Σ^(-1)(x-μ)。馬氏距離也可以定義為兩個服從同一分布并且其協方差矩陣為Σ的隨機變量與的差異程度。
For identity matrix S:
For diagonal matrix S:
3. 非參數估計和隱馬爾可夫模型
線性分類器
1. 線性分類器基本概念
判別函數:由x的各分量的線性組合而成的函數。$g( x)=w^tx+w0$,g( x)>0,判定w1;g(x)<0,判定w2;g( x)=0為判定面。
若g( x)為線性,判定面為超平面,比特征空間少一個維度。(a point is a hyper plane in 1-dimensional space, a line is a hyperplane in 2-dimensional space, and a plane is a hyperplane in 3-dimensional space. A line in 3-dimensional space is not a hyperplane, and does not separate the space into two parts (the complement of such a line is connected).)
$x=x_{p}+rfrac{w}{||w||}$,r為代數距離(algebraic distance)
$g(x)=w^Tx+w0,x_{p}在超平面上,w^Tx_{p}+w0=0, 所以g(x )=rfrac{w^Tw}{||w||}=r||w||$,r有符號。
多類情況:P179。。。。
廣義線性判別函數:對x的各分量進行非線形組合,映射到高維空間。
增廣特征向量a=[w0;w],使新的判定面經過原點,而且簡化問題為求解一個權向量a。
梯度下降:更新規則$a(k+1)=a( k)-eta(k ) abla J(a(k ))$
牛頓下降:更新規則$a(k+1)=a( k)-H^{-1} abla J(a(k ))$
感知機:$J( a)=Sigma _{yin M} {-a^ty}$,其中M(a)為被a錯分的樣本集。
$ abla J(a )=Sigma_{y in M}{-y}$,迭代公式$a(k+1)=a( k)+eta ( k) Sigma_{y in M}{y}$
2. 最優超平面與支持向量機
超平面:wx+b=0
到超平面距離: g(x)=wx+b, x’為樣本到超平面上投影
間隔M=||x-x’||=||$lambda w$||=|g(x )|/||w||.
因為w和b可以按任意比例放縮,所以可以令g(x)=1。正樣本與負樣本間隔為M=2/||w||.
大間隔就是使M大,即讓||w||最小,等價于$minfrac{1}{2}w^Tw$.
所有樣本正確分類條件為:
所以為
minimizes.t.的二次最優化問題
$L(w,a)=frac{1}{2}||w||^2-sumlimits_{k=1}^n{a_k[y_k(wx_k +b)-1]}$
對偶形式,仍為二次最優化問題。
KKT conditions:
$L(x,lambda)=f(x ) +lambda g(x ) $
$g(x )geq 0$
$lambda geq 0$
$lambda g(x ) = 0$
example:
Soft Margin
對比沒有soft margin的形式,
vc dimension:
維度數加1?
kernel:
$g(x)=sumlimits_{i=1}^{l}{a_iy_iK(x_i,x)+b}$
SMO算法(序列最小優化算法):
SVR:
3. 多類線性分類器
1.第一種情況:每一模式類與其它模式類間可用單個判別平面把一個類分開。這種情況,M類可有M個判別函數,且具有以下性質:
如果某個X使二個以上的判別函數 gi(x) >0 。則此模式X就無法作出確切的判決。
判別函數都為負值,為不確 定區域。
第二種情況:
每個模式類和其它模式類間可分別用判別平面分開,一個判別界面只能分開兩個類別,不一定能把其余所有的類別分開。
這樣有 M(M _ 1)/2個判別平面。
判別函數都為負值,為不確 定區域。
結論:判別區間增大,不確定區間減小,比第一種情況小的多。
第三種情況:
每類都有一個判別函數,存在M個判別函數。
就是說,要判別模式X屬于那一類,先把X代入M個判別函數中,判別函數大的那個類別就是X所屬類別。類與 類之間的邊界可由gi(x) =gj(x) 或gi(x) -gj(x) =0來確定。
結論:不確定區間沒有了,所以這種是最好情況。
非線性分類器
1. 神經網絡
2. 支持向量機
其它分類方法
1. 近鄰法
k近鄰 knn(k取奇數):
vThe algorithm procedure:
§Given a set of n training data in the form of <x, y>.
§Given an unknown sample x′.
§Calculate the distance d(x′, xi) for i=1 … n.
§Select the K samples with the shortest distances.
§Assign x′ the label that dominates the K samples.
v
vIt is the simplest classifier you will ever meet (I mean it!).
v
vNo Training (literally)
§A memory of the training data is maintained.
§All computation is deferred until classification.
§
vProduces satisfactory results in many cases.
§Should give it a go whenever possible.
Properties of KNN
Instance-Based Learning
No explicit description of the target function
Can handle complicated situations.
Challenges of KNN
vThe Value of K
§Non-monotonous impact on accuracy
§Too Big vs. Too Small
§Rule of thumbs
v
vWeights
§Different features may have different impact …
v
vDistance
§There are many different ways to measure the distance.
§Euclidean, Manhattan …
v
vComplexity
§Need to calculate the distance between X′ and all training data.
§In proportion to the size of the training data.
2. 隨機方法
3. 非度量方法
特征選擇和特征提取
1. 特征選擇
2. 特征提取
KL變換
也是正交基,與pca不同在于pca是協方差矩陣的特征向量,kl變換是x*x'的特征向量。有監督時,k-l坐標系的產生矩陣相應改變。
mds多維尺度法
使用低維來表示高維樣本間的相關關系。
核分析方法
非監督模式識別
1. 基于模型的方法
2. 聚類
決定聚類算法好壞的因素
C-均值(C/K- means)聚類(Clustering)
vDetermine the value of K.
vChoose K cluster centres randomly.
vEach data point is assigned to its closest centroid.
vUse the mean of each cluster to update each centroid.
vRepeat until no more new assignment.
vReturn the K centroids.
vPros
§Simple and works well for regular disjoint clusters.
§Converges relatively fast.
§Relatively efficient and scalable O(t·k·n)
?t: iteration; k: number of centroids; n: number of data points
v
vCons
§Need to specify the value of K in advance.
?Difficult and domain knowledge may help.
§May converge to local optima.
?In practice, try different initial centroids.
§May be sensitive to noisy data and outliers.
?Mean of data points …
§Not suitable for clusters of
?Non-convex shapes
核(Kernel)動態聚類
歐式距離只適用于樣本分布為超球或接近超球狀,即在各維特征上
的樣本方差接近。
模糊(Fuzzy) C 均值聚類
Fuzzy c-means (FCM) is a method of clustering which allows one piece of data to belong to two or more clusters
譜(Spectral)聚類
譜聚類算法的物理解釋和數學解釋:由于特征矢量不相關,所以由特征矢量構成的訓練空間中的點可分性
會改善。
獨立于算法的機器學習(boosting)
Boosting方法是一種用來提高弱分類算法準確度的方法,這種方法通過構造一個預測函數系列,然后以一定的方式將他們組合成一個預測函數。他是一種框架算法,主要是通過對樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓練生成一系列的基分類器。他可以用來提高其他弱分類算法的識別率,也就是將其他的弱分類算法作為基分類算法放于Boosting 框架中,通過Boosting框架對訓練樣本集的操作,得到不同的訓練樣本子集,用該樣本子集去訓練生成基分類器;每得到一個樣本集就用該基分類算法在該樣本集上產生一個基分類器,這樣在給定訓練輪數 n 后,就可產生 n 個基分類器,然后Boosting框架算法將這 n個基分類器進行加權融合,產生一個最后的結果分類器,在這 n個基分類器中,每個單個的分類器的識別率不一定很高,但他們聯合后的結果有很高的識別率,這樣便提高了該弱分類算法的識別率。在產生單個的基分類器時可用相同的分類算法,也可用不同的分類算法,這些算法一般是不穩定的弱分類算法,如神經網絡(BP) ,決策樹(C4.5)等。
AdaBoost 通過對樣本集的操作來訓練產生不同的分類器,他是通過更新分布權值向量來改變樣本權重的,也 就是提高分錯樣本的權重,重點對分錯樣本進行訓練。 (1) 沒有先驗知識的情況下,初始的分布應為等概分布,也就是訓練集如果有 n個樣本,每個樣本的分布概率為1/ n。 (2) 每次循環后提高錯誤樣本的分布概率,分錯的樣本在訓練集中所占權重增大,使得下一次循環的基分類器 能夠集中力量對這些錯誤樣本進行判斷。最后的強分類器是通過多個基分類器聯合得到的,因此在最后聯合時各個基分類器所起的作用對聯合結果有很大的影響,因為不同基分類器的識別率不同,他的作用就應該不同,這里通過權值體現他的作用,因此識別率越高的基分類器權重越高,識別率越低的基分類器權重越低。
模式識別系統的評價
網站欄目:模式識別復習目錄-創新互聯
當前路徑:http://m.newbst.com/article32/dihisc.html
成都網站建設公司_創新互聯,為您提供Google、移動網站建設、微信小程序、網站設計、域名注冊、標簽優化
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯