行列微分
スカラー関数のベクトル微分
多変数実数値関数とに対しのベクトル微分を$$\frac{\partial f}{\partial \mathbf{x}}=(\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\dots \frac{\partial f}{\partial x_d})^T$$と定義する.このとき次が成り立つ.
\begin{align} \frac{\partial (\mathbf{y}^T\mathbf{x})}{\partial \mathbf{x}}=\mathbf{y}.\end{align} \begin{align}\frac{\partial \mathbf{x}^T\mathbf{A}\mathbf{x}}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}^T)\mathbf{x} \end{align}
スカラー関数の行列微分
多変数実数値関数とに対しの行列微分を$$\frac{\partial f}{\partial \mathbf{A}}=(\frac{\partial f}{\partial a_{ij}})_{ij}$$と定義する.このとき次が成り立つ.
\begin{align}\frac{\partial \mathbf{x}^T \mathbf{A} \mathbf{y}}{\partial \mathbf{A}}=\mathbf{x}\mathbf{y}^T\end{align} \begin{align}\frac{\partial \mathbf{y}^T\mathbf{A}\mathbf{A}^T\mathbf{x}}{\partial \mathbf{A}}=(\mathbf{x}^T\mathbf{y} + \mathbf{y}\mathbf{x}^T)\mathbf{A}\end{align}
K理論1
Grothendieck構成
を可換モノイド(可換単位的半群)とする.に同値関係を$$(x,y) \sim (z,w) \ \Leftrightarrow_{\mbox{def}} \ x + w + s= y + z + s\ \ \ (\exists s \in S)$$として入れる.をこの同値関係で割った空間をとかきに対するGrothendiek群という.の属する同値類をとかく.の元はの元と自然に同一視される.
またが可換半環のときは環構造を持つ. 積構造は$$(x-y) * (z -w)= (xz+yw) -(xw+yz)$$で与えられる.
Bott周期性
K理論でもっとも重要な定理の1つは次の定理である.
機械学習とパターン認識
youtubeで見れる「パターン認識と機械学習入門」をもとに機械学習について勉強する。
第一回
機械学習とは人間が行なっている認知活動を工学的に実現するうことで,パターン認識とは入力されたデータに対しそのデータが属するクラスを決定することである.
パターン認識の流れ
1.前処理:明らかに不要な情報を捨てる
2.特徴抽出:式別に用いる特徴量を抽出し次元を削減する
3.識別:適切な識別器を用いて識別する
1,2は機械学習の分野によってそれぞれ異なる方法がある.従って大部分は3の識別問題を扱う.3を厳密に書くと以下のようになる.
識別器を生成する一つの例としてテンプレートマッチングがある.これは各クラスに対しそのクラスを代表するベクトルを1つ定める(例えばそのクラスに属する学習データの重心).入力データに対しその代表ベクトルとの距離をそれぞれ測り距離が一番小さいクラスを割り当てる方法である.距離としてEuclid距離を用いたテンプレートマッチングをボルノイ分割という.
識別器を生成する別の例としてk近傍法がある.これは入力データに対し学習データの内近い順にk個選び,一番多いクラスを割り当てる方法である.k近傍法は学習データ量が多くなるほど計算量が多くなる.学習データを全て保存しておく必要がある.
識別器を生成する方法として識別関数を用いる方法がある.
テンプレートマッチングは識別関数を用いた例である.実際入力データと代表ベクトルとの距離は
$$\|x - \mu_c\|^2 = \|x\|^2 - 2< x,\mu_c > +\, \|\mu_c\|^2 $$
より$$f_c= 2< x, \mu_c > - \, \|\mu_c\|^2$$を識別関数とするとを最大とするにおいてととの距離が最小となる.
良い識別器を作る問題は良い識別関数を作る問題へと帰着される.識別関数を作る方法としてパラメタリックモデルがある.これは識別関数の形をパラメータ込みの具体的な形に制限し,その中で良いパラメータを見つけることで良い識別関数を作る方法である.具体的には以下のような例がある.
パラメタリックモデルにおいては良いパラメータをどの様に見つけるかが問題となる.良いパラメータを見つける方法として以下の例がある.
一般化線形識別関数のケースは平均二乗誤差最小法でパラメータの値を代数的に計算することができる.
に対し$$\mathbf{f}(x)=\mathbf{A}^T\Phi(x)$$とする.このとき$$\sum_{i=1}^k \|\mathbf{f}(x_i)-\mathbf{p}_{i}\|^2=\sum_{i=1}^k (\mathbf{\Phi}^T(x_i)\mathbf{A}\mathbf{A}^T\mathbf{\Phi}(x_i) -2\mathbf{\Phi}^T(x_i)\mathbf{A}\mathbf{p_i} + \|p_i\|^2)$$
に関し行列微分すると$$\frac{\partial E(f)}{\partial \mathbf{A}} = \sum_{i = 1}^k 2(\mathbf{\Phi}(x_i)\mathbf{\Phi}^T(x_i)\mathbf{A} - \mathbf{\Phi}(x_i)\mathbf{p}^T_i)$$である.とおくと$$\frac{\partial E(f)}{\partial \mathbf{A}}= 0 \iff \mathbf{X}^T\mathbf{X}\mathbf{A}=\mathbf{X}^T\mathbf{P}$$が成り立つ.従ってが正則ならば$$\mathbf{A}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{P}$$となる.正則でないときはの擬似逆行列を用いて$$\mathbf{A}=\mathbf{X}^{+}\mathbf{P}$$