chapter 1-3

jianyushu · Jun 12, 2020 · f2107de · f2107de
1 parent 8c0b90e
commit f2107de
Show file tree

Hide file tree

Showing 8 changed files with 20 additions and 51 deletions.
diff --git a/.DS_Store b/.DS_Store
diff --git a/docs/.DS_Store b/docs/.DS_Store
diff --git a/docs/README.md b/docs/README.md
@@ -44,6 +44,7 @@
 > 版次：2020年6月第1版<br>
 
 ## 编委会
+
 | 职责 | 名单 |
 | :---: | :---: |
 | **主编** | [@HaoZHAN](https://github.com/zhanhao93) |

diff --git a/docs/_sidebar.md b/docs/_sidebar.md
@@ -1,3 +1,5 @@
 - 目录
+  - [第1章 序   言](chapter1/chapter1.md)
   - [第2章 可学性](chapter2/chapter2.md)
-  - [第3章 复杂度](chapter3/chapter3.md)
+  - [第3章 复杂度](chapter3/chapter3.md)
+
diff --git a/docs/chapter1/chapter1.md b/docs/chapter1/chapter1.md
@@ -6,7 +6,7 @@
 
 *Edit: Hao ZHAN*
 
-*Update: 06/08/2020*
+*Update: 06/12/2020*
 
 ---
 
@@ -58,15 +58,15 @@
 
 ## 4.项目成员
 
-王茂霖：第2章、第3章内容的编辑			
+[王茂霖](https://github.com/mlw67)：第2章、第3章内容的编辑			
 
-李一飞：第2章、第3章内容的编辑
+[李一飞](https://github.com/leafy-lee)：第2章、第3章内容的编辑
 
-杨昱文：部分内容的编辑
+[杨昱文](https://github.com/youngfish42)：部分内容的编辑
 
-谢文睿：技术支持
+[谢文睿](https://github.com/Sm1les)：技术支持
 
-詹	好：项目规划与统筹；第2章、第3章内容的编辑
+[詹	好](https://github.com/zhanhao93)：项目规划与统筹负责；第2章、第3章内容的编辑
 
 
 

diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
@@ -73,12 +73,8 @@ $$
   可分性的严格性是指，其需要对于所有的样本都可分。有时，由于噪声或者异常值的影响，数据并非完全可区分的，算法只能区分绝大多数的样本。因此可分性没有完全地定义了学习算法的有效性。
 
   其次，可分性仅仅表示了学习算法的能力上限。例如，当我们在线性模型中使用高斯核技巧时，能够对任意二分类样本进行区分（维度为无穷）。但从这样一个庞大的假设空间中找到正确对应的映射函数却十分困难。这在深度学习中表现的最为明显。在这个意义上，可分性仅仅表示了学习算法能力上限而已。
-<<<<<<< HEAD
 
-=======
-
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
-  
+
 
 ## 3.【概念补充】关于$size(c)$
 
@@ -103,11 +99,9 @@ $$
 
 **P27**介绍了时间复杂度和样本复杂度的概念，在此对二者的等价性进行补充。
 
-<<<<<<< HEAD
 由于不同的机器、操作系统都会带来完全不一样的运行时间，因此在考察时间复杂度时通常会使用抽象机。抽象机通常是抽象意义上的图灵机或实体意义上的图灵机。在该抽象机中，时间复杂度被定义为了「需要执行的“操作”数量」（关于时间复杂度的严谨表述，见附录）。
-=======
+
 由于不同的机器、操作系统都会带来完全不一样的运行时间，因此在考察时间复杂度时通常会使用抽象机。抽象机通常是抽象意义上的图灵机或实体意义上的图灵机。在该抽象机中，时间复杂度被定义为了「需要执行的“操作”数量」。[^1]
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
 
 一般学习问题是否可以有效解决的问题，取决于如何将其分解为一系列特定的学习问题。考虑学习有限假设类的问题，例如训练示例的数量为 $m_H(\epsilon，δ)= log(|\mathcal{H}|/δ)/\epsilon^2$ 的数量级的情况。如果，对一个 $h$ 评估会花费固定的时间，那么久可以通过对 $\mathcal{H}$ 进行详尽搜索，在时间 $O(|H|m_H(\epsilon，δ))$ 内完成这项任务。对于任何固定的有限假设类 $H$，穷举搜索算法都可以在在多项式时间内运行。如果问题序列 $|H_n| = n$ ，那么穷举搜索被认为是高效的；如果 $|H_n| = 2 n$ ，则样本复杂度是 $n$ 的多项式，而穷举搜索算法的计算复杂度随 $n$ 呈指数增长。此时，穷举搜索被认为是低效的。
 
@@ -171,7 +165,7 @@ $$
 
 ## 部分参考文献
 
-<<<<<<< HEAD
+
 [1] Understanding Machine Learning：3.1，8.1
 
 [2] Foundations of Machine Learning：2
@@ -183,23 +177,9 @@ $$
 ---
 
 ## 附录：时间复杂度严谨描述
-=======
-Understanding Machine Learning：3.1，8.1
-
-Foundations of Machine Learning：2
-
-An Introduction to Computational Learning Theory：1.2
-
-
-
-
-
-
 
-[^1]:**时间复杂度严谨描述**
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
 
-我们分两个步骤定义学习的复杂性。我们考虑固定学习问题的计算复杂性（由三元组 $(Z, H, \mathcal{l})$ ——学习数据集 (domain set) ，基准假设类 (benchmark hypothesis class) 和损失函数确定）。然后，在第二步中，我们考虑一系列此类任务的复杂度变化情况。
+可以分两个步骤定义学习的复杂性。考虑固定学习问题的计算复杂性（由三元组 $(Z, H, \mathcal{l})$ ——学习数据集 (domain set) ，基准假设类 (benchmark hypothesis class) 和损失函数确定）。然后，在第二步中，我们考虑一系列此类任务的复杂度变化情况。
 
 1. 给定一个函数$f：（0,1)^2→\mathbb{N}$ ，一个任务 $(Z, H, \mathcal{l})$ 和一个学习
    算法 $\mathcal{A}$ ，我们说 $\mathcal{A}$ 能在 $O(f)$ 时间内解决学习任务，如果存在某个常数 c ，对于每个 Z 上的概率分布 D ，算法 $\mathcal{A}$ 基于从分布 D 中独立同分布  (i.i.d) 采样得到的样本，给定的 $\epsilon,\;\delta \in (0,1) $ ，能够满足以下条件：

diff --git a/docs/chapter3/.DS_Store b/docs/chapter3/.DS_Store
diff --git a/docs/chapter3/chapter3.md b/docs/chapter3/chapter3.md
@@ -16,25 +16,20 @@
 
 这里用 $R^2$ 空间的示例进一步介绍打散的概念，以二维空间 $R^2$ 来说，一条任意的直线 $w_1x_1+w_2x_2+b=0$ 对于任意的三个点实现的对分（二分类）的所有情形如下：
 
-<<<<<<< HEAD
+<center><img src="https://raw.githubusercontent.com/datawhalechina/key-book/master/docs/chapter3/img/shattering.png" width= "600"/></center>
 
 
-<center><img src="https://raw.githubusercontent.com/datawhalechina/key-book/master/docs/chapter3/images/shattering.png" width= "600"/></center>
-=======
-![Alt text](/Users/zhanhao/Documents/BookNotes/机器学习理论导引/前三章/宝箱书补充_Part2&3_ML67/1591338505484.png)
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
 
 可以发现，使用二维平面 $R^2$ 中的一条直线 $sign(wx+b)$ 可以实现三点的所有对分。
 
 同样，考察四个点的情况，发现直线 $sign(wx+b)$ 并不能够实现对任意四点的对分。
 
 例如，异或（XOR）问题：
 
-<<<<<<< HEAD
-<center><img src="https://raw.githubusercontent.com/datawhalechina/key-book/master/docs/chapter3/images/xor.png" width= "300"/></center>
-=======
-![Alt text](/Users/zhanhao/Documents/BookNotes/机器学习理论导引/前三章/宝箱书补充_Part2&3_ML67/1591343633291.png)
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
+
+<center><img src="https://raw.githubusercontent.com/datawhalechina/key-book/master/docs/chapter3/img/xor.png" width= "300"/></center>
+
+
 
 因此，根据VC维的定义， $sign(wx+b)$ 这样一个 $R^2$ 中的非齐次超平面的VC维为3。而对于齐次超平面 $sign(wx)$ ，由于其必须过原点，所以只能满足对任意两点的对分，因此其VC维为2。
 
@@ -76,17 +71,8 @@
 
 ## 部分参考文献
 
-<<<<<<< HEAD
 [1] Understanding Machine Learning：3
 
 [2] Foundations of Machine Learning：3，4
 
-[3] Statistical Learning Theory：9.2
-=======
-Understanding Machine Learning：3
-
-Foundations of Machine Learning：3，4
-
-Statistical Learning Theory：9.2
-
->>>>>>> 321475f89305b0e3e2c4a4f9bdbbab899952cda1
+[3] Statistical Learning Theory：9.2