线性代数(Linear Algebra)是数学的一个核心分支,它在机器学习、物理学、计算机图形学等众多领域都扮演着至关重要的角色。本章将引导我们深入理解线性代数的核心思想,从具体问题出发,逐步建立起抽象的理论框架,并最终回归到实际应用。
在开始之前,我们先理解“代数”(Algebra)的本质。一个代数系统通常由两部分构成:
- 一组对象 (Objects):比如我们熟悉的数字。
- 一套操作这些对象的法则 (Rules):比如加法和乘法。
线性代数,顾名思义,就是专门研究向量 (Vectors) 以及操作向量的法则的数学分支。
1. 向量的广义概念#
我们中学时接触的向量通常是带有箭头的线段,称为几何向量 (Geometric vectors),例如 \(\vec{v}\)。用粗体小写字母表示向量,例如 \(\boldsymbol{x}\) 和 \(\boldsymbol{y}\)。
然而,向量的概念远比几何图形要广泛得多。
准确的数学定义
虽然严格定义一个向量空间需要满足包含结合律、分配律等在内的8条公理(详见文末思考题),但其最核心的特征在于“封闭性”。简单来说,如果一个对象集合满足以下两个性质,它就具备了成为向量空间的基础:
- 可相加性:两个向量可以相加,得到的结果仍然是同类型的向量。
- 可数乘性:一个向量可以与一个标量(即一个普通的数,如-1, 0, 3.14)相乘,得到的结果也仍然是同类型的向量。
这种“对运算保持封闭”的特性是向量的核心。
直观解释与示例
让我们来看几个“出人意料”的向量例子,这有助于我们打破思维定势:
1. 几何向量(Geometric vectors):这是我们最熟悉的例子。两个几何向量 \(\boldsymbol{\vec{x}}\) 和 \(\boldsymbol{\vec{y}}\) 相加,遵循平行四边形法则,结果 \(\boldsymbol{\vec{z}} = \boldsymbol{\vec{x}} + \boldsymbol{\vec{y}}\) 仍然是一个几何向量。将一个向量 \(\boldsymbol{\vec{x}}\) 乘以一个标量 \(\lambda \in \mathbb{R}\),会得到一个被拉伸或压缩了 \(\lambda\) 倍的向量 \(\lambda \boldsymbol{\vec{x}}\),它方向相同或相反,但仍是几何向量。
2. 多项式 (Polynomials):考虑所有最高次数不超过2的多项式(形如 \(P_1(t) = at^2+bt+c\),系数可为0) 和另一个二次多_项式_ \(P_2(t) = dt^2+et+f\) 相加,结果仍然是一个二次多项式。将 \(P_1(t)\) 乘以一个标量 \(\lambda\),结果 \(\lambda P_1(t)\) 也还是一个多项式。因此,多项式也是向量!
2. 多项式 (Polynomials):考虑所有最高次数不超过 2 的多项式(形式为 \(P(t) = at^2+bt+c\),其中系数 \(a,b,c\) 可为任意实数,包括 0)。 将两个这样的多项式 \(P_1(t)\) 和 \(P_2(t)\) 相加,合并同类项后,结果仍然是一个最高次数不超过 2 的多项式。将 \(P_1(t)\) 乘以标量 \(\lambda\),结果也还在这个集合中。
注意:如果严格限制为“二次多项式”(即要求 \(a \neq 0\)),则它们构不成向量空间。因为两个二次多项式相加可能抵消掉二次项(如 \(t^2\) 和 \(-t^2\) 相加得 0),导致结果跳出集合,破坏了“封闭性”。因此,向量空间必须包含低次多项式和零多项式。

3. 音频信号 (Audio Signals):音频信号可以表示为一串数字。两个音频信号相加(对应声音的混合),结果还是一个音频信号。将一个音频信号的振幅乘以一个标量(对应调节音量),结果也还是一个音频信号。所以,音频信号也是向量。
4. \(\mathbb{R}^n\) 中的数组/元组 (Tuples of real numbers):这是本书和机器学习中最核心的向量形式。一个包含 \(n\) 个实数的有序元组,通常写成列向量的形式。
数值示例
例如,一个在三维空间中的向量 \(\boldsymbol{a}\) 可以表示为:
$$ \boldsymbol{a} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} \in \mathbb{R}^3 $$两个 \(\mathbb{R}^3\) 中的向量 \(\boldsymbol{a} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}\) 和 \(\boldsymbol{b} = \begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}\) 相加是按元素相加:
$$ \boldsymbol{a} + \boldsymbol{b} = \begin{bmatrix} 1+4 \\ 2+5 \\ 3+6 \end{bmatrix} = \begin{bmatrix} 5 \\ 7 \\ 9 \end{bmatrix} $$结果仍然是一个 \(\mathbb{R}^3\) 中的向量。
向量 \(\boldsymbol{a}\) 与标量 \(\lambda=2\) 相乘也是按元素进行:
$$ \lambda \boldsymbol{a} = 2 \cdot \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} = \begin{bmatrix} 2 \cdot 1 \\ 2 \cdot 2 \\ 2 \cdot 3 \end{bmatrix} = \begin{bmatrix} 2 \\ 4 \\ 6 \end{bmatrix} $$结果也仍在 \(\mathbb{R}^3\) 中。因此,\(\mathbb{R}^n\) 中的元组是向量。
理解要点
向量的核心身份:向量不仅仅是带箭头的线段。它的真正身份由其所遵守的运算法则(加法封闭和数乘封闭)来定义。任何满足这些法则的数学对象,都可以被纳入“向量”的大家庭。
2. 线性代数与机器学习#
应用场景和重要意义:在机器学习中,我们处理的几乎所有数据最终都会被转换成向量。
- 一张
100x100像素的灰度图片可以被“拉直”成一个 \(\mathbb{R}^{10000}\) 空间中的向量。 - 一个用户的信息(年龄、收入、购物次数)可以表示为一个 \(\mathbb{R}^3\) 空间中的向量。
- 自然语言处理中的一个词,也可以通过词嵌入(Word Embedding)技术表示为一个高维向量。
线性代数为我们提供了分析、处理和变换这些高维数据向量的语言和工具箱。例如,降维技术(如PCA)的本质就是找到一个更低维的向量空间来近似表示原始数据,而这完全是线性代数的范畴。
- 一张
3. 核心思想:封闭性与向量空间#
数学中一个重要的思想是“封闭性 (Closure)”。当我们拥有一组对象和一些运算时,我们自然会问:从一个小的初始集合出发,通过这些运算,我们最终能得到一个多大的集合?
对于向量而言,这个问题就变成了:
从一小撮向量开始,通过不断地将它们相加和进行数乘,我们能得到的所有向量的集合是什么样的?
这个集合,我们称之为向量空间 (Vector Space)。这个概念是整个线性代数的基石,它为我们提供了一个结构化的舞台来研究向量。
思考题#
考虑一个定义在区间 \([a, b]\) 上的所有连续函数组成的集合 \(C[a, b]\)。我们熟悉的函数加法(如 \(h(x) = f(x) + g(x)\))和函数与常数的乘法(如 \(p(x) = \lambda \cdot f(x)\))是这个集合上的两种运算。请问,这个函数集合 \(C[a, b]\) 能否被看作是一个向量空间?为什么?
是的,满足向量空间的所有公理(封闭性、加法公理、数乘公理)。
1. 集合的封闭性#
\(C[a,b]\) 在定义的运算下是封闭的,且所有运算结果仍是连续函数:
- 加法封闭性:若 \(f, g \in C[a,b]\),则 \(f + g\) 也连续,故 \((f + g) \in C[a,b]\)
- 数乘封闭性:若 \(f \in C[a,b]\) 且 \(\lambda \in \mathbb{R}\),则 \(\lambda f\) 也连续,故 \(\lambda f \in C[a,b]\)
2. 向量空间八条公理的验证#
对于任意 \(f, g, h \in C[a,b]\) 和实数 \(\alpha, \beta\):
加法四条公理:
- 结合律:\((f + g) + h = f + (g + h)\)
- 交换律:\(f + g = g + f\)
- 零元存在:零函数 \(\mathbf{0}(x) = 0\) 满足 \(f + \mathbf{0} = f\)
- 逆元存在:对每个 \(f\),存在 \(-f\) 使得 \(f + (-f) = \mathbf{0}\)
数乘四条公理:
- 数乘结合律:\(\alpha(\beta f) = (\alpha\beta)f\)
- 单位元:\(1 \cdot f = f\)
- 分配律(对函数):\(\alpha(f + g) = \alpha f + \alpha g\)
- 分配律(对数):\((\alpha + \beta)f = \alpha f + \beta f\)
这些性质通过逐点验证得到。例如交换律:\((f + g)(x) = f(x) + g(x) = g(x) + f(x) = (g + f)(x)\) 对所有 \(x \in [a,b]\) 成立,故 \(f + g = g + f\)。
3. \(C[a,b]\) 的附加结构特征#
重要说明:以下结构并非向量空间定义本身所必需,而是可以在 \(C[a,b]\) 上额外构造的结构:
- 无限维:\(C[a,b]\) 不存在有限个函数能够张成整个空间,这说明它与 \(\mathbb{R}^n\) 不同,不是有限维的。维度概念在无限维空间需用 Schauder 基或 Hamel 基讨论。
- 可成为内积空间:若额外定义内积 \(\langle f, g \rangle = \int_a^b f(x)g(x)dx\),\(C[a,b]\) 便成为内积空间。
- 可成为赋范空间:若赋予上确界范数 \(|f|\infty = \sup{x \in [a,b]} |f(x)|\),\(C[a,b]\) 成为赋范空间。
结论#
\(C[a,b]\) 满足向量空间的所有必要条件,因此是一个向量空间。它是函数分析中的重要例子,展示了向量空间概念从有限维到无限维函数空间的推广。
本节知识点总结#
- 代数:研究“对象”和“法则”的数学分支。
- 线性代数:专门研究“向量”及其运算法则的学科。
- 向量的本质:一个抽象概念,指代任何满足加法封闭性和数乘封闭性的对象。
- 向量的实例:几何向量、多项式、音频信号、以及最重要的 \(\mathbb{R}^n\) 中的数组。
- 与AI的联系:数据在计算机中通常以向量形式存在,线性代数是处理这些数据向量的理论基础。
- 核心思想前瞻:对向量运算的“封闭性”的探讨,将自然地引出下一阶段的核心概念——向量空间。