Pytorch的神经网络和张量计算 – 三郎君的日常

Pytorch · 2024年10月29日

Pytorch的神经网络和张量计算

在深度学习中,神经网络的核心就是利用张量计算(矩阵运算)来处理数据,调整参数并优化结果。在 PyTorch 中,张量和神经网络结构是深度学习的基础,下面我们从它们的概念和应用进行深入了解:

1. 张量(Tensor)

  • 定义:张量是多维数组的泛化,可以是标量(0D)、向量(1D)、矩阵(2D)以及更高维的数组。比如:
    • 0D 张量:标量,如 torch.tensor(3)
    • 1D 张量:向量,如 torch.tensor([1, 2, 3])
    • 2D 张量:矩阵,如 torch.tensor([[1, 2], [3, 4]])
  • 张量操作:PyTorch 提供大量张量操作,包括加法、减法、点积、矩阵乘法等,这些操作都可以在 GPU 上加速运行。

2. 张量计算在神经网络中的应用

  • 权重和偏置表示:神经网络的参数(权重和偏置)通常用张量表示。比如,全连接层的权重可以表示为二维张量(形状为 [输出节点数, 输入节点数])。
  • 数据输入与批处理:输入数据通常表示为张量,比如一批 32 个图片数据,每个图片的大小为 28×28,那么输入张量的形状是 [32, 28, 28]。利用这种结构化的张量可以高效地进行批量处理。
  • 矩阵乘法:在神经网络的前向传播中,数据从一层传播到下一层的计算通常是矩阵乘法。例如,全连接层中,每层的输出是输入张量和权重张量的矩阵乘积加上偏置张量。

3. PyTorch 的神经网络结构

  • 神经网络层:PyTorch 提供了许多常见的神经网络层模块,如 torch.nn.Linear(全连接层)、torch.nn.Conv2d(卷积层)、torch.nn.RNN(循环层)等,这些层模块都是基于张量运算的。
  • 激活函数:在每一层的输出上,通常会应用一个激活函数,例如 torch.nn.ReLU(),它会执行元素级操作,将负值变为零,而不改变张量的维度。
  • 损失计算:在训练中,预测输出与真实标签之间的损失值也是基于张量计算的。PyTorch 中常用的损失函数如均方误差(torch.nn.MSELoss)、交叉熵损失(torch.nn.CrossEntropyLoss)等。

4. 神经网络中的前向传播(Forward Pass)

  • 计算过程:前向传播是神经网络的输入数据通过一层层的计算后得到输出的过程。每一层计算的结果(张量)作为下一层的输入。
  • 动态计算图:PyTorch 在每次前向传播中自动构建计算图,为反向传播提供依赖。张量的每个操作(如加法、乘法等)都会记录在计算图中,方便后续的梯度计算。

5. 自动求导和反向传播(Backward Pass)

  • 梯度计算:在前向传播之后,我们会通过自动求导(Autograd)计算损失函数关于每个参数的梯度。PyTorch 中的 tensor.backward() 函数会基于计算图反向传播,更新参数的梯度信息。
  • 参数更新:基于计算的梯度,我们可以使用优化器(如 SGD、Adam)更新权重和偏置,调整模型,使其损失最小化。

示例:简单的神经网络张量计算

下面是一个简单的神经网络前向传播的例子,帮助理解张量计算在神经网络中的作用。

import torch
import torch.nn as nn

# 输入数据张量
x = torch.tensor([[0.5, -1.5], [1.0, 1.0]], requires_grad=True) 
# 输入有两个样本,每个样本有两个特征

# 定义一个简单的线性层
linear = nn.Linear(2, 1)  # 输入大小为2,输出大小为1

# 前向传播
y_pred = linear(x)  # 计算输出(预测值)

# 定义一个目标值张量和损失函数
y_true = torch.tensor([[1.0], [0.0]])
loss_fn = nn.MSELoss()
loss = loss_fn(y_pred, y_true)  # 计算损失

# 反向传播
loss.backward()  # 自动计算梯度

# 查看梯度
print(f"Loss: {loss.item()}")
print(f"Gradients: {linear.weight.grad}, {linear.bias.grad}")

使用 nn.Linear 定义了一个简单的线性层。前向传播后,使用 loss.backward() 计算梯度,即为反向传播的核心。通过这样的张量计算和自动求导,神经网络可以逐步优化其参数。

模型 (copy)

1. 输入数据和线性层的参数

首先,我们定义输入数据 x 和线性层的权重和偏置:

  • 输入张量 x 有两个样本,每个样本有两个特征。

  • linear 是一个线性层,其权重 W 和偏置 b 在初始化时是随机生成的,假设如下:

    • 权重:W = [[w1, w2]]
    • 偏置:b = [b]

2. 前向传播

前向传播过程计算模型的输出(预测值):

对于每个样本的计算公式为:

假设权重和偏置初始化为:

假设权重和偏置初始化为:

  • 权重:W = [[0.3, -0.2]](具体值取决于初始化)
  • 偏置:b = [0.1]

计算过程

对于第一个样本 x[0] = [0.5, -1.5]

对于第二个样本 x[1] = [1.0, 1.0]

所以输出 y_pred 为:

3. 损失计算

接下来,计算损失:

使用均方误差(MSE)损失函数,计算方法为:

在这个例子中,我们有两个样本,所以:

所以 loss 的值为 0.12125

4. 反向传播

反向传播过程计算损失相对于模型参数的梯度:

在这一步,PyTorch 自动计算 linear.weightlinear.bias 的梯度。以下是具体计算过程。

梯度计算

  • 对于权重的梯度 使用链式法则,可以将损失对权重的梯度表示为:

首先计算损失对预测值的导数:

对于第一个样本:

对于第二个样本:

得到的结果为:

然后计算输出相对于权重的导数:

将这些值结合,得到权重的梯度:

将这些值结合,得到权重的梯度:

计算结果:

  • 对于第一个样本:

  • 对于第二个样本:

最后,将它们相加(取平均):

  • 对于偏置的梯度 偏置的梯度计算相对简单,因为偏置影响所有样本的输出:

    所以偏置的梯度为:

    所以偏置的梯度为:

5. 查看梯度

最后,输出计算的损失和梯度:

  • linear.weight.grad 将输出 [-0.0125, 0.4375],表示权重在这一轮的梯度。
  • linear.bias.grad 将输出 [-0.25],表示偏置的梯度。

6. 更新参数

在实际训练中,使用优化器(如 SGD 或 Adam)会根据计算得到的梯度更新参数:

参数更新规则通常是:

通过这种方式,模型的权重和偏置会逐步优化,从而使损失减小,并提高模型的预测准确性。