2022实践空间站问题汇总3 #739

zzzkey23 · 2022-06-07T03:03:40Z

对应GitHub实验链接https://github.com/UEFI-code/MSRA_thePracticeSpaceProject_PyTorchCUDA/wiki/Forward-and-Backward-Design

已知grad_output.data是梯度，input.data是之前forward时备份下来的输入数据，举例当Batchsize = 4, InputDim = 10, 神经元数量为5时，grad_output是[4, 5]的向量，input是[4, 10]的向量，grad_weights是运算结果，请问grad_weights有什么作用？

UEFI-code · 2022-06-08T11:17:15Z

我实验了一下，即使grad_weights输出全0的Tensor，模型也能够收敛。
实验代码：
https://github.com/UEFI-code/MSRA_thePracticeSpaceProject_PyTorchCUDA/blob/main/Demo_myLinear.py
https://github.com/UEFI-code/MSRA_thePracticeSpaceProject_PyTorchCUDA/blob/main/myKakuritsu_Linear_backend/myKakuritsuCPU.cpp

使用--no-cuda参数运行，就是grad_weights输出全0的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2022实践空间站问题汇总3 #739

2022实践空间站问题汇总3 #739

zzzkey23 commented Jun 7, 2022 •

edited

Loading

UEFI-code commented Jun 8, 2022 •

edited

Loading

2022实践空间站问题汇总3 #739

2022实践空间站问题汇总3 #739

Comments

zzzkey23 commented Jun 7, 2022 • edited Loading

UEFI-code commented Jun 8, 2022 • edited Loading

zzzkey23 commented Jun 7, 2022 •

edited

Loading

UEFI-code commented Jun 8, 2022 •

edited

Loading