About 116,000,000 results
Open links in new tab
  1. 损失函数|交叉熵损失函数 - 知乎

    1.3 Cross Entropy Loss Function(交叉熵损失函数) 1.3.1 表达式 (1) 二分类 在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为 和 ,此时表达式为( 的底 …

  2. 深度学习的多个loss如何平衡? - 知乎

    多个loss引入pareto优化理论,基本都可以涨点的。 例子: Multi-Task Learning as Multi-Objective Optimization 可以写一个通用的class用来优化一个多loss的损失函数,套进任何方法里都基本会涨点 …

  3. 深度学习的loss一般收敛到多少? - 知乎

    看题主的意思,应该是想问,如果用训练过程当中的loss值作为衡量深度学习模型性能的指标的话,当这个指标下降到多少时才能说明模型达到了一个较好的性能,也就是将loss作为一个evaluation metrics …

  4. 十分钟读懂旋转编码(RoPE)

    Sep 23, 2025 · 旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self …

  5. 验证loss比训练loss小是什么原因导致的?如何调整使其正常拟合? - 知乎

    验证loss比训练loss小是什么原因导致的? 如何调整使其正常拟合? Original data size: 60590 Deduplicated data size: 46678 Deduplicated and au… 显示全部 关注者 8

  6. 深度学习模型训练的时候,一般把epoch设置多大? - 知乎

    在机器学习中,epoch 数量是指整个训练集通过模型的次数。一个Epoch意味着训练数据集中的每个样本都有机会更新内部模型参数。 Epoch由一个或多个Batch组成。 选择合适的 epoch 数量是一个关键 …

  7. LSTM训练集和验证集的loss曲线为什么会是这样? - 知乎

    LSTM训练集和验证集的loss曲线为什么会是这样? 训练集和验证集的loss曲线一直处于平行状态,并且验证集loss是训练loss的2倍,损失函数是mse。 看有人说是因为模型容量不够,但网络已经比较 …

  8. 神经网络训练结束后,模型保存的参数是损失最小那个epoch的吗还是 …

    例如我训练100轮第90轮的loss=0.6552之后的几轮损失逐渐变大到19.7265。 训练结束后我的模型的权重是损失最低的那一轮的还是最后一轮的?

  9. 深度学习中,loss下降的快慢或者曲率(但最后收敛在同一水平)会对 …

    深度学习中,loss下降的快慢或者曲率(但最后收敛在同一水平)会对下游任务的性能有什么影响吗? [图片] 就像这张图里的两个loss曲线一样。 显示全部 关注者 161

  10. 神经网络模型train_loss下降,val_loss一直上升是什么原因? - 知乎

    train_loss 不断下降, test_loss 不断上升,和第2种情况类似说明网络过拟合了。 应对神经网络过拟合的方法包括: 简化模型。 通过减少神经网络层数或神经元数量来降低模型复杂度,从而减少过拟合风 …