溯源 • 求索 • 笃行
未读
从 Loss 到微分,模型是怎么学习的?
写 KV Cache 的时候,重新审视了一遍 collate_fn 里的变量——tgt_out 是标准答案,模型输出是 logits——这些每天都在用的东西,我停下来重新走了一遍它们在维度上的完整链路。 理清了数据怎么从 token id 变成 d_model、又从 d_model 变回 vocab
AI
未读
NLP评估指标:你的模型到底好在哪
数语觅类的评估从来没让我纠结过。精度、召回、F1、完全匹配率——四个指标各管一个维度,算起来也简单:模型输出一组标签,标签要么对要么错,逐个比完就有数了。我甚至做了个加权 score 把它们合成一个数,直接塞进训练循环当监控信号: @property
def score(self) -> float
AI
未读
训练控制的统计化——当 loss 和评估分数开始撒谎
衔言渡意第二轮训练(15.5M)的末期,val loss 从 2.461 一路降到 2.422,模型还在学。但同一段时间里 BLEU 的表现是这样的: 19.95 → 17.91 → 18.96 → 16.56 → 18.14 → 18.30 → 18.51
上蹿下跳,epoch 间跳两三分是常态