AI
未读
NLP评估指标:你的模型到底好在哪
数语觅类的评估从来没让我纠结过。精度、召回、F1、完全匹配率——四个指标各管一个维度,算起来也简单:模型输出一组标签,标签要么对要么错,逐个比完就有数了。我甚至做了个加权 score 把它们合成一个数,直接塞进训练循环当监控信号: @property
def score(self) -> float
AI
未读
训练控制的统计化——当 loss 和评估分数开始撒谎
衔言渡意第二轮训练(15.5M)的末期,val loss 从 2.461 一路降到 2.422,模型还在学。但同一段时间里 BLEU 的表现是这样的: 19.95 → 17.91 → 18.96 → 16.56 → 18.14 → 18.30 → 18.51
上蹿下跳,epoch 间跳两三分是常态