标签: BLEU | 折翼天使

Agent 0 剪枝 0 量化 0 Projection 2 Transformer 2 AttentionMask 1 Bias 1 MultiheadAttention 1 MHA 1 Cross Entropy 1 Perplexity 1 NDCG 1 MRR 1 Recall@K 1 ROUGE 1 Hamming Loss 1 F1 1 Recall 1 Precision 1 Exact Match 1 Accuracy 1 BLEU 2 Dropout 1 AdamW 1 Loss 3 KV Cache 1 TDR 0 Tokenizer 1 分词 1 DiskPart 1 exFat 1 分区管理 1 Linux 2 双系统 2 GRUB 1 Arch 1 Garuda 1 vps 1 ssh 1 annotationProcessor 0 docker compose 1 EditorConfig 0 证书签发 1 SSL 1 acme.sh 1 Jupyter 1 Python 1 HuggingFace 4 Conda 1 LLM 17 NLP 16 WSL2 2 Intellij 1 小米 1 SubModule 1 Xray 1 Ubuntu 2 Git 2 Windows 5 Jimmer 1 React 1 Kotlin 0 Java 0 KAPT 0 KSP 0 Gradle 0 Winget 1 Rime 1 Windows 11 4 IBM Informix 1 IBM Db2 LUW 1 DB2 iSeries (AS400) 1

AI 未读

NLP评估指标：你的模型到底好在哪

数语觅类的评估从来没让我纠结过。精度、召回、F1、完全匹配率——四个指标各管一个维度，算起来也简单：模型输出一组标签，标签要么对要么错，逐个比完就有数了。我甚至做了个加权 score 把它们合成一个数，直接塞进训练循环当监控信号： @property def score(self) -> float

NLP LLM BLEU Accuracy Exact Match Precision Recall F1 Hamming Loss Loss ROUGE Recall@K MRR NDCG Perplexity Cross Entropy 2026-04-03

AI 未读

训练控制的统计化——当 loss 和评估分数开始撒谎

衔言渡意第二轮训练（15.5M）的末期，val loss 从 2.461 一路降到 2.422，模型还在学。但同一段时间里 BLEU 的表现是这样的： 19.95 → 17.91 → 18.96 → 16.56 → 18.14 → 18.30 → 18.51 上蹿下跳，epoch 间跳两三分是常态

LLM NLP Loss AdamW Dropout BLEU 2026-04-03