AI
未读
通用 Tokenizer 评估方案——从项目专用到任务无关
引言 数语觅类(我的第二个项目,数据库列语义分类)里写了一个 verify 函数,用来评估 tokenizer 的词表大小是否合理。核心逻辑是对样本做编码,统计平均 token 数,然后给建议: # 评估建议(基于样本)
if avg_length > 20:
print(f"⚠️ 建议: