溯源 • 求索 • 笃行
未读
数语觅类:"nl是什么?27是年龄吗?"
引言:VARCHAR(255)没告诉你的 数据库里有几百张表,每张表几十个列。 VARCHAR(255)告诉你它是字符串,INT告诉你它是整数,但这些只是物理类型。它们不回答真正重要的问题: 这个VARCHAR是邮箱、手机号、还是普通文本? 这个INT是年龄、金额、还是状态码? nl 这个列名是什么
溯源 • 求索 • 笃行
未读
韵染流光 • 其一:代码三百行
引言:写不出的第一行 韵染流光完成后,我能清楚地说出训练循环的每个环节。 dataset从文件中提取第idx个样本,dataloader通过sampler控制采样顺序,collate把样本组装成batch,模型接收batch开始前向传播。为什么要padding?因为GPU需要形状一致的数据。为什么要
溯源 • 求索 • 笃行
未读
韵染流光 • 其一:"亮一些的蓝"
引言:一个看似简单的想法 “红色,深一点,再偏蓝一些。” 当我试图让计算机理解这句话时,以为这会是件简单的事情——就算不简单,也不会太难。 我的想法很理所当然:颜色词是有限的,修饰词也是有限的。把它们的关系建立起来,训练一个模型,应该就可以了——最多,再加上一些修饰组合的不同方式。这和让AI写文章、
溯源 • 求索 • 笃行
未读
心潮涌链:它真的懂我说的话吗?
引言:一句话的旅程 打开GPT,和它说一句话: 我今天很开心 它通常会给出这样的回应: 听到你今天很开心,真是太好了!✨ 有什么特别的事情让你这么高兴吗? 这看起来就像是它明白了“我今天很开心”是什么意思,并且自己做出了什么思考,居然试图进行有来有回的聊天一样。 但是真的如此吗?它真的理解了吗?恐怕
AI
未读
LLM模型资源占用优化
模型加载流程 模型加载时, 做这些事情: 加载配置信息 模型结构、层数、注意力头数、参数精度等元信息 加载模型权重 下载或使用已经缓存的模型权重文件 如果模型使用bin格式,需要PyTorch版本大于等于2.6 若PyTorch版本低于2.6,则需要使用safetensors格式
AI
未读
Win11下使用wsl2完成LLM环境搭建
首先,确保系统的显卡驱动是最新的 终端(Windows Terminal) 安装 不推荐使用CMD或者PowerShell 不是不能用,只是终端更好一些——个人感觉,它有如下优点: 拖拽选中,右键直接复制/粘贴 支持复制粘贴快捷键 可以选中内容直接输入替换 有不错的语法高亮 对于写代码的来说,多么有