14
2026年05月
痛并快乐着
🌟这是浮生日记的第四篇。
什么是 rollout、什么是可微、PPO 主 loss 和辅助 loss 到底各自在训谁、为什么 Critic 最后一层只输出一个数……这些问题终究是模模糊糊糊弄不了的。
逐渐清晰,不是在调代码,在和一种设计哲学对话。之前我一直纠结深度相机的精度问题,想方设法做工装去采真实数据、设计图像处理算法,结果发现整个思路是错的——我应该信任训练范式,而不是软硬件精度。从”测量精度”转向”表征对齐”。
今日状态
知识是人类精神的食粮 希望多年以后回看这些文字,能够记起当时的心境,感受到成长的痕迹。
评论区
使用GitHub账号登录后即可评论