2月17日上午消息,据悉,月之暗面研究员Flood Sung近日分享了k1.5 模型背后的完整思考过程,并透露称,2024年9月12号OpenAI o1发布带来的震撼效果,令自己陷入了Long-CoT的有效性反思中。
因为 Long-CoT 的有效性,在一年多前就被验证过。使用很小的模型训练模型做几十位的加减乘除运算,并将细粒度的运算合成为非常长的 CoT 数据进行 SFT 处理时可以获得非常好的效果。
Flood Sung表示公司意识到 Long Context 的重要性并率先把 Context 设定为较长。然而对于 Long-CoT 这件事情却没有给予足够重视主要是由于考虑到成本问题。
在这种情况下将输出设定为较长并不是最优选项。但 Flood Sung 反思道:“还有什么比 Performance(性能)更重要呢?只要 Performance 提升起来,剩下都不是主要问题。”
所以他们决心推进 Long-CoT 和 o1 研究。“我们就是要训练模型能够像我们人一样自由地思考。”Flood Sung 表示。
Flood Sung 在月之暗面Kimi官网上发表了一篇万字解密o1破解过程文章,预示着公司开始关注和对标o1并推进相关研究。
网友评论