2024-10-06 15:39
我有一个自己的大模型测试集。其实就是设定了一系列结果可验证的任务。比如:推理一个函数的执行结果、写一个能完成某任务的程序、分析一个故事中的人物关系、找出一段描写中使用不当的形容词、给出一个电路某两点之间的电压,等等。
所以,在和一些没怎么使用过大模型的朋友讨论大模型的时候,大家往往会惊讶于我对一些模型的评价,并表示”某某模型在某某测试中排名很靠前啊!“
在大模型问题上,大家也不要忘了,咱们最擅长的就是“跑分”,或者叫“测评优化”。
2020-11-22 10:46
这是王洪成在做实验呢,还是庞青年在做实验呢?//@美人她爹: 自来火//@午后狂睡: …………
2020-11-22 09:46
【#辽宁一村民家中自来水可被点燃# 打火机轻轻一点火焰瞬间喷出 】11月21日,辽宁盘锦,大洼县赵圈河乡四营村文女士反映称,家中自来水可以点燃,洗手的时候总感觉洗不干净,好像一层油粘在手上,村里有好几户村民都是这样的情况,期间有向自来水公司反映问题,但他们也不知道怎么回事,就一直没给解决。#辽宁居民家中自来水可点燃# 🔗盘锦
🔗辽宁盘锦某村民家中自来水可以点燃 打火机轻轻一点火焰瞬间喷出
@瘦肉丁 @沈沉舟