银行 社区服务 每日签到 会员排行 网站地图
  • 2358阅读
  • 17回复

同一台电脑棋软实力公平测试的几点看法

楼层直达
级别: 少尉
[棋中红钻1级]发帖数量≥10篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
95
金币
195
威望
3
贡献值
0
乐币
4
主题
17
— 本帖被 棋中论坛 执行加亮操作(2012-10-29) —
        同一台电脑能够实现两个棋软的公平测试吗?以前大部分人的看法是无法实现,原因是互相干扰,要实现公平的测试,只有在配置相同的两台电脑上,才能得出比较公平正确的结论。
       在两台同等配置的电脑上测试,得出的结论比较公平正确,这一点应该是没有什么疑问的,有条件的朋友当然可以实现。问题是有条件的朋友当然是少数。对于大多数朋友而言,家庭电脑可能不止一台,可拥有两台同样配置电脑的朋友应该不是很多。比如我吧,我家里有三台台式电脑,还有两个笔记本电脑,但没有两台是同样配置的,因为是在不同时期买的。正因为这样,最好的办法是在同一台电脑上实现相对公平的测试。
       那么,如何实现同一台电脑两个棋软棋力相对公平的测试呢?下面谈谈自己的一点看法,不对的地方,望高手批评指正。
       第一,必须关掉棋软的后台思考,这是大家公认的,不必多说。
       第二,两个棋软的走棋按扭不能同时开启,一个棋软的走棋按扭开启后,另一个棋软的走棋按扭必须关闭。比如说,棋软A执红棋,棋软B执黑棋。棋软A的红色走棋按扭开启时,棋软B的黑色走棋按扭必须关闭,反之,棋软B黑色走棋按扭开启时,棋软A红色走棋按扭必须关闭。相对而言,这样才可能做到使相互干扰降低到最低点。根据我的经验,如果仅仅关闭后台思考,而两个棋软的走棋按扭不是交错关闭的话,也是相互有影响的,只是不同的棋软受到的影响程度不同而已。这一条之所以讲得多一些,是因为我所看到相关的贴子中,这种情况的讨论好像没有——当然也存在有人讲过,我没有看到的可能性。
       第三,时间的设置。时间使用包干制,给棋软以思考的空间,而不是硬性设置成几层出步或几秒出步。那么,设置成多少时间比较合适呢?当然既不能太长,也不能太短。太长的话,虽然走棋质量高,但你手动操作,一盘棋测试下来,可能一般人承受不了。反之,时间设置太短的话,就会降低走棋质量。不长不短当然最好了。以我自己的看法,时间设置成20-30分钟这个区间比较合适。
      第四,特定局面的测试。关闭开局库,从象棋谱找一些经典的开局,人工走到7-10回合左右,然后根据我前面所讲的第一条、第二条和第三条的规则进行测试,这样一直测试到残局。然后换先进行测试。然后再换个测试局面,再换先后手进行测试。如此这样来回几次测试,就可以得出相对公平正确的测试结果。
       我使用以上方法测试了一下从本论坛下载的名手3.26(双核版)和旋风6.2(双核版),我的电脑当然也是双核的。名手执先,最后和棋。由于只测试了一局,结论不一定正确。当然,关键还在于测试的方法是不是正确,只有方法正确了,得出的结论才可靠。望大家多提宝贵意见。
      
本帖最近评分记录: 4 条评分 乐币 +2 金币 +28 威望 +1
级别: 中尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
421
金币
855
威望
0
贡献值
0
乐币
0
主题
14
只看该作者 一楼  发表于: 2012-10-29
这几点看法其中有错误的观点!给予纠正!
本帖最近评分记录: 1 条评分 金币 -20
级别: 少尉
[棋中红钻1级]发帖数量≥10篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
95
金币
195
威望
3
贡献值
0
乐币
4
主题
17
只看该作者 二楼  发表于: 2012-10-29
回 1楼(勿论真假) 的帖子
到底有什么错误,请给予如实的说明,而不要只说有错误。如果你指出我的错误,同时你又能给出正确的看法,才能让人信服。
本帖最近评分记录: 1 条评分 金币 +5
级别: 论坛检查
[棋中红钻5级]发帖数量≥2000篇 [棋中黄钻4级]金币数量≥5000枚 [棋中蓝钻1级]乐币数量≥10枚 [棋中粉钻2级]贡献值数量≥5点 [棋中彩钻2级]精华帖数量≥2篇
发帖
3280
金币
6102
威望
6
贡献值
7
乐币
48
主题
58

只看该作者 三楼  发表于: 2012-10-29
我搞同机测试,用兵河,一般以实战局时10分钟为主,为了让软件不至于超时判负,外加3秒,不用库,,巡环模式,测试结果基本真实可信,几局下来厉害的就是厉害,我就认为它适合我机.别的我不信.
本帖最近评分记录: 1 条评分 乐币 +1
级别: 论坛检查
[棋中红钻6级]发帖数量≥5000篇 [棋中黄钻4级]金币数量≥5000枚 [棋中蓝钻2级]乐币数量≥50枚 [棋中粉钻6级]贡献值数量≥100点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
6414
金币
7124
威望
6
贡献值
147
乐币
79
主题
304

只看该作者 4楼 发表于: 2012-10-29
测试过程也是在不断探索,才能积累出正确经验。感谢分享。
本帖最近评分记录: 1 条评分 金币 +10
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
489
金币
675
威望
0
贡献值
0
乐币
0
主题
0
只看该作者 5楼 发表于: 2012-10-29
这种测试方法太笨了,一二盘可以,多盘的话,累死人
用兵河平台测试 非常不错的
本帖最近评分记录: 1 条评分 金币 +8
级别: 中校
[棋中红钻6级]发帖数量≥5000篇 [棋中黄钻3级]金币数量≥2000枚 [棋中蓝钻2级]乐币数量≥50枚 [棋中粉钻5级]贡献值数量≥50点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
6131
金币
4069
威望
15
贡献值
51
乐币
62
主题
1

只看该作者 6楼 发表于: 2012-10-29
楼主的几个观点讲得不错,俺亦以为同感,不过还以为有一点得须电脑核数与棋软核数都成正比,才能测得的更准确些是吧!谢谢提供探导!
本帖最近评分记录: 1 条评分 乐币 +1
级别: 少校
[棋中红钻5级]发帖数量≥2000篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
2033
金币
517
威望
0
贡献值
0
乐币
4
主题
0
只看该作者 7楼 发表于: 2012-10-29
Quá trình thử nghiệm là không ngừng khám phá, để tích lũy kinh nghiệm. Cảm ơn bạn đã chia sẻ.
本帖最近评分记录: 1 条评分 金币 +8
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
295
金币
62
威望
0
贡献值
0
乐币
0
主题
0
只看该作者 8楼 发表于: 2012-10-29
太简单了,用冰河加载2个引擎轻松测试,而且电脑配置高低问题就解决了
本帖最近评分记录: 1 条评分 金币 +8
级别: 中尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
421
金币
855
威望
0
贡献值
0
乐币
0
主题
14
只看该作者 9楼 发表于: 2012-10-29
对不起,是我做的不对,这是我的一点心意
本帖最近评分记录: 1 条评分 金币 +20
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
149
金币
277
威望
1
贡献值
0
乐币
0
主题
3
只看该作者 10楼 发表于: 2012-10-29
大部分观点都认同,只是第2条:红黑两个按钮不能同时开启,这个可以同时开启的,除非象齐天大圣棋软,目前大部分引擎不会互相干扰的,通过任务管理器看CPU使用率就知道了。大圣棋软假设是黑棋,只要开始运行了大圣引擎,以后你就算不按下黑棋按钮,甚至把红方按钮也关闭,CPU使用率照样会在50以上。
本帖最近评分记录: 2 条评分 金币 +20
级别: 中尉
[棋中红钻3级]发帖数量≥500篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
564
金币
7
威望
0
贡献值
0
乐币
0
主题
5
只看该作者 11楼 发表于: 2012-10-29
請教樓主為什麼要關閉後台思考啊

本帖最近评分记录: 1 条评分 金币 +8
级别: 少尉
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [棋中粉钻2级]贡献值数量≥5点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
138
金币
882
威望
0
贡献值
6
乐币
0
主题
5
只看该作者 12楼 发表于: 2012-10-29
感谢您的分享,棋中有你更精彩
本帖最近评分记录: 1 条评分 金币 +8
级别: 少校
[棋中红钻5级]发帖数量≥2000篇 [棋中黄钻3级]金币数量≥2000枚 [棋中蓝钻3级]乐币数量≥100枚 [棋中粉钻3级]贡献值数量≥10点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
2569
金币
3442
威望
2
贡献值
10
乐币
427
主题
119

只看该作者 13楼 发表于: 2012-10-30
看来你对软件研究的挺深的  谢谢分享
本帖最近评分记录: 1 条评分 金币 +8
级别: 论坛检查
[棋中红钻5级]发帖数量≥2000篇 [棋中黄钻3级]金币数量≥2000枚 [棋中蓝钻4级]乐币数量≥500枚 [棋中粉钻2级]贡献值数量≥5点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
3741
金币
2796
威望
6
贡献值
6
乐币
529
主题
0

只看该作者 14楼 发表于: 2012-10-30
多年来,在各论坛上常看到很多资深会员对发引擎测试结果的主题贴劈头第一句总是:「同机测试不准确的。」第二句就是:「一两局的结果并不代表甚么。」初时我还会说些个人看法,后来对此些名言金句就不置可否,感觉是不值一哂。
楼主此帖写得非常专业,基本上无甚疏漏,就是第二点值得商榷。10楼 cwf66 朋友说得太对了,本人十分支持他的论点,不再补充。
最后还是要补充一句:奇兵和大圣两个Winboard引擎都会干扰其他引擎思考的,同机测试须万分小心。
本帖最近评分记录: 1 条评分 威望 +1
级别: 四级士官
[棋中红钻2级]发帖数量≥100篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [棋中粉钻1级]贡献值数量≥1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
147
金币
12
威望
0
贡献值
1
乐币
0
主题
0
只看该作者 15楼 发表于: 2012-10-30
感觉包干制测试并不完全准确,因为棋软对战棋局的回合数经常超出了引擎的设定,导致后面的用时偏紧,有时某一层的计算还没结束就在出步了,这样的话有些棋就是瞎走,并没达到引擎本应有的水准。如果用兵河测试引擎,建议用时段制,规定XX分钟XX步,由于思考着数确定,引擎的时间分配会相对合理一些。
级别: 三级士官
[棋中红钻1级]发帖数量≥10篇 [未点亮棋中黄钻]金币数量<100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
51
金币
1
威望
0
贡献值
0
乐币
0
主题
0
只看该作者 16楼 发表于: 2012-10-31
不管怎么说。。名手3.26都是非常经典的版本。。。。这是无容置疑的。。。。
级别: 四级士官
[棋中红钻2级]发帖数量≥100篇 [棋中黄钻1级]金币数量≥100枚 [未点亮棋中蓝钻]乐币数量<10枚 [未点亮棋中粉钻]贡献值数量<1点 [未点亮棋中彩钻]精华帖数量<1篇
发帖
226
金币
710
威望
0
贡献值
0
乐币
0
主题
0
只看该作者 17楼 发表于: 2012-11-04
看来你对软件研究的挺深的  谢谢
快速回复

限56 字节
请不要在回贴只采用字母:“ PP、asdfhjkl、HAO、OK、ddddddd ......”。  请不要在回贴过于简单的内容:“不错、顶、支持、厉害、呵呵、靠、晕........”
 
验证问题: 我们的论坛名字是?
上一个 下一个