初学者对机器学习课程中“交叉验证”名词的疑问 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bigPeanut
V2EX    机器学习

初学者对机器学习课程中“交叉验证”名词的疑问

  •  
  •   bigPeanut 2020-07-13 00:44:39 +08:00 2969 次点击
    这是一个创建于 1982 天前的主题,其中的信息可能已经有所发展或是发生改变。

    机器学习初学者,感谢各位的包涵。疑问如下:

    首先,吴恩达机器学习课程中,第六周应用机器学习的建议模型选择和交叉验证一节中讲到(如图一),将六成数据作为训练集,两成数据交叉验证集,两成数据测试集。然后分四步:

    第一:用训练集训练出多个模型得到各自参数;

    第二:将这若干个模型分别在此用交叉验证集计算各自交叉验证误差;

    第三:选取交叉验证误差最小的模型;

    第四:用第三步选出的模型,对测试集计算泛化误差。

    ↑↑↑图一↑↑↑

    以上大体是吴恩达课程中该部分对交叉验证的概述。

    然而,我在搜索引擎及书籍中看到一种观点如下,如图二《白话机器学习算法》,这本书的意思大概为:

    将全部数据集本身切分,然后分别依次互相做交叉验证集。

    ↑↑↑图二↑↑↑

    两处对交叉验证名词的解读有明显不同

    故有此疑问,机器学习中的交叉验证到底是指什么呢?吴恩达机器学习课程和一些书籍中的该名词指的是同一种事物吗?

    第 1 条附言    2020-07-13 12:36:24 +08:00
    感谢各位的回答,已经基本解决我的疑惑啦,比
    9 条回复    2020-10-12 18:05:51 +08:00
    lsvih
        1
    lsvih  
       2020-07-13 01:17:44 +08:00   2
    如果我没记错的话前面那个叫 holdout cross validation,后面是标准的 k-fold cross validation
    conge
        2
    conge  
    PRO
       2020-07-13 04:25:24 +08:00 via Android
    数据集够大,可以用吴的方法,预留数据做 CV 。数据集不够大,不能预留的,用第二种方法。
    cqcn1991
        3
    cqcn1991  
       2020-07-13 06:37:37 +08:00 via Android
    两个都叫 validation
    Cross validation 指的是不用全部数据来做训练, 拿一部分做验证.
    cqcn1991
        4
    cqcn1991  
       2020-07-13 06:37:54 +08:00 via Android
    以避免 over fittinh 的问题
    futou
        5
    futou  
       2020-07-13 08:48:15 +08:00
    第二种情况主要针对传统机器学习,样本集很小,再独立出验证和测试集不再具有代表性。
    打完看了一眼,正文中说的很清楚:“然而,如果原始数据集很小....”
    另外我个人认为 cross validation 默认就是 k-fold cross validation,第一种一般验证集只叫做 validation
    jingous
        6
    jingous  
       2020-07-13 09:13:55 +08:00
    @futou +1
    shm7
        7
    shm7  
       2020-08-28 17:33:04 +08:00
    你不但没搞明白什么是 交叉验证,你恐怕连什么是验证 /开发集,什么是测试集都没搞清。

    我还是建议看看知乎“2020 秋招算法岗诸神黄昏”,有可能救你一命。
    bigPeanut
        8
    bigPeanut  
    OP
       2020-08-30 02:27:50 +08:00
    @shm7 我认为一楼以及后续几位的回复基本解决了我的疑惑。但听您这么说,确实有点儿不知所措了。T ^ T
    bigbigbigbug
        9
    bigbigbigbug  
       2020-10-12 18:05:51 +08:00
    交叉验证,我的理解是对数据取不同部分做训练和测试。比如啊,做时间序列预测,123456 月份预测 7 月份挺准的,234567 预测 1 准吗,就多试几下
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3517 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 00:46 PVG 08:46 LAX 16:46 JFK 19:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86