如果您需要帮助,请点击这里

机器学习模型需要多少训练样本?

liuyuliang

刘裕良

2018-12-13 2327
感情男声
  • 感情男声
  • 感情女声
  • 标准男声
  • 标准女声
倍速1.0X
  • 倍速0.5X
  • 倍速1.0X
  • 倍速1.5X

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

所谓的机器学习,说白了,大部分时候就是利用一堆数据,来“猜”一个函数,当一条新的数据到来,我们直接“套”入这个函数,进行预测。

这个套路和“算命看相”是一脉相承的:如果已知1000个人的外貌,其中800个“大耳朵”的寿命是70岁以上,200个“小耳朵”的寿命是70岁以下,对于一个算命先生来说,新来一个“大耳朵”的人,他会怎么“预测”这个人的寿命呢?他内心深处一定会认为,这个人“八成能活到70岁”。


这个例子里的“耳朵”就是机器学习中的特征;前面那1000个人,就是训练样本;能否活到70岁,就是标签,也是我们需要预测的分类结果。

当然,真实的算命应该远比这个复杂,天庭是否饱满、印堂是否发黑、骨骼是否精奇、声音是否洪亮……等等,骨相、肉相、皮相全都得看,而要分的类别也有很多,是否发财、升迁、桃花等等……这是个极其复杂的分类问题,是否真有人能掌握这些“天机”呢?

我们假设人脑的能力足够强大,能够拟合任何非线性函数,我们来探讨一下算命的可行性。

我们“猜”一个函数,就像通常会出现如下三种情况,可以用人来类比:


(毫无心机,初出茅庐,啥也不懂,被人坑了也不知道,如左图,称欠拟合

(认识到世界的复杂,不再被坑,依旧信任这个世界,如中图)


(懂得太多,腹黑,矫枉过正,什么事情都感觉有坑,称欠拟合

/

/

学术界的人,往往喜欢发明些概念来指导自己怎么玩:

/

为了研究学习过程一致收敛的速度和推广性, 统计学习理论定义了一系列有关函数 集学习性能的指标, 其中最重要的是VC 维(Vapnik-Chervonenkis Dimension)。

VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。

但是,目前并没有一个通用的方式来计算任意函数集VC维。

http://see.xidian.edu.cn/faculty/chzheng/bishe/indexfiles/New_Folder/about.PDF

https://zh.wikipedia.org/wiki/VC%E7%90%86%E8%AE%BA

工程界的人,往往喜欢用试试说话,喜欢讲什么“talking is cheap, show me the code”(程序员)

有个程序员,搞不清楚机器学习模型需要多少样本,他就做了个实验:

/

https://medium.com/@malay.haldar/how-much-training-data-do-you-need-da8ec091e956

实验证明,当样本数量达到模型参数10倍左右的时候,f值(一种度量,越大越好)能够达到0.85左右。

当然,这只是特定条件做出来的实验,仅能提供一个参考,真实的情况与数据强相关,不能笼统地套用。但是,有参考总比瞎摸强,至少有个感性的认识。

我们回到算命这个问题,假设只需要100个特征,再假设人脑所用的模型只有10000个参数,按照上述经验,大致需要10*100*10000=1千万个样本。

很显然,作为一个算命先生,不可能掌握这么多数据的,他们预测的结果,不可信。还不如如国家统计局找数据,直接算概率来的准。

0/500

请输入评论内容
提交评论

最新评论0

    查看更多评论

      评分成功!

      提交成功!

      评分失败!

      提交失败!

      请先填写评论!