Why separate test and validation sets? · Training set (60% of the original data set): This is used to build up our prediction algorithm. · Cross-Validation set ( ... ... <看更多>
「train, validation, test」的推薦目錄:
- 關於train, validation, test 在 [問題] Validation set 到底在做什麼? - 看板DataScience 的評價
- 關於train, validation, test 在 What is the difference between test set and validation set? 的評價
- 關於train, validation, test 在 訓練集、驗證集、測試集的定義與劃分 - 辛西亞的技能樹 的評價
- 關於train, validation, test 在 Validation and Test Sets.ipynb - Colaboratory - Google 的評價
- 關於train, validation, test 在 What's is the difference between train, validation and test set ... 的評價
- 關於train, validation, test 在 Test data being used for validation data? · Issue #1753 - GitHub 的評價
train, validation, test 在 訓練集、驗證集、測試集的定義與劃分 - 辛西亞的技能樹 的推薦與評價
訓練集(Training Set) · 驗證集(Validation Set) · 測試集(Test Set). ... <看更多>
train, validation, test 在 Validation and Test Sets.ipynb - Colaboratory - Google 的推薦與評價
The previous Colab exercises evaluated the trained model against the training set, which does not provide a strong signal about the quality of your model. In ... ... <看更多>
train, validation, test 在 What's is the difference between train, validation and test set ... 的推薦與評價
... <看更多>
train, validation, test 在 Test data being used for validation data? · Issue #1753 - GitHub 的推薦與評價
Validation data is not used for training (or development of the model). Its purpose is to track progress through validation loss and accuracy. 10 ... <看更多>
train, validation, test 在 [問題] Validation set 到底在做什麼? - 看板DataScience 的推薦與評價
請問一下各位高手 關於Validation set 跟 Training set的差別
特別是validation set 的功用是什麼?
(這裡的validation set 不是 test data的意思 雖然文獻上這兩個詞也滿常交互使用)
要訓練一個Neural net model, 需要兩組數據, Training set 跟 Validation set.
兩組數據都是*已知數據*, 模組就從這裡學. 我的問題是 為什麼特別區分成兩組呢?
還有印象中黃金比例是 2:1 (train:val)
我自己模模糊糊的理解是 training set 教會大部分的parameter,
再用validation set來微調.
這樣的理解是對的嗎?
如果對的的話 那些parameter是只有在validation 才能調 training set調不了的呢?
這是合理的問題嗎?
(小弟我只懂的大方向 跟怎麼用 很多基本的原理還是學的不扎實...慢慢補強...)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 68.230.60.98
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1521691079.A.014.html
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 11:59:20
我回去查了文獻 (我做的是機器翻譯) 有這段話
(https://arxiv.org/abs/1709.07809 page 18)
"A common stopping criteria is to check progress of the model on a validation
set (that is not part of the training data) and halt when the error on the
validation set does not improve. Training longer would not lead to any
further improvements and may even degrade performance due to overfitting.
"
這跟siscon大說的相符 (一開始手殘i打成u)
我用的軟體是OpenNMT 這個軟體要求 val set 又自動停在 epoch 13
這樣說的話 是不是OpenNMT搞錯了 validation set 功用呢?
(OpenNMT 有個論壇 我可以去抱怨一下)
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 13:18:20
※ 編輯: lucien0410 (68.230.60.98), 03/22/2018 13:34:13
但問一問基本的問題也不錯吧 讓有興趣的但還在學的人也來討論討論
像是教學的blog的性質 這樣的datascience版 也不錯吧
正如你說的 嚴格來說 OpenNMT沒有拿 val set 來調參數
而是拿來評估 overfitting 和 convergence
但這又讓我覺得奇怪了 這樣的話 epoch的數量 應該是自動設定的
converged後 自動停止才對
但OpenNMT的epoch 又是手動設定的 hyperparameter (預設值是13)
另外 結果這個問題 真的有人在論壇上問過:
https://forum.opennmt.net/t/validation-data/128
那些OpenNMT的developers 也真的自己出來回答 滿有意思的
Guillaume Klein說實際上來說 val set 可以來讓做為挑選那個epoch的標準
就挑 validation perplexity 最低的那個
※ 編輯: lucien0410 (68.230.60.98), 03/23/2018 01:32:23
... <看更多>