為什麼有些公司沒有完整的 AI 部門、甚至未招募 AI 技術人才、資料科學家,還是能夠做出往人工智慧領域的數位轉型?
台灣在未來 3 年 AI 數位人才的缺口還是會存在,「無程式碼平台」會是帶來轉變的神奇解藥嗎?
同時也有1部Youtube影片,追蹤數超過3,020的網紅你的鏡頭教練洪婉蒨Anne H.,也在其Youtube影片中提到,專訪我的多年好友—艾爾文,他有多種身份,包括「財經部落客」、「暢銷書作家」,同時也是「YouTuber」,他在YouTube上分享的影片,陪伴、激勵、啟發了好多跟我一樣的網友,當我們受挫,他激勵,當我們缺乏,他啟發,當我們焦慮,他說:「沒事的,你很好」。 但其實那些都是他在無數個自我懷疑、受挫、焦慮...
「演算法工程師技能」的推薦目錄:
- 關於演算法工程師技能 在 TechOrange 科技報橘 Facebook 的最佳解答
- 關於演算法工程師技能 在 矽谷牛的耕田筆記 Facebook 的最佳貼文
- 關於演算法工程師技能 在 Facebook 的精選貼文
- 關於演算法工程師技能 在 你的鏡頭教練洪婉蒨Anne H. Youtube 的最佳解答
- 關於演算法工程師技能 在 Re: [請益] 想從零開始轉行當AI軟體工程師- 看板Soft_Job 的評價
- 關於演算法工程師技能 在 演算法工程師科系2023-在Facebook/IG/Youtube上的焦點新聞 ... 的評價
- 關於演算法工程師技能 在 演算法工程師科系2023-在Facebook/IG/Youtube上的焦點新聞 ... 的評價
- 關於演算法工程師技能 在 自上而下的學習路線:軟體工程師的機器學習 - GitHub 的評價
- 關於演算法工程師技能 在 演算法&資料結構的應用場景? 如何用LeetCode有效提升實力 ... 的評價
- 關於演算法工程師技能 在 AI 工程師技能 :: 博碩士論文下載網 的評價
- 關於演算法工程師技能 在 聯詠科技#請問大師演算法開發工程師_李亞倫聯詠工作經驗談 的評價
演算法工程師技能 在 矽谷牛的耕田筆記 Facebook 的最佳貼文
ref: https://towardsdatascience.com/five-things-i-have-learned-after-solving-500-leetcode-questions-b794c152f7a1
本文是作者敘述自身解決 500 題 leetcode 後的一些想法
對於每個軟體工程師來說,基本上都有聽過 leetcode 這平台,也勢必理解刷題這個行為
Leetcode 中的題目五花八門,大部分都聚焦於資料結構與演算法類別,而這類型的刷題也變得愈來愈普遍廣泛,
不論公司規模與否,很多都會需要透過刷題來進行面試,然而這類型的行為的確也出現了不少討論的聲音
譬如面試者擅長 leetcode 但是這項能力卻沒有辦法反映到日常工作所需要的真正技能上。
不考慮到底 Leetcode 這類型的刷題行為到底好不好,作者列出五個自己刷題完畢後學到的一些心得
1) The importance of Data Structures & Algorithms
2) There is always someone more knowledgeable than you
3) An edge case can ruin your day
4) Hard work beats talent…
5) Planning is an essential part of software development
The importance of Data Structures & Algorithms
Leetcode 本身不是一個資料結構與演算法的教學平台,不過其本身的題目可以幫助你瞭解更多資料結構與演算法使用的場景與使用方式。
作者提到這類型的基本功應該是每個軟體工程師都要有的,特別舉例不久前一篇玩家修改 GTA V 裡面某些資料結構的處理方式,使得整個讀取速度提升70% 的範例來闡述為什麼
需要掌握好資料結構與演算法。
There is always someone more knowledgeable than you
Leetcode 的解題過程中,最大的特點永遠都是留言區,裡面總是會有各種神奇厲害的解法,甚至會出現比官方解答更漂亮的解答方式。
作者自述有很大半的時間其實都是再重新實作這些很棒的解法。
這經驗讓作者體會到,人外有人天外有天,永遠都有比你厲害的人,工作上要盡可能的向那些厲害的人討教與學習,他們花了很多時間與經驗得來的知識都是非常寶貴且難得的,能夠學會就盡量學會。
An edge case can ruin your day
作者認為 Leetcode 的題目都擁有豐富的測試資料,包含了各種極端案例,這也意味刷題的時候如果沒有考慮各種不同情境常常沒有辦法順利通過問題。
這種思考過程的訓練對作者帶來了實質上的幫助,工作上能夠用更嚴謹的思路去思考每個撰寫的程式,思考有沒有可能有任何遺漏的案例可以在寫程式的過程中就找出來。
Hard work beats talent…
這句話的全文是
Hard works beats talent when talent doesn't work hard.
就算本身不是天選之人,但是透過努力還是有機會在天選之人松懈怠惰之時展現出自己強大與良好的一面。
註: 我想於如果天選之人比你還努力...那就讓天選之人拯救世界吧,我們還是做些簡單的事情就好
Planning is an essential part of software development
從眾多練習與面試的過程中,作者瞭解到 Coding 其實只是解決問題的一小部分,而聽到問題瞬間就馬上開始寫程式非常有可能走冤枉路。
軟體開發過程充滿各種不確定性,很多時候面試時遇到的問題其實都是那種曖昧或是不夠完整的敘述,再沒有掌握問題的全貌前就貿然寫程式常常只會愈走愈糟。
此外,軟體開發除了撰寫程式外,還必須要針對解決方法進行分析,該方法帶來的優點都需要仔細思考,同時也要確保團隊內對於該方法有一致性的同意才可以開始往下去撰寫程式。
作者最後強調,這個概念是真實工作中最重要的一環,透過溝通去理解所有的需求,確保一切都有共識後才開始實作。
剩下有興趣的歡迎閱讀全文
演算法工程師技能 在 Facebook 的精選貼文
回覆大家★★★滿天星★★★的疑惑
新的Recipe會員網站上線後,陸續收到一些提問及延伸問題,就透過這篇文章向會員及非會員們說明。
★加入Recipe付費會員,那麼YT贊助是否該暫停
Recipe會員網站是以平均一周,至少一道新圖文食譜方式更新,而YT贊助會員則是一個月發佈一則新影片食譜方式更新,其中在新會員制網站的圖文食譜中,重疊到一道影片食譜內容,如果覺得圖文食譜已經能讓你瞭解怎麼製作,那麼是無須兩邊都加入贊助的。但限定於YT的贊助會員每月新影片,則因為是全然不同帳號,因此無法將影片放入Recipe會員制網站。
★是不是註冊Recipe會員就會被收費
除非你一開始就是選擇 [黃金會員] 或是 [鑽石會員],不然基本的一般註冊是不會有任何費用或扣款。但也無法閱覽新食譜則是付費與未付費的關鍵差異。不過大家可先加入 [一般會員] ,日後用以同樣帳戶升級並無問題,無須重新註冊。
★不萊嗯還會拍新影片嗎
過去的穩定拍攝、發佈影片計畫,已在去年11月正式停止,因此不會再有常規的新食譜影片拍攝。雖還是有拍攝新烘焙食譜影片,但都僅提供給YT贊助會員觀賞。
★你還會回覆舊網站提問嗎
在2021年底正式關閉網站之前,自己還是保持每周回覆舊食譜提問的習慣,只是舊站因走向關閉,因此已不再接受新會員註冊,如果你是現在才發現不萊嗯食譜平台的新網友們,請直接到YT的影片區下方留言提問,因所有的影片都會一直保留,所以我會保持每周穩定回覆的習慣。
★舊網站食譜會遷移到新網站嗎
不會的,當初要關站就是因為食譜占了極高比重與瀏覽伺服器頻寬,因此不會搬移任何舊食譜到新網站,只有 [烘焙實用基礎篇] ,且沒有收錄到我的第一、二本食譜書的內容,才會重新經過整理、撰寫資料查證,收錄到新網站上。
★舊食譜將何去何從
這些120~150道舊食譜,會朝向收集成冊的方式,由募資出版或由有意願的出版社重新編輯後出版 (紙本+數位),如有最新發展會正式在這裡或新網站公告。
因為所有網站架設、美術設計、程式設計、會員機制、文章閱讀權限機制、金流串接…等等,都是由我親自在研發食譜的空檔完成的,自己不是專業工程師,都是一路摸索而來,缺乏程式設計師的技能,加上部分系統其原始資源僅有英文版,因而還需要配合改寫程式對應為中文,這樣必定有不完善之處,也是耗費我5個月的原因,因此如有些不流暢或BUG之處,希望你們能諒解,我都會在網友們反映後,盡快尋求修正對策。
最後還是要感謝大家一路的支持與跟隨,這些重大的變革都是基於《我熱愛烘焙這件事》,想以獨立不受商業干擾為前提,繼續做我有熱忱的事那麼簡單,我一定無法因寫書、當個【網紅】而致富,我很討厭這些網路演算法,要你付廣告費、要你成為流量奴隸、知名度熱度而扭曲的事情,因而我的路線一路都很跳TONE,曾經跟我聯過的廠商,我幾乎都沒有回覆,不是因為我【大牌】,而是因為『當你付的起香蕉的時候、你只能請到猴子』,而我還沒有當猴子的心理準備,所以合作難以成功,就當我眼睛長到頭頂上好囉!
這麼多年的經營也幸運出了2本書,我沒賺到金錢、只賺溫飽與維持對烘焙的興趣,在製作人Pierre先生的支持下,得以自由做當下最想做的事,研發自己覺得有趣的食譜,與最最重要你們的信任與追隨,這些不是用錢能買的到的,是我心中無價之寶。
最終,經過這些日子,我都懷疑自己可以放棄研發食譜,改行當網頁程式設計師可能比較好賺~
Enjoy
不萊嗯
#不萊嗯的私廚俱樂部
演算法工程師技能 在 你的鏡頭教練洪婉蒨Anne H. Youtube 的最佳解答
專訪我的多年好友—艾爾文,他有多種身份,包括「財經部落客」、「暢銷書作家」,同時也是「YouTuber」,他在YouTube上分享的影片,陪伴、激勵、啟發了好多跟我一樣的網友,當我們受挫,他激勵,當我們缺乏,他啟發,當我們焦慮,他說:「沒事的,你很好」。
但其實那些都是他在無數個自我懷疑、受挫、焦慮的夜晚,用來鼓勵和支持自己的方式。
曾是工程師的他,因一場突如其來的疾病,徹底使他的生命轉彎,沒想到,也開啟了他往後不斷轉彎、跨出舒適圈的人生。先是以理財知識獲得廣大讀者愛戴,接著出了兩本勵志暢銷書,轉而分享生命感觸,而現在他已是訂閱數近40萬的YouTuber,說到這裡,你發現了什麼嗎?
理財觀念/生命勵志故事/部落客/暢銷書作家/影音創作者,從每個角色中不斷做出新挑戰,並且「同時進行」,專訪中,我們聊兩個問題:
💡為什麼創作的內容,會從文字進展到影音?
💡為什麼不是創作更多理財內容,而是以成長激勵為主?
(可以點選下面的時間戳,直接觀看最有興趣的內容)
00:36 歡迎來賓 #艾爾文
01:03 我和艾爾文怎麼認識的
04:03 沒有勇氣 #跨出舒適圈 怎麼辦?
07:27 離開舒適的環境,很難不後悔
覺得自己怎麼這麼笨?懷疑自己?
09:07 離開舒適圈,是害怕安於現狀?還是想要有新挑戰?
擔心自己安於現狀,不會害怕安於現狀。但是是滿意目前生活的。
12:13 其實沒有離開舒適圈,也沒那麼可怕
14:53 離開舒適圈,必須先問自己的一句話?
「你要離開的是自己的舒適圈,還是別人圈出來的舒適圈?」
「問自己,你到底想要的是什麼?」
16:28 這個世代必備技能:如何辨別雜音?
17:06 經營YouTube的初衷,是自己想要?或趨勢所逼?
19:12 在YouTube上,其實我只是nobody
21:50 如何在經營YouTube的初期,仍有成長感?
27:25 艾爾文如何克服自我懷疑?
31:44 記錄個人里程碑,建立「愛自己」的存款
35:24 文字創作橫跨影音,艾爾文經營YouTube的挑戰
41:00 上鏡頭後,口條發音問題被放大
43:27 轉變的邏輯:確認自己想要轉變(心態),面對這個轉變(態度)
44:39 近期新挑戰:全英文訪談子彈筆記創始人
「不敢做的事情,頭先洗下去再說」
50:29 「感謝當初不要臉的自己」
53:50 不要為了你沒辦法掌控的事情,影響你的心情
54:44 網友留言Q&A
55:48 如何規劃每天規律的生活?
01:01:10 會出新書嗎?
01:01:48 如何自由自在的交朋友?
01:04:04 做事情會因為心情或感情受影響嗎?
01:05:50 網友表達感謝時間
《艾爾文》頻道:https://www.youtube.com/user/17richfriend/
----------
💡你可能也會有興趣:
網路直播節目如何設計互動?留住觀眾?(feat. Ettoday星光雲節目製作人思妤) https://youtu.be/ac0Rm6Nsxog
如何打造個人品牌?獲利模式有哪些?(feat. M觀點 Miula) https://youtu.be/i1_XtKBtLBE
「其實沒有離開舒適圈,也沒那麼可怕」(feat. 艾爾文) https://youtu.be/2hWsWWrf7Xc
曾面對鏡頭緊張到NG 40分鐘,如今為何3分鐘就搞定?YouTuber的養成之路(feat. 3cTim哥)
網紅或自媒體如何賺錢?(feat. 知識型網紅李柏鋒) https://youtu.be/5XjTyPjhD40
不接業配,史上最邊緣的90萬YouTuber《不要鬧工作室》 https://www.youtube.com/watch?v=wI5jKJDP5kg
▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰
📍 訂閱 YouTube 新片|http://bit.ly/2Khvt17
📍 訂閱 FB 直播通知|http://bit.ly/SubscribeAnne
📍 參與 IG Story互動|http://bit.ly/2UwTA0m
📍 官網|https://anne-h.com/
📩 任何合作洽詢|hi@anne-h.com
▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰
🔴 我的直播工具:
★ 直播軟體 Ecamm(僅限Mac)| http://bit.ly/2m27HdG
★ 直播軟體 Be.Live(任何瀏覽器)|https://bit.ly/2ZADnsu
★ 不同平台同步直播 Restream|https://restream.io/join/anneh
▰▰▰▰▰▰▰▰▰▰▰▰▰▰▰
\ 推薦課程 /
■ YouTube — 全方位從經營 ➡ 變現:企劃、腳本、SEO、演算法、策略、賺錢方法 https://bit.ly/3y9EJZB
(*透過此連結可享 Anne 專屬優惠 200 USD)
■ 個人品牌 — 找到定位、內容製作、吸引流量、建立獲利模式、創造被動收入 http://bit.ly/ZoeyBrandUrLife
![post-title](https://i.ytimg.com/vi/2hWsWWrf7Xc/hqdefault.jpg)
演算法工程師技能 在 演算法工程師科系2023-在Facebook/IG/Youtube上的焦點新聞 ... 的推薦與評價
演算法工程師 科系2023-在Facebook/IG/Youtube上的焦點新聞和熱門話題資訊,找演算法工程師ptt,機器學習演算法工程師,演算法工程師科系在2022年該注意什麼? ... <看更多>
演算法工程師技能 在 演算法工程師科系2023-在Facebook/IG/Youtube上的焦點新聞 ... 的推薦與評價
演算法工程師 科系2023-在Facebook/IG/Youtube上的焦點新聞和熱門話題資訊,找演算法工程師ptt,機器學習演算法工程師,演算法工程師科系在2022年該注意什麼? ... <看更多>
演算法工程師技能 在 Re: [請益] 想從零開始轉行當AI軟體工程師- 看板Soft_Job 的推薦與評價
來用自己的例子勸退一些想跳機器學習的人
首先是數學程度,
我是數學系的,什麼線代,微積分,機率,統計的都很熟其實工作也會用到,
描述一些比較有印象的工作用過的數學,
比較有趣關於微積分的經驗:
老闆把問題用一個式子 exp(-rx)*((1/delta)*sqrt(A))*exp(-x^2/(A))來解釋,
並要對x積整個實數範圍。
在場大家都面面相覷我就被要求積了。
但這其實不難積,就高斯積分,有背整理一下秒解,
沒背也不難推。我大學微積分沒在背的所以是當場直接推,然後才繼續那場會議。
機率統計就那些常見的像是:
在一堆數據中給一些想法假設然後檢定,
或是想辦法對一直變動pattern的資料去建對應的機率模型。
但我具體數學程度到哪,舉兩個例子一個是深度學習WGAN一個是經典的random forest。
https://arxiv.org/pdf/1701.07875.pdf 這是WGAN。
https://link.springer.com/article/10.1023/A:1010933404324 這是RF。
基本上裡面的純數推導我幾乎都理解,
WGAN用到實分析跟線性規劃,
RF則是機率。
以上大概描述一下我的數學程度。
接著是我的電腦技能,
我熟悉的語言有C++跟PYTHON,基本上各有兩年以上的工作實務經驗。
python就絕大部份公司機器學習用的語言不解釋。
C++曾被公司要求所有演算法都要自己刻,這之中還包刮神經網路,
連 backpropagation 都要自己刻,
然後資料結構演算法,計算機組織,作業系統都讀過。
至於程度到哪我也不好說,我自知去參加程式比賽會被電死,但基本程度應該是有。
資料結構的程度至少是在刷題的時候不會卡在"天啊這個是什麼資料結構",
跟曾經在工作被要求刻了一個紅黑樹,雖然我現在忘了而且skip list太好用。
演算法就刷題的時候不會無止境一直設條件,
會嘗試用一些演算法想法比如 divide and conquer or dp 來解題。
計組作業系統就是那些什麼cpu pipeline 記憶體管理緩存設計都懂。
資料庫則是公司用什麼我就學什麼。
機器學習的部分就是幾乎現在大家喊得出名字的我都可以實作,
有要證明的模型我都可以證明,不過需要回憶準備一下哈哈因為模型太多沒全記。
大致用書來表示一下我懂得大概範圍好了。
https://www.deeplearningbook.org/
deep learning 的經典不解釋。
https://www.cs.cmu.edu/~tom/mlbook.html
machine learning 也算經典但很老的一本了。
https://www.tenlong.com.tw/products/9787302275954
各種經典的機器學習模型的推導書,雖然這個作者幾乎只是翻譯論文,但翻的還滿好的。
新技術太多我就不提了我都有在追。
以上大致描述一下我的程度,目前的結果是我近半年完全找不到工作XD
不管國內國外,丟履歷都沒回覆,基本上連面試機會都沒有。
搞得現在只能送foodpanda,
真的是能力不足阿...
希望這慘痛的經歷能拯救還想再跳AI的人阿。
==================================================
發現太多人執著實作的部分,其實要求手刻的只有一家公司,雖然我也在那邊做很久
除了那間公司其他的我也是用包啦,Tensorflow,cntk 之類的都會用。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.88.3 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1636524507.A.D68.html
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:12:47
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:23:19
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:31:53
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:42:43
改丟國內的國內也都沒回覆,慘
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 14:54:17
爛的資料神經網路無法處理因為神經網路是強逼近,就垃圾進垃圾出
但數學反倒可以找到很好的方向,
比如說我處理過那種雜訊很多就算了,哪些是雜訊還都不知道的數據。
方法就把資料換個方便我弄成隨機過程的樣子,
然後抽特徵的時候隨機,根據大數法則我可以期待他會逼近一個我要的值,
且也可以淡化雜訊的影響畢竟是隨機取,最終效果很好這樣
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 15:16:24
我只是想表示這麼基本的東西我都有公司也是不要阿
真的要說的話不然你試著準備一下那個WGAN的中為什麼Wasserstein比原本的GAN的cost function 還要好的證明然後試試?
最好還要問李航那本書沒有的,像是PCA為什麼是用特徵值,還有上面說的RF為什麼可行
L1 L2 為什麼會有那些效果怎麼用數學分析,BLABLABLA的
哀我真的只是想勸退還想進AI的人啦
這個東西真的水很深而且缺很少啦
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 17:34:07
不過主要是我都把時間拿來唸書了。
我沒在經營github,我是不知道自己的讀書心得丟那有沒有用,
我應徵時到是有附一些讀書的筆記,
像是上面提到的GAN的一些東西,為什麼強大,為什麼難訓練,WGAN為什麼強大,
能怎麼修正的一些整理都一起寄過去,展現我不是嘴巴說說有在讀書,是真的有在讀深入的
且工作上工也有用到,但一樣沒用哈哈哈哈
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:04:21
所以我才真心建議不要再跳進AI了,沒想像地這麼美好
本職學能持續精進,有需要再碰就好了。
其實我在找工作,現在大部分的缺都是傾向:他們方法有了。
機器學習工程師就是架構一個data pipeline,然後建模型訓練,接著實際應用。
最終就是要自動化。實際有關機器學習的問題去跟公司的data scientist 討論即可,本質?
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:11:18
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:13:02
kaggle還要考慮我手邊的的裝備,所以能做的題目大概也都是那些普通的題目
最主要的問題就是我學經歷不夠,所以我相信現在有想跳AI的一定都是一樣的狀態
所以這篇的重點一直都是:拜託,別在專門跳機器學習的領域,好好點高自己的技能比較實?
而不是討論我為什麼沒工作沒面試阿。一直討論我為什麼沒工作不是很好笑嗎= =
現在就是僧多粥少,不只如此,那些還不是僧只是剃光頭阿。
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 18:56:44
不過撇開這個,我是有考慮分析不少事情。
而結論是:
那個時間成本不如拿去刷題,從SDE的路進公司,在從公司內部轉比較有機會。
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 19:02:56
其實我不強啦哈哈我不是四大數學系的哈哈,我只是愛讀書而已。
其實專案量化成績是有啦,但我不知道是不是命運使然還是怎樣。
我舉的這個例子,是我進公司之前他們搞了快兩年都沒結果,因為一直在用傳統的CNN做
真的是各種花俏CNN,連deepfake都被拿來用
但我進去觀察一下資料就覺得不適合,所以花了很多時間在搞數學方法
然後撇開新創有的沒的雜事和動不動就換目標,七八個月後也是不容易地搞出來了。
然後老闆很高興地拿去做了一些事,後續的一些計畫也開始在動時,老闆走了...
結果業務端好像都是老闆在搞,老闆一去世公司就炸掉了。
所以這個就沒下文啦,後續是有人私底下要跟我買,我覺得麻煩也不道義就沒賣了。
但我其實不想講太細節就是因為這看起來超像嘴砲,所以想著重在方法跟技術知識面而已
不過就算被當嘴砲也沒差反正人生是我自己的哈哈
所以我比較願意刷題而起也滿享受的。但請注意我知道這之中的差異,
KAGGLE"可能"會讓我"多一點"面試的機會,而刷題會讓我現階段往SDE的方向走。
我刷題是為了增強自己的能力,而不是為了"機器學習相關工作的面試"
不過話說回來我真的覺得太聚焦我的狀況了
直接說我目前的打算,我還想工作只是為了存點應急錢去唸博士,
現在應該就是不會在嘗試存應急錢直接去唸博士,我也確定我愛研究,
我直覺判斷我讀博時intern應該會好找,應該啦。
所以大家別在聚焦在這個啦哈哈哈
※ 編輯: stmilk (223.137.88.3 臺灣), 11/10/2021 22:11:49
當時我處理的影像超稀疏的。gan難train是在那個模型非常
容易被一個函數分開,也就是可以找到完美的discriminato
r,這是這兩個機率support的問題,而且條件還不用是這兩
個support不相交,只要幾乎處處不相交就可以,這個至少廣
大的實驗告訴我們非常容易發生。所以本質上只要是那個co
st function,初始值不好不管做甚麼調整丟什麼模型進去都
會遇到這個問題。然後可能是我的處理的影像真的太稀疏,
應該是可以理解成這個pattern的support超小,基本上根本
train不起來。所以我那時的想法是就是想要一個理論上直接
可行的結果。這樣我不用把模型弄得巨爆幹複雜,設計一堆
有的沒的只為了能先train,與其想辦法各種嘗試引導訓練,
抽象地說就是想辦法找一個先驗讓兩個pattern的support能
重合。不如直接一個理論可行的再去處理wgan模型的問題,因
為比較具體有方向。順便說之前的別組也是各種花式加self
-attention在decoder和encoder中也是沒用,至於原因因為
不是我做的我沒去也不想去深思,或許也可以就是~可能有錯
,多包涵啦。
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 01:46:54
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 01:56:19
我稍微想到可能比較有創意(?)你可以嘗試的方法。
從sample的特徵下手,而且我會傾向不用up sample因為我不喜歡人工數據XD。
雜訊很多的情況就上面有提到,從sample中隨機取特徵,然後創個新sample。
但因為我的問題是哪些是雜訊也不知道,
所以這樣的好處是資料都是是自然環境產生的,
我不用去考慮這樣取是不是會有bias,反正隨機數拉高一定會逼近我要的樣子。
注意如果特徵彼此之間獨立性高,這樣做會有問題,
依我的經驗我還想不到哪些可能的題目可以用這個XD
然後是特徵少且彼此獨立性高且樣本數也很少的話,
這種的就麻煩因為你的資訊本來就少,大概只能用加雜訊的方式去up sample了,
然後是特徵少且獨立性高然後樣本高,那這樣我會採down sample,
我現在直觀想到就 greedy 地去做。
先根據你的問題,觀察哪個特徵最重要(簡單的方法就隨機森林),
從這個特徵來看聚的狀況,但注意這個聚集狀況可以用不同的方式來定義,
就是用不一樣的距離公式來嘗試,
把這個群體中sample數偏高的類別刪掉一些,
基本假設就是因為這個特徵影響大,
那又特別多的sample聚集在一起的東西可能影響會太大有bias
同樣地你可以反過來從不重要的特徵下手去砍,這樣對整個資料的影響會最小
然後反過來特徵多且獨立性高樣本數多,因為這種狀況可能會有為度災難的可能
所以會特徵一起砍
觀察不重要的特徵的聚的狀況,
直接砍掉這個特徵,並砍掉不平衡的那個地方,然後一直持續到樣本平衡
特徵多且獨立性高樣本少,其實會發現樣本少就是麻煩,
所以我一樣會砍最沒影響往上的特徵,然後觀察從最重要往下的特徵的群,
去砍裏面不平衡的那方
不過樣本數少可能會有問題,我應該還是傾向up sample就是
然後我現在想的到的終極狀況之一是特徵沒有特別的群聚現象,
因為這個太抽象可能個別問題有不同的方法XD
在目前抽象的假設下我只能建議加雜訊 up sample
或是隨機去 down sample
以上你參考一下,但畢竟我不知道你做的題目,
所以我盡量先考慮比較一般只考慮抽象特徵的情況了
但對某些特定題目不一定可行你要小心使用哈哈
最後我上面除了雜訊那個都假設獨立性高,這個可以很簡單地用PCA達成,
所以如果你想要維持原本的特徵,不用獨立性高的假設其實應該差別也不大
對不起我昨天其實滿累得沒注意到你應該就是問樣本數很少還稀疏的情況,
樣本數少的時候方法想得很混。
如果樣本數少,並假設超級極端狀況99%比1%。
一樣觀察特徵附近(注意這個"附近"一樣是根據你的距離定義,根據不同問題是用的距離定義),
因為資訊實在太少,基本只能假設這個樣本附近可能會有同樣的標注。
所以從附近去生成樣本,
如果這個某個標注還在另外一個標注的某個聚落附近,你也可以考慮降低這個聚落的影響,
就是在這個聚落去砍掉多數的樣本。
其實概念上都差不多,就是根據你的問題,看有沒有某些前提資訊可用,然後去resample。
根據你的問題,這個特徵的選法就不同,探討聚落的方式也不同(像是KNN,T-SNE)。
若是你用的是隨機森林的方法,你甚至可以考慮把這個算法啟發化。
其他的方式想啟發化也不是不行,但是就是沒有tree model這麼乾淨俐落就是
以上就是我目前想的到的處理方法哈哈
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 21:46:44
※ 編輯: stmilk (223.137.88.3 臺灣), 11/11/2021 21:58:18
※ 編輯: stmilk (223.137.88.3 臺灣), 11/12/2021 12:27:45
... <看更多>