#技術部落格【金曲 30 大勢分析!從 ptt Golden-Award 與 Gossip 版一窺入圍名單聲量】
.
完整文章:https://blog.gcp.expert/golden-melody-30-ptt-data-mining/
.
金曲30強勢登場!今年 iKala 一向運用爬蟲(crawler)蒐集網路上的媒體公開資料做分析用途,這次為了慶祝金曲三十大壽,我們使用近半年ptt Golden-Award 版與 Gossip 版上百篇金曲獎相關文章、超過 5,000 則推文,結合文字探勘技術,並在 Cloud Datalab 上由 iKala 的資料科學家完成以上分析,幫你搶先一步公開今年話題度、呼聲最高的名單!入圍的有....
完整文章:https://blog.gcp.expert/golden-melody-30-ptt-data-mining/
.
#GCP專門家 #iKala #金曲30 #GMA #蔡依林 #林憶蓮 #數據分析 #資料科學家
「gcp ptt」的推薦目錄:
- 關於gcp ptt 在 iKala Cloud Facebook 的精選貼文
- 關於gcp ptt 在 iKala Cloud Facebook 的最佳解答
- 關於gcp ptt 在 CloudMile 萬里雲 Facebook 的精選貼文
- 關於gcp ptt 在 [心得] PressPlay從AWS搬家到GCP一年的心得- 看板Soft_Job 的評價
- 關於gcp ptt 在 作者Gcp 的總覽(PTT發文,留言,暱稱) - PTT網頁版 的評價
- 關於gcp ptt 在 [詢問] GCP免費方案詢問- 看板Google - Mo PTT 鄉公所 的評價
- 關於gcp ptt 在 我應該使用AWS / GCP 還是Linode來放我家的伺服器 的評價
- 關於gcp ptt 在 2022Google Cloud platform PTT-大學國高中升學考試資訊 的評價
- 關於gcp ptt 在 最新趨勢觀測站- aws費用ptt的推薦與評價,PTT、FACEBOOK 的評價
- 關於gcp ptt 在 最新趨勢觀測站- aws費用ptt的推薦與評價,PTT、FACEBOOK 的評價
- 關於gcp ptt 在 [請益] Google職缺(GCP)請益 - PTT 熱門文章Hito 的評價
- 關於gcp ptt 在 Subsidiaries and Affiliates | PTT Global Chemical 的評價
- 關於gcp ptt 在 金曲30 分析!從ptt Golden-Award 與Gossip 版看入圍名單聲量 的評價
- 關於gcp ptt 在 快更新!Ptt 要求全體使用者重新認證信箱 - INSIDE 的評價
- 關於gcp ptt 在 Pressplay ptt - Ostéopathe Paris 17 的評價
- 關於gcp ptt 在 [問題] 請問GCP課程- bioindustry - PTT職涯區 的評價
- 關於gcp ptt 在 [閒聊] GCP的掉落機率好奇怪... - 流亡黯道- Path of Exile 的評價
- 關於gcp ptt 在 Rituximab en Púrpura trombocitopénica trombótica (PTT) 的評價
- 關於gcp ptt 在 [情報] RG 自由GCP災情- PTT評價 的評價
- 關於gcp ptt 在 [請益] Google職缺(GCP)請益- 看板Soft_Job | PTT職涯區 的評價
- 關於gcp ptt 在 [討論] 04b:中央社記者是怎麼樣,連GCP都不懂 - PTT推薦 的評價
- 關於gcp ptt 在 [討論] AWS 證照的含金量高嗎- soft :: 韓國GCP 證照PTT 的評價
- 關於gcp ptt 在 [詢問] [GCP]VM無法執行('N2_CPUS' exceeded...) - PTT 數位生活 的評價
- 關於gcp ptt 在 Re: 請問寶石匠的稜鏡的問題? - 看板PathofExile | PTT遊戲區 的評價
- 關於gcp ptt 在 【PTT 大數據】從資料分析探討BOY-GIRL 版鄉民最頭痛的兩性 ... 的評價
- 關於gcp ptt 在 PTT 終於復活啦!普天同慶的同時,鄉民們回歸PTT 的第一件事 ... 的評價
- 關於gcp ptt 在 Google 職缺ptt - Soltermo 的評價
- 關於gcp ptt 在 【新手】 GCP香港無法建立主機,有人這樣嗎? - Cloud板 的評價
- 關於gcp ptt 在 油推薦ptt 2023 的評價
- 關於gcp ptt 在 2023 蔡宛庭 ptt - reklamciamca.online 的評價
- 關於gcp ptt 在 Gönderi ptt 2023 - bizideizlerlermi.online 的評價
- 關於gcp ptt 在 2023 Ptt emekli promosyonu veriyormu - geldikknk.online 的評價
- 關於gcp ptt 在 Scientific and Technical Aerospace Reports 的評價
- 關於gcp ptt 在 The Handbook of Cuffless Blood Pressure Monitoring: A ... 的評價
- 關於gcp ptt 在 Selected Water Resources Abstracts - 第 105 頁 - Google 圖書結果 的評價
gcp ptt 在 iKala Cloud Facebook 的最佳解答
【PTT 大數據】從資料分析探討 BOY-GIRL 版鄉民最頭痛的兩性問題
●完整文章:https://blog.gcp.expert/ptt-boy-girl-data-mining/
.
文字探勘 (Text Mining) 了解鄉民都在討論什麼?
『男友要我當佛系女友』、『男友與他的前女友?』、『喜歡的女生因為我的星座拒絕我』、『11 年應該結婚還是分開?』你曾經在感情上也有這些困惑想尋求討論與解答嗎?
批踢踢實業坊,簡稱批踢踢、PTT,是一個台灣電子布告欄 (BBS),提供線上討論社群空間。其中,Boy-Girl 兩性看版就是其中一個熱門討論兩性問題的空間,大家可以在版上尋求感情問題的解決方法,或單純抒發與另一半在相處上的心得。
身為資料分析師,利用現在正夯的大數據分析技術:文字探勘 (Text Mining) 的文字雲 (Word Cloud) 與關鍵字分析 (Keyword Extraction) 技術來解析鄉民發文的疑難雜症。
.
●完整文章:https://blog.gcp.expert/ptt-boy-girl-data-mining/
.
更多技術部落格:https://blog.gcp.expert/
了解GCP 專門家:https://gcp.expert/
#GCP #iKala #GCPexpert #文字雲 #大數據 #資料分析
gcp ptt 在 CloudMile 萬里雲 Facebook 的精選貼文
▌如果我們公司也像 PTT 硬碟當機怎麼辦?
30日晚 PTT 因硬碟損壞導致當機,造成停用至今。其實企業為了保護資料,都會購買備用硬碟將資料備份,但硬碟終有壽命期限,因為害怕資料遺失,企業都會撥出預算及搬移時間做定期更換,與其擔心不如讓 GCP 幫你解套 👇🏻👇🏻👇🏻
📌 GCP 可根據需求即時彈性擴充,無需擔心硬碟亮紅燈,更不怕硬碟浪費。
📌 GCP 在搬移資料時能夠維持企業正常營運,再也不用擔心當機發生,跟陣痛期說掰掰~
#googlecloudplatform #GCP #PTT #PTT當機
gcp ptt 在 作者Gcp 的總覽(PTT發文,留言,暱稱) - PTT網頁版 的推薦與評價
作者Gcp 的總覽(PTT發文,留言,暱稱). 發文數量: 4. 收到的『推』: 15 (30.6%). 收到的『→』: 34 (69.4%). 收到的『噓』: 0 (0.0%). 留言數量: 1060. ... <看更多>
gcp ptt 在 [詢問] GCP免費方案詢問- 看板Google - Mo PTT 鄉公所 的推薦與評價
一直使用到2月多,免費試用期到期,想說我是按照免費方案去建立雲端主機,應該不會產生額外費用,所以就直接升級帳戶結果前幾天按進帳單的選單進去 ... ... <看更多>
gcp ptt 在 [心得] PressPlay從AWS搬家到GCP一年的心得- 看板Soft_Job 的推薦與評價
這篇比較偏心得分享,沒有太多的技術細節。
Medium好讀版: https://tinyurl.com/yy8auqdy
PressPlay好讀版: https://www.pressplay.cc/link/82A2CAD5C4?oid=829D3F275F
PressPlay平台服務在2016年問世,一直放在AWS上,直到2018年中才搬遷至GCP上。
至今也一年了,讓我們回顧一下這幾年PressPlay的主機的成長過程吧。
# AWS時期
PressPlay草創初期資源有限人力有限,只有一台伺服器運行所有的服務,一台資料庫,
主機在東京AWS,CDN是用Cloudflare的CDN,服務也挺單純的,伺服器上只有網站服務,
然後用戶上傳圖片也放在這台主機上,裡還有一個跑定期扣款的Cron服務,
S3的用途是暫時放上傳的影片,為什麼是暫時呢?因為我們的影片是使用Vimeo服務,
所以我們上傳到S3只有一個功用,就是讓Vimeo可以抓影片,過了三天影片就會被刪掉。
配置圖大概是長這樣子:
最早期的AWS主機配置: https://tinyurl.com/yyfmglex
那時候每天大概幾千人造訪而已,機器都應付得來。
然後到了2017年3月情況就開始不一樣了。囧星人專案上線帶來一波流量,
然後我們在3月下旬作了第一次的改版,流量開始多起來了,
高峰期甚至到了一天兩萬多人進站。
2017–01–2017–03 GA數據: https://tinyurl.com/y6jnd5ym
我們在2018–01到2018–06搬家之前,平均每天進站人數大約在25,000至30,000人左右,
一台Server還蠻緊蹦的,最後決定搬家,搬到Google Cloud Platform(GCP)。
這是搬家前最終的伺服器配置。
AWS後期的主機配置: https://tinyurl.com/yx9tl8yl
# 為什麼要搬到GCP
或許有人會問「AWS用得好端端的幹嘛搬家呢?」我們選擇GCP的原因有幾個原因:
* 價格比AWS便宜
* 地點在台灣,速度快
* AWS介面很醜(我承認我是外貌協會)
公司草創時期資金沒有那麼多,選擇機器都是以省錢、高C/P值為目標。
PP的機器建在AWS的時候,CDN是Cloudflare,雖然我們買的是Pro方案(USD 20/月)
但連線的節點是在洛杉機。也就是說用戶要連線PressPlay的網站,
用戶的連線會先台灣出發,到達洛杉機Cloudflare的機房,
然後連線到東京AWS機房取資料,然後再經過洛杉機才回到台灣。
開個網站就要跑遍大半個地球,再加上PressPlay一開始網站還沒有優化連線數或
圖片size,所以以一個從來沒進入過PressPlay的人,從連線到完全跑出網站,
要90秒左右...
GCP的費用大約是AWS的六折左右,而且在AWS都沒有作HA(High Availability),
就算有也是人品HA。因此我們常常一爆量主機攤瘓了,光2018上半年就平均1–2月
就一起攤瘓事件。GCP的設定簡單,就連我對配置伺服器沒有很熟都可以輕鬆入門,
開啟CDN也是一個鍵就完成了,在人力和相關知識都缺乏的情況下,選擇GCP還蠻不錯的。
於是我們在2018年4月的時候,決定搬遷到GCP。
# 搬遷的困難
就是人!因為公司內部缺乏熟悉伺服器管理的人,於是我們就想找一個人來管理伺服器、
調整效能、管理辦公室網路和設備,然後進公司來的第一件事就是協助我們搬伺服器。
我們找到一位從業很久的資深工程師,他一進來看到我們公司的網路架構、伺服器架構
跟本是初學者等級,來了五天就跑了,說是不想從那麼基礎的東西做起。
那麼怎麼辦呢?只好我硬上了。雖然GCP操作簡單,但是有關Server調校、
資料庫調校這些我沒有什麼經驗,而且這一次要大調架構,我的要求:
* 讓我們可以撐住爆量的時刻,機器不要掛。
* 並加速網站的運行速度。
* 伺服器狀態的監控機制。
* 備援機制,不要伺服器倒一台就服務全死。
因為GCP比AWS便宜多了,所以機器比較能放心的開,為了未來PressPlay發展,
我們是以3年內不需要再次優化架構的前提之下去做規劃,原本一台網站主機
就可以打天下的配置,擴充成APP、Web各兩台,另外再把負責金流的服務獨立出來,
也是做成兩台,然後由Load Balancer來分配流量,就算APP死一台機器還有一台會
繼續服務,就算WEB全死,但APP還是可以用。
還好有在6月有一位資深的後端工程師加入,我和他經過一整個月的試驗、調整、搬遷,
上線前一天我召集了幾位工程師一起協助搬資料和測試,老闆還以來辦公室拿東西為藉口
送宵夜來,揪甘心~
終於在2018–06–29 正式上線了!!這是搬到GCP時的配置圖:
https://tinyurl.com/y6z53rxu
# 搬到GCP之後…?
2018–06–29上線早上八點,網站就炸了!!
原因是主機掛載Google Storage時的參數錯誤,讓所有資料夾和檔案清單必須讀完
才能正常服務,半夜搬家在測試時也是小貓兩三隻在測試所以沒什麼問題,
早上八點的尖峰時間一到,大量的人潮湧入PressPlay,I/O卡住,導致服務停擺。
那兩天我的睡眠時間只有三個小時,不過當一切都搞定且正常運行時,疲憊的感覺
全部冒出來了,於是我就伴隨著成就感一起入睡。
換到GCP後,PressPlay有變得比較好嗎?有的,當時我們還做個記錄:
1. 台灣地區網頁讀取速度之影響 6/30日(六) 比較6/2(六)
網頁讀取 時間從3.9秒,提昇至2.78 (台灣地區) ,提昇28.58%
https://tinyurl.com/y3lbuzbr
2. Ping值之影響從平均100ms提昇至10ms
https://tinyurl.com/y6spu8z6
3. 完成網站瀏覽取樣報告比較 6/29–6/30 對比上週 6/22–6/23
各式的載入、連線時間、回應時間都大大地的減少。
https://tinyurl.com/y5mnpfvx
搬完GCP後從此就高枕無憂了嗎?錯了,挑戰開始來了。
2018–08–23攻擊事件
當天晚上我們受到DDOS攻擊,我們抓到大約200多個國外IP向我們進行攻擊,
這些IP應該都是跳板。之後我們在兩個小時之內,把主機關掉、換IP,
然後建置fail2ban和nginx的防DDOS機制止血,隔天我們進行了檢討,
我們需要更明確的自動監測回報機制。
被攻擊的隔天PressPlay粉絲團所發的聲明:
https://tinyurl.com/y3wmyojk
於是我們就建置了監控主機的功能,只要CPU使用量超標,或是一段時間主機沒有回應,
都會跳出通知
PressPlay內部監控Channel:
https://tinyurl.com/yxtnnqaa
後續還有幾次攻擊事件,不過因為前一此的事件我們作了防護措施,所以只是跳跳通知,
然後隔天去看Log而已,用戶、工程師和老闆都睡了好覺。
2019–03–31阿滴英文愚人節活動爆衝
PressPlay的GA在2019年有個顯著的peak,就是阿滴英文愚人節活動,在我們沒有準備好
的情況之下,當天衝進快十萬人,大約是平常日的4倍量。我記得當天我還在家裡一面
吃鹹酥雞一面看動物朋友,然後就看到「救救PressPlay」頻道一直叫,然後老闆一直
在戳我,才發現這起事件。
還好架構有規劃好,整個活動順利的結束,Server沒有爆炸,可喜可賀。
https://tinyurl.com/y52eekx2
因為這次的虛驚,所以我們就立刻進行一個我很想要玩的東西:Auto Scaling。
10天後,也就是4月9日,Auto Scaling正式上線。之後我們更能高枕無憂地渡過
每一個動畫夜。
這個架構運行至今都沒什麼問題,下面這個是目前PressPlay的主機架構。
現今PressPlay主機架構:
https://tinyurl.com/y3nqcpdj
# PressPlay功能現在與未來
PressPlay目前產品功能是著重在數據開發和應用,今年招募兩位數據背景的RD,
開始著手進行訂閱者的行為,為創作者帶來新的收益和減少流失。
或許大家會注意到我們網站開始有推薦的版位了,首頁的訂閱專案排名也不是像以前
一樣單純用金額去排名,而是透過演算法算出綜合性的指標。
我相信創作者們想知道算法是怎麼算的,在這邊只能透露創作者越投入在經營專案、
訂閱者的互動越深就能得到更好的排名。
目前我們也在密謀一個對創作者更有實質幫助的功能,預計在八月會問世,
還有秘密策劃第三條產品線,也即將在九月和大家見面。
未來PressPlay工程部會持續地深化你所見到的一切,和我們在麥塊中的世界。
最後,歡迎按讚追蹤我們的FB粉專:https://www.facebook.com/PressPlayTech/
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.49.142 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1562948175.A.FB1.html
※ 編輯: UniFish (1.34.49.142 臺灣), 07/13/2019 00:23:26
真的!很好設定。
我們有用stackdriver,我們的自動監控的通知是利用stackdriver去作的
logging server我們是用來收集nginx的accesslog,還有類mixpanel的服務
不客氣
幫QQ
有點不太懂你的描述XD
GCP load balancer是指定連線進到哪一個VM群組,我們有專門服務APP的機器
iOS/Android用戶使用PressPlay APP會連到APP Server
就連裡頭的webview開網頁也都是由APP Server服務,完全地和Web切開
你沒看到文章封面的Logo嗎?XDD
是我們部門的員工福利(?)
GCP有一年300美金的試用金額,只要有Gmail都可以使用,
任何人都可以開來玩玩
現行Web & App Server是用2VCPU + 8G Ram + SSD
一台一個月大概40-50美金吧,同等級AWS要70-80美金
不過我有綁合約,一台合約價在30美金左右
我們沒有使用Docker,我們走的是效能置上路線。
不過GCP的Auto scaling需要一個範本,才能用這個範本去增開機器。
所以我們會開一台範本的主機,然後把Web & APP服務建在上面,作成範本映像檔,用它
來開機器。
這樣的概念也和Docker很像呢,只是沒有再包一層,這樣費用也比較便宜,效能也比較好
等到未來PressPlay成長到這種架構維護成本大到比使用Docker大之後,
我們再考慮使用Docker
是的,GCP比較便宜,而且重點是在台灣。
我們的服務目前是以台灣為主,它在台灣這個優點就很吸引人了
有用ab打一下,不過最近在想clone一組架構來測試,
但還沒有決定哪個時辰要來做
哈哈哈~我可以確定他不是菜鳥啦。
但在知道架構的前提之前答應了offer但又不想做,我也不知道究竟發生什麼事XD
GCP也有喔,超級便宜,不過目前還沒試過。
目前我們的web & app server突然被關掉重啟也不會影響服務,
看來蠻適合的,找個良辰吉時來試試看好了
是的,所以我們S3有挑便宜的地區,我進公司前就是放在AWS東京了
要搬乾脆索性搬到台灣,為了速度 & $$
真的,一生難有的機會
clodflare的proxy CDN是小型服務首選,而且CDN流量是吃到飽,而且防DDOS,
一個月20米金很佛!!哪家CDN可以如此的省錢啊!!
估算下來我們用aws CDN,都會超過100米金。對於草創初期,都是能省則省。
當時GCP的Cloud Armor還在beta,怕怕的不敢用,fail2ban擋著先
是GCE喔,GAE貴貴,而且不想綁在不好轉移的架構上。
萬一哪天有更棒的服務商出現了,綁太死移不走
偷說,20米金的方案節點在LA,然後我以為商務方案(200米金)會可以用台灣節點
直到我寫信去cloudflare問說台灣節點要用哪個方案。
他們回覆要用企業方案,一個月5,000米金!!夭壽啊!!!!
哈哈哈,細節我記不太得了。
基本上是我們另外一個後端工程師處理的。
來唷(招手
Ya~網上眾說紛云,我就直接寫信給Cloudflare問個清楚,
答案的確讓我倒抽口氣。不過十萬出頭也很夭壽。
現在我們每月主機全部加一加支出連一半都不到啊 XD
我們公司加班費和補休都是照實報照時給~
有時候工程師不好意思報太多還會被我退件說報太少。
伺服器搬家前天我們分成兩組:搬家組和維護組。
搬家組不用來上班,當晚九點集合。辦完後就早上五六點,然後回家睡覺,白天換維護組
接手。
搬家組就在家睡覺。因為我很討厭操勞的生活,所以我自然地會要求組員們不能操勞,該
休就休,改報加班就報加班。
哈哈哈,這個也很重要,我也很感謝公司能不畏懼財務的壓力,能讓我們找正常且符合人
性的方式工作。
也因為我們有好好的休息,許多創意或是複雜的東西,我們都有足夠精神來實現。
是啊 XD
... <看更多>