[科普潮文] [大數據,小生物學家]
#metoo
#dxxkpic
用別人發布的細胞data跑了個Principle Component Analysis (PCA,主成份分析)。我應該告他們性騷擾我,告電腦騷擾我,還是告那些細胞性騷擾我?
The Era of Big Data,很大程度上幫助了生物學研究。我們有方法把想研究的器官,拆解成單細胞,再分析每個細胞的RNA成份,從而了解每個細胞在做甚麼,以及細胞之間的差異,有時會找到傳統方法找不到的細胞。
每個細胞都可以表達成千上萬的不同基因,如何找出它們的關係?應該比較哪一個基因?為了能比較多項變數,統計學家發明了PCA,將差異最大的變數,總結成不同的Components,只要觀察頭幾個Components,就能大致觀察個體之間的差異。舉個例,如果有一堆白人黑人混在一起,你就會用他們的膚色、瞳色、語言等差異較大的變數做Component ,把數據分辨出來,令數據變得可視(Data visualisation)。
對於更大型的Data,bioinformatician 會用機器學習(machine learning) 方式,找出如何比較數據才是最佳。最典型的就是t-Distributed Stochastic Neighbour Embedding (t-SNE),只要你輸入一堆Data,它就會幫你找不同與歸類,不單是生物學數據,甚至連google image的結果,都可以用t-SNE分類。生物學上,tSNE有助找出獨特的細胞,是這個J樣的PCA不能做到的。
頭盔:我只是會一點code的biologist,統計學知識不全,有錯請指正。
「pca t-sne」的推薦目錄:
- 關於pca t-sne 在 北歐心科學 NordicHearts Facebook 的精選貼文
- 關於pca t-sne 在 Are there cases where PCA is more suitable than t-SNE? 的評價
- 關於pca t-sne 在 Visualizing Iris Dataset using PCA and t-SNE - GitHub 的評價
- 關於pca t-sne 在 Measuring plots of data with PCA or t-SNE and Matplotlib 的評價
- 關於pca t-sne 在 Data visualization with t-SNE - Dmitry Kobak 的評價
pca t-sne 在 Visualizing Iris Dataset using PCA and t-SNE - GitHub 的推薦與評價
Some examples of using PCA and t-SNE for dimensionality reduction in Python and R - Examples-PCA-tSNE/Visualizing Iris Dataset using PCA and t-SNE.ipynb at ... ... <看更多>
pca t-sne 在 Are there cases where PCA is more suitable than t-SNE? 的推薦與評價
As an heuristic, you can keep in mind that PCA will preserve large distances between points, while tSNE will preserve points which are close to each other in ... ... <看更多>
相關內容