--課程已於 2019 年 9 月更新--
課程將從基礎開始,學習如何使用 Python 打開並處理文字與 PDF 檔案,以及如何使用正規表示式在文字檔中搜索自訂的模式。
然後從自然語言處理的基礎開始,利用 Python 的自然語言工具包程式庫( Natural Language Toolkit library ),以及最先進的 Spacy 程式庫,其可用於超快速標記( ultra fast tokenization )、解析( parsing )、實體識別( entity recognition )和文字的詞形還原( lemmatization )。
你將會理解一些基本的 NLP 概念,例如詞幹分析( stemming )、詞形還原( lemmatization ) 、停止的字彙( stop words )、片語比對( phrase matching )、標記化( tokenization )等等!
接下來將介紹詞性標註( Part-of-Speech tagging ),在這裏,Python 腳本將能夠自動將文字中的字彙分配給相應的詞類,比如名詞、動詞和形容詞,這是建構智慧語言系統的一個重要部分。
你還將學習命名實體識別( named entity recognition ),允許你的程式碼通過提供文字資訊來自動理解金錢、時間、公司、產品等概念。
通過這些最先進的視覺化程式庫,將能夠實時查看這些關係。
然後繼續瞭解機器學習與 Scikit-Learn 進行文字分類,如自動建立機器學習系統,可以辨識正面和負面的電影評論,或垃圾與合法的電子郵件訊息。
最後將把這些知識擴展到更複雜的非監督式學習做自然語言處理,比如主題建模( topic modeling ),課程中使用的機器學習模型將從原始文字檔案中檢測主題和主要概念。
本課程甚至涵蓋了一些高級主題,例如使用 NLTK 程式庫對文字進行情感分析( sentiment analysis ),以及使用 Word2Vec 演算法創建語義詞向量( semantic word vectors )。
包含在這個課程是一個完整的部分致力於最先進的高級主題,如使用深度學習建立自己的聊天機器人( chat bots )!
https://softnshare.com/nlp-natural-language-processing-python/
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...