ทุกคนเคยสงสัยกันไหมว่า ?? ทำไมคอมพิวเตอร์ถึงเข้าใจภาษาที่เราพูดกันได้อยู่ทุกวันนี้ ทั้งที่ตอนเราเขียนโปรแกรม เรายังต้องใส่คำสั่งที่เป็นภาษาเครื่องอยู่เลย 😖
.
ซึ่งการที่คอมพิวเตอร์นั้นสามารถเข้าใจเราได้เพราะใช้ NLP ในการวิเคราะห์นั่นเอง !! 🖥️
.
และในวันนี้แอดได้มีเนื้อหาเกี่ยวกับ NLP เบื้องต้นมาแนะนำให้กับทุกคนได้รู้จักกัน จะมีเนื้อหาเป็นอย่างไรนั้น ไปดูกันเลยยย !!
.
🗣️ NLP ถ้าให้แปลเป็นไทยก็คือ การประมวลผลภาษาธรรมชาตินั่นเอง ซึ่งหลักการของเจ้าตัวนี้ก็ตามชื่อเลย คือการประมวลผลภาษาที่เราสื่อสารกัน ให้เป็นภาษาที่คอมพิวเตอร์สามารถเข้าใจได้ด้วย
.
ซึ่งหลักการทำงานทั่วไปของตัว NLP คือ
🔸 Tokenization
🔸 Parsing
🔸 Lemmatization/Stemming
🔸 Part-of-speech Tagging
🔸 Language Detection
🔸 Identification of Semantic Relationships
.
จากที่มอง ๆ ดูแล้ว คล้ายกับการที่ให้ครูสอนภาษาให้กับเราในตอนวัยเด็กเลย ไม่ว่าจะเป็น การแบ่งคำ รูปแบบประโยคต่าง ๆ อันไหน ประธาน กิริยา กรรม
.
👉 สรุปง่าย ๆ เลยก็คือ NLP จะทำหน้าที่ย่อยข้อความภาษาคน ลงเป็นส่วนเล็ก ๆ ที่ง่ายต่อการทำความเข้าใจของเครื่อง และค่อยนำมาวิเคราะห์หาความสัมพันธ์ระหว่างแต่ละส่วน แล้วนำมารวมกัน เพื่อตีความหมายนั่นเอง
.
ซึ่งประโยชน์การนำไปใช้งาน ก็มีอยู่มากมายเลยทีเดียว เพราะถ้าหากคอมพิวเตอร์สามารถเข้าใจถึงภาษาคนเราที่พูดคุยกันอยู่ทุกวันได้แล้ว การทำงานต่าง ๆ ในชีวิตก็จะง่ายขึ้นเป็นอย่างมาก
.
📑 ยกตัวอย่างเช่น การตรวจหาข้อมูลที่มีประโยชน์ในอีเมลหรือเอกสารรายงาน เพื่อตรวจจับปัญหาอาชญากรรม , การจัดกลุ่มเนื้อหาเป็นหมวดหมู่เอง, การจัดแบ่งประเภท Email เองว่าอันไหนเป็น สแปม
.
ซึ่งเนื้อหาเกี่ยวกับ Natural Language Processing นั้นยังมีอยู่อีกมากมาย นี่ยังคงเป็นแค่ส่วนหนึ่งเท่านั้นเอง
.
ซึ่งเจ้าตัว NLP ปัจจุบันนั้นมีตัว Library ให้เราสามารถนำไปใช้งานกันได้ด้วยนะ สำครับใครที่ไม่อยากเสียเวลาที่จะมานั่งคิดค้นเอง 😂 (ของเขามีก็ต้องเอามาใช้งานสิ) ในที่นี้จะยกตัวอย่าง Library ของ Python มาให้ทุกคนลองนำไปใช้งานกันดู
.
⚡ Natural Language Toolkit (NLTK) - เป็น Library ยอดฮิตที่คนนิยมใช้งานกันอยู่มาก ที่สำคัญเลยใช้งานกันได้ฟรี ๆ ใครที่อยากลองหัดทำ NLP ลองไปศึกษาเพิ่มเติมได้จากที่นี่เลย
https://www.nltk.org/
.
⚡ TextBlob - เป็นอีก 1 ตัวที่คนนิยมใช้กันอยู่ทั่วหลาย เหมาะกับคนที่หัดลองเล่นกับ NLP ใหม่ ๆ ใช้งานง่าย มีคู่มือสอนอยุ่มากมาย หากใครสนใจสามารถอ่านรายละเอียดต่อได้ที่นี่เลย
https://textblob.readthedocs.io/en/dev/
.
⚡ CoreNLP - เป็น Library ที่ถูกพัฒนาจาก Stanford University สามารถรองรับได้หลายภาษาเลย รวมถึง Python ด้วยเช่นกัน สามารถใช้งานได้ง่าย และอีกทั้งรวดเร็วอีกด้วย หากใครสนใจสามารถอ่านรายละเอียดเพิ่มเติ่มได้ที่นี่เลย
https://stanfordnlp.github.io/CoreNLP/
.
หวังว่าจะเป็นประโยชน์กับเพื่อน ๆ น้าาาา หากชอบอย่าลืมกดไลก์ กดแชร์ ให้กับพวกเราด้วย 🥰
.
borntoDev - 🦖 สร้างการเรียนรู้ที่ดีสำหรับสายไอทีในทุกวัน
#NPL #NaturalLanguageProcessing #BorntoDev
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...
「tokenization python」的推薦目錄:
- 關於tokenization python 在 BorntoDev Facebook 的最佳貼文
- 關於tokenization python 在 軟體開發學習資訊分享 Facebook 的精選貼文
- 關於tokenization python 在 コバにゃんチャンネル Youtube 的最讚貼文
- 關於tokenization python 在 大象中醫 Youtube 的精選貼文
- 關於tokenization python 在 大象中醫 Youtube 的最佳解答
- 關於tokenization python 在 Text Tokenization — ENC2045 Computational Linguistics 的評價
- 關於tokenization python 在 mideind/Tokenizer: A tokenizer for Icelandic text - GitHub 的評價
- 關於tokenization python 在 Tokenize words in a list of sentences Python - Stack Overflow 的評價
- 關於tokenization python 在 Regular expressions and word tokenization - Colaboratory 的評價
- 關於tokenization python 在 Tokenization of data in dataframe in python 的評價
tokenization python 在 軟體開發學習資訊分享 Facebook 的精選貼文
--課程已於 2019 年 9 月更新--
課程將從基礎開始,學習如何使用 Python 打開並處理文字與 PDF 檔案,以及如何使用正規表示式在文字檔中搜索自訂的模式。
然後從自然語言處理的基礎開始,利用 Python 的自然語言工具包程式庫( Natural Language Toolkit library ),以及最先進的 Spacy 程式庫,其可用於超快速標記( ultra fast tokenization )、解析( parsing )、實體識別( entity recognition )和文字的詞形還原( lemmatization )。
你將會理解一些基本的 NLP 概念,例如詞幹分析( stemming )、詞形還原( lemmatization ) 、停止的字彙( stop words )、片語比對( phrase matching )、標記化( tokenization )等等!
接下來將介紹詞性標註( Part-of-Speech tagging ),在這裏,Python 腳本將能夠自動將文字中的字彙分配給相應的詞類,比如名詞、動詞和形容詞,這是建構智慧語言系統的一個重要部分。
你還將學習命名實體識別( named entity recognition ),允許你的程式碼通過提供文字資訊來自動理解金錢、時間、公司、產品等概念。
通過這些最先進的視覺化程式庫,將能夠實時查看這些關係。
然後繼續瞭解機器學習與 Scikit-Learn 進行文字分類,如自動建立機器學習系統,可以辨識正面和負面的電影評論,或垃圾與合法的電子郵件訊息。
最後將把這些知識擴展到更複雜的非監督式學習做自然語言處理,比如主題建模( topic modeling ),課程中使用的機器學習模型將從原始文字檔案中檢測主題和主要概念。
本課程甚至涵蓋了一些高級主題,例如使用 NLTK 程式庫對文字進行情感分析( sentiment analysis ),以及使用 Word2Vec 演算法創建語義詞向量( semantic word vectors )。
包含在這個課程是一個完整的部分致力於最先進的高級主題,如使用深度學習建立自己的聊天機器人( chat bots )!
https://softnshare.com/nlp-natural-language-processing-python/
tokenization python 在 コバにゃんチャンネル Youtube 的最讚貼文
tokenization python 在 大象中醫 Youtube 的精選貼文
tokenization python 在 大象中醫 Youtube 的最佳解答
tokenization python 在 mideind/Tokenizer: A tokenizer for Icelandic text - GitHub 的推薦與評價
Tokenizer is a compact pure-Python (>= 3.6) executable program and module for tokenizing Icelandic text. It converts input text to streams of tokens, where each ... ... <看更多>
tokenization python 在 Tokenize words in a list of sentences Python - Stack Overflow 的推薦與評價
... <看更多>
tokenization python 在 Text Tokenization — ENC2045 Computational Linguistics 的推薦與評價
These smaller linguistic units are usually easier to deal with computationally and semantically. Sentence Tokenization¶. from nltk.tokenize import sent_tokenize ... <看更多>