Jupyter notebook

by ilog.ai

Jupyter Notebook คือ เครื่องมือสำหรับ Data Science

หลังจากที่เราได้เรียนรู้ด้านทฤษฎีไปแล้วว่าการเรียนรู้ของคอมพิวเตอร์แบบ Linear Regression เป็นอย่างไร ในบทความนี้เราจะกล่าวถึงเครื่องมือที่เราจะใช้ในการจัดการข้อมูลและการทำ Machine Learning ที่เรียกว่า Jupyter Notebook โดยเราจะมาดูกันว่า 

  1. Jupyter Notebook คือ อะไร
  2. Library ที่สำคัญในการประมาณการข้อมูลของเรา 
  3. Python คือ อะไร เกี่ยวกับการทำ Machine Learning อย่างไร
  4. ขั้นตอนการติดตั้ง Jupyter Notebook 

อัพเดทเรื่อง Machine Learning ได้ก่อนใครที่นี้ !!

1. Jupyter Notebook คือ อะไร

Jupyter Notebook คือ เครื่องมือหนึ่งที่นิยมมากในกลุ่มคนที่ทำงานด้าน Data Science ซึ่งคนกลุ่มนี้ต้องทำงานที่เกี่ยวกับการจัดการข้อมูลเป็นจำนวนมาก แล้วยังต้องรายงานงานวิจัยที่ตนเองได้ทำขึ้นมา ซึ่งตัว Jupyter Notebook ก็ได้ออกแบบมาตรงตามจุดประสงค์การใช้งานไม่ว่าจะเป็น การเรียกใช้งาน library พร้อมทั้งเขียน code และดูผลได้เลย Jupyter Notebook นั้นถูกออกแบบมาให้ทำงานและอ่านได้ง่ายกว่าการที่เรา text editer รวมไปถึงเรายังสามารถที่จะพิมพ์ตัวหนังสือภาษาไทยลงไปได้เลย เหมือนเราพิมพ์รายงานใน Microsoft Word ได้เลยทีเดียว

2. Library ที่สำคัญในการประมาณการข้อมูลของเรา

ในที่นี้เราจะแนะนำ Library ที่สำคัญในการประมาณการข้อมูลของเรา ซึ่งประกอบไปด้วย

  • Numpy คือ library ที่เกี่ยวกับฟังก์ชั่นทางคณิตศาสตร์และการคำนวณต่างๆ โดยมันจะเข้าไปจัดการข้อมูลที่เป็นตารางแบบ array ได้ดี
  • Matplotlib เป็น library พื้นฐานในการสร้างกราฟจาก array พล็อตค่าแสดงความสัมพันธ์ของตัวแปร ซึ่งสามารถสร้างกราฟได้ทั้ง 2 มิติ , 3 มิติ, กราฟเส้นตรง, พาราโบลา และกราฟอื่นๆได้หลากหลาย แต่ทั้งนี้การที่มันจะทำงานได้ ต้องมีการใช้ควบคู่ไปกับ numpy 
  • Pandas เป็น library ที่สำคัญมากๆ การที่เราจะจัดการข้อมูลใดนั้น เราจำเป็นที่จะต้อง import ข้อมูลนั้นๆ และแสดงข้อมูล ซึ่งเราจะใช้คำสั่งจาก Pandas นี่แหละ Pandas สามารถอ่านไฟล์ได้เกือบทั้งหมดไม่ว่าจะเป็นแบบ CSV, TSV,Excel,Zip ,FWF เป็นต้น แต่….ยังไม่หมดแค่นั้น Pandas ยังมีคำสั่งที่จะช่วยเตรียมข้อมูลให้สมบูรณ์ก่อนที่จะนำไปคำนวณ เช่น คำสั่งเรื่อง date and time , การจัดเรียงข้อมูล, การทำ pivot table , การจัดการ missing value เป็นต้น
  • Seaborn หากใครที่ต้องการพล็อตกราฟให้สวยขึ้นไปอีก ต้องไม่พลาด library seaborn ตัวนี้ ที่พัฒนาขึ้นมาจาก Matplolib  
  • Scikit-learn (sklearn) เป็น library ที่สำคัญมากในการทำ Machine Learning  ซึ่ง Scikit-learn มี code ที่สามารถจัดการข้อมูลได้หลากหลายมาก ไม่ว่าจะเป็นการทำ Clustering , Classification , regression เป็นต้น ซึ่งในที่นี้เราจะให้คอมพิวเตอร์เรียนรู้แบบ linear regression

นี่เป็นแค่ส่วนหนึ่งเท่านั้น ยังมี library อื่นๆอีกมากที่สามารถ ทำ Data visualization ไม่ว่าจะเป็น statsmodels , Bokeh, Scipy เป็นต้น เพื่อนๆสามารถเลือกใช้ library ไหนก็ได้ ตามความถนัดและเหมาะสมกับข้อมูลของเราได้เลย

3. Python คืออะไร เกี่ยวกับการทำ Machine Learning อย่างไร

เนื่องจาก Library ทั้งหมดที่กล่าวมา ถูกเขียนขึ้นมาภายใต้ภาษา Python ดังนั้นเพื่อนๆจำเป็นที่จะต้องมีความรู้พื้นฐานเกี่ยวกับ Python ก่อน

Python คือ ภาษาหนึ่งที่ใช้ในการเขียนโปรแกรมคอมพิวเตอร์ คล้ายๆกับ ภาษา c , c++, Java หรือ Javascrip ซึ่งข้อดีของมันที่ทำให้มันเหมาะกับการเขียนคำสั่งให้คอมพิวเตอร์มีการเรียนรู้ตามที่เราต้องการคือ

  1. Python เป็นภาษาที่ถูกพัฒนาขึ้นมา เพื่อต้องการให้อ่านง่าย คำสั่งที่เขียนขึ้นมาก็ไม่ซับซ้อนเท่ากับภาษาอื่นๆ
  2. Python ถูกออกแบบให้สามารถทำงานได้ในทุกแพลตฟอร์ม ไม่ว่าจะเป็นใน Windows , Linux,macOS เป็นต้น
  3. Python เป็น open source ที่เราสามารถนำมาพัฒนาเป็นโปรแกรม หรือคำสั่งของเราเองได้ ดังนั้นจึงมีคนเข้ามาพัฒนาโปรแกรมต่างๆ โดยใช้ภาษา python นี้เป็นพื้นฐาน ทำให้มันมี Library ที่ถูกสร้างและพัฒนาขึ้นสำหรับการทำ  Machine Learning และการทำ Data Visualization มากมาย โดยเราสามารถที่จะเรียกใช้ Library นั้นๆได้ฟรี ไม่ว่าจะเป็น numpy ,pandas, sklearn หรือ matplotlib เป็นต้น

ดังนั้น Python จึงเป็น ภาษาที่นิยมใช้มากที่สุดในงานด้าน Machine Learning และการทำ Data Visualization โดยอ้างอิงจาก KDnuggets Analytics,Data Science,Machine Learning Software poll 2016-2018  ซึ่งเป็นการสำรวจโพลเกี่ยวกับเครื่องมือที่นิยมที่สุดในการทำงานด้าน Analytics,Data Science,Machine Learning 10 อันดับ จากผู้เข้าตอบแบบสำรวจทั้งหมด 2,052 คน

jupyter notebook คือ

จากภาพการเปรียบเทียบ 10 อันดับเครื่องมือที่ใช้ในการทำงานด้าน Analytics , Data science และ Machine Learning จะเห็นได้ว่า Python เป็นเครื่องมือที่ได้รับความนิยมสูงสุดโดยมีสัดส่วนการใช้มากถึง 65.6% ของเครื่องมือทั้งหมดที่ใช้งานด้าน Analytics,Data science และ Machine Learning ในปี 2018 

4. ขั้นตอนการติดตั้ง Jupyter Notebook 

เริ่มจากการติดตั้ง Anaconda ซึ่งเป็นที่นิยมมากในหมู่ Data science และการทำ Machine Learning เนื่องจากหากเราติดตั้งตัว Anacoda มันจะมี package ต่างๆมากกว่า 200 packages  สำคัญในการใช้ในการประมาณการข้อมูลติดตั้งมาให้ด้วย รวมไปถึงตัว Jupyter notebook ด้วย Anaconda นี้ถือเป็น Onestop-Service ได้เลยทีเดียว โดยการติดตั้งจะเริ่มจาก

  • เข้าไปที่เว็บไซต์ https://www.anaconda.com/ >>> จากนั้น click download ที่มุมบนด้านขวา
jupyter notebook คือ
  • จากนั้นเราจะเจอหน้านี้ ซึ่งจะบอกรายละเอียดเกี่ยวกับตัว Anaconda ซึ่งฝั่งขวามือนั้นจะเป็นตัวอย่าง package ที่เราจะได้เมื่อเราติดตั้งตัว Anaconda ซึ่งมีตัว Jupyter Notebook ที่เราต้องการอยู่ด้วย และยังมี numpy , pandas ,matplotlib ที่เราจำเป็นต้องใช้ในการทำการประมาณการต่อไป แต่จริงๆแล้วมันไม่ได้มีเท่านี้ โดยรวมแล้วมันมีมากกว่า 200 packages เราสามารถเข้าไปดูว่ามี package อะไรบ้างในลิ้งนี้เลย (https://docs.anaconda.com/anaconda/packages/py3.7_win-64/)
jupyter notebook คือ
  • ในหน้าเดียวกันนี้ ให้เลื่อนลงมข้างล่าง จะเจอ Version ที่เลือกให้เรา Install เราจำเป็นที่จะต้องเลือกรุ่นคอมพิวเตอร์ของเราก่อนว่าใช้ของอะไร ในที่นี้ผู้เขียนใช้ Windows ดังนั้นก็ click Windows >>>จากนั้นก็เลือกที่ python 3.7 version >>> เลือก 64-bit Graphical Installer (486) [ทั้งที่เราจะเลือกขนาดเท่าไร เราจำเป็นที่จะต้องไปเช็คที่ system information>> system type มันจะมีบอกข้อมูลขนาดที่เราควรติดตั้ง]
jupyter notebook คือ
  •  เมื่อ download เสร็จแล้ว >>>เราก็เข้าไปใน folder ที่เรา download ตัว Anacoda เก็บไว้>>> จากนั้นก็กด install 
jupyter notebook คือ
  • เมื่อ install เสร็จเรียบร้อยแล้ว >>> ให้ click ที่ค้นหาด้านล่างซ้ายมือ >>> พิมพ์ Anacoda Navigator เพื่อเปิดใช้งาน
jupyter notebook คือ
  • เมื่อเปิดเข้ามาแล้ว เราจะเจอ package ต่างๆ ซึ่งหนึ่งในนั้นคือ Jupyter Notebook ที่เราต้องการใช้งาน>>> click Launch เพื่อเปิดใช้งาน  Jupyter Notebook
jupyter notebook คือ
  • เมื่อเข้ามา เราจะเจอหน้านี้ก่อน ซึ่งมันจะมีการเชื่อมต่อกับ folder ในเครื่องของเรา เราสามารถบันทึกงานจาก Jupyter Notebook ไว้ใน folder ไหนก็ได้ >>> จากนั้นให้ click ตรง New >>> เลือก Python 3 เพื่อสร้างหน้า Notebook ใหม่ ในการทำงาน
jupyter notebook คือ
  • เราก็จะได้หน้า Notebook ใหม่ ที่พร้อมใช้งาน ในการที่เราจะประมาณการต่อไป
jupyter notebook คือ

มาถึงตรงนี้เพื่อนๆคงเข้าใจเกี่ยวกับ Jupyter Notebook บ้างแล้วในบทความต่อไป เราจะมาเริ่มต้นการทำ Data visualization และ Machine Learning โดยใช้ Jupyter Notebook กัน!!!

(เรื่อง Linear regression in Jupyter notebook 1)

อัพเดทเรื่อง Machine Learning ได้ก่อนใครที่นี้ !!