เรียน 4 skills หลัก Data Science ผ่านโปรเจคคูลๆ แบบไม่น่าเบื่อ สำหรับผู้เริ่มต้น

ในปัจจุบัน ต้องยอมรับแบบไม่มีเงื่อนไขว่าการวิเคราะห์ข้อมูล ได้กลายมาเป็นปัจจัยหลักของแทบทุกธุรกิจไปเรียบร้อยแล้ว หนึ่งในทักษะที่ถูกถามหากันมากที่สุดในการสมัครงานก็คือ ทักษะการวิเคราะห์ข้อมูลแบบ Data Scientist นั่นเอง ทำให้ผู้ที่มีความสามารถในด้านนี้ได้เปรียบกันไปเต็มๆ ข่าวดีก็คือ ทักษะนี้สามารถสร้างได้เองงโดยไม่ต้องกลับเข้าไปลงทะเบียนเข้าเรียนใหม่ค่ะ โดยเฉพาะอย่างยิ่ง ในยุคเทคโนโลยีข่าวสารแบบนี้ แหล่งเรียนรู้มีมากมายนับไม่ถ้วน เพียงแต่หาให้เจอ เลือกแหล่งเรียนรู้ที่เหมาะสมเท่านั้น

Photo by Joshua Mayo on Unsplash

บทความนี้ Algoaddict จึงขออาสาพาผู้อ่านที่สนใจเริ่มต้นหาความรู้เพื่อเพิ่มพูนทักษะด้านการวิเคราะห์ข้อมูลมาเรียน Skill หรือทักษะหลักๆ ที่จำเป็นสำหรับการทำงานด้าน Data Science ผ่านโปรเจคที่หลากหลายกันค่ะ รับรองว่า เรียนสนุก ไม่น่าเบื่อ จนลืมเวลาไปแน่นอนค่ะ

ไปดูกันเลยค่ะ ว่าทักษะเหล่านี้มีอะไรบ้าง และ โปรเจคไหนที่ได้รับเลือกมาในการเรียนทักษะนั้นๆ ค่ะ

SKILL 1 การเก็บรวบรวมข้อมูล (Data Collection)

Data collection หรือ การเก็บรวมรวมข้อมูล เป็นทักษะที่สำคัญอย่างหนึ่งของ Data Science ในช่วงการทำงาน หรือ ทำวิจัยด้าน AI / Machine Learning ที่ผ่านมาของผู้เขียน ปฏิเสธไม่ได้เลยว่า การเก็บรวมรวมข้อมูล (Data collection) และ การทำความสะอาด (Data cleaning) หรือ การจัดเตรียมข้อมูล (Data preparation) เป็นขั้นตอนที่สำคัญ และ ใช้เวลาไม่น้อยเลยทีเดียว เพราะถือเป็นขั้นตอนแรกเริ่มของความสำเร็จของโปรเจ็คของเรา ถ้าข้อมูลนำเข้าไม่มีประสิทธิภาพ โอกาสที่จะได้โมเดลที่มีประสิทธิภาพออกมาสำหรับงานนั้นก็ริบหรี่เต็มที

การเก็บรวมรวมข้อมูล จะต้องเริ่มตั้งแต่การทำความเข้าใจธุรกิจ เข้าใจความต้องการของธุรกิจ และ ผู้ที่เกี่ยวข้อง หลังจากทำความเข้าใจเกี่ยวกับธุรกิจแล้ว ก็มาถึงขั้นตอนสนุกๆ คือ “ตามล่าหาข้อมูล” กันค่ะ สมัยนี้ หนึ่งในวิธีการล่าข้อมูลที่นิยมกันก็คงไม่พ้นจากอินเตอร์เน็ต เนื่องจาก เข้าถึงได้ง่าย อยากได้อะไรก็เจอ ดังนั้น ทักษะการล่าข้อมูลจากเว็บไซต์จึงเป็นสิ่งที่จำเป็น

“Web Scraping” เป็นขั้นตอนที่ได้รับความนิยมเป็นอย่างสูงในการดึงข้อมูลจากหน้าเว็บไซต์ เนื่องจากเข้าใจง่าย ทำงานเร็ว

มาดูตัวอย่างโปรเจ็คง่ายๆ ที่จะมาช่วยเรียนรู้เกี่ยวกับการทำ Web Scraping ที่เราเลือกมากันดีกว่าค่ะ

Project 1: การทำ Web Scraping ข้อมูลรีวิวอหารจาก “เว็บไซต์ชื่อดัง Zomato”

โปรเจ็คแรกที่เลือกมานี้ เป็นโปรเจ็คสั้นๆ ที่สอนการดึงข้อมูลจากเว็บไซต์ (Web Scraping) โดยใช้ภาษา Python ผ่านไลบารี่ BeautifulSoup โดยตัวอย่างที่นำมาใช้คือ ดึงข้อมูลจากเว็บไซต์สั่งอาหารชื่อดังสัญชาติอินเดีย ที่ชื่อว่า Zomato.com

https://www.zomato.com/bangalore/top-restaurants


ตัวอย่างง่ายๆ ที่ใช้ในการสอนโปรเจ็คนี้คือ การดึงข้อมูลร้านอาหาร เข้ามาเก็บใน DataFrame ที่สร้างขึ้นใหม่ เป็นการทำงานอย่างง่ายๆ และรวดใหม่ เหมาะกับการเริ่มต้นใช้ Web Scraping เพื่อดูภาพรวมการทำงาน ส่วนข้อมูลที่ดึงมาได้ จะถูกนำมาใช้งานอย่างไร ก็ขึ้นอยู่กับความต้องการของแต่ละบุคคลต่อไปนั่นเองค่ะ

Skill 2 การสำรวจข้อมูลเบื้องต้น (Exploratory Data Analysis)

“Exploratory Data Analysis” หรือ EDA เป็นอีกหนึ่งงานที่จำเป็น และ กำลังได้รับความนิยมกันอย่างแพร่หลายอยู่ในขณะนี้ EDA คือ การสำรวจข้อมูลเพื่อทำความเข้าใจข้อมูลที่เรามีอยู่นั่นเอง EDA ไม่เพียงแต่เป็นขั้นตอนที่จำเป็นสำหรับ Data Science เท่านั้น ยังเป็นขั้นตอนที่จำเป็นมากๆ สำหรับผู้ที่ทำ Machine Learning อีกด้วย เนื่องจาก ในขั้นตอนการสร้างโมเดล Machine Learning นั้น จะต้องมีการสอนโมเดลที่ดี ซึ่งการสอนโมเดลที่มีประสิทธิภาพดีนั้นจะเกิดขึ้นไม่ได้เลยถ้าเรายังไม่มีความเข้าใจเกี่ยวกับข้อมูลที่ดีเพียงพอ (การโหลดข้อมูล และ โยนใส่ Machine Learning เพื่อทำนายทันที โดยไม่มีความเข้าใจ หรือไม่ผ่านการทำ EDA นั้น เป็นการฆ่าโมเดลของเราทางอ้อมตั้งแต่ยังไม่คลอดเลยทีเดียว)

มาดูโปรเจ็คที่เราเลือกมาให้ สำหรับผู้ที่สนใจศึกษาเกี่ยวกับ EDA กันดีกว่าค่ะ

Project 2 : การศึกษาปัจจัยเสี่ยงของโรคหัวใจ “The Framingham Heart Study”

โปรเจ็คนี้เป็นการพาไปดูการทำ EDA จากข้อมูลปัจจัยต่างๆ ที่มีผลกับการเกิดโรคหัวใจผ่านข้อมูลจากโครงการ Framinham Heart Study (FHS)

FHS ก่อตั้งขึ้นเพื่ออุทิศให้กับการจากไปของประธานาธิบดี Franklin D. Roosevelt ของสหรัฐอเมริกา ที่เสียชีวิตก่อนวัยอันควรเมื่อปี 1945 ประธานาธิบดี Franklin มีความดันโลหิตที่สูงมากๆ ที่ควรจะได้รับการรักษาอย่างต่อเนื่อง และ ให้ความสำคัญเป็นพิเศษ แต่น่าเสียดายที่ ณ เวลานั้น ไม่มีใครทราบเรื่องนี้มาก่อน

ก่อนท่านจะเข้ามารับตำแหน่งประธานาธิบดี ท่านมีความดันโลหิตอยู่ที่ 140/100mmHg ซึ่งถือว่าสูงเกินค่ามาตรฐานแล้วในปัจจุบัน และ หนึ่งปีก่อนท่านจะเสียชีวิตท่านมีความดันโลหิตที่วัดได้สูงถึง 210/120 mmHg ซึ่งถ้าในยุคปัจจุบันนี้ก็จะถือว่า เข้าขึ้นวิกฤตเลยทีเดียว แต่อย่างที่บอกค่ะ น่าเสียดาย ที่ไม่มีใครทราบถึงข้อนี้ในยุคนั้น แม้แต่แพทย์ส่วนตัวของท่าน ก็ไม่ใช่แพทย์โรคหัวใจ และ บอกเสมอว่าท่านมีสุขภาพที่แข็งแรงดี ค่าความดันโลหิตที่สูงนั้นเกิดจากอายุที่มากขึ้นเท่านั้น อเมริกาจึงต้องสูญเสียผู้นำที่ยิ่งใหญ่ไปก่อนวัยอันควรอย่างที่ทั่วโลกทราบกัน ในวันที่ท่านเสียชีวิตนั้น ความดันโลหิตพุ่งไปที่ 300/190 mmHg เลยทีเดียว

นี่ถือว่าเป็นจุดเริ่มต้นจุดหนึ่งของการให้ความสำคัญกับโรคหัวใจในสหรัฐอเมริกา เพียงไม่กี่ปีหลังจากการเสียชีวิตของท่านประธานาธิปดีโครงการศึกษาโรคหัวใจที่มีชื่อว่า “Framingham Heart Study (FHS)” จึงได้ถูกก่อตั้งขึ้น ขออนุญาติไม่ลงรายละเอียดของโครงการนี้นะคะ เพราะเดี๋ยวมันจะยาว คนเขียนยิ่งสนใจ เดี๋ยวเรื่องก็จะยิ่งยาวออกไปอีก (555+)

Photo by Robina Weermeijer on Unsplash

มาเข้าเรื่องของเรากันต่อดีกว่าค่ะ โปรเจ็คที่เราเลือกมาให้ในวันนี้ ได้ทำการนำข้อมูลปัจจัยต่างๆ ที่เกี่ยวข้องกับการทำนายโรคหัวใจ เช่น ระดับคลอเรสเตอรอล อายุ โรคเบาหวาน และ ประวัติครอบครัว มาวิเคราะห์ เพื่อทำนายการเป็นโรคหัวใจกัน

การวิเคราะห์มีมากมายหลายแง่มุม ถ้าได้ลองเข้าไปทำตาม ก็จะเห็นว่า จากการทำ EDA ทำให้ค้นพบข้อมูลที่ซ่อนอยู่ภายใต้ชุดข้อมูลชุดในหลายๆ เรื่องที่เราอาจจะคาดไม่ถึงออกมาค่ะ ก่อนเข้าไปดูบทความนี้ ผู้อ่านอาจจะลองตั้งคำถามในใจไว้คร่าวๆ ก็ได้ค่ะ ตัวอย่างเช่น

  • ผู้ป่วยโรคเบาหวานมีโอกาสมากน้อยแค่ไหนในการเป็นโรคหัวใจ?
  • ประชากรกลุ่มใดน่าจะมีโอกาสที่จะเป็นโรคหัวใจมาก หรือ น้อยกว่าปกติ?
  • การออกกำลังกายอย่างสม่ำเสมอช่วยลดโอกาสการเกิดโรคหัวใจได้จริงหรือ?
  • โรคหัวใจ มีโอกาสเกิดกับผู้ที่สูบบุหรี่มากกว่าผู้ที่ไม่สูบจริงหรือไม่?

คำถามเหล่านี้ เป็นคำถามที่เราอาจจะเคยได้ยินกันมาแล้ว แต่ยังไม่เคยมานั่งวิเคราะห์กันจริงๆ ผ่านข้อมูลจริงกัน โปรเจคนี้จะพาไปค้นหาความจริงจากข้อมูลผ่านโลกการทำ EDA กันค่ะ

Skill 3 การแสดงผลข้อมูล (Data Visualization)

ในการทำงานกับข้อมูลนั้น มีความเป็นไปได้สูงมากว่าว่าสุดท้ายแล้ว เราจะต้องมีนำผลสรุปที่ได้ไปรายงานผลให้กับผู้อื่น เช่น หัวหน้า เพื่อนร่วมงาน หรือ ลูกค้า เป็นต้น โดยเฉพาะอย่างยิ่งการรายงานผลให้กับลูกค้าซึ่งส่วนใหญ่มักจะไม่ได้มีความรู้เชิงลึกในการเทคนิคการวิเคราะห์ข้อมูล ยิ่งต้องระวัง และ ต้องวางแผนให้ดีว่าจะรายงานผลให้ลูกค้าเข้าใจได้ง่าย ชัดเจน และ น่าสนใจได้อย่างไร

ด้วยเหตุผลนี้เอง ในโลกยุคปัจจุบัน ทักษะการแสดงข้อมูลได้กลายมาเป็น “The must” หรือ ทักษะที่จำเป็นต้องมี สำหรับการสมัครงานกับหลายๆ บริษัทไปเรียบร้อยแล้ว

การนำเสนอข้อมูลนั้นสามารถทำได้หลากหลายวิธี ขึ้นอยู่กับผู้จัดทำว่าต้องการแสดงข้อมูลที่มีจุดเน้นอย่างไร วิธีหนึ่งที่เป็นที่นิยมกันมากก็คือ การแสดงผลในลักษณะกราฟ ทั้งที่เป็นในรูปแบบ Static (กราฟทั่วไป) และ Interactive (กราฟที่มีการตอบสนองต่อผู้ใช้ เช่น การแสดงค่าเมื่อนำเม้าส์ไปชี้ เป็นต้น)

มาดูโปรเจ็คที่เราเลือกมาให้เพื่อเรียนรู้เกี่ยวกับการแสดงผลที่น่าสนใจกันดีกว่าค่ะ

Project 3 การสร้าง Covid-19 Dashboard ด้วย Python

โปรเจคนี้น่าสนใจสุดๆ ไปเลยด้วยการแปลงร่างข้อมูล Covid-19 แบบตารางข้อมูลที่จืดชืด และ เข้าใจยากให้กลายเป็น Dashboard แสดงผลแบบ Interactive สุดล้ำ ทันสมัย เข้าใจได้ง่าย และ ครอบคลุมทุกข้อมูล สามารถใช้ติดตามความเคลื่อนไหวของสถานการณ์ Covid-19 แบบ Real time กันได้เลยทีเดียวค่ะ

ถือเป็นโปรเจคที่ควรค่าแห่งการตามไปเรียนมากๆ ค่ะ ลองคิดดูง่ายๆ นะคะ ว่ามันจะดูล้ำ และน่าสนใจแค่ไหน ถ้าเราสามารถพรีเซ้นต์สินค้าของเรา นอกจากกราฟทางสถิติทั่วไป เรายังสามารถให้ลูกค้าดูได้แบบ Interactive ลูกค้าสามารถเลือกดูข้อมูลสินค้าได้ด้วยตัวเองในหลากหลายรูปแบบ แถมยังสามารถดูข้อมูลตลาดแบบ Real Time ได้อีก โอกาสขายงานได้ก็อยู่แค่เอื้อม หรือ ถ้าเรามีโอกาสโชว์ทักษะเจ๋งๆ นี้ในการสมัครงาน แน่นอนว่าโอกาสได้งานของเราจะต้องเพิ่มขึ้นอย่างแน่นอนค่ะ

Cr. Anh Minh Nguyen

Skill 4 การเรียนรู้ของเครื่อง (Machine Learning)

ทักษะสุดท้ายที่ไม่พูดถึงไม่ได้เลย ก็คือ ทักษะการเรียนรู้ของเครื่อง (Machine Learning) นั่นเอง ทักษะนี้ไม่ต้องพูดมากให้เจ็บคอ ถือเป็น Showcase กันเลยทีเดียวของทุกสถานการณ์ค่ะ ถ้าเราสามารถโชว์ทักษะการวิเคราะห์ข้อมูลทีเหนือชั้น เช่น การทำนายข้อมูล การช่วยตัดสินใจ การจัดกลุ่มข้อมูล ถ้าเราทำได้ดี แน่นอนว่า ณ จุดนี้ ใครๆ ก็ต้องหันมาสนใจ มาดูกันดีกว่าว่า สำหรับทักษะนี้ เราเลือกโปรเจคไหนมาให้เรียนกันค่ะ

Project 4 เลือกร้านอาหารเด็ดๆ ผ่านการวิเคราะห์ข้อมูล Tweets

คืนนี้ทานอะไรกันดี? หรือ วันนี้กินไรดี? คงเป็นคำถามที่น้อยคนนักที่จะไม่เคยพูด! โปรเจคนี้จะพาเราไปพบกับโลกที่ เรื่องกินไม่ใช่เรื่องเล็กอีกต่อไป โดยการทำนายคะแนนของร้านอาหาร ผ่านข้อมูล Tweets ค่ะ

Photo by Ryan McGuire from StockSnap

โปรเจคนี้จะนำข้อมูลที่ได้มาจากแอพพลิเคชันสุดฮิตอย่าง twitter นำมาสกัดออกมาเป็นความรู้ หรือ คะแนนของร้านอาหาร เพื่อช่วยในการตัดสินใจให้กับเหล่านักชิมทั้งหลาย ว่าร้านอาหารนั้นๆ ควรค่าแก่การไปจัดหรือไม่

นอกจากใช้ Machine Learning เพื่อการทำนายคะแนนแล้ว บทความนี้ยังกล่าวถึง Sentiment Analysis โดยการวิเคราะห์คำต่างๆ ที่ถูกเขียนบน twitter ว่ามีความหมายในเชิงบวกหรือลบ ถือว่าเป็นการทำโปรเจ็คเดียว ได้ทดลองเรื่องสำคัญๆ ถึง 2 เรื่องเลยทีเดียว น่าสนใจมากๆ ค่ะ

ลองนึกดูง่ายๆ ว่า ถ้าเราไปสมัครงาน แล้วเจอคำถามที่ว่า เราจะรู้ได้อย่างไรว่าลูกค้าชอบสินค้าของเรา แทนที่เราจะตอบว่า ทำแบบสอบถาม หรือ แบบสำรวจ อะไรแบบนั้น เรากลับตอบว่า เดี๋ยวจะไปดึงข้อมูลจาก Social Media มาวิเคราะห์ เพื่อให้เข้าถึงลูกค้าได้กว้าง รวดเร็ว และ ได้ข้อมูลที่เที่ยงตรงกว่า …. จะดูดีกว่ามั้ย

Photo by Firmbee.com on Unsplash

จบกันไปแล้วนะคะ กับ 4 โปรเจคเด็ดๆ ที่ Algoaddict หยิบยกมาให้สำหรับผู้ที่สนใจจะเริ่มต้นศึกษา 4 ทักษะหลักๆ ในการวิเคราะห์ข้อมูลแบบมืออาชีพ หวังว่าจะเป็นประโยชน์แก่ผู้ที่สนใจ ไม่มากก็น้อยนะคะ ถ้าผู้อ่านท่านใด มีโอกาสไปทดลองทำแล้วชอบไม่ชอบอย่างไร คอมเม้นต์มาคุยกันได้เลยนะคะ ถ้าโปรเจคไหนได้รับความสนใจ ผู้อ่านเห็นว่ามีประโยชน์มาก เราจะนำรายละเอียดโปรเจคนั้นๆ มาเขียนเป็นบทความให้ค่ะ

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s