สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado {Part 3: Machine Learning}

บทความนี้เป็นบทความที่ 3 ในบทความชุด “สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado” ก่อนที่จะเริมบทความความนี้ ขออนุญาติรวบรวมลิงก์บทความทั้งชุดนี้ให้ก่อนนะคะ เผื่อใครยังไม่ได้อ่าน 2 บทความแรก จะได้ไปติดตามได้ เนื่องจากบทความทั้ง 3 เป็นบทความที่ต่อเนื่องกัน จึงแนะนำให้อ่านเรียงตามลำดับ ดังนี้ 1. สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado {Part 1: Descriptive Analysis} 2. สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado {Part 2:…

ไขข้อข้องใจ “ChatGPT” เก่งขนาดนั้นจริงหรือ?

Q: “ChatGPT คือจุดเริ่มต้นของจุดจบ! โลกยังไม่พร้อมกับมัน! มันจะแย่งงานเรา! มันจะเขียนโค้ดแทนเรา! มันจะมาแทน StackOverflowหรือไม่ในการช่วยเราตอบคำถามเรื่องการเขียนโค้ด? ช่วยเราเขียนโค้ดลงทุนเก่งกว่าเราแล้ว?” A : ไม่!!! ChatGPT ไม่ใช่จุดเริ่มต้นของจุดจบอะไรทั้งนั้น เหมือนกับที่ Alpha Go ไม่ใช่ จุดเริ่มต้นของ Reinforcement Learning ฉันใด ChatGPT ก็ไม่ใช่จุดเริ่มต้นของ NLP ฉันนั้น หากแต่เป็นโมเดลต่อยอดขนาดใหญ่(GPT3)ที่น่าสนใจทั้งฉลาดมาก แต่ในขณะเดียวกันก็สามารถทำตัวโง่อวดฉลาดมากในเวลาเดียวกันเช่นครับ ถ้า ChatGPT เป็นคนซักคนหนึ่ง จินตนาการว่าเค้าจะเหมือนอะไร? ลองนึกถึงคนซักคน ที่พยายามทำตัวเป็นพหูสูตรเก่งไปทุกเรื่องซึ่งบางเรื่องก็เก่งจริง บางเรื่องไม่รู้ก็มั่วออกมาเละเทะ และสามารถพูดเรื่องที่ตัวไม่มีความเข้าใจจริงๆ ออกมาได้อย่างมั่นใจ ดูดีมีความรู้ จนใครๆต่างพากันหลงเชื่อดูซักคนครับ ผมไม่ได้มาแซะใครนะ แต่คนๆนั้นมันคือ ChatGPT เนี่ยแหละครับ ฮา ภาษาชาวบ้าน ก็คือ … “ChatGPT มันก็เหมือนคนอ่านหนังสือเล่มใหญ่ๆมา จากนั้นฟังเราถาม พยายามแปลคำถามเราเป็นภาษาตัวเอง ละก็ตอบจากหนังสือที่เค้าอ่านมาครับ“ ตั้งแต่ ChatGPT เปิดตัวออกมาเมื่อไม่นานมานี้…

สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado {Part 2: EDA}

บทความนี้เป็นบทความที่ 2 ของบทความชุด “สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้นถึงการสร้างโมเดล Machine Learning ผ่านข้อมูลการซื้อขายผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado” เนื่องจากบทความชุดนี้เป็นบทความที่มีเนื้อหาต่อเนื่องกัน! ดังนั้น เพื่อให้เกิดความเข้าใจ และเป็นประโยชน์สูงสุด ขอแนะนำให้ผู้อ่านเริ่มจากบทความแรกก่อน โดยสามาถอ่านได้ที่ลิงก์ด้านล่างค่ะ บทความที่ 1 อ่านบทความแรกกันไปแล้ว ก็พร้อมแล้วสำหรับเนื้อหาของบทความที่ 2 นี้ ไปเริ่มกันเลยค่ะ อะไรคือ EDA EDA หรือ Exploratory Data Analysis คือ กระบวนการสำรวจข้อมูลเบื้องต้นที่จำเป็น ก่อนที่จะเริ่มการวิเคราะห์ข้อมูลในเชิงลึกแบบอื่นๆ เช่น การทำนายข้อมูล (Predictive) การทำ EDA จะทำการสำรวจข้อมูลในหลายๆ แง่มุม ทั้งในรูปแบบการสำรวจโดยแยกเป็นแต่ละประเภทของข้อมูล และ นำไปสู่การสำรวจความสัมพันธ์ระหว่างตัวแปรที่เกี่ยวข้องในข้อมูลนั้นๆ โดยประโยชน์ของ EDA คือ การมีความเข้าใจข้อมูล และความสำพันธ์ของตัวแปรที่เกี่ยวข้องมากขึ้น หรือ เรียกว่าการหา Insights ของข้อมูล นั่นเอง การทำ EDA…

สอนวิเคราะห์ข้อมูล [ฉบับจับมือทำ] ตั้งแต่เบื้องต้น ถึงการสร้างโมเดล Machine Learning ผ่านข้อมูล การ ซื้อ-ขาย ผลไม้เพื่อสุขภาพยอดฮิตอย่าง Avocado {Part 1: Descriptive Analysis}

อะโวคาโด้ (Avocado) เป็นผลไม้เพื่อสุขภาพที่กำลังได้รับความนิยมเป็นอย่างมาก ทานก็อร่อย เอาข้อมูลมาวิเคราะห์ก็สนุก 🙂 จากการที่เป็นหนึ่งในผลไม้ยอดฮิต ที่มีราคาสูงเป็นอันดับต้นๆ จึงมีการเก็บข้อมูลผลผลิต ข้อมูลราคา และการซื้อขาย อย่างแพร่หลาย เพื่อให้ได้ประโยชน์จากการค้าอะโวคาโด้มากที่สุด เราจึงจับเอาข้อมูลราคา และการซื้อขายเจ้าอะโวคาโด้มาเป็นตัวแทน เพื่อสอนการวิเคราะห์ข้อมูลตั้งแต่เบื้องต้น ไปจนถึงสามารถสร้างโมเดลเพื่อทำนายข้อมูลด้วย Machine Learning ได้ เนื่องจากการวิเคราะห์ข้อมูลมีรายละเอียดค่อนข้างมาก จึงจัดแบ่งหัวข้อ และ บทความออกเป็นส่วนๆ ดังนี้ Part 1: การอ่านข้อมูล ทำความสะอาดเบื้องต้น และการวิเคราะห์ข้อมูลเชิงบรรยาย (Descriptive Analysis) Part 2: การวิเคราะห์ข้อมูลเพื่อสำรวจข้อมูลในเชิงความสัมพันธ์ EDA (Exploratory data analysis) เพื่อค้นหาลักษณะเฉพาะของข้อมูล และทดสอบสมมุติฐานเบื้องต้น Part 3: การวิเคราะห์ข้อมูลเชิงลึก และการสร้างโมเดลในการทำนายข้อมูลด้วย Machine Learning มาเริ่มกันเลยดีกว่าค่ะ 1. โหลด Library ที่จำเป็น General libraries ไลบรารี่พื้นฐานต่างๆ…

ยาวไป ไม่อ่าน! มาใช้ “Transformer Model” ย่อข่าวสารการลงทุนให้เรากันดีกว่า

ในยุคของข้อมูลข่าวสารที่กว้างใหญ่และมีการเชื่อมต่อกันมากมายขนาดนี้ สิ่งที่เราหลีกหนีไม่ได้เลยก็คือ “ข้อมูลท่วม” ครับ ไม่ว่าเราอยากจะศึกษาอะไรซักอย่างหนึง เราไปหาในกูเกิลก็จะเห็นว่า ผลการค้นหามันเยอะเหลือเกิน เช่น ถ้าเราอยากจะตามดราม่าในทวิตเตอร์ มันก็เยอะเหลือเกิน เราอยากจะประเมินข่าวเกี่ยวกับบริษัทที่เราสนใจ ข่าวมันก็ท่วมหัว สุดวิสัยที่เราจะมานั่งอ่านมันให้หมดได้จริงๆ สุดท้ายข้อมูลที่เราอุส่าไปค้นหามารวมกัน ก็มากองทับกับเป็น “กองดอง” อันเป็นที่รู้กันของคนชอบอ่านหนังสือ มันจะดีกว่าไหม ถ้าเราสามารถตัดสินใจได้ว่า อะไรกันแน่ที่สำคัญต่อเราจริงๆ ทำให้ข้อมูลมันสั้นๆ กระชับ แต่ได้ใจความ เพื่อให้เราได้นำไปใช้ตัดสินใจในเรื่องที่เราสนใจต่อไป วันนี้เราเลยอยากแนะนำโมเดล Deep Learning Model ตัวหนึงที่ใช้ Mechanic ของ “Self-Attention model” มาช่วยเราสรุปย่อข้อความที่มันสำคัญจริงๆกันครับ Import Library ที่จำเป็นตัวใหม่ที่เพิ่มขึ้นมาคือ transformers ซึ่งเป็นโมเดล attention model ซึ่งเป็น deep learning model ที่ใช้งานได้ดีในข้อมูลภาษา ดึงข้อมูล GE_news.csv ซึ่งเป็นข้อมูลรวมข่าวของบริษัท General Electric: GE จำนวน 335 ข่าว…

รายละเอียดคอร์ส AI for Investment: from AI to Fundamental Investing

คอร์สนี้เป็นคอร์ส “ประยุกต์ใช้ศาสตร์ Artificial Intelligence ในการลงทุน” ภายในคอร์ส เราจะเขียนโปรแกรมที่สามารถ “เลือกหุ้น” ที่จะลงทุนในระยาว ตั้งแต่ 1 ปีขึ้นไป โดยการใช้เทคนิค Machine learning เพื่อคัดแยกหุ้นที่น่าลงทุนมาให้เรา เป้าหมายของคอร์ส สร้างโปรเจคเพื่อ“คัดแยกหุ้นที่น่าสนใจด้วย Machine Learning” เราจะพาทุกท่านมาสร้าง ตะแกรงร่อนหุ้น เพื่อเฟ้นหาหุ้นที่น่าสนใจท่ามกลางหุ้นนับพันตัว!!! รายละเอียดหัวข้อต่างๆ ที่เราจะได้เรียนรู้จากการเรียนคอร์สนี้ เรียนรู้วิธีการหาข้อมูลหุ้น ข้อมูลงบการเงิน ประเภทข้อมูล ข้อมูลสูงระดับล้านแถว เรียนรู้วิธีการจัดการข้อมูลงบการเงิน และการสร้าง Financial Feature ที่ส่งผลต่อการทำนายด้วย โมเดล Machine Learning การทำความสะอาดข้อมูล (Data Cleaning) เพื่อเตรียมพร้อมสำหรับการสร้างโมเดล AI ความรู้เบื้องต้นเกี่ยวกับ Machine Learning เช่น การแบ่งข้อมูล Train-Test Set ปัญหา Overfittingการหาจุดสมดุลของโมเดล (Bias Variance Tradeoff) Machine…

โมเดลไหนเหมาะกับการลงทุนที่สุด? ต้องใช้โมเดลที่ซับซ้อนขนาดไหนถึงจะมีประสิทธิภาพเพียงพอ? โมเดลยิ่งยากยิ่งดีจริงหรือไม่?

พักหลังมานี้ผมได้รับคำถามหลังไมค์มาค่อนข้างบ่อย ว่าโมเดลไหนกันแน่ที่ลงทุนได้ผลดีที่สุด ผมจะสอนถึงไป deep learning หรือเปล่า คำตอบคือทำแน่ครับ แต่มันเป็นควรจะแยกไว้ต่างหากอีกเรื่องหนึงเลย แต่เอาเถอะ มาที่คำถามกันว่าโมเดลไหนดีที่สุดกันก่อน ในความคิดของผมอันที่จริง ปัญหานี้นับเป็นปัญหาของมือใหม่อย่างหนึ่งครับ คือความคิดที่เป็น myth ที่ว่า machine learning model ยิ่งลึกซึ้ง ยิ่งซับซ้อนมากๆ จะยิ่งดี ความคิดที่ว่า โมเดลพื้นฐานอย่าง linear หรือ logistic regression เป็นโมเดลที่แย่ เพราะง่ายเกินไป! ถ้าเพิ่มความละเอียดไปเป็น support vector machine มันก็จะยิ่งได้ผลลัพธ์ที่ดียิ่งขึ้น หรือ เพิ่มรายละเอียดไปถึงโมเดลที่ลึกซึ่งมากขึ้นอย่างโมเดลที่โด่งดังในช่วง 4 -5 ปีมานี้่อย่าง neural network deep learning ก็จะยิ่งดีขึ้นไปอีก โมเดลยิ่งซับซ้อนยิ่งดีจริงหรือเปล่า? คำตอบของผมคือ ไม่ครับ ไม่จริงซะทีเดียว ML หลายๆโมเดลมันก็เป็นแค่การแก้ปัญหาเชิง geometric เท่านั้น แล้วโมเดลไหนเหมาะกับปัญหาของเราทีสุด? คำตอบสั้นๆ ก็คือ…

8 เทคนิคง่ายๆ ป้องกัน Overfitting เพื่อโมเดล Machine Learning ที่มีประสิทธิภาพ

บทความที่แล้ว เราได้คุยกันถึงเรื่อง Overfitting ของโมเดล Machine Learning (ML) และ ความสำคัญระดับสุดยอดของมันกันไปแล้ว วันนี้เราจะมาคุยกันถึงเรื่องวิธีการป้องกันการเกิด Overfitting อย่างง่ายๆ กันค่ะ ขอให้ผู้อ่านใส่ใจในเรื่องนี้ให้มาก ท่องไว้เลยค่ะ โมเดล ML ไม่ว่าจะเป็นโมเดลพื้นฐาน หรือ โมเดลระดับที่มีความซับซ้อนสูง ถ้าเกิด Overfitting ขึ้นแล้วก็พังไม่เป็นท่าได้เหมือนกันค่ะ แถมเป็นการพังพินาศแบบที่ผู้สร้างไม่ทันตั้งตัวด้วย เกริ่นนำกันไปพอสมควรแล้ว เรามาดูกันดีกว่า ว่าวิธีการง่ายๆ ที่สามารถนำมาใช้ในการป้องกันปัญหาการ Overfitting นี้มีอะไรบ้าง แต่ก่อนอื่น ถ้าผู้อ่านท่านใด ยังไม่แน่ใจว่า Overfitting คืออะไร และ เกิดขึ้นได้อย่างไร สามารถกลับไปอ่านบทความก่อนหน้าที่เราเขียนไว้ก่อนได้ที่ Overfitting vs. Underfitting อธิบายด้วยตัวอย่าง ฉบับเข้าใจง่ายที่สุดในโลก 1. Hold Out วิธีการแรกในการป้องกันการเกิด Overfitting วิธีแรกเลยก็คือ การแบ่งข้อมูลออกเป็น ชุดข้อมูลสอน (Train set) และ ชุดข้อมูลทดสอบ…

Machine Learning สร้าง Color Codes ทำเองได้ ง่ายนิดเดียว ไม่เกิน 10 นาทีเสร็จ [แจกโค้ด]

เคยเห็นโพส Color Codes เจ๋งๆ บน Social Media กันมั้ยคะ? วันนี้ Algoaddict ชวนมาลองสร้าง Color Code กันเองแบบง่ายๆ ด้วยการประยุกต์ใช้ Machine Learning ที่ชื่อว่า K-mean Clustering เข้ามาช่วยในการวิเคราะห์ค่าสี ต้องลองทำแล้วจะรู้ว่า ง่ายมากๆ ไม่เกิน 10 นาที ได้ Color Codes ให้รูปสวยๆ ของเรา แน่นอนค่ะ สาย Social Media, Graphic Designers และ Web designers ห้ามพลาด! Idea เราจะมาตรวจจับค่าสีในรูปภาพที่ต้องการ และทำการคำนวณนำ้หนักของค่าสีแต่ละค่าที่ประกอบขึ้นเป็นรูปภาพนั้นๆ สุดท้ายเราจะนำข้อมูลเหล่านี้มาสร้าง Color Codes สวยๆ กันค่ะ โปรแกรมนี้เป็นโปรแกรมที่ ง่าย สะดวก และทำได้รวดเร็ว แถมยังถือเป็นโอกาสเรียนรู้การประยุกต์ใช้งาน K-mean…

เรียน 4 skills หลัก Data Science ผ่านโปรเจคคูลๆ แบบไม่น่าเบื่อ สำหรับผู้เริ่มต้น

ในปัจจุบัน ต้องยอมรับแบบไม่มีเงื่อนไขว่าการวิเคราะห์ข้อมูล ได้กลายมาเป็นปัจจัยหลักของแทบทุกธุรกิจไปเรียบร้อยแล้ว หนึ่งในทักษะที่ถูกถามหากันมากที่สุดในการสมัครงานก็คือ ทักษะการวิเคราะห์ข้อมูลแบบ Data Scientist นั่นเอง ทำให้ผู้ที่มีความสามารถในด้านนี้ได้เปรียบกันไปเต็มๆ ข่าวดีก็คือ ทักษะนี้สามารถสร้างได้เองงโดยไม่ต้องกลับเข้าไปลงทะเบียนเข้าเรียนใหม่ค่ะ โดยเฉพาะอย่างยิ่ง ในยุคเทคโนโลยีข่าวสารแบบนี้ แหล่งเรียนรู้มีมากมายนับไม่ถ้วน เพียงแต่หาให้เจอ เลือกแหล่งเรียนรู้ที่เหมาะสมเท่านั้น บทความนี้ Algoaddict จึงขออาสาพาผู้อ่านที่สนใจเริ่มต้นหาความรู้เพื่อเพิ่มพูนทักษะด้านการวิเคราะห์ข้อมูลมาเรียน Skill หรือทักษะหลักๆ ที่จำเป็นสำหรับการทำงานด้าน Data Science ผ่านโปรเจคที่หลากหลายกันค่ะ รับรองว่า เรียนสนุก ไม่น่าเบื่อ จนลืมเวลาไปแน่นอนค่ะ ไปดูกันเลยค่ะ ว่าทักษะเหล่านี้มีอะไรบ้าง และ โปรเจคไหนที่ได้รับเลือกมาในการเรียนทักษะนั้นๆ ค่ะ SKILL 1 การเก็บรวบรวมข้อมูล (Data Collection) Data collection หรือ การเก็บรวมรวมข้อมูล เป็นทักษะที่สำคัญอย่างหนึ่งของ Data Science ในช่วงการทำงาน หรือ ทำวิจัยด้าน AI / Machine Learning ที่ผ่านมาของผู้เขียน ปฏิเสธไม่ได้เลยว่า…

Startup แบบไหนที่ได้ไปต่อ! ทดสอบด้วย Machine Learning

ปัจจุบันมี Startup ใหม่ๆ เกิดขึ้นทุกวันพร้อมกับไฟแห่งความหวัง แต่ใครจะรู้ว่ามี Startup ไม่น้อยที่ไฟนั้นต้องมอดไปก่อนเวลาอันควร ไม่สามารถไปให้ถึงฝั่งฝันได้ วันนี้เราจะมาดูกันค่ะ ว่าจะมีทางไหนบ้างมั้ยที่เราจะสามารถใช้ Machine Learning เข้ามาทำนายความสำเร็จหรือความอยู่รอดของ Startup หน้าใหม่ได้ ก่อนอื่นเรามาดูแหล่งข้อมูลที่เราจะนำมาใช้กันก่อนค่ะ ข้อมูลที่เราจะนำมาใช้นี้เป็นข้อมูลฟรีจากเว็บไซต์ https://angel.co/companies ซึ่งเป็นเว็บไซต์ที่ใช้ข้อมูลต่างๆ เกี่ยวกับบริษัท Startup ในหลายๆ Sectors ณ วันที่เขียนบทความนี้ (13/5/2020) ในเว็บไซต์นี้มีข้อมูลบริษัทอยู่ถึง 556,000+ บริษัทเลยทีเดียว โดยเว็บไซต์จะให้ข้อมูลรายละเอียดต่างๆ ที่จำเป็นเกี่ยวกับบริษัทในฐานะของ Startup เช่น ชื่อบริษัท วันที่เข้าร่วมในเว็บไซต์ ตำแหน่งที่ตั้ง ประเภทธุรกิน ขนาดบริษัท สถานะ และ จำนวนเงินที่บริษัทระดมทุนถึง ณ ปัจจุบัน เนื่องจากมีจำนวน Startup อยู่เป็นจำนวนมาก เราจึงจะทำการสุ่ม Startup ออกมาใช้ในการวิเคราะห์ข้อมูลเพียงบางส่วนเท่านั้น ก่อนที่จะเริ่มต้นการวิเคราะห์ข้อมูลกัน จะขอกล่าวถึงสถานะของบริษัทกันซักเล็กน้อยก่อน เพื่อให้เข้าใจข้อมูลมากขึ้นค่ะ สถานะ (Stage) ของ…

นักลงทุนคนดัง Marcos Lopez de Prado แจก 10 ไอเดียการใช้ ML ในการลงทุน (ฉบับเต็ม)

เมื่อพูดถึงการใช้ Machine Learning ในงานด้านการลงทุนแล้ว คนส่วนใหญ่มักจะนึกถึง “การทำนาย” ราคาข้องหุ้นเป็นหลัก แต่จริงๆ แล้ว Machine Learning ไม่ได้ทำได้เพียงแค่การทำนายค่าราคาเท่านั้นในการลงทุน บทความนี้จะพาไปดู ไอเดียต่างๆ ในการนำ Machine Learning มาใช้ในการด้านการลงทุน โดยการสรุปของคุณ Marcos Lopez de Prado อดีตหัวหน้าทีมนักวิจัย Machine Learning แห่ง AQR Capital และ CIO แห่ง True Positive Technologies (TPT) CIO of True Positive Technologies (TPT) มาดูกันเลยค่ะว่า 10 ทางเลือกในการใช้ Machine Learning ในการลงทุน จะมีอะไรกันบ้าง 1. การทำนายราคา (Price Prediction) ปัญหายอดฮิตของ Machine…