
วันนี้จะมารีวิวหนังสือที่เกี่ยวกับ ปฐมบทในการทำโปรเจคบิ๊กดาต้า ของ ดร.อสมา กุลวานิชไชยนันท์
บทที่ 1
Big data คือ อะไร เราสามารถเห็นตัวอย่างของการใช้ Big Data ใน Facebook หรือ Amazon ที่ใช้ข้อมูลเพื่อนำไปใช้ประโยชน์ต่างๆ มากมายไม่ว่าจะเป็นการใช้งานสำหรับการตลาด แล้วลักษณะมันเป็นอย่างไร ในด้านการออกแบบสมัยก่อนเราก็มักจะให้คนไปสำรวจพฤติกรรมผู้ใช้ หรือแจกแบบสอบถาม ซึ่งอาจจะมีข้อจำกัดตรงเรื่องความเป็นส่วนตัว แต่ในทางตรงกันข้ามถ้าผู้บริโภคให้ข้อมูลเรามา เช่น การโพสต์ข้อมูลตาม social media ต่างๆ นักออกแบบหรือนักการตลาดก็ไม่จำเป็นต้องมาทำการสำรวจแบบเดิมที่มีข้อจำกัดทั้ง จำนวนคนที่สำรวจ และค่าใช้จ่ายในการวิจัย
ผู้เขียนเล่าว่ามันมีสี่ลักษณะคือ
- Volume มีขนาดใหญ่ ถ้าจะถามว่าใหญ่เท่าไหน ก็ต้องตอบว่าขนาดที่ใส่ Microsoft Excel ไม่ได้ คือ 1,048,576 แถว 16,384 column วิธีการเก็บข้อมูลจึงไม่สามารถใช้งานปกติได้
- Velocity ต้องมีความเร็ซในการสร้างข้อมูลและประมวลผลข้อมูล เช่น ถ้าเกิดความผิดพลาดส่วนใดส่วนหนึ่งของ workflow ต้องแก้ไขได้โดยเร็ว
- Variety มีความหลากหลาย เช่น ข้อมูลเป็นภาพ เสียง
- Veracity ความแม่นยำ ทำให้ข้อมูลสะอาด ไม่ซ้ำซ้อน เป็นเรื่องที่ยากลำบากทที่สุดและใช้เวลานาน
สิ่งที่ต้องคำนึงถึงของ Big data
- Big data เป็นแค่ข้อมูลหรือวัตถุดิบ ยังไม่ถือเป็นผลลัพธ์ที่สำคัญของโครงการ
- Big data ต้องนำไปประมวลผลต่อ
- ต้องเก็บข้อมูลโดยมีเป้าหมาย ไม่ให้ข้อมูลเป็นขยะ
- Big data ไม่ได้ใช้ค่าใช้จ่ายมากเหมือนที่ทุกคนเข้าใจ เพราะการทำมีหลายเทคโนโลยีให้เลือกใช้
ถ้าเริ่มทำ
- สำรวจว่าส่วนไหนที่ยังทำงานแบบ manual ที่ไม่ใช่คอมพิวเตอร์ทำแบบอัตโนมัติ ที่ยังต้องพึ่งพาการตัดสินใจของมนุษย์ เช่น การอนุมัติสินเชื่อที่ต้องการผ่านบุคคล ถ้ามี machine learning ก็จะช่วยลดขั้นตอนการอนุมัติสินเชื่อ
- ข้อมุลทำประโยชน์ได้อย่างไร เช่น เอาข้อมูลมาวิเคราะห์ด้านการตลาด โดยการ segment ลูกค้าจากการสะสมแต้มและทำ Promotion ให้ลูกค้าที่ชอบสินค้าไม่เหมือนกัน
- ลองเข้าฟังสัมมนา หรือ หาที่ปรึกษานำเสนอ technology ใหม่ๆ เพราะเทคโนโลยีแต่ละตัวแตกต่างกัน เช่น Analytics, machine learning และ data structure
- เปลี่ยน mindset การทำงาน คือต้อง workout กับข้อมูลเพราะมี idea ไม่สู้เท่ากับทำ idea นั้นให้เป็นจริง
บทที่ 2
ข้อมูล แบ่งออกเป็น 2 ประเภท คือ
- Structured data ข้อมูลแบบมีโครงสร้าง ก็คือ Relational Database management system RDMS และมี SQL ในการเรียกข้อมูล
- Unstructured data ข้อมูลแบบไม่มีโครงสร้าง เป็นข้อมูลที่ไม่สามารถระบุโครงสร้างได้ขัดเจน เช่น ข้อความ รูปภาพ วีดีโอ เสียง โดยใช้ระบบเรียกข้อมูลแบบ NOSQL หรือ Not only SQL ข้อมูลเบื้องต้นจะจัดเก็บใน Data lake (ทะเลสาป ข้อมูล) การเก็บข้อมูลของ Big data สามารถเก็บบน Public cloud ที่ต้องจ่ายค่าบริการตามที่ใช้ นอกจาก cloud ยังมี Hadoop ที่ทำงานบน Node หรือ Hardware หลายๆ ตัวพร้อมกัน
การวิเคราะห์ข้อมูล มี 2 แบบ
- วิเคราะห์แบบทั่วไป ใช้วิธีทางสถิติ
- วิเคราะห์แบบ Data science หรือ หา Insight โดยใช้สถิติขั้นสูง ความน่าจะเป็น machine learning และ AI การแสดงผลสามารถแสดงด้วย Business Intelligence Software ให้ผลลัพธ์ออกมาในรูปแบบกราฟ
การ Clean data
- Parsing ทำความเข้าใจข้อมูล เช่น ความหมายของข้อมูลค่าต่ำสุดและสูงสุด
- Correating data แก้ไขข้อมูล เช่น ข้อมูลที่เป็น outlier เช่น คนอายุ 188 น่าจะไม่ใช่ข้อมูลที่ถูกต้อง
- Standisation ทำข้อมูลให้เป็นแบบเดียวกัน หรือ normalization
- Duplicate elimination เป็นการลบชุดข้อความซ้ำซ้อนทื้ง อาจจะต้องเขียน algorithm เพื่อระบุขุดข้อมูลที่ซ้ำซ้อน
Data flow diagram คือ การวางผังระบบการไหลเข้าออกข้อมูล แหล่งข้อมูล–> เก็บ –> เตรียม –> วิเคราะห์ –> เผยแพร่ –> แสดงผล
อาชีพสามอย่างที่เกี่ยวข้องกับ Big data experts นะครับ อาชีพแรกก็คือ Data Engineer หรือ วิศวกรข้อมูล คือ บุคคลที่ทำหน้าที่ในการจัดการข้อมูลทั้งหมดชองระบบ จริงๆ ฟังดูคล้ายกับตำแหน่ง System Integration หน้าที่หลักก็คือทำให้ทุกระบบต่อกันให้ครบวงจร ต้องรู้จักเครื่องมือต่างๆ เช่น SQL NOSQL Python Hadoop Cloud computing ระบบ ERP ตำแหน่งนี้ถือว่าเป็นแม่ทัพใหญ่ของการทำโครงการ Big Data ส่วน career path ก็คือ Chief Information Officer (CIO) หรือ Chief Technical Officer (CTO)
อาชีพที่สองก็คือ Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล มีหน้าที่ออกแบบโมเดลเพื่อหาผลลัพธ์ใหม่ๆ มีหน้าที่สำรวจหน้างาน วิเคราะห์ปัญหา รับฟังความเห็นจากบุคคลที่เกี่ยวข้อง เครื่องมือของ Data scientist ได้แก่ ภาษาต่างๆ เช่น R, Python, MATLAB, Spark และ Scala สาขาที่จบออกมาแล้วเป็น Data Scientist ได้คือ Computer Science หรือ วิทยาการคอมพิวเตอร์ และสาขาข้างเคียงคือ สาขาคณิตศาสตร์และสถิติ การเป็น Data Scientist มีหลายสายงาน เช่น การทำ Image Processing ระบุตัวตนโดยภาพ การทำ Text mining การวิเคราะห์ภาษาเพื่อแปล ตำแหน่งนี้ขาดแคลนสูงมาก แต่ต่อไปถ้ามี AI อาจจะแย่งงานวิชาชีพนี้ได้ แต่ถ้าคนที่เขียนโปรแกรมเก่งๆ หรือเป็นเพชรแท้ก็ไม่ต้องกลัวครับ
อาชีพที่สาม ก็คือ Data Analyst หรือ นักวิเคราะห์และออกแบบการนำเสนอข้อมูลเพื่อแก้ปัญหาในส่วนต่างๆ ของธุรกืจ ในองค์กรอาจจะเป็นตำแหน่ง Business Analyst เครื่องมือที่ใช้วิเคราะห์ได้แก่ Microsoft Excel, SPSS, SAS, Power Bi, Tableau, Qilk Sense ส่วน Career path คือ Chief Financial Officer (CFO) หรือ ประธานกรรมการบริหารบริษัท (Chief Executive Office, CEO)
ประโยชน์ของ Big data
- ทำให้การตัดสินใจต่างๆ รวดเร็วและแม่นยำขึ้น เช่น เราสามารถวิเคราะห์พฤติกรรมการซื้อขายออนไลน์เทียบกับคู่แข่ง เช่น บริษัท Adidas ใช้ Big Data ในการหา Customer DNA สมัยก่อนนักออกแบบชอบทำ Trend สีแฟชั่นซึ่งคล้ายกับเป็นการโยนหินถามทาง แต่ตอนนี้ Adidas ใช้กำหนดเทรนด์ เช่น คนชอบรองเท้าวิ่งที่เบาสบายแต่สามารถรองรับการกระแทกได้
- ช่วยลดต้นทุนในการดำเนินธุรกิจ เช่น บริษัท UPS ได้พัฒนาเครื่องมือชื่อ ORION (On-Roadware) ที่เอาข้อมูล GPS, IOT มาจัดสายรถสำหรับการส่งของ
- ทำให้เกิดสินค้าและบริการใหม่ๆ เช่น ธนาคารพาณิชย์ในประเทศไทย ทำ Digital Banking ลดค่าธรรมเนียมในการทำธุรกรรมออนไลน์ ดูเหมือนว่าจะลดกำไรของตัวเอง แต่จริงๆ ธนาคารได้ข้อมูลลูกค้ามากขึ้นจากการทำธุรกรรมว่าคนไทยมีนิสัยใช้เงินอย่างไร
- ทำให้สามารถเข้าใจตลาดได้มากขึ้น เช่น สามารถจัด market segment ของคนเล่นหุ้น กลุ่มโตช้า กลุ่มแข็งแกร่ง กลุ่มโตเร็ว และอื่นๆ โดยใช้ Big Data
- เป็นหลักฐานในการทำงาน ในทุกวันนี้นิสัยที่ติดตัวเราไปคือ การถ่ายรูป ซึ่งบางทีก็เป็นหลักฐานในการทำงาน ยกตัวอย่างเช่น ผมมักจะโพสต์งานที่ทำบน Facebook เวลาที่จะประเมินเราสามารถย้อนหลังไปดูว่าเราทำอะไรไปบ้างแทนที่การจดบันทึก ในประเทศจีนได้มีการทำระบบ Social credit โดยการให้คะแนนความประเพฤติหรือ Sesame Credit สำหรับประชาชนที่ ซื่อสัตย์ และจริงใจ ถ้าได้คะแนนน่าเชื่อถือตั้งแต่คะแนน 600 ขึ้นไปก็จะสามารถขอสินเชื่อเพื่อซื้อสินค้าออนไลน์ ถ้าได้ 700 คะแนนจะไปเที่ยวสิงค์โปร์ได้โดยไม่ต้องมีเอกสารประกอบ ในทางตรงกันข้าม ถ้าถูกลงโทษก็จะลดความเร็วในการใช้อินเตอร์เน็ตให้ทำต่ำลง ห้ามไม่ให้เข้าร้านอาหารบางร้าน และห้ามเที่ยวต่างประเทศ รวมถึงการจ้างงาน
ส่วนที่เหลือของหนังสือก็เป็นเรื่องเล่าประสบการณ์ ซึ่งก็พูดถึงการทำอย่างไรให้โครงการ Big Data ประสบความสำเร็จ การตีราคา Big Data ซึ่งก็ไม่มีสูตรตายตัว สิ่งหนึ่งที่ผมสังเกตได้ว่าในยุคสมัยที่ไม่มี Big Data แล้วพอมี Big Data ขึ้นมาก็เกิดอาชีพใหม่ๆ เข่น Data Engineer, Data Sciencist และ Data Analyst เป็นส่วนผสมของอาชีพเดิมแต่มีความต้องการด้านทักษะที่แตกต่าง ซึ่งในสมัยก่อนก็จะมี System anlayst, Business Analyst พอๆ กับสมัยก่อนที่ทางอาชีพออกแบบจะมี User Interface แต่ปัจจุบันหลังจากที่มีธุรกิจ e-commerce เข้ามาเกี่ยวข้องก็เริ่มมีอาชีพ User Experience หรือ UX ผมคาดว่าในอนาคตถ้าเข้าสู่ยุค AI เราอาจจะมีอาชีพใหม่ๆ เกิดขึ้นอีกมากมาย แล้วตำแหน่งเหล่านั้นอาจจะไม่ใช่เป็นคนเข้ามาทำหน้าที่ แต่อาจจะเป็นตำแหน่งสำหรับระบบอัจฉริยะที่ไม่ต้องให้มนุษย์มาออกแบบหรือทำการวิเคราะห์ข้อมูล