
หนังสือเล่มนี้แสดงถึงการวิเคราะห์ข้อมูลสามกระบวนการด้วยกัน คือ
- การเก็บข้อมูล
- การวิเคราะห์ข้อมูล
- การสื่อสารให้ผู้อื่นในส่วนที่ค้นหาเจอ
ซึ่งวัตถุประสงค์ของหนังสือไม่ได้ต้องการให้คนที่เป็นผู้จัดการมาเป็น Data Scientist แต่ต้องการให้เราสามารถใช้ข้อมูลให้เป็นประโยชน์และทำงานร่วมกับ Data Science
George Box พูดว่า ทุกโมเดลที่ใช้ในการทำนั้นผิดแต่บางอย่างเป็นประโยชน์ เพราะว่าโมเดลเป็นการทำให้ง่ายของโลกที่ซับซ้อน
Analytics-based decision มี 6 ขั้นตอนด้วยกันคือ
- สังเกตปัญหาหรือคำถาม เฟรมการตัดสินใจหรือปัญหาธุรกิจและค้นหาทางเลือกในการเฟรม
- รีวิวการค้นพบที่เจอมาก่อน ลองหาคนที่แก้ปัญหานี้ที่มีความคล้ายกันแล้วดูว่าเขาใช้วิธีไหนแก้ปัญหาอย่างไร
- โมเดลผลลัพธ์และเลือกตัวแปร ตั้งข้อสมมุติฐานเกี่ยวกับตัวแปรบางอย่างที่มีผลกระทบต่อผลลัพธ์
- เก็บข้อมูลเบื้องต้นและข้อมูลรองสำหรับการตั้งตัวแปรสมมุติฐาน
- วิเคราะห์ข้อมูล รันโมเดลทางสถิติ ประเมินข้อมูล และซ้ำกระบวนการจนกระทั่งพบสิ่งที่เหมาะสม
- นนำเสนอเรื่องราวสู่ผู้ตัดสินใจและผู้มีส่วนได้ส่วนเสีย
คิดแบบนักวิทยาการข้อมูล Think like a Data Scientist
ผู้เขียนเอากราฟที่เป็นข้อมูลของการเข้าร่วมประชุมเป็นข้อมูลแสดงถึงว่าใครมาห้องประชุมสาย อันนี้ก็เป็นกราฟ plot เมื่อขีดตีเส้นก็จะอยู่ที่ค่าเฉลี่ยประมาณ 10 กว่านาที ทำให้เราทราบว่ามีคนมาสายเท่าไหร่ ข้อมูลเหล่านี้เปิดเผยอะไรแก่เราได้บ้าง ในช่วงที่คนมาตรงเวลาจะเป็นการเชิญรองประธานเข้ามาร่วมประชุมด้วย ดังนั้นเราอาจจะลองเช็คว่าข้อมูลของคุณเป็นเหมือนกับข้อมูลอื่นๆไหมในบริษัท มีงานประชุมไหนเริ่มช้า หรืออาจจะถามว่าเราควรจัดประชุมแบบทางไกลหรือจัดแบบเจอกัน และอันไหนที่มีผู้ใหญ่มาเข้าฟังแบบไหนจะมีคนเข้าสายกว่ากัน ดังนั้นการคิดแบบนักวิทยาการเอาข้อมูลมาวิเคราะห์ ตั้งคำถามและก็จำกัดวงเรื่องที่สนใจโดยตั้งคำถามสัก 2-3 คำถาม
ปัญหาที่เราเจอส่วนใหญ่ในบริษัทคือ
- เราถามคำถามถูกไหม บริษัทต่างๆ มักจะเก็บข้อมูลที่มีอยู่แต่ไม่ได้เก็บข้อมูลที่จะช่วยในเรื่องการตัดสินใจในการดำเนินธุรกิจ
- ข้อมูลเล่าเรื่องราวได้หรือไม่ โดยปกติข้อมูลต่างๆมาเป็นแบบแยกส่วน เพราะฉะนั้นผู้จัดการต้องพยายามที่จะประกอบชิ้นส่วนเข้าด้วยกันเพื่อสร้างเรื่องราว
- ข้อมูลข่วยเรามองไปข้างหน้าหรือข้างหลัง ปกติข้อมูลส่วนใหญ่เป็นข้อมูลอดีตแทนที่จะทำนายอนาคต ดังนั้นควรที่จะถามว่าเป็นข้อมูลอะไร กรอบเฟรมอะไรที่ช่วย
- เรามีส่วนผสมที่ดีของข้อมูลด้านปริมาณและคุณภาพไหม เช่น เราอาจจะต้องดูว่าผลิตภัณฑ์อะไรที่เขาขายดีให้แก่ใคร แล้วทำไมถึงขายดี
ผู้จัดการควรตั้งคำถามที่ดี เช่น ผู้จัดการด้านการโฆษณาอาจจะถามว่า อะไรเป็นวิธีที่มีประสิทธิภาพสุดในการใช้โฆษณาในการเพิ่มการขาย? ถึงแม้ว่าคำถามนี้ดูมีเหตุผลแต่จริงๆแล้วเราต้องมองไปที่เป้าหมายปลายทางก็คือ การทำผลกำไรให้มากที่สุดมากกว่าเพิ่มการขาย เพราะฉะนั้นเราต้องเลือกให้ถูกคำถาม
แล้วเราจะเอาข้อมูลมาจากไหน?
โดยปกติเราสามารถเอาข้อมูลมากจากการสังเกตและทดลอง ผมเดาว่าการสังเกตที่พูดถึงก็คือการสังเกตจากการมองโดยไม่ต้องไปพูดคุยกับลูกค้า ซึ่งทำให้ข้อมูลอาจจะไม่น่าเชื่อถือได้ เช่น เราสังเกตว่าคนชอบซื้อเครื่องปรับอาการตอนช่วงหน้าร้อน ในขณะที่การทดลองจะต้องมีการควบคุมและให้ข้อมูลที่น่าเชื่อถือมากกว่าการทดลองต้องจะค่อนข้างแพงและยากในการเก็บข้อมูล ยกตัวอย่างเช่น Facebook ลองทดลองเอาหน้าคนที่โกรธใส่ใน facebook แล้วดูว่าอารมณ์ของผู้ดูจะเป็นอย่างไร ถึงแม้ว่าจะเป็นการทดลองที่ถูกกฎหมายแต่ก็มีคนที่ไม่ต้องการทดสอบการทดลองนี้
ข้อมูลส่วนใหญ่จะมีสองแบบ คือ Structured และ Unstructured data ตัว Unstructured จะเป็นแบบฟรีฟอร์มเช่น ภาพถ่าย วีดีโอ และยากที่จะใส่ในฐานข้อมูล ซึ่งข้อมูลเหล่ามีมากถึง 96% ของข้อมูลทั่วโลก ปัญหาส่วนใหญ่ของข้อมูลคือข้อมูลไม่สะอาด ไม่สมบูรณ์ และไม่เที่ยงตรง 54% ของผู้ตอบแบบสอบถามบอกว่า ข้อมูส่วนใหญ่ไม่มีคุณภาพหรือความสมบูรณ์ แล้วบางข้อมูลก็จะซับซ้อนซึ่งผู้เขียนแนะนำให้ใช้ KISS rules คือ Keep it simple stupid! คือ ข้อมูลต้องเรียบง่ายแบบซื่อๆ
วิธีการออกแบบการทดลองด้านธุรกิจ
- ให้ตั้งคำถามแบบแคบๆ คำถามไม่ควรกว้าง เช่น การโฆษณาสมราคาไหม หรือเราควรลดโบนัสประจำปีไหม ดังนั้นคำถามต้องควรจะทดสอบได้ ดังนั้นต้องแคบและชัดเจน ยกตัวอย่างเช่น เราอาจจะถามว่า โฆษณาของยี่ห้อเราบน Google Adwords เพิ่มปริมาณการขายแต่ละเดือนหรือไม่?
- ใช้ฆ้อนใหญ่ ในการทดลองอาจจะทำให้เด่นเพื่อที่จะตรวจสอบว่าได้ผลหรือเปล่า เช่น ทำสติ๊กเกอร์ให้ใหญ่แตะตาคนแต่ถ้าไม่ได้ผลก็ยกเลิก
- ลองทดลอง Data Audit ก็คือมองเรื่องตัว intervention ที่เราจะลองเอามาทดลอง เราต้องเลือกตัวแปร ยกตัวอย่างเช่น เราต้องการรู้ว่าบรรจุภัณฑ์แบบไหนที่ทำให้เกิดความพึงพอใจและจงรักภักดีของลูกค้า
- เลือกประชากรกลุ่มทดลอง เลือกกลุ่มตัวอย่างจากลูกค้าของคุณมาทดลองแต่ต้องให้ระวังระหว่างกลุ่มเป้าหมายที่มีความแตกต่างกันในเรื่องของพฤติกรรมการช๊อปปิ้ง เช่น คนหนุ่มสาวมักจะช๊อปปิ้งออนไลน์มากว่าผู้สูงอายุ
- สุ่มตัวอย่าง วิธีการสุ่มสามารถสุ่มทั้งกลุ่มควบคุมและกลุ่มทดลอง โดยกลุ่มทดลองเราก็จะได้ผลทดสอบ ในขณะที่กลุ่มควบคุมก็จะเป็นสิ่งที่ไม่เปลี่ยนแปลงหรือสิ่งที่เราให้กับลูกค้าครั้งที่แล้ว กฎของการสุ่มคือ ไม่ให้ผู้ทดลองเลือกกลุ่มเองและต้องไม่มีความแตกต่างระหว่างกลุ่มทั้งสอง กฎนี้อาจจะไม่เวิร์คในกรณีที่คนช๊อปวันอาทิตย์ก็จะได้ผลต่างกับคนช๊อปวันจันทร์
- วางแผนและยึดกับมัน พยายามกำกับเวลาของแผน เช่น จะมีผู้สังเกตเท่าไหร่สำหรับการเก็บข้อมูล ระยะเวลาในการทดลองเท่าไหร่
- ให้ข้อมูลพูดด้วยตัวมันเอง ให้หากลไกภายใต้ข้อมูลที่ค้นพบ อันนี้แปลว่าไม่ใช่เราได้ผลลัพธ์แล้วเราไม่รู้ว่าทำไมถึงเป็นแบบนั้น
- รู้จักความแตกต่างระหว่างข้อมูลและ Metrics
ผู้เขียนเล่าว่า เขาได้ทำองค์กรหนึ่งชื่อวา DoSomthing.org ที่โพสต์เรื่องราวการช่วยเหลือนักศึกษาที่จะเรียนต่อมหาวิทยาลัยแต่ขาดแคลนทุนทรัพย์ เช่น กระเป๋าเป้ ลงบน YouTube ปรากฎว่ามีคนบริจาคเงินแค่ 8 คน อันนี้เราต้องมาวัดเรื่องของ ROI หรือ Return of investment มาถึงตรงนี้ผู้เขียนให้เราชี้ชัดด้านวัตถุประสงค์ ว่าธุรกิจต้องการอะไร และพัฒนาทฤษฎีของเหตุและผล ในการวัดวัตถุประสงค์นั้นๆ การวัดถ้าเป็น financial ก็จะวัดง่ายแต่ถ้าเป็น non-financial เช่น ความร่วมมือร่วมใจ ก็ต้องลองไปดูรายละเอียด หลังจากนั้นให้เลือกโมเดลสถิติที่จะใช้ตอบวัตถุประสงค์และประเมินด้วยโมเดลนั้น
- A/B testing ก็คือวิธีการที่จะเปรียบเทียบของสองเวอร์ชั่นว่าอันไหนมีประสิทธิภาพมากกว่ากัน ซึ่งทำได้กับเว๊ปไซด์ แอพพลิเคชั่น วิธีการนี้มีสอนมาเกิอบ 100 ปีแล้ว การทดสอบแบบ A/B จะใช้การสุ่มตัวอย่างและมีกลุ่มสองกลุ่มทดสอบผลิตภัณฑ์ เช่นเราจะทดสอบขนาดสองขนาดของปุ่มมีผลต่อการ subscribe คนที่เป็น test analyst ก็ทำการสุ่มคนที่จะมาทดสอบของสองอย่าง ซึ่งวิธีทดสอบเราจะใส่ตัวแปรทีละอย่าง เช่น ขนาด เราจะไม่ใส่ตัวแปรอื่นๆ เช่น รูปแบบของตัวอักษรเพื่อไม่ทำให้เกิดความงง
- Regression analysis
สมมุติว่าคุณเป็นผู้จัดการฝ่ายขายที่จะทำนายจำนวนผลิตภัณฑ์ที่จะขายเดือนหน้า ดังนั้นจึงมีตัวแปรที่เรียกว่า dependent variable หรือตัวแปรตามที่คุณอยากจะทำนาย ส่วน independent variable คือตัวแปรต้นที่ เช่น ค่าเฉลี่ยของการขายเท่ากับ 200 บวกกับห้าเท่าของการโฆษณา ดังนั้นจะเขียนสมการได้คือ y = 200+5x แต่แท้ที่จริงมีค่าความผิดพลาดอยู่ ที่เรียกว่า error term ก็จะเป็น y =200 + 5 ป+ error term ตรงนี้ก็สามารถ Plot จุดต่างๆ บนแกน x และ y คล้ายเส้นทะแยงแกน
- Correlation
คือ ความสัมพันธ์ระหว่างสองตัวแปรซึ่งอาจจะไม่เป็นเหตุผลกัน ยกตัวอย่างเช่น การซื้อสินค้าที่ซูเปอร์มาร์เก็ตสัมพันธ์กับการเคลมประกันรถยนต์ หรืออาจจะเป็นเหตุเป็นผลกันก็ได้
สหสัมพันธ์ไม่ได้เกี่ยวข้องกับ cause and effect โดยตรง เช่น ฝนตกทำให้ขายของได้ดีขึ้น
การทำสหสัมพันธ์เราต้องไปดูว่าอะไรที่เกิดขึ้นจริงในโลกด้วยไม่ใช่แค่ดูข้อมูลบนหน้าจอ เพราะเป้าหมายไม่ใช่แก้ปัญหาของข้อมูลแต่เป็นการแก้ปัญหาว่าอะไรเกิดขึ้นในโลก
- Machine learning เหมาะสำหรับปัญหาทางธุรกิจไหม?
ตรงนี้ก็น่าคิดนะครับว่าอะไรที่ควรให้ machine learning ทำ ถ้าท่านจำได้เราเคยรีวิว machine learing ใน Big Data Series ไปทีหนึ่ง ก็คือว่าเราเอาตัวอย่างให้คอมพิวเตอร์ดูแล้วมันก็จะเรียนรู้แบบลองผิดลองถูก เช่น เอารูปหน้าคนให้เขาดูแล้วเขาก็จะทำนายว่าเป็นหน้าตาของใคร ผู้เขียนแนะสองอย่างที่น่าจะใช้ Machine learning คือ
- ต้องการการทำนายมากกว่าการใช้ causeal inference หรือตรวจสอบสมมุติฐาน ซึ่งอันแรกอาจจะปัญหาว่าบางอย่างไม่เหมาะสมกับ pattern ที่มีอยู่แล้ว พยายามนึกในใจว่า Machine learning ไม่สามารถสร้างทฤษฎีจากการทดสอบสมมุติฐานเอง
- เพียงพอที่จะควบคุมตัวแปรและป้องกันสิ่งที่มีอิทธิพลอื่นๆ เข้ามา ถ้าในอนาคตมีตัวแปรอื่นมาผสม ตัวสูตรคณิตสาศสตร์เดิมก็ไม่สามารถรู้ว่ามันทำมาจากอะไร
Statistical Significance
ภาษาไทยก็คือความแตกต่างอย่างมีนัยสำคัญ บางทีเราก็ชอบเรียกกว่า ซิกด์ ตัวซิกด์นี้จะช่วยในเรื่องของการตรวจว่าผลลัพธ์นั้นน่าสนใจหรือไม่ เมื่อมันซิกด์มันหมายความว่าเรามั่นใจกับข้อมูลไม่ใช่เพราะว่าเราโชคดีในการเลือกกลุ่มตัวอย่าง ถ้าบังเอิญเราทดสอบสองแคมเปญ์ระหว่างเก่าและใหม่ปรากกฎว่ามันไม่มีความแตกต่างระหว่างสองอันนี้ที่ทำให้ผู้ซื้อต้องการซื้อเพิ่มขึ้น อันนี้เราเรียกว่า Sampling error เราจะต้องมาดูว่าอะไรคือปัญหาของ Sampling error ซึ่งเป็นไปได้สองกรณณี คือ ขนาดของการสุ่มตัวอย่าง (Size of sample) และ ความหลากหลายของประชากร (variation) เช่น ถ้าเราทอยเหรียญ 5 ครั้งกับ 500 ครั้ง เราจะมั่นใจกับการทอยเหรียญที่มีจำนวนมากกว่าทอยไม่กี่ครั้ง ส่วนถ้าเรามีค่าความหลากหลายของข้อมูลมาก Sampling erroe ก็จะมากขึ้นด้วย
ลองมาดูเรื่องสมมติฐานหลักหรือ Null hypothesis เช่น ลูกค้าโดยเฉลี่ยไม่ชอบแคมเปญใหม่มากกว่าแคมเปญเก่า สมมติฐานนี้จะถูกหรือผิดก็ให้ดูที่ค่า p-value ถ้าน้อยก็จะมีโอกาสที่จะปฏิเสธข้อสมมุติฐาน ค่า p-value ขึ้นกับงานด้วยเช่น ถ้าทดสอบสมมติฐานพวกควอนตั้มฟิสิกส์ ก็จะมี p-value ระดับหลายทศนิยม โดยทั่วไปผู้จัดการออาจจะต้องมากังวลเรื่อง ซิกด์ เพราะพวก data science จะรู้ดีเรื่องพวกนี้
ลองมาดูตัวอย่างนี้นะครับ แคมเปญจ์การตลาดแบบใหม่ต้องจ่ายเงิน $1.76 ประมาณ 20% ในการขาย ถ้า p-value 0.03 แสดงว่าซิกด์ แต่ถ้าเป็น 0.2 หมายถึงไม่ซิกด์ ปกติเราใช้ตัวเลข 0.05 ถ้าน้อยกว่าก็ซิกด์ ถ้ามากกว่าก็ไม่ซิกด์
Linear thinking in a nonlinear world ผู้จัดการส่วนใหญ่คิดว่าการคำนวณจะเป็นแนวเส้นตรง เช่น ถ้าเวลาผ่านไปค่าแรงจะมากขึ้นตามเวลา แต่ในความเป็นจริงมันไม่ได้เป็นเส้นตรงแต่มันเป็นเส้นโค้ง ซึ่งก็จะมีปรากฎการณ์ที่หลากหลายเช่น
- กราฟเพิ่มขึ้นค่อยๆ แล้วก็จะชัน
- กราฟค่อยๆลดลง แล้วก็ตกลงมาอย่างรวดเร็ว
- กราฟเพิ่มขึ้นอย่างรวดเร็วหลังจากนั้นก็จะเรียวขึ้น
- กราฟตกลงอย่างรวดเร็วหลังจากนั้นค่อยๆ ลง
หลุมพรางของการตัดสินใจด้วยข้อมูล
คนโดยปกติเวลาตัดสินใจไม่ได้มองไปที่รายละเอียดแต่ละชิ้นของข้อมูล เรามักจะเชื่อในเรื่องของ Heuristics-simplified หรือบางสิ่งที่อนุญาตให้เราตัดสินใจบนความไม่แน่นอน ตัวการตัดสินใจนี้ทำให้เราคิดว่าตัดสินใจถูกแต่ในความเป็นจริงเราตัดสินใจแบบผิดพลาด กับดักในการตัดสินใจมีอะไรบ้าง
- The confirmation trap เป็นการตัดสินใจบนพื้นฐานสิ่งที่เคยเชื่อในอดีต เช่น ในปี 1970 นักวิจัยเชื่อว่าไขมันมีผลต่อหัวใจและอายุ ซึ่งไม่ตรงกับคำแนะนำของนักวิจัยและการแพทย์ของสหรัฐ ซึ่งตรงนี้ก็ตรงกับเรื่องการตัดสินใจและอคติในการตัดสินใจ บริษัทส่วนใหญ่จะเชื่อข้อมูลที่มีหลักฐานยืนยัน วิธีการหลีกหนีความเชื่อเก่าๆ คือ
- ให้เลือกแนวทางในการวิเคราะห์ข้อมูลและไม่พยายามมีอคติ
- พยายามหาบางสิ่งที่ทำให้ข้อสมมติฐานคุณผิด อาจจะเล่นบทผู้ร้ายในการจับผิดหรือคุณอาจจะให้คนในองค์กรขึ้นมาดีเบตข้อมูล
- พยายามดูค่าผิดพลาดบางอย่าง เช่น มีค่า standard errors
- ให้ทีมหลายๆทีมช่วยกันวิเคราะห์ข้อมูล และดูว่าทุกคนมีข้อสรุปแบบเดียวกันไหม ถ้าไม่ให้ค้นหาว่าอะไรที่ทำให้แตกต่าง เช่น วิธีการที่ไม่เสถียร ความผิดพลาด หรือ อคติ
- พยายามทำให้การค้นพบคล้ายกับการทำนายและให้ทดสอบ ถ้าไม่สามาiถหาความสัมพันธ์ก็ให้ใช้การทดลองพิสูจน์
- The Overconfidence trap กับดักที่เกิดจากความเชื่อมั่นมากเกินไป Max Bazerman and Don Moore พูดว่าความเช่ือมั่นมากเกินไปเป็นแม่ของอคติทั้งมวล ความเชื่อมั่นที่มากเกินไปทำให้กันตัวเราจากคำถามและวิธีการสื่อสารสิ่งที่เจอกับคนอื่น ทริปในการหลีกเลี่ยง Over confidence
- ให้อธิบายการทดลองที่สมบูรณ์แบบ แล้วให้เปรียบเทียบข้อมูลที่ทำกับสิ่งที่สมบูรณ์แบบ สิ่งนี้จะช่วยให้คุณเห็นข้อผิดพลาด
- ให้มีการคิดแบบท้วงติงในกระบวนการ ให้ถามตัวเองว่าทำไมการวิเคราะห์ของคุณถึงล้มเหลว ให้พยายามทำทุกๆการวิเคราะห์
- ก่อนตัดสินใจหรือทำโครงการลองจินตนาการว่ามันจะมีโอกาสผิดพลาดตรงไหนในแง่มุมต่างๆ
- พยายามติดตามดูเปรียบเทียบระหว่างการทำนายกับสิ่งที่เกิดขึ้น ทำอย่างไรถึงป้องกันความผิดพลาดในอนาคต
- Overfitting trap หลุมพลางอันหนึ่งที่เกิดขึ้นคือข้อมูลดีเกินไป บางทีเกิดจาก random noise มากกว่าค้นพบเจออะไร ยกตัวอย่างเช่น Google’s Flu ตรวจพบว่าคนที่เป็นนักบาสของโรงเรียนมีความสัมพันธ์กับการเป็นไข้สูงมาก แต่แท้ที่จริงเป็นการทำนายที่ผิด วิธีหลีกเลี่ยง overfitting คือ
- สุ่มข้อมูลออกเป็นสองส่วน อันหนึ่งเป็นข้อมูลสำหรับการ train และอีกข้อมูลสำหรับการ validation หรือการพิสูจน์ ซึ่ง overfit โมเดลจะดีมากตรงข้อมูล train แต่ไม่ดีมากตรง validation
- พยายามทำให้ข้อมูลในการวิเคราะห์ง่าย พยายามมองความสัมพันธ์ที่จะวัดว่ามีผลกระทบต่อสมมุติฐานไหม
Do not let your analytics cheat the truth
ในส่วนนี้ก็ได้พูดถึงเรื่อง outlier ในการที่จะค้นพบข้อมูลสำคัญว่าผลิตภัณฑ์เราผิดตรงไหน ถ้า data analytics ตัด outlier ออกหมดก็จะทำให้ไม่ทราบความจริง อันนี้จริงครับผมเคยทดสอบอุปกรณ์หนีไฟ แล้วปรากฎว่ามีคนสวมใส่อุปกรณ์ได้ช้ากว่าปกติทั้งๆที่คนทำมีวุฒิระดับปริญญาตรี ตรงนี้ทำให้เราทราบว่าทักษะการใส่อุปกรณ์ก็คือทักษะการแก้ไขปัญหาซึ่งไม่ได้เกี่ยวกับวุฒิการศึกษา ซึ่งถ้าเราตัดคนเหล่านี้ออกจากการทดลองเราก็อาจจะไม่ได้ความจริงขึ้นมา
ผู้เขียนยกตัวอย่าง รายได้สุทธิของนักเรียนที่ตกออกจากมหาวิทยาลัย Havard สูงกว่า นักเรียนที่จบจากมหาวิทยาลัย เพราะตัวอย่างคนที่ตกออกได้แก่ Bill gates, Mark Zuckerberg และ Polaroid’s Edwin Land คนที่ออกแบบกล้องโพลาลอยด์
เมื่อไหร่ที่ Data Visualization works และไม่เวิร์ค มีสามเหตุผลในการ visualize data
- Confirmation ถ้าเรามีข้อสมมุติฐานเกี่ยวกับระบบที่เราสนใจ เช่น ตลาด ลูกค้า หรือ คู่แข่ง การทำให้เห็นภาพจะช่วยให้เราตรวจสอบข้อสมมุติฐานของเรา เราสามารถตรวจสอบความเสี่ยงที่เกิดขึ้น
- Education มีสองรูปแบบ คือ การรายงานสิ่งที่วัดและคุณค่าของการวัด ส่วนอันที่สองคือ การพัฒนาสัญชาติญาณและข้อคิดใหม่ๆ ในระบบพฤติกรรมที่เปลี่ยนตลอดเวลา ซึ่งเราสามารถเห็นโมเดลนี้ใน Gamification
- Exploration เมื่อเรามีข้อมูลขนาดใหญ่ที่เกี่ยวกับระบบ เป้าหมายคือเตรียมเรื่องการสื่อสารระหว่างคนกับเครื่องจักร ที่ทำให้เราสามารถทำนายและบริหารจัดการระบบ อันนี้อยู่ใน field ของธุรกิจที่เรียกว่า Exploratory data analysis หรือ EDA
การทำ charts ให้เด่นและดึงดูด มีหลักด้วยกันดังนี้
- คุณกำลังนำเสนอหรือให้ข้อมูล ถ้าอยู่ในที่ประชุมไม่ควรนำข้อมูลจำนวนเยอะใส่เข้าไปเพราะผู้ดูอ่านไม่ทัน พยายามใช้สีที่สว่างเน้นจุดที่คุณต้องการนำเสน แต่ถ้ามีรายละเอียดเยอะๆ ก็ให้ส่งอีเมลล์แทนที่จะนำเสนอ
- ใช้กราฟหรือตารางให้ถูก พายชาร์ตเหมาะสำหรับการบอกว่าใครถือส่วนไหนมากที่สุดไม่เหมาะกับการเปรียบเทียบ ถ้าจะเปรียบเทียบก็ให้ทำ bar chart แทน
- สารอะไรที่เราต้องการสื่อ ในการนำเสนอให้คิดว่าอะไรที่สำคัญที่สุดในการนำเสนอเราอาจจะใส่สีเพื่อทำให้ดูน่าสนใจตรงจุดที่เรานำเสนอ
- ภาพสะท้อนตัวเลขไหม การใส่ลวดลายเส้นเข้าไปจำนวนมากทำให้เกิดความรกรุงรังและดูยาก ให้ใส่เท่าที่จำเป็น
- ข้อมูลของคุณเป็นที่จดจำได้ พยายามใช้ metaphor ช่วยทำให้ผู้ดูจดจำ ตัวอย่างเช่น Michael Polan เอาแก้วที่เต็มไปด้วยน้ำมันมาโชว์กระบวนการผลิต หลังจากจบท้ายเขาก็ชิมน้ำมัน อันนี้เขาทำเป็นการแสดงแทนการโชว์กราฟ
ทำไมถึงยากสำหรับเราในการสื่อสารความไม่แน่นอน
เราใช้ข้อมูลในการทำนายแต่บางครั้งข้อมูลก็ไม่มีความแน่นอน ในปี 2016 การเลือกตั้งประธานธิบดีของสหรัฐซึ่งชิงกันระหว่างแฮรารี่คลินตันและทรัม ปรากฎว่ากราฟสวิงไปมา บทนี้เขาก็สัมภาษณ์ Scott Berinato ผู้เขียน good charts ว่าเขาเห็นอะไรในการเลือกตั้ง คำตอบคือว่าข้อมูลที่สวิงไปมาใน real time ไม่ใช่สิ่งที่ดีที่นำเสนอ เพราะสิ่งที่นำเสนอมักจะเป็นความน่าจะเป็น เช่น 80% ของโอกาสที่จะเกิดขึ้น ซึ่งเราไม่สามารถรู้สึกได้ว่ามันเป็นเท่าไหร่ คล้ายกับ 20% หรือ 1 ใน 5 ที่จะเกิด ม้นค่อนข้างดูเป็นนามธรรม
ตอบคำถามคนที่ท้าทายข้อมูลของคุณ
มีครั้งหนึ่งที่ Jon ได้เข้าไปศึกษาข้อมูลที่บริษัทแห่งหนึ่งเพื่อนำเสนอแผนก HR แล้วเขาก็พบว่า มีการเหยียดเพศในการโปรโมทเข้ารับตำแหน่งสูงๆ ตอนเขาเสนอให้กับผู้จัดการ HR เขาโกรธมากเขาบอกว่าตีความข้อมูลผิดเพราะเขาทำให้ผู้หญิงและชายมีฐานะเท่าเทียมกัน Jon เลยพยายามที่จะศึกษาเพิ่มตรงส่วนที่เป็นการเหยียดเพศ หนึ่งเดือนถัดมาเขานำเสอน HR อีกครั้ง เขาบอกว่า ผู้ชายและหญิงมีการ Promote เท่าเทียมกัน แต่ด้วยเป็นเพราะผู้หญิงไม่สามารถที่จะมีความสามารถดังที่บริษัทตั้งไว้ จึงไม่ได้ถูก Promote หลังจากนั้นผู้จัดการ HR ก็ให้คนแก้ปัญหาเรื่องการเหยียดเพศ ดังนั้นเรื่องนี้สอนให้รู้ว่ามันไม่ใช่เป็นเฉพาะข้อมูล เราต้องเลื่อนโฟกัสจากข้อมูลที่มี Jon มีข้อแนะนำดังนี้
- ให้พยายามเข้าใจคนฟังว่าเขามองในมุมไหน ให้ระวังผลที่จะตามมา
- ให้เก็บข้อมูลตรงที่มีปัญหาที่เป็นที่วิพากษ์วิจารณ์ แล้วค้นหา
- ให้มองคนที่ท้าทายคุณไม่ใช่ศัตรูแต่เป็นเพื่อน
ในส่วนสรุปเขากล่าวว่า ข้อมูลอย่างเดียวเป็นแค่ตัวสนับสนุน แต่การที่จะชักชวนให้คนฟังนี่เป็นเรื่องเกี่ยวกับ เรื่องราวที่มีพลังในด้านอารมณ์ เช่นเรื่องราวของ A diamond is forever (De Beers), Real beauty(Dove) Think diffrent(Apple) Just do it(Nike) ข้อมูลสามารถทำให้เราเห็น insight แต่ตัวเลขอย่างเดียวไม่สามารถที่ทำให้คนอื่นเชื่อได้ เรื่องราวดีๆต่างหากที่จะผูกข้อมูลไว้กับความรู้สึกและพร้อมที่จะทำให้คนดูเชื่อตาม