หนังสือเล่มนี้แสดงถึงการวิเคราะห์ข้อมูลสามกระบวนการด้วยกัน คือ

  1. การเก็บข้อมูล
  2. การวิเคราะห์ข้อมูล
  3. การสื่อสารให้ผู้อื่นในส่วนที่ค้นหาเจอ

ซึ่งวัตถุประสงค์ของหนังสือไม่ได้ต้องการให้คนที่เป็นผู้จัดการมาเป็น Data Scientist แต่ต้องการให้เราสามารถใช้ข้อมูลให้เป็นประโยชน์และทำงานร่วมกับ Data Science

George Box พูดว่า ทุกโมเดลที่ใช้ในการทำนั้นผิดแต่บางอย่างเป็นประโยชน์ เพราะว่าโมเดลเป็นการทำให้ง่ายของโลกที่ซับซ้อน 

Analytics-based decision มี 6 ขั้นตอนด้วยกันคือ

  1. สังเกตปัญหาหรือคำถาม เฟรมการตัดสินใจหรือปัญหาธุรกิจและค้นหาทางเลือกในการเฟรม
  2. รีวิวการค้นพบที่เจอมาก่อน ลองหาคนที่แก้ปัญหานี้ที่มีความคล้ายกันแล้วดูว่าเขาใช้วิธีไหนแก้ปัญหาอย่างไร
  3. โมเดลผลลัพธ์และเลือกตัวแปร ตั้งข้อสมมุติฐานเกี่ยวกับตัวแปรบางอย่างที่มีผลกระทบต่อผลลัพธ์
  4. เก็บข้อมูลเบื้องต้นและข้อมูลรองสำหรับการตั้งตัวแปรสมมุติฐาน
  5. วิเคราะห์ข้อมูล รันโมเดลทางสถิติ ประเมินข้อมูล และซ้ำกระบวนการจนกระทั่งพบสิ่งที่เหมาะสม
  6. นนำเสนอเรื่องราวสู่ผู้ตัดสินใจและผู้มีส่วนได้ส่วนเสีย

คิดแบบนักวิทยาการข้อมูล Think like a Data Scientist

ผู้เขียนเอากราฟที่เป็นข้อมูลของการเข้าร่วมประชุมเป็นข้อมูลแสดงถึงว่าใครมาห้องประชุมสาย อันนี้ก็เป็นกราฟ plot เมื่อขีดตีเส้นก็จะอยู่ที่ค่าเฉลี่ยประมาณ 10 กว่านาที ทำให้เราทราบว่ามีคนมาสายเท่าไหร่ ข้อมูลเหล่านี้เปิดเผยอะไรแก่เราได้บ้าง ในช่วงที่คนมาตรงเวลาจะเป็นการเชิญรองประธานเข้ามาร่วมประชุมด้วย ดังนั้นเราอาจจะลองเช็คว่าข้อมูลของคุณเป็นเหมือนกับข้อมูลอื่นๆไหมในบริษัท มีงานประชุมไหนเริ่มช้า หรืออาจจะถามว่าเราควรจัดประชุมแบบทางไกลหรือจัดแบบเจอกัน และอันไหนที่มีผู้ใหญ่มาเข้าฟังแบบไหนจะมีคนเข้าสายกว่ากัน ดังนั้นการคิดแบบนักวิทยาการเอาข้อมูลมาวิเคราะห์ ตั้งคำถามและก็จำกัดวงเรื่องที่สนใจโดยตั้งคำถามสัก 2-3 คำถาม

ปัญหาที่เราเจอส่วนใหญ่ในบริษัทคือ

  1. เราถามคำถามถูกไหม บริษัทต่างๆ มักจะเก็บข้อมูลที่มีอยู่แต่ไม่ได้เก็บข้อมูลที่จะช่วยในเรื่องการตัดสินใจในการดำเนินธุรกิจ 
  2. ข้อมูลเล่าเรื่องราวได้หรือไม่ โดยปกติข้อมูลต่างๆมาเป็นแบบแยกส่วน เพราะฉะนั้นผู้จัดการต้องพยายามที่จะประกอบชิ้นส่วนเข้าด้วยกันเพื่อสร้างเรื่องราว
  3. ข้อมูลข่วยเรามองไปข้างหน้าหรือข้างหลัง ปกติข้อมูลส่วนใหญ่เป็นข้อมูลอดีตแทนที่จะทำนายอนาคต ดังนั้นควรที่จะถามว่าเป็นข้อมูลอะไร กรอบเฟรมอะไรที่ช่วย
  4. เรามีส่วนผสมที่ดีของข้อมูลด้านปริมาณและคุณภาพไหม เช่น เราอาจจะต้องดูว่าผลิตภัณฑ์อะไรที่เขาขายดีให้แก่ใคร แล้วทำไมถึงขายดี

ผู้จัดการควรตั้งคำถามที่ดี เช่น ผู้จัดการด้านการโฆษณาอาจจะถามว่า อะไรเป็นวิธีที่มีประสิทธิภาพสุดในการใช้โฆษณาในการเพิ่มการขาย? ถึงแม้ว่าคำถามนี้ดูมีเหตุผลแต่จริงๆแล้วเราต้องมองไปที่เป้าหมายปลายทางก็คือ การทำผลกำไรให้มากที่สุดมากกว่าเพิ่มการขาย เพราะฉะนั้นเราต้องเลือกให้ถูกคำถาม

แล้วเราจะเอาข้อมูลมาจากไหน?

โดยปกติเราสามารถเอาข้อมูลมากจากการสังเกตและทดลอง ผมเดาว่าการสังเกตที่พูดถึงก็คือการสังเกตจากการมองโดยไม่ต้องไปพูดคุยกับลูกค้า ซึ่งทำให้ข้อมูลอาจจะไม่น่าเชื่อถือได้ เช่น เราสังเกตว่าคนชอบซื้อเครื่องปรับอาการตอนช่วงหน้าร้อน ในขณะที่การทดลองจะต้องมีการควบคุมและให้ข้อมูลที่น่าเชื่อถือมากกว่าการทดลองต้องจะค่อนข้างแพงและยากในการเก็บข้อมูล ยกตัวอย่างเช่น Facebook ลองทดลองเอาหน้าคนที่โกรธใส่ใน facebook แล้วดูว่าอารมณ์ของผู้ดูจะเป็นอย่างไร ถึงแม้ว่าจะเป็นการทดลองที่ถูกกฎหมายแต่ก็มีคนที่ไม่ต้องการทดสอบการทดลองนี้

ข้อมูลส่วนใหญ่จะมีสองแบบ คือ Structured และ Unstructured data ตัว Unstructured จะเป็นแบบฟรีฟอร์มเช่น ภาพถ่าย วีดีโอ และยากที่จะใส่ในฐานข้อมูล ซึ่งข้อมูลเหล่ามีมากถึง 96% ของข้อมูลทั่วโลก ปัญหาส่วนใหญ่ของข้อมูลคือข้อมูลไม่สะอาด ไม่สมบูรณ์ และไม่เที่ยงตรง  54% ของผู้ตอบแบบสอบถามบอกว่า ข้อมูส่วนใหญ่ไม่มีคุณภาพหรือความสมบูรณ์ แล้วบางข้อมูลก็จะซับซ้อนซึ่งผู้เขียนแนะนำให้ใช้ KISS rules คือ Keep it simple stupid! คือ ข้อมูลต้องเรียบง่ายแบบซื่อๆ 

วิธีการออกแบบการทดลองด้านธุรกิจ

  1. ให้ตั้งคำถามแบบแคบๆ คำถามไม่ควรกว้าง เช่น การโฆษณาสมราคาไหม หรือเราควรลดโบนัสประจำปีไหม ดังนั้นคำถามต้องควรจะทดสอบได้ ดังนั้นต้องแคบและชัดเจน ยกตัวอย่างเช่น เราอาจจะถามว่า โฆษณาของยี่ห้อเราบน Google Adwords เพิ่มปริมาณการขายแต่ละเดือนหรือไม่?
  2. ใช้ฆ้อนใหญ่ ในการทดลองอาจจะทำให้เด่นเพื่อที่จะตรวจสอบว่าได้ผลหรือเปล่า เช่น ทำสติ๊กเกอร์ให้ใหญ่แตะตาคนแต่ถ้าไม่ได้ผลก็ยกเลิก
  3. ลองทดลอง Data Audit ก็คือมองเรื่องตัว intervention ที่เราจะลองเอามาทดลอง เราต้องเลือกตัวแปร ยกตัวอย่างเช่น เราต้องการรู้ว่าบรรจุภัณฑ์แบบไหนที่ทำให้เกิดความพึงพอใจและจงรักภักดีของลูกค้า
  4. เลือกประชากรกลุ่มทดลอง เลือกกลุ่มตัวอย่างจากลูกค้าของคุณมาทดลองแต่ต้องให้ระวังระหว่างกลุ่มเป้าหมายที่มีความแตกต่างกันในเรื่องของพฤติกรรมการช๊อปปิ้ง เช่น คนหนุ่มสาวมักจะช๊อปปิ้งออนไลน์มากว่าผู้สูงอายุ 
  5. สุ่มตัวอย่าง วิธีการสุ่มสามารถสุ่มทั้งกลุ่มควบคุมและกลุ่มทดลอง โดยกลุ่มทดลองเราก็จะได้ผลทดสอบ ในขณะที่กลุ่มควบคุมก็จะเป็นสิ่งที่ไม่เปลี่ยนแปลงหรือสิ่งที่เราให้กับลูกค้าครั้งที่แล้ว กฎของการสุ่มคือ ไม่ให้ผู้ทดลองเลือกกลุ่มเองและต้องไม่มีความแตกต่างระหว่างกลุ่มทั้งสอง กฎนี้อาจจะไม่เวิร์คในกรณีที่คนช๊อปวันอาทิตย์ก็จะได้ผลต่างกับคนช๊อปวันจันทร์
  6. วางแผนและยึดกับมัน พยายามกำกับเวลาของแผน เช่น จะมีผู้สังเกตเท่าไหร่สำหรับการเก็บข้อมูล ระยะเวลาในการทดลองเท่าไหร่
  7. ให้ข้อมูลพูดด้วยตัวมันเอง ให้หากลไกภายใต้ข้อมูลที่ค้นพบ อันนี้แปลว่าไม่ใช่เราได้ผลลัพธ์แล้วเราไม่รู้ว่าทำไมถึงเป็นแบบนั้น
  • รู้จักความแตกต่างระหว่างข้อมูลและ Metrics

ผู้เขียนเล่าว่า เขาได้ทำองค์กรหนึ่งชื่อวา DoSomthing.org ที่โพสต์เรื่องราวการช่วยเหลือนักศึกษาที่จะเรียนต่อมหาวิทยาลัยแต่ขาดแคลนทุนทรัพย์ เช่น กระเป๋าเป้ ลงบน YouTube ปรากฎว่ามีคนบริจาคเงินแค่ 8 คน อันนี้เราต้องมาวัดเรื่องของ ROI หรือ Return of investment มาถึงตรงนี้ผู้เขียนให้เราชี้ชัดด้านวัตถุประสงค์ ว่าธุรกิจต้องการอะไร และพัฒนาทฤษฎีของเหตุและผล ในการวัดวัตถุประสงค์นั้นๆ การวัดถ้าเป็น financial ก็จะวัดง่ายแต่ถ้าเป็น non-financial เช่น ความร่วมมือร่วมใจ ก็ต้องลองไปดูรายละเอียด หลังจากนั้นให้เลือกโมเดลสถิติที่จะใช้ตอบวัตถุประสงค์และประเมินด้วยโมเดลนั้น 

  • A/B testing ก็คือวิธีการที่จะเปรียบเทียบของสองเวอร์ชั่นว่าอันไหนมีประสิทธิภาพมากกว่ากัน ซึ่งทำได้กับเว๊ปไซด์ แอพพลิเคชั่น วิธีการนี้มีสอนมาเกิอบ 100 ปีแล้ว  การทดสอบแบบ A/B จะใช้การสุ่มตัวอย่างและมีกลุ่มสองกลุ่มทดสอบผลิตภัณฑ์ เช่นเราจะทดสอบขนาดสองขนาดของปุ่มมีผลต่อการ subscribe คนที่เป็น test analyst ก็ทำการสุ่มคนที่จะมาทดสอบของสองอย่าง ซึ่งวิธีทดสอบเราจะใส่ตัวแปรทีละอย่าง เช่น ขนาด เราจะไม่ใส่ตัวแปรอื่นๆ เช่น รูปแบบของตัวอักษรเพื่อไม่ทำให้เกิดความงง
  • Regression analysis

สมมุติว่าคุณเป็นผู้จัดการฝ่ายขายที่จะทำนายจำนวนผลิตภัณฑ์ที่จะขายเดือนหน้า ดังนั้นจึงมีตัวแปรที่เรียกว่า dependent variable หรือตัวแปรตามที่คุณอยากจะทำนาย ส่วน independent variable คือตัวแปรต้นที่ เช่น ค่าเฉลี่ยของการขายเท่ากับ 200 บวกกับห้าเท่าของการโฆษณา ดังนั้นจะเขียนสมการได้คือ y = 200+5x แต่แท้ที่จริงมีค่าความผิดพลาดอยู่ ที่เรียกว่า error term ก็จะเป็น y =200 + 5 ป+ error term ตรงนี้ก็สามารถ Plot จุดต่างๆ บนแกน x และ y คล้ายเส้นทะแยงแกน

  • Correlation

คือ ความสัมพันธ์ระหว่างสองตัวแปรซึ่งอาจจะไม่เป็นเหตุผลกัน ยกตัวอย่างเช่น การซื้อสินค้าที่ซูเปอร์มาร์เก็ตสัมพันธ์กับการเคลมประกันรถยนต์ หรืออาจจะเป็นเหตุเป็นผลกันก็ได้

สหสัมพันธ์ไม่ได้เกี่ยวข้องกับ cause and effect โดยตรง เช่น ฝนตกทำให้ขายของได้ดีขึ้น

การทำสหสัมพันธ์เราต้องไปดูว่าอะไรที่เกิดขึ้นจริงในโลกด้วยไม่ใช่แค่ดูข้อมูลบนหน้าจอ เพราะเป้าหมายไม่ใช่แก้ปัญหาของข้อมูลแต่เป็นการแก้ปัญหาว่าอะไรเกิดขึ้นในโลก

  • Machine learning เหมาะสำหรับปัญหาทางธุรกิจไหม?

ตรงนี้ก็น่าคิดนะครับว่าอะไรที่ควรให้ machine learning ทำ ถ้าท่านจำได้เราเคยรีวิว machine learing ใน Big Data Series ไปทีหนึ่ง ก็คือว่าเราเอาตัวอย่างให้คอมพิวเตอร์ดูแล้วมันก็จะเรียนรู้แบบลองผิดลองถูก เช่น เอารูปหน้าคนให้เขาดูแล้วเขาก็จะทำนายว่าเป็นหน้าตาของใคร ผู้เขียนแนะสองอย่างที่น่าจะใช้ Machine learning คือ

  1. ต้องการการทำนายมากกว่าการใช้ causeal inference หรือตรวจสอบสมมุติฐาน ซึ่งอันแรกอาจจะปัญหาว่าบางอย่างไม่เหมาะสมกับ pattern ที่มีอยู่แล้ว พยายามนึกในใจว่า Machine learning ไม่สามารถสร้างทฤษฎีจากการทดสอบสมมุติฐานเอง
  2. เพียงพอที่จะควบคุมตัวแปรและป้องกันสิ่งที่มีอิทธิพลอื่นๆ เข้ามา ถ้าในอนาคตมีตัวแปรอื่นมาผสม ตัวสูตรคณิตสาศสตร์เดิมก็ไม่สามารถรู้ว่ามันทำมาจากอะไร

Statistical Significance

ภาษาไทยก็คือความแตกต่างอย่างมีนัยสำคัญ บางทีเราก็ชอบเรียกกว่า ซิกด์ ตัวซิกด์นี้จะช่วยในเรื่องของการตรวจว่าผลลัพธ์นั้นน่าสนใจหรือไม่ เมื่อมันซิกด์มันหมายความว่าเรามั่นใจกับข้อมูลไม่ใช่เพราะว่าเราโชคดีในการเลือกกลุ่มตัวอย่าง ถ้าบังเอิญเราทดสอบสองแคมเปญ์ระหว่างเก่าและใหม่ปรากกฎว่ามันไม่มีความแตกต่างระหว่างสองอันนี้ที่ทำให้ผู้ซื้อต้องการซื้อเพิ่มขึ้น อันนี้เราเรียกว่า Sampling error เราจะต้องมาดูว่าอะไรคือปัญหาของ Sampling error ซึ่งเป็นไปได้สองกรณณี คือ ขนาดของการสุ่มตัวอย่าง (Size of sample) และ ความหลากหลายของประชากร (variation) เช่น ถ้าเราทอยเหรียญ 5 ครั้งกับ 500 ครั้ง เราจะมั่นใจกับการทอยเหรียญที่มีจำนวนมากกว่าทอยไม่กี่ครั้ง ส่วนถ้าเรามีค่าความหลากหลายของข้อมูลมาก Sampling erroe ก็จะมากขึ้นด้วย 

ลองมาดูเรื่องสมมติฐานหลักหรือ Null hypothesis เช่น ลูกค้าโดยเฉลี่ยไม่ชอบแคมเปญใหม่มากกว่าแคมเปญเก่า สมมติฐานนี้จะถูกหรือผิดก็ให้ดูที่ค่า p-value ถ้าน้อยก็จะมีโอกาสที่จะปฏิเสธข้อสมมุติฐาน ค่า p-value ขึ้นกับงานด้วยเช่น ถ้าทดสอบสมมติฐานพวกควอนตั้มฟิสิกส์ ก็จะมี p-value ระดับหลายทศนิยม โดยทั่วไปผู้จัดการออาจจะต้องมากังวลเรื่อง ซิกด์ เพราะพวก data science จะรู้ดีเรื่องพวกนี้ 

ลองมาดูตัวอย่างนี้นะครับ แคมเปญจ์การตลาดแบบใหม่ต้องจ่ายเงิน $1.76 ประมาณ 20% ในการขาย ถ้า p-value 0.03 แสดงว่าซิกด์ แต่ถ้าเป็น 0.2 หมายถึงไม่ซิกด์ ปกติเราใช้ตัวเลข 0.05 ถ้าน้อยกว่าก็ซิกด์ ถ้ามากกว่าก็ไม่ซิกด์ 

Linear thinking in a nonlinear world ผู้จัดการส่วนใหญ่คิดว่าการคำนวณจะเป็นแนวเส้นตรง เช่น  ถ้าเวลาผ่านไปค่าแรงจะมากขึ้นตามเวลา แต่ในความเป็นจริงมันไม่ได้เป็นเส้นตรงแต่มันเป็นเส้นโค้ง ซึ่งก็จะมีปรากฎการณ์ที่หลากหลายเช่น

  1. กราฟเพิ่มขึ้นค่อยๆ แล้วก็จะชัน
  2. กราฟค่อยๆลดลง แล้วก็ตกลงมาอย่างรวดเร็ว
  3. กราฟเพิ่มขึ้นอย่างรวดเร็วหลังจากนั้นก็จะเรียวขึ้น
  4. กราฟตกลงอย่างรวดเร็วหลังจากนั้นค่อยๆ ลง

หลุมพรางของการตัดสินใจด้วยข้อมูล

คนโดยปกติเวลาตัดสินใจไม่ได้มองไปที่รายละเอียดแต่ละชิ้นของข้อมูล เรามักจะเชื่อในเรื่องของ Heuristics-simplified หรือบางสิ่งที่อนุญาตให้เราตัดสินใจบนความไม่แน่นอน ตัวการตัดสินใจนี้ทำให้เราคิดว่าตัดสินใจถูกแต่ในความเป็นจริงเราตัดสินใจแบบผิดพลาด กับดักในการตัดสินใจมีอะไรบ้าง

  1. The confirmation trap เป็นการตัดสินใจบนพื้นฐานสิ่งที่เคยเชื่อในอดีต เช่น ในปี 1970 นักวิจัยเชื่อว่าไขมันมีผลต่อหัวใจและอายุ ซึ่งไม่ตรงกับคำแนะนำของนักวิจัยและการแพทย์ของสหรัฐ ซึ่งตรงนี้ก็ตรงกับเรื่องการตัดสินใจและอคติในการตัดสินใจ บริษัทส่วนใหญ่จะเชื่อข้อมูลที่มีหลักฐานยืนยัน วิธีการหลีกหนีความเชื่อเก่าๆ คือ
  • ให้เลือกแนวทางในการวิเคราะห์ข้อมูลและไม่พยายามมีอคติ
  • พยายามหาบางสิ่งที่ทำให้ข้อสมมติฐานคุณผิด อาจจะเล่นบทผู้ร้ายในการจับผิดหรือคุณอาจจะให้คนในองค์กรขึ้นมาดีเบตข้อมูล
  • พยายามดูค่าผิดพลาดบางอย่าง เช่น มีค่า standard errors 
  • ให้ทีมหลายๆทีมช่วยกันวิเคราะห์ข้อมูล และดูว่าทุกคนมีข้อสรุปแบบเดียวกันไหม ถ้าไม่ให้ค้นหาว่าอะไรที่ทำให้แตกต่าง เช่น วิธีการที่ไม่เสถียร ความผิดพลาด หรือ อคติ
  • พยายามทำให้การค้นพบคล้ายกับการทำนายและให้ทดสอบ ถ้าไม่สามาiถหาความสัมพันธ์ก็ให้ใช้การทดลองพิสูจน์
  1. The Overconfidence trap กับดักที่เกิดจากความเชื่อมั่นมากเกินไป Max Bazerman and Don Moore พูดว่าความเช่ือมั่นมากเกินไปเป็นแม่ของอคติทั้งมวล ความเชื่อมั่นที่มากเกินไปทำให้กันตัวเราจากคำถามและวิธีการสื่อสารสิ่งที่เจอกับคนอื่น  ทริปในการหลีกเลี่ยง Over confidence
  • ให้อธิบายการทดลองที่สมบูรณ์แบบ แล้วให้เปรียบเทียบข้อมูลที่ทำกับสิ่งที่สมบูรณ์แบบ สิ่งนี้จะช่วยให้คุณเห็นข้อผิดพลาด
  • ให้มีการคิดแบบท้วงติงในกระบวนการ ให้ถามตัวเองว่าทำไมการวิเคราะห์ของคุณถึงล้มเหลว ให้พยายามทำทุกๆการวิเคราะห์
  • ก่อนตัดสินใจหรือทำโครงการลองจินตนาการว่ามันจะมีโอกาสผิดพลาดตรงไหนในแง่มุมต่างๆ 
  • พยายามติดตามดูเปรียบเทียบระหว่างการทำนายกับสิ่งที่เกิดขึ้น ทำอย่างไรถึงป้องกันความผิดพลาดในอนาคต
  1. Overfitting trap หลุมพลางอันหนึ่งที่เกิดขึ้นคือข้อมูลดีเกินไป บางทีเกิดจาก random noise มากกว่าค้นพบเจออะไร ยกตัวอย่างเช่น Google’s Flu ตรวจพบว่าคนที่เป็นนักบาสของโรงเรียนมีความสัมพันธ์กับการเป็นไข้สูงมาก แต่แท้ที่จริงเป็นการทำนายที่ผิด วิธีหลีกเลี่ยง overfitting คือ
  • สุ่มข้อมูลออกเป็นสองส่วน อันหนึ่งเป็นข้อมูลสำหรับการ train และอีกข้อมูลสำหรับการ validation หรือการพิสูจน์    ซึ่ง overfit โมเดลจะดีมากตรงข้อมูล train แต่ไม่ดีมากตรง validation
  • พยายามทำให้ข้อมูลในการวิเคราะห์ง่าย พยายามมองความสัมพันธ์ที่จะวัดว่ามีผลกระทบต่อสมมุติฐานไหม

Do not let your analytics cheat the truth

ในส่วนนี้ก็ได้พูดถึงเรื่อง outlier ในการที่จะค้นพบข้อมูลสำคัญว่าผลิตภัณฑ์เราผิดตรงไหน ถ้า data analytics ตัด outlier ออกหมดก็จะทำให้ไม่ทราบความจริง อันนี้จริงครับผมเคยทดสอบอุปกรณ์หนีไฟ แล้วปรากฎว่ามีคนสวมใส่อุปกรณ์ได้ช้ากว่าปกติทั้งๆที่คนทำมีวุฒิระดับปริญญาตรี ตรงนี้ทำให้เราทราบว่าทักษะการใส่อุปกรณ์ก็คือทักษะการแก้ไขปัญหาซึ่งไม่ได้เกี่ยวกับวุฒิการศึกษา ซึ่งถ้าเราตัดคนเหล่านี้ออกจากการทดลองเราก็อาจจะไม่ได้ความจริงขึ้นมา

ผู้เขียนยกตัวอย่าง รายได้สุทธิของนักเรียนที่ตกออกจากมหาวิทยาลัย Havard สูงกว่า นักเรียนที่จบจากมหาวิทยาลัย เพราะตัวอย่างคนที่ตกออกได้แก่ Bill gates, Mark Zuckerberg และ Polaroid’s Edwin Land คนที่ออกแบบกล้องโพลาลอยด์

เมื่อไหร่ที่ Data Visualization works และไม่เวิร์ค มีสามเหตุผลในการ visualize data

  1. Confirmation ถ้าเรามีข้อสมมุติฐานเกี่ยวกับระบบที่เราสนใจ เช่น ตลาด ลูกค้า หรือ คู่แข่ง การทำให้เห็นภาพจะช่วยให้เราตรวจสอบข้อสมมุติฐานของเรา เราสามารถตรวจสอบความเสี่ยงที่เกิดขึ้น
  2. Education มีสองรูปแบบ คือ การรายงานสิ่งที่วัดและคุณค่าของการวัด ส่วนอันที่สองคือ การพัฒนาสัญชาติญาณและข้อคิดใหม่ๆ ในระบบพฤติกรรมที่เปลี่ยนตลอดเวลา ซึ่งเราสามารถเห็นโมเดลนี้ใน Gamification
  3. Exploration เมื่อเรามีข้อมูลขนาดใหญ่ที่เกี่ยวกับระบบ เป้าหมายคือเตรียมเรื่องการสื่อสารระหว่างคนกับเครื่องจักร ที่ทำให้เราสามารถทำนายและบริหารจัดการระบบ อันนี้อยู่ใน field ของธุรกิจที่เรียกว่า Exploratory data analysis หรือ EDA

การทำ charts ให้เด่นและดึงดูด มีหลักด้วยกันดังนี้

  1. คุณกำลังนำเสนอหรือให้ข้อมูล ถ้าอยู่ในที่ประชุมไม่ควรนำข้อมูลจำนวนเยอะใส่เข้าไปเพราะผู้ดูอ่านไม่ทัน พยายามใช้สีที่สว่างเน้นจุดที่คุณต้องการนำเสน แต่ถ้ามีรายละเอียดเยอะๆ ก็ให้ส่งอีเมลล์แทนที่จะนำเสนอ
  2. ใช้กราฟหรือตารางให้ถูก พายชาร์ตเหมาะสำหรับการบอกว่าใครถือส่วนไหนมากที่สุดไม่เหมาะกับการเปรียบเทียบ ถ้าจะเปรียบเทียบก็ให้ทำ bar chart แทน
  3. สารอะไรที่เราต้องการสื่อ ในการนำเสนอให้คิดว่าอะไรที่สำคัญที่สุดในการนำเสนอเราอาจจะใส่สีเพื่อทำให้ดูน่าสนใจตรงจุดที่เรานำเสนอ
  4. ภาพสะท้อนตัวเลขไหม การใส่ลวดลายเส้นเข้าไปจำนวนมากทำให้เกิดความรกรุงรังและดูยาก ให้ใส่เท่าที่จำเป็น
  5. ข้อมูลของคุณเป็นที่จดจำได้ พยายามใช้ metaphor ช่วยทำให้ผู้ดูจดจำ ตัวอย่างเช่น Michael Polan เอาแก้วที่เต็มไปด้วยน้ำมันมาโชว์กระบวนการผลิต หลังจากจบท้ายเขาก็ชิมน้ำมัน อันนี้เขาทำเป็นการแสดงแทนการโชว์กราฟ

ทำไมถึงยากสำหรับเราในการสื่อสารความไม่แน่นอน

เราใช้ข้อมูลในการทำนายแต่บางครั้งข้อมูลก็ไม่มีความแน่นอน ในปี 2016 การเลือกตั้งประธานธิบดีของสหรัฐซึ่งชิงกันระหว่างแฮรารี่คลินตันและทรัม ปรากฎว่ากราฟสวิงไปมา บทนี้เขาก็สัมภาษณ์ Scott Berinato ผู้เขียน good charts ว่าเขาเห็นอะไรในการเลือกตั้ง คำตอบคือว่าข้อมูลที่สวิงไปมาใน real time ไม่ใช่สิ่งที่ดีที่นำเสนอ เพราะสิ่งที่นำเสนอมักจะเป็นความน่าจะเป็น เช่น 80% ของโอกาสที่จะเกิดขึ้น ซึ่งเราไม่สามารถรู้สึกได้ว่ามันเป็นเท่าไหร่ คล้ายกับ 20% หรือ 1 ใน 5 ที่จะเกิด ม้นค่อนข้างดูเป็นนามธรรม

ตอบคำถามคนที่ท้าทายข้อมูลของคุณ

มีครั้งหนึ่งที่ Jon ได้เข้าไปศึกษาข้อมูลที่บริษัทแห่งหนึ่งเพื่อนำเสนอแผนก HR แล้วเขาก็พบว่า มีการเหยียดเพศในการโปรโมทเข้ารับตำแหน่งสูงๆ ตอนเขาเสนอให้กับผู้จัดการ HR เขาโกรธมากเขาบอกว่าตีความข้อมูลผิดเพราะเขาทำให้ผู้หญิงและชายมีฐานะเท่าเทียมกัน Jon เลยพยายามที่จะศึกษาเพิ่มตรงส่วนที่เป็นการเหยียดเพศ หนึ่งเดือนถัดมาเขานำเสอน HR อีกครั้ง เขาบอกว่า ผู้ชายและหญิงมีการ Promote เท่าเทียมกัน แต่ด้วยเป็นเพราะผู้หญิงไม่สามารถที่จะมีความสามารถดังที่บริษัทตั้งไว้ จึงไม่ได้ถูก Promote หลังจากนั้นผู้จัดการ HR ก็ให้คนแก้ปัญหาเรื่องการเหยียดเพศ ดังนั้นเรื่องนี้สอนให้รู้ว่ามันไม่ใช่เป็นเฉพาะข้อมูล เราต้องเลื่อนโฟกัสจากข้อมูลที่มี Jon มีข้อแนะนำดังนี้

  1. ให้พยายามเข้าใจคนฟังว่าเขามองในมุมไหน ให้ระวังผลที่จะตามมา
  2. ให้เก็บข้อมูลตรงที่มีปัญหาที่เป็นที่วิพากษ์วิจารณ์ แล้วค้นหา
  3. ให้มองคนที่ท้าทายคุณไม่ใช่ศัตรูแต่เป็นเพื่อน 

ในส่วนสรุปเขากล่าวว่า ข้อมูลอย่างเดียวเป็นแค่ตัวสนับสนุน แต่การที่จะชักชวนให้คนฟังนี่เป็นเรื่องเกี่ยวกับ เรื่องราวที่มีพลังในด้านอารมณ์  เช่นเรื่องราวของ A diamond is forever (De Beers), Real beauty(Dove) Think diffrent(Apple) Just do it(Nike) ข้อมูลสามารถทำให้เราเห็น insight แต่ตัวเลขอย่างเดียวไม่สามารถที่ทำให้คนอื่นเชื่อได้ เรื่องราวดีๆต่างหากที่จะผูกข้อมูลไว้กับความรู้สึกและพร้อมที่จะทำให้คนดูเชื่อตาม