สรุปหนังสือ Big Data ดัดจริต (Everybody Lies)

สรุปหนังสือ Everybody Lies : Big Data ดัดจริต

#สวนหนังสือหมื่นเล่ม เล่มที่ 19

Big Data ดัดจริต (Everybody Lies)

สองสิ่งที่เป็นแรงบันดาลใจให้ซิสเข้าสู่วงการ data science สิ่งแรกคือ สุดยอดเมเนเจอร์คนแรกที่เป็น role model ในการนำ data science มาช่วยในทำแคมเปญการตลาดจนประสบความสำเร็จมานับต่อนับ อีกสิ่งหนึ่งคือ หนังสือ Big Data ดัดจริต (Everybody Lies) เล่มนี้ที่ทำให้ big data ดูมีชีวิตชีวาและน่าหลงใหลจนถอนตัวไม่ขึ้น

ความพิเศษของหนังสือ Big Data ดัดจริต มาจากอารมณ์ขันของผู้เขียน เซท ดาวิโดวิทซ์ (Seth Stephens-Davidowitz) ที่สามารถเล่าเรื่องงานวิจัยจาก big data วิธีวิเคราะห์ข้อมูล และสรุปผลให้เป็นเรื่องเข้าใจง่าย ตลก และน่าสนใจ โดยชี้ให้เห็นถึงความเกี่ยวข้องกับชีวิตประจำวัน เช่น วิธีดูว่าคนที่จีบอยู่จะยอมออกเดตกับเรา, โรงเรียนอันดับ 1 กับโรงเรียนใกล้บ้าน แตกต่างกันจริงหรือ, เรื่องลับๆ อย่างเรื่องทางเพศ ไปจนถึงเรื่องดาร์กๆ อย่างการทำแท้งและพ่อแม่ตบตีลูก

ฉีกหน้ากากโพสต์บนโซเชียลมีเดียที่สวยงาม แล้วพาไปดูเบื้องหลังความคิดของมนุษย์ที่ไม่ได้พิมพ์ลงไปบนโพสต์ แต่พิมพ์ลงบนช่องคำค้นหาของ Google

ช่องค้นหาสี่เหลี่ยมเล็กๆ ของ Google = ยาสารภาพความจริง

อ่านแล้วได้ไอเดียวิธีวิเคราะห์ข้อมูลแบบต่างๆ ที่นำไปประยุกต์ใช้กับงานได้เพียบ ขอแบ่งปัน 7 เรื่องราวแรงบันดาลใจจากหนังสือเล่มนี้ที่ซิสนำไปใช้ในการทำงานด้าน data-driven marketing จริงมาฝากกันค่ะ

1. ใคร? อะไร? ที่ไหน? เมื่อไหร่? กำลังมาแรงด้วย Google Trends

Google Trends เป็นเครื่องมือที่บอกผู้ใช้ว่า คำ หรือประโยคค้นหาใดที่มีการใช้บ่อยที่สุด แยกดูได้ทั้งสถานที่และช่วงเวลา

ตอนที่ดูแลโซเชียลมีเดียของบริษัท นอกจากจะคอยตาม trends จากทวิตเตอร์แล้ว อีกเครื่องมือหนึ่งที่เปิดดูทุกวันคือ Google Trends นี่แหละ คอยเช็คคำค้นหาบน Google ว่า อะไรกำลังฮิตเพื่อนำสินค้านั้นมาโปรโมท, มุขอะไรกำลังมาเพื่อนำไปสร้างคอนเทนต์สนุกๆ บนเพจ หรือความรุนแรงของข่าวการเมืองเพื่อไม่ให้มีโพสต์ไม่เหมาะสมลงไป เป็นต้น

อย่างไรก็ตาม Google Trends ทำได้เพียงเปรียบเทียบจำนวนคำค้นหา โดยเทียบสเกล 100% ถ้าต้องการระบุตัวเลขจำนวนการค้นหาของแต่ละคำ เซทแนะนำให้ใช้ร่วมกับ Google Ads ค่ะ

ทั้งสองเครื่องมือที่กล่าวมา สามารถใช้ทำ Search Engine Optimization (SEO) ได้ โดยใช้ระบุหรือเปรียบเทียบ ‘คีย์เวิร์ด’ ที่ถูกค้นหาบ่อย เช่น คำว่า promotion ถ้าสะกดถูกต้องตามราชบัณฑิตยสถานจะเป็น ‘โปรโมชัน’ แต่ถ้าอิงตาม Google Trends จะเห็นว่าคนส่วนใหญ่สะกดว่า ‘โปรโมชั่น’ ดังนั้นถ้าเพื่อให้หน้าแคมเปญให้ติดหน้าแรกและอยู่อันดับต้นๆ ของ Google ซิสเลือกใช้ ‘โปรโมชั่น’ ตามที่คนส่วนใหญ่ค้นหา แต่สำหรับช่องทางอื่นๆ ที่ไม่เกี่ยวกับ SEO เช่น ข้อความใน Push Notification ซิสเลือกใช้ ‘โปรโมชัน’ ที่สะกดถูกต้อง

ปล. การเลือกคีย์เวิร์ดเป็นเพียงปัจจัยหนึ่งของ SEO ซึ่งต้องทำร่วมกับอีกหลายปัจจัยในการทำให้เพจติดหน้าแรกของ Google

2. วอลมาร์ต, เฮอร์ริเคนและพายสตรอเบอร์รี่

วอลมาร์ต (Walmart) เป็นร้านค้าปลีกที่ใช้ Big Data มาวางแผนกลยุทธ์จนขึ้นแท่นเป็นร้านค้าปลีกอันดับ 1 ของโลก หนึ่งในเรื่องราวที่โด่งดั่งคือ ก่อนเกิดเหตุการณ์พายุเฮอริเคนฟรานเซสในปี 2004 วอลมาร์ตคำนวณไว้อย่างถูกต้องว่านิสัยการช้อปปิ้งจะเปลี่ยนไป พวกเขาสำรวจข้อมูลการขายในช่วงเฮอร์ริเคนครั้งก่อนก็พบว่า ยอดขายพายสตรอเบอร์รี่ตอนก่อนจะเกิดพายุเฮอร์ริเคน ขายเร็วขึ้นถึง 7 เท่า! วอลมาร์ตรีบส่งพายสตรอเบอร์รี่ไปยังร้านที่อยู่ในเส้นทางเฮอร์ริเคนทันที พบว่าพายสตรอเบอร์รี่ขายดีจริงๆ ตามที่ประเมินไว้

แล้วทำไมพายสตรอเบอร์รี่ถึงขายดีช่วงก่อนเฮอร์ริเคน? เซทเดาว่าเพราะพายเป็นขนมที่ไม่ต้องแช่ตู้เย็นและไม่ต้องปรุง แต่ทำไมเป็นรสสตรอเบอร์รี่? ยังคงเป็นปริศนาที่วอลมาร์ตก็ไม่ได้สนใจเหตุผล สนแต่เพียงจังหวะเวลาเท่านั้น ขณะที่ยังไม่มีคนอธิบายเรื่องนี้ได้ วอลมาร์ตก็ลุยสต็อกพายสตรอเบอร์รี่ไว้เพื่อรองรับช่วงพายุเฮอร์ริเคนเข้า

3. Google Ngrams นับจำนวนคำจากหนังสือ

อีกหนึ่งเครื่องมือสนุกๆ สำหรับคนรักหนังสือคือ Google Ngrams ที่ใช้ดูความนิยมของคำ กลุ่มคำ หรือประโยคที่ปรากฏอยู่ในหนังสือ โดยฐานข้อมูลมาจากหนังสือใน Google Books ปัจจุบันมีหนังสืออยู่กว่า 40 ล้านเล่มตั้งแต่ปี 1500 – 2019 และยังแอคทีฟเรื่อยๆ

สองหนุ่มนักชีววิทยานาม อีเรซ เอเดน และฌอง-แบปดิสต์ มิเชล ได้ใช้ Google Ngrams มาวิเคราะห์ว่า “สหรัฐอเมริกา (United States) เป็นประเทศที่มีความเป็นอันหนึ่งอันเดียวหรือแตกแยกกัน” แรงบันดาลใจมาจากชื่อประเทศที่ว่า United ที่หมายถึง เป็นอันหนึ่งอันเดียวกัน

เอเดนและมิเชลวิเคราะห์จากการใช้คำเอกพจน์และพหูพจน์ในงานเขียน ในอดีต United States เป็นคำนามพหูพจน์ เพราะมาจากการวมตัวของหลายๆ รัฐ แต่ปัจจุบัน United States เป็นคำเอกพจน์ คำถามสำคัญในแง่ประวัติศาสตร์คือ การเปลี่ยนจากพหูพจน์มาเป็นเอกพจน์เริ่มต้นเมื่อไหร่? สมมติฐานเดิม ซึ่งเป็นความเชื่อที่มีคนพูดต่อๆ กันมาคือ สหรัฐอเมริกาเริ่มเป็นอันหนึ่งอันเดียวกันมาจากสงครามกลางเมือง

Google Ngrams แสดงให้เห็นว่า หลังจากจบสงครามกลางเมือง อัตราความถี่ของความเป็น ‘ประเทศเอกพจน์’ เพิ่มจำนวนขึ้นอย่างรวดเร็วก็จริง แต่ 15 ปีหลังสงครามกลางเมือง ยังมีคนใช้คำแบบพหูพจน์อยู่มากกว่า นั้นแปลว่าในทางภาษาแล้ว ประเทศนี้ยังไม่ได้รวมเป็นหนึ่งเดียวกัน

4. แสดงคำที่ใช้บ่อยด้วยแผนภาพ Word Clouds

ผู้หญิงกับผู้ชายมีการใช้คำพูดแตกต่างกันอย่างไร? มีทีมนักวิจัยได้ทำการศึกษาโพสต์ในเฟซบุ๊คหลายแสนโพสต์เพื่อวิเคราะห์คำที่ถูกใช้บ่อยโดยแยกหญิงและชายออกจากกัน แล้วนำเสนอด้วยแผนภาพ Word Clouds คำไหนใหญ่มาก แปลว่ายิ่งถูกใช้บ่อย

หลังจากอ่านบทนี้ ซิสได้นำแผนภาพ Word Clouds มาใช้แสดงผลตอนวิเคราะห์ข้อความใน Push Notification ที่ส่งหาลูกค้านับล้านคน จำนวนหลายร้อยข้อความ ว่าคำหรือกลุ่มคำใดที่ลูกค้าตอบสนองต่อข้อความมากที่สุด

5. รับความจริงได้มั้ย? และคุณไม่ได้เป็นคนเดียวที่สงสัยเรื่องนี้

บางหัวข้องานวิจัยของเซท ได้ตีแผ่ตัวตนด้านมืดของมนุษย์จนบางคนรับไม่ได้ หรือไม่อยากจะเชื่อแม้จะมีข้อมูลอยู่ตรงหน้า เช่น ยังมีการเหยียดผิวอย่างแพร่หลายในอเมริกา, มีเกย์หลายล้านที่ต้องปกปิดตัวตนในดินแดนแห่งเสรีภาพ, ในรัฐที่เคร่งศาสนา กลับมีผู้หญิงทำแท้งด้วยตัวเองหรือทำแท้งเถื่อนสูง, วิกฤตพ่อแม่ทำร้ายลูก เป็นต้น

มีคนสงสัยว่า เรารู้เรื่องเหล่านี้ไปทำไม? แม้ข้อมูลจะแสดงความจริงที่น่าหดหู่ แต่มันช่วยให้เราตระหนักถึงความจริงและมองเห็นทางออกของปัญหาทัศนคติอันเลวร้าย

ประโยชน์ทางใจคือ การได้รู้ว่าเราไม่ได้เป็นคนเดียวที่รู้สึกเปราะบางและมีพฤติกรรมน่าอาย ก็ช่วยให้รู้สึกดีขึ้นได้บ้าง ไม่รู้สึกโดดเดี่ยว

เซทดึงข้อมูลคำถามยอดฮิตของชาวอเมริกันในช่วงที่โอบามากำลังปราศรัยบนเวทีสหประชาชาติปี 2014 ปรากฏว่าคำถามยอดนิยมคือ

โอบามาอายุเท่าไหร่
คนที่นั่งข้างไบเดนคือใคร
ทำไมโบเนอร์ใส่เนคไทสีเขียว
ทำไมโบเนอร์ผิวสีส้ม

คำถามเหล่านี้เป็นคำถามแบบที่คงไม่มีใครยกมือถามคุณครู เพราะมันฟังดูโง่เกินไปหรือไม่ได้มีผลอะไรกับชีวิต “ไม่สนใจเรื่องที่เขาพูด แต่มายุ่งกับสีเนคไทชาวบ้านเนี่ยนะ!” แต่มีคนมากมายที่สงสัยเรื่องนี้เหมือนกัน พวกเขาจึงเข้าไปถามในกูเกิล

6. วิเคราะห์ลักษณะคนที่ประสบความสำเร็จด้วยข้อมูลจาก Wikipedia

โลกออนไลน์มีแหล่งข้อมูลฟรีอยู่มากมายให้เราหยิบนำมาวิเคราะห์ต่อได้ หนึ่งในนั้นคือเว็บสารานุกรมยอดนิยม Wikipedia เซทได้ทำโปรเจคศึกษาว่า ชาวอเมริกันที่ประสบความสำเร็จมีพื้นเพมาจากไหน โดยดาวน์โหลดข้อมูลวิกิพีเดียของชาวอเมริกันจำนวน 150,000 คน ข้อมูลประกอบไปด้วย มลรัฐเกิด, วันเกิด, อาชีพ และเพศ หลังจากคลีนข้อมูล คัดกรองคนมีชื่อเสียงในแง่ลบออก เช่น อาชญากร จากนั้นเลือกเฉพาะคนที่เป็นเบบี้บูม เพราะสามารถเห็นภาพชีวิตทั้งชีวิตของเขาได้ 

ผลสรุปคือ มณฑลบ้านเกิดที่มี ‘เมืองมหาวิทยาลัย’ ของตัวเองจะให้กำเนิดยอดคนของอเมริกาได้มากกว่ามณฑลอื่นๆ เช่น เมดิสัน (รัฐวิสคอนซิน),​ เอเธนส์ (รัฐจอร์เจีย),​ เบิร์กเลย์ (รัฐแคลิฟอร์เนีย) เป็นต้น ผลผลิตของมณฑลผู้คงแก่เรียนเหล่านี้ ไม่ได้จำกัดแค่แวดวงการศึกษาหรือศิลปะ แต่รวมถึงนักธุรกิจด้วย 

นอกจากนี้ยังมีปัจจัยทางชาติพันธ์ุ ชาวแอฟริกัน-อเมริกันแทบไม่มีผลงานปราฏในบทความด้านธุรกิจและวิทยาศาสตร์ ซึ่งเชื่อว่าเป็นผลพวงของการเหยียดเชื้อชาติในสมัยนั้นที่จำกัดสิทธิการศึกษาและอาชีพของคนผิวดำ

7. ทำ A/B Test ว่า A หรือ B ผลลัพธ์ดีกว่ากัน

A/B Test คือ การทดสอบว่า A หรือ B อันไหนให้ผลลัพธ์ดีกว่ากัน โดยแบ่งกลุ่มทดสอบเท่ากัน เช่น หากกูเกิลอยากจะรู้ว่า ปุ่มสีแดง vs ปุ่มสีฟ้า สีไหนคนคลิกมากกว่ากัน ก็แค่สร้างเว็บขึ้นมาสองเวอร์ชั่น แบ่งเป็นเวอร์ชั่นละสี จากนั้นสุ่มเลือกผู้ใช้มาเพื่อแบ่งเป็นสองกลุ่มเท่ากัน โดยกลุ่ม A จะเห็นปุ่มสีแดง และกลุ่ม B เห็นปุ่มสีฟ้า เมื่อสิ้นสุดระยะเวลาทดสอบ ก็ดูผลลัพธ์ว่าสีไหนคนคลิกมากกว่ากัน และนำสีนั้นไปใช้งานจริง

A/B Test ในโลกออนไลน์นั้นใช้เงินน้อย รวดเร็ว ไม่ต้องจ่ายเงินให้ผู้เข้าร่วมทดสอบ เข้าถึงกลุ่มผู้ทดสอบได้ง่าย ที่ต้องทำคือแค่เขียนโปรแกรมขึ้นมาเลือกผู้ใช้งานแบบสุ่ม ใช้แรงเพียงเล็กน้อย แต่ก่อให้เกิดผลลัพธ์ใหญ่มาก เช่น Google ได้ทดสอบว่าปุ่มลักษณะใด วางตำแหน่งไหน ถึงทำให้คนคลิกโฆษณาบน Google มากขึ้น ซึ่งผลลัพธ์ก็สามารถทำเงินมหาศาลให้กับ Goolge และพาร์ทเนอร์ที่มาลงโฆษณาได้

A/B Test เป็นอีกหนึ่งงานสนุกๆ ในการทำแคมเปญของซิส และผลลัพธ์ที่ได้ช่วยให้แคมเปญดีขึ้นทุกครั้ง เช่น ทดสอบการใส่ emoji ใน push notification ว่าแบบใดคนคลิกมากกว่ากัน, ทดสอบหัวข้ออีเมลข่าวสารว่าข้อความไหนคนคลิกมากกว่า, ทดสอบปุ่มบนหน้าเว็บว่า ใส่ปุ่มตำแหน่งไหน สีอะไร call to action ว่าอะไร คนถึงจะคลิกมากกว่ากัน เป็นต้น

ตัวอย่างทั้ง 7 ข้อข้างบนเป็นแรงบันดาลใจที่ซิสนำวิธีวิเคราะห์ข้อมูลมาประยุกต์ใช้กับงานจริงๆ ค่ะ ในหนังสือยังมีตัวอย่างสนุกๆ อีกเพียบ เช่น ทำนายม้าแข่ง, วิเคราะห์อารมณ์ในนวนิยาย Harry Potter, ความจริงของเซ็กส์ เป็นต้น

“Data by itself is useless. Data is only useful if you apply it”

Todd Park

Big Data และ Data Science เป็นเรื่องใหม่ของศตวรรษที่ 21 ที่ทำให้ตื่นเต้น แต่ต่อให้มีข้อมูลมหาศาลอยู่ในมือ ถ้าเราไม่รู้ว่าจะนำมันมาใช้ประโยชน์ยังไงก็สูญเปล่า สำหรับหนังสือ Big Data ดัดจริต เซทได้ชี้ทางให้คนอ่านอย่างเรามองเห็นว่า รอบตัวเราคือ Big Data ที่มีค่า มีข้อมูลมหาศาลที่เกี่ยวข้องกับชีวิตประจำวัน ซึ่งช่วยทำให้เราใช้ชีวิตได้ดีขึ้น ช่วยให้คนอื่นมีชีวิตที่ขึ้น บางเรื่องก็แค่รู้สนุกๆ หรือช่วยให้เราไม่รู้สึกโดดเดี่ยว 

ซื้อหนังสือ You are a badass อยากทำก็ทำ! อย่าให้คำพูดคนฆ่าคุณ

BIG DATA ดัดจริต (Everybody Lies)

กล่าวถึงวิถีในการศึกษาจิตใจรูปแบบใหม่ โดยใช้ “Big Data” ที่มาจากข้อมูลพฤติกรรมการค้นหาบนอินเทอร์เน็ต และการตอบแบบสอบถามทางออนไลน์เป็นหลัก ถึงแม้เครื่องมือนี้จะไม่ได้แม่นยำระดับที่สามารถอ่านจิตมนุษย์ได้ แต่ผู้แต่ง “เซท สตีเฟน-เดวิโดวิตซ์” ได้แสดงให้เห็นถึงวิธีในการใช้เครื่องมือธรรมดาเหล่านี้ ในการเจาะเข้าไปดูจิตของผู้คนได้อย่างที่ไม่เคยมีใครทำได้มาก่อน!

Leave a Reply