PMsquare ThailandPMsquare ThailandPMsquare Thailand

แก้ไขปัญหาข้อมูลที่ไม่เป็นระเบียบ (Data Swamp) ด้วยการกำกับดูแลพื้นที่จัดเก็บข้อมูลส่วนกลาง (Data Lake)

บิ๊กดาต้า (big data) เติบโตขึ้นอย่างต่อเนื่องในแต่ละปีที่ผ่านมา ในปัจจุบันซึ่งเป็นยุคดิจิทัล การเติบโตของข้อมูลที่ถูกผลิตออกมาเพิ่มขึ้นทวีคูณอย่างเห็นได้ชัด โดย IDC คาดการณ์ว่าภายในปี 2525 ข้อมูลทั่วโลก 80% จะเป็นข้อมูลที่ไม่มีโครงสร้าง (Unstructured) ไม่ช้าหรือเร็ว ธุรกิจของคุณจำเป็นจะต้องมีการจัดการพื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake) ขนาดใหญ่อย่างแน่นอน

พื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake) คืออะไร?

หากนึกถึง data lake ให้นึกถึงพื้นที่ส่วนกลางที่เปรียบเสมือนทะเลกว้างสำหรับจัดเก็บข้อมูลของคุณ เป็นพื้นที่สำหรับการจัดเก็บข้อมูล ทั้งที่มีโครงสร้างข้อมูล (structured data) และไม่มีโครงสร้างข้อมูล (Unstructured Data) ไว้ในทุกขนาด

ข้อมูลต้นทางทั้งหมดจะถูกส่งเหมือนแม่น้ำที่ไหลสู่ทะเลพื้นที่ส่วนกลางของคุณ ซึ่งเป็นพื้นที่จัดเก็บข้อมูลดิบ ข้อมูลที่ยังไม่ได้คัดกรอง และข้อมูลอื่นๆ ที่อยู่ภายใต้การดูแลขององค์กร

ชุดข้อมูลเชิงโครงสร้าง (structured data) เป็นข้อมูลที่มาพร้อมกับโครงสร้างของตัวมันเอง โดยไม่จำเป็นต้องทำ การจัดทำดรรชนี (Indexing) หรือติดแท็ก (tagging) เพิ่มเติม ส่วนชุดข้อมูลที่ไม่มีโครงสร้างแน่นอน (unstructured data) เป็นข้อมูลที่มีรูปแบบดั้งเดิม เช่น โพสในโซเชียลมีเดีย รูปภาพ และไฟล์ MP3 เป็นต้น ซึ่งข้อมูลอย่างหลังนี้เองที่ทำให้ข้อมูลไม่เป็นระเบียบ

Data lake หรือ data swamp?

เมื่อข้อมูลต่างประเภทกันมาอยู่รวมกันเป็นจำนวนมาก การค้นหาข้อมูลอะไรสักอย่างที่ไม่เหมือนใครก็กลายเป็นเรื่องยาก ทั่วโลกในขณะนี้ ในหนึ่งคนก็จะมีอุปกรณ์อย่างน้อยสองชิ้น ซึ่งต่างก็สร้างข้อมูลจำนวนมหาศาลในทุกๆ วัน ดังนั้น พื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake) ของคุณก็มีแต่จะกว้างและซับซ้อนขึ้น ไม่ลดน้อยลงไปกว่านี้

ในบางครั้ง data lake ก็สามารถถูกทำลายลงได้ด้วยน้ำหนักของตัวมันเองจากข้อมูลที่สะสมเอาไวมากเกินไป ซึ่งกรณีนี้จะเกิดขึ้นก็ต่อเมื่อเราปล่อยให้เวลาผ่านไปโดยที่ไม่มีการจัดทำดัชนีและการกำกับดูแลที่ชัดเจน

การรวบรวมข้อมูลเป็นเพียงแค่ส่วนหนึ่งเท่านั้น

ในขณะที่การรวบรวมข้อมูลเป็นสิ่งสำคัญ แต่ก็เป็นเพียงส่วนหนึ่งของกระบวนการเท่านั้น เพราะคุณประโยชน์ที่แท้จริงจะเกิดขึ้นก็ต่อเมื่อข้อมูลถูกจัดการและรวมไว้ด้วยกัน

Data lake จำเป็นต้องมีการกำกับดูแล

ข้อมูลจำเป็นจะต้องมีการจัดการรายการบัญชีข้อมูลและการจัดการการเข้าถึงเพื่อนำไปใช้งานได้ง่าย การค้นหาโดยไม่มีแนวทางที่ชัดเจนเป็นกระบวนการที่ไม่มีประสิทธิภาพและทำให้เสียเวลา สิ่งแรกที่ควรคำนึงก็คือการรวบรวมข้อมูลเข้าไว้ด้วยกันในพื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake)

Data lake ที่มีการกำกับดูแลที่ดีจะ…

มีแต่ข้อมูลที่น่าเชื่อถือและเป็นระเบียบเรียบร้อย
สามารถเข้าถึงได้แบบบริการตนเอง
สามารถค้นหา เข้าถึง และจัดการดูแลได้ง่าย
มีความปลอดภัยจากที่มาของทั้งข้อมูลเชิงโครงสร้างและข้อมูลที่ไม่มีโครงสร้างแน่นอน
ควรมีอินเตอร์เฟสในการค้นหาแบบบูรณาการ (integrated search interface)
บัญชีข้อมูล (data catalog) ที่ดีคือสิ่งที่สำคัญในการจัดการพื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake)

บัญชีข้อมูลจะช่วย…

จัดการข้อมูลให้แยกตามประเภท
ค้นเจอข้อมูลได้แบบอัตโนมัติ
สร้างเมทาดาต้า (metadata) สำหรับการค้นหาได้แบบอัตโนมัติ
พัฒนาการเรียนรู้ของปัญญาประดิษฐ์ (machine-learning) อยู่เสมอ เพื่อให้สามารถดึงข้อมูลจากพจนานุกรมของบริษัทได้
ตรวจสอบต้นทางของข้อมูล
ตรวจสอบและประเมินความเสี่ยงของข้อมูลที่ไม่มีโครงสร้างแน่นอนโดยอัตโนมัติ

พื้นที่จัดเก็บข้อมูลส่วนกลาง (data lake) สามารถเปลี่ยนภาระจากการเติบโตของข้อมูลแบบทวีคูณให้กลายเป็นข้อได้เปรียบแทน และหากมีการจัดการข้อมูลขององค์กรแบบบัญชีข้อมูล (data catalog) ก็จะเป็นตัวสร้างข้อมูลเชิงลึกที่สามารถนำไปใช้ประโยชน์ต่อได้

ในแต่ละวันที่ผ่านไป กระแสของข้อมูลที่ถาโถมเข้ามาในตัวจัดเก็บข้อมูลมีแต่จะเพิ่มขึ้นทุกที การกำกับดูแลจะช่วยลดความวุ่นวายด้วยการจัดลำดับ และทำให้แน่ใจว่าข้อมูลมีความถูกต้องและเป็นประโยชน์

บัญชีข้อมูล (data catalog) เป็นเครื่องมือที่ใช้งานง่าย สะดวก บริษัทต่างๆ ที่นำ IBM Watson Catalog ไปใช้กับพื้นที่เก็บข้อมูลส่วนกลาง (data lake) ทำให้พวกเขามีข้อมูลเป็นตัวขับเคลื่อนและพัฒนาองค์กรไปสู่ความสำเร็จได้ในอนาคต

เรียนรู้เพิ่มเติมเกี่ยวกับการปรับปรุงประสิทธิภาพการทำงานองค์กรของคุณ ด้วยการนำ IBM Watson Catalog ไปใช้กับพื้นที่จัดเก็บข้อมูลส่วนกลาง (Data lake) ของคุณในอนาคต ติดต่อพีเอ็มสแควร์ผู้เป็นพาร์ทเนอร์ทางธุรกิจระดับแพลทินัมของ IBM ได้แล้ววันนี้!