Enterprise Search

” หาอะไรก็ไม่เจอ! ” ปัญหานี้มักเกิดขึ้นในหลายองค์กร ในเมื่อข้อมูลมีอยู่แต่ผู้ใช้งานกลับไม่สามารถค้นหาพบได้โดยสะดวกและมีความล่าช้า จนในบางครั้งอาจถึงขั้นหาไม่พบเลยทีเดียว เป็นความท้าทายที่หลายองค์กรคงกำลังเผชิญอยู่ในเรื่องของประสิทธิภาพการค้นหาข้อมูลข่าวสารต่างๆ ที่กระจายอยู่ทั่วไปหมดตามแหล่งต่างๆ เช่น Intranet, File Sharing, Database เป็นต้น หากเรามาดูถึงโครงสร้างของข้อมูลข่าวสารต่างๆ ที่มีอยู่ในองค์กรจะพบว่าสามารถแบ่งออกได้เป็น 2 ประเภทหลักๆ นั้นคือ 1. ข้อมูลแบบมีโครงสร้าง (Structured Data) เช่น ข้อมูลที่ถูกออกแบบเป็นตารางในฐานข้อมูล  และ 2. ข้อมูลแบบไม่มีโครงสร้าง (Unstructured Data) เช่น ไฟล์เอกสาร word, excel, pdf, html เป็นต้น  เราจะเห็นว่าโครงสร้างของข้อมูลแบบไม่มีโครงสร้างมีความหลากหลายมาก โดยมากองค์กรพยายามจะดำเนินการเปลี่ยนข้อมูลเหล่านี้ให้อยู่ในรูปแบบข้อมูลที่มีโครงสร้างโดยนักวิเคราะห์ระบบสารสนเทศให้ได้มากที่สุด เพื่อประโยชน์ในการประมวลผลข้อมูลและการค้นหา แต่อย่างไรก็ตามด้วยระยะเวลาและค่าใช้จ่ายของการออกแบบโครงสร้างข้อมูลและการพัฒนาระบบมีมากพอสมควร ดังนั้นองค์กรจึงจำเป็นต้องมีเทคโนโลยีและเครื่องมือที่ชาญฉลาดสำหรับช่วยในการค้นหาข้อมูลข่าวสารทุกประเภทจากระบบที่เรียกว่า Enterprise Search

ในแนวคิดของ Enterprise Search มีส่วนประกอบที่สำคัญอยู่ 5 ส่วน คือ

  • Content Collection ส่วนนี้คือกระบวนอัตโนมัติสำหรับรวบรวมข้อมูลข่าวสารที่อยู่ตามแหล่งต่างๆ เช่น Web Intranet, File Sharing, Database, etc โดย Crawler ที่มีความฉลาดที่จะวิ่งสแกนหาข้อมูลแบบไม่มีที่สิ้นสุดตามข้อจำกัดที่ระบุไว้
  • Content processing and analysis ส่วนนี้คือกระบวนการประมวลผลข้อมูลที่ได้จาก Crawler ซึ่งมีสิ่งหนึ่งที่แฝงอยู่ในข้อมูล นั้นคือ ตัวอักษร (Text)  การประมวลผลข้อมูลที่สำคัญของส่วนนี้คือการตัดคำในภาษาต่างๆ โดยเฉพาะภาษาไทยมีความท้าทายอยู่มากเพราะด้วยตัวประโยคจะเขียนติดกันจึงจำเป็นต้องมีการพัฒนาอัลกอริทึมให้เข้าใจภาษาไทยอย่างต่อเนื่อง
  • Indexing ส่วนนี้คือการเก็บข้อมูลที่ได้จากการวิเคราะห์และตัดคำข้อความในภาษาต่างๆ โดยจะเก็บลักษณะ Index คือระบบจะไม่เก็บข้อมูลทุกตัวอักษร แต่จะเลือกเก็บคำที่ไม่ซ้ำไว้ในระบบ เพื่อลดปริมาณพื้นที่เก็บข้อมูลและการค้นหาที่รวดเร็ว
  • Query parsing ส่วนนี้คือการค้นหาข้อมูลจากระบบ โดยต้องมีการนำคำที่ผู้ใช้ต้องการค้นหาไปวิเคราะห์และตัดคำออกเป็นคำย่อยๆ และนำไปเปรียบเทียบกับข้อมูลที่มีการ Index ไว้แล้ว 
  • Access control list (ACL) ส่วนนี้คือการกำหนดสิทธิ์ของผลลัพธ์การค้นหาที่ต้องมีการควบคุมในระดับบุคคลหรือกลุ่ม เช่น ข้อมูลชุดนี้สามารถค้นหาได้เฉพาะนาย A เท่านั้น เป็นต้น

ในวันนี้ด้วยเทคโนโลยีการค้นหาในระดับองค์กรยังคงไม่ฉลาดพอสำหรับการค้นหาด้วยภาพและเสียง ยังคงต้องพึ่งพาการค้นหาด้วยตัวอักษรไปก่อน แต่ในอนาคตมีความเป็นไปได้ที่การค้นหาด้วยภาพและเสียงหรืออื่นๆ จะเป็นไปได้ เราคงต้องติดตามกันตอนต่อไปครับ

หมายเหตุ : ขอขอบคุณภาพถ่ายต่างๆ จากเว็บไซต์ในอินเตอร์เน็ต

Credit : Sook Plengchan 2912



You may also like...