5 thách thức lớn của công nghệ tìm kiếm kế tiếp

Khoảng 3 năm trở lại đây, thế giới đang chứng kiến sự quay trở lại của đầu tư vào phát triển thế hệ máy tìm kiếm kế tiếp (Search Engine). Thực tại, Google Search gần như độc chiếm thị trường, vậy nguyên do vì đâu mà những công ty đã, đang và sẽ đầu tư nghiên cứu, phát triển Search Engine?

Nhu cầu hiện hữu hoặc chưa hiện hữu. Ngày nay, chúng ta khá thỏa mãn với những gì mà Google mang lại. Nhưng chưa chắc cảm giác này còn tồn tại ở tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ không dừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từ đối thủ và thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, người viết xin được đưa ra 5 vấn đề lớn mà các máy tìm kiếm đã, đang và sẽ cần giải quyết trong tương lai gần.

Thách thức thứ nhất: Dữ liệu Web 2.0

Không cần phải đề cập nhiều, sự bùng nổ của Web 2.0 kéo theo trào lưu người dùng tham gia tạo nội dung trên Internet. Sự bùng nổ này là một thách thức lớn với việc xử lý dữ liệu trong hệ thống máy tìm kiếm.

Khoảng 5 năm trở lại đây, dữ liệu gia tăng đột biến về lượng. Lượng dữ liệu này tồn tại trên các diễn đàn, blog, wiki, social network, multimedia service,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hàng ngày. Bằng giải pháp lưu trữ và xử lý phân tán, máy tìm kiếm hiện tại giải quyết khá hoàn hảo nhiệm vụ này. Tuy nhiên, tốc độ tăng trưởng dữ liệu chẳng những không ngừng mà thậm chí còn mạnh hơn. Đồng nghĩa với nó, chi phí băng thông, phần cứng lưu trữ, năng lực phần mềm, năng lượng,... duy trì trung tâm dữ liệu sẽ tăng lên đặt ra những thách thức về giá: giá phát triển và giá vận hành hệ thống search engine.

Không phải bất cứ nhà quản trị nào cũng muốn Google đánh chỉ mục Website của họ. Và cũng có rất nhiều trang bắt người dùng đăng ký thành viên mới cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là một lần trang Web bị ngốn băng thông rất lớn, có thể vượt xa với lượng người vào trang mỗi ngày.

Dịch vụ mạng 2.0 bùng nổ, dữ liệu cá nhân được sinh ra và tồn tại trên Internet ngày càng nhiều. Chúng có thể được bảo vệ bởi sự riêng tư hoặc rất khó truy vấn theo phương pháp lần liên kết (link) thông thường. Hơn nữa, nhiều Web 2.0 sử dụng script để sinh URL hoặc chọn phương thức Post (HTTP Post) khi truy vấn dữ liệu. Vậy làm sao để máy tìm kiếm có thể quét hết dữ liệu trên Internet? Đây là một thách thức khó khăn đặt ra cho Crawler của các Search Engine. Dĩ nhiên, không phải đến thời 2.0, Search Engine mới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mạng dịch vụ dữ liệu bùng nổ, Invisible web trở nên phức tạp và và rắc rối hơn nhiều.

Cập nhật dữ liệu thời gian thực cũng là một nhu cầu. Bài báo đăng tải trên CNN có thể dễ dàng tìm thấy ngay khi có truy vấn gửi tới Google. Cập nhật thời gian thực với một lượng nhỏ dữ liệu thì không quá khó khăn, nhưng các máy tìm kiếm phải xử lý đến hàng tỉ loại dữ liệu trong một ngày. Đây là thách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.

Thách thức thứ hai: Lọc bỏ dữ liệu rác và trùng lặp

Như đã đề cập ở phần trên, chi phí về mặt lưu trữ phải được tính toán sao cho rẻ nhất. Do đó, càng ít dữ liệu nháp, ít dữ liệu trùng lặp càng tốt. Những dữ liệu kiểu này còn ảnh hưởng đến tốc độ tiếp cận và chất lượng kết quả search trả về cho người dùng. Trong khi vấn nạn thư rác đang hoành hoành thì vấn nạn dữ liệu rác cũng làm đau đầu các công cụ tìm kiếm. Dữ liệu rác và trùng lặp bao gồm:

- Một dữ liệu được trỏ đến từ nhiều liên kết khác nhau trong Website hoặc thay đổi với mỗi lần truy xuất đến do cơ chế quản lý về session.

- Dữ liệu được nhân bản bởi con người hoặc tự động lan truyền bằng phần mềm.

- SEO (Search Engine Optimization - tối ưu hóa kết quả tìm kiếm bằng thủ thuật để xuất hiện ở vị trí cao) và việc tạo tag khiến máy tìm kiếm nhiễu loạn trong đánh giá giá trị dữ liệu.

Chẳng hạn, rất nhiều Website Việt Nam sử dụng vBulletin để tạo forum cho cộng đồng của họ đã bị các công cụ spam đến từ nước Nga tạo hàng loạt những nội dung không lành mạnh trên đó. Một trường hợp khác, Yahoo Search cung cấp API cho Meta Data Search nhưng Google lại đánh chỉ mục chúng và những kết quả này có thể trả về khi người dùng truy vấn tới Google Search.

Liệu máy tìm kiếm hiện đại đủ tốt để xử lý hết tất cả vấn đề này?

Thách thức thứ ba: Vertical Search và các hình thái truy vấn dữ liệu

Với một từ khóa, ta có thể nhận lại hàng trăm triệu trang Web chứa nó từ Search Engine. Nhưng thực sự, chúng ta không cần nhiều đến thế. Chẳng hạn khi tìm chữ Nokia, tôi muốn nhận lại các kết quả từ các trang rao bán điện thoại Nokia cũ. Làm ơn đừng trả lại tin tức hay địa chỉ cửa hàng bán điện thoại Nokia mới. "Kỹ năng" tìm kiếm được sử dụng để thêm lần nữa người dùng tự sàng lọc kết quả trả về. Nhưng tương lai sẽ không dễ dàng như thế. Hàng tỉ, hàng tỉ trang web có thể được trả đến bạn. Mọi kỹ năng trở nên vô tác dụng với lượng dữ liệu quá lớn.

Do đó, Search Engine phải biết khoanh vùng dữ liệu. Cụ thể hơn là chia nhỏ vùng dữ liệu để giới hạn phạm vi truy vấn giúp người dùng tiếp cận nhanh và chính xác hơn. Thêm nữa, do đặc thù dữ liệu, tin tức, giá cả hàng hóa, chứng khoán, kiếm việc,... cần cập nhật thường xuyên với tốc độ nhanh hơn các thảo luận trên diễn đàn hoặc blog. Chia nhỏ vùng dữ liệu nằm cả ở khía cạnh quét, lưu trữ và tìm kiếm dữ liệu.

Máy tìm kiếm thế hệ cũ: Hãy đưa tôi từ khóa, tôi cho bạn những trang web có chứa nó?

Người sử dụng hiện đại: Hãy trả tôi những kết quả đáng quan tâm chứ không phải tất cả nhé!

Ồ! Vâng. Người dùng thông minh đòi hỏi những cách thức truy vấn dữ liệu linh hoạt hơn chứ không phải chỉ riêng từ khóa tìm kiếm. Truy vấn có sàng lọc sẽ giúp máy tìm kiếm trả về kết quả tốt hơn. Những truy vấn đòi hỏi sàng lọc về mặt thời điểm, lĩnh vực, địa danh, nhân vật,... và đặc biệt sàng lọc theo khía cạnh bản địa. Văn hóa Đông Á có những nét rất khác với văn hóa Tây Á. Phương Đông và phương Tây quy ước những chuẩn mực xã hội khác nhau, điều này ảnh hưởng đến việc tiếp cận thông tin khác nhau. Do đó, máy tìm kiếm phải thật khéo mới thỏa mãn tất cả yêu cầu đến từ nhiều nơi trên thế giới.

Thách thức thứ 4: Tăng cường ngữ nghĩa

Ngữ nghĩa, trước mắt được đề đề cập ở hai khía cạnh:

- Bổ sung nội dung liên quan trong kết quả tìm kiếm.

- Rút trích ý hoặc tóm tắt nội dung giúp người dùng tiếp cận hoặc rà soát nhanh hơn.

Internet giống như mạng nhện cả ở khía cạnh vật lý lẫn những trang web tồn tại trên nó. Các liên kết ràng buộc, đan xem, chỉ trỏ tới nhau tạo thành một mạng lưới. Nếu suy luận xa hơn một chút, dữ liệu tồn tại trên Internet cũng cần như vậy. Cùng đề cập đến cúm H1N1, nội dung tồn tại cả ở blog, forum, tin tức, ... hay bất cứ một loại hình message nào khác. Người dùng có thể tạo link để chúng trỏ tới nhau, nhưng nếu các máy tìm kiếm biết cách tập hợp và liên kết chúng lại thì sẽ hiệu quả hơn nhiều. Ràng buộc dữ liệu giúp máy tìm kiếm trả về cả những trang web có chứa từ "cúm Mexico" mặc dù người dùng chỉ nhập vào từ "H1N1".

Rút trích ý, thông tin hay tóm tắt nội dung cũng là một nhu cầu trong các máy tìm kiếm. Chẳng hạn, tìm kiếm hồ sơ tuyển dụng, người dùng sẽ nhanh chóng muốn tiếp cận những thông tin như mức lương, yêu cầu số năm kinh nghiệm,... Một ví dụ khác như với bản tin rao vặt, giá cả, điện thoại và địa chỉ liên hệ, thời gian rao bán,... sẽ rất cần thiết với người dùng. Giải quyết được kỹ thuật này, Search Engine sẽ tiết kiệm khá nhiều thời gian cho người dùng. Mà thời gian cũng là tiền bạc.

Data mining, với một lượng nhỏ dữ liệu thì công nghệ hiện tại đã đủ giải quyết tốt yêu cầu. Nhưng một tập dữ liệu cực lớn thì quả là thách thức. Lý thuyết data mining đặt nền móng từ rất lâu nhưng việc ứng dụng vào hệ thống tìm kiếm hiện nay thì chưa nhiều hoặc chưa thể hiện được giá trị. Hy vọng một tương lai không xa, người dùng sẽ được tận hưởng khả năng này.

Thách thức thứ 5: Máy tìm kiếm không chỉ đánh chỉ mục web

Người dùng đang quen dần với việc nhờ vả mọi thứ vào các máy tìm kiếm. Ví dụ: tôi muốn nó giải hộ một phương trình bậc 3 có vẽ đồ thị, định giá một khu nhà ở trung tâm quận 3 - Tp Hồ Chí Minh,... Google ngay từ những ngày đầu đã nhen nhóm ý tưởng này. Bạn thử gõ "1+1" vào Google search xem.

Tuy nhiên Google đã không hoặc vẫn chưa phát triển theo hướng đó. Wolfram ra đời như một bổ sung. Hãy khoan. Xin đừng cố gắng phân biệt Wolfram khác với Google. Hãy thử hợp nhất cả hai dịch vụ này để trở thành một dịch vụ có thể trả lời mọi thứ. Khi đó, máy tìm kiếm sẽ trở thành một bộ não vĩ đại có khả năng tính toán, suy luận và nhớ một hàm lượng thông tin cực lớn cho loài người.

Bạn có muốn dùng một dịch vụ như vậy? Nó quá lý tưởng đúng không? Hãy chờ nhé bởi Bing.com, Google.com hoặc Wolframalpha.com trong tương lai có thể trở thành một máy tìm kiếm như vậy.

Chú thích:

- Crawler: Chương trình phần mềm quét các trang Web để đánh chỉ mục phục vụ tìm kiếm.

- Indexing: Đánh chỉ mục nội dung theo từ khóa phục phụ cho tìm kiếm theo từ khóa.

- Invisible Web: Web ẩn dữ liệu. Việc truy vấn được dữ liệu không phải qua địa chỉ hoặc liên kết thông thường, chúng có thể truy vấn được qua nhập liệu hoặc các phương pháp giấu liên kết.

- Data mining: Một lĩnh vực trong nghành điện toán về phân tích ngữ nghĩa dữ liệu.

Nhữ Đình Thuận

Đọc thêm