Thứ Ba, 5 tháng 5, 2009

Hướng đi nào cho các công cụ tìm kiếm Việt



Do các sản phẩm của SkyDoor được xây dựng hầu hết dựa trên nền tảng của Google nên trong quá trình phát triển, tôi có nhận được khá nhiều câu hỏi cũng như yêu cầu tư vấn liên quan đến các sản phẩm của Google. Một trong những câu hỏi đó là vấn đề rất hot trên báo chí hiện nay "Liệu các công cụ tìm kiếm Việt sẽ có thể đánh bại Google?". Và tôi cũng muốn chia sẻ suy nghĩ của mình bằng những kinh nghiệm về công cụ tìm kiếm của tôi trong những năm gần đây

1. Về máy chủ

Theo một số thông tin tôi có được, Xalo.vn và Socbay.com hiện có khoảng 20 máy chủ, một con số quá ít để đáp ứng nhu cầu về nguồn dữ liệu Internet khổng lồ hiện tại và số server đó cùng lắm chỉ bằng 10% ...số server của Google dành cho thị trường Việt Nam. Thử lấy SkyDoor làm ví dụ, Xalo.vn chỉ index được 5% trang số trang so với số trang mà Google đã index.

2. Về mức độ "hiểu" tiếng Việt

Đây là tính năng mà hầu hết các công cụ tìm kiếm Việt đều cho rằng mình có lợi thế hơn Google. Nhưng điều này liệu có đúng? Thực ra tiếng Việt cũng xuất phát từ tiếng Latin nên việc chuyển đổi từ tiếng Anh, Pháp... sang là khá dễ dàng. Hơn nữa, công cụ tìm kiếm Google vận hành cho rất nhiều quốc gia khác nhau nên các kỹ sư Google phải thiết kế một nền tảng linh hoạt uyển chuyển để có thể dễ dàng bổ sung các tập luật cho việc thích nghi với một ngôn ngữ bất kì. Do đó, nếu xem yếu tố tiếng Việt là một lợi thế sẽ làm các công cụ tìm kiếm Việt thêm chủ quan và mắc sai lầm bởi xem thường đối thủ.

3. Về mức độ tổng hợp

Ngày nay Google đã không còn chỉ là một công cụ tìm kiếm mà đã bành trướng sang rất nhiều các dịch vụ khác như: Gmail, News, Docs, Apps, Photo, Video, Server... Người sử dụng đến với Google không chỉ với mục đích tìm kiếm thông tin mà còn rất nhiều mục đích khác. Nên việc xây dựng một sản phẩm đơn độc hầu như không thể cạnh tranh nếu không có một sự khác biệt thật lớn.

Đến đây thì sẽ có một số câu hỏi được đặt ra

1. Với lợi thế như vậy tại sao Google không tập trung cho thị trường VN để đè bẹp các đối thủ?

Bởi có lẽ thị trường Việt Nam vẫn còn quá nhỏ, còn rất nhiều thị trường lớn khác mà Google đang nỗ lực tập trung như Trung Quốc, Hàn Quốc... Với lại với vị trí quá vững chắc ở Việt Nam hiện nay thì chỉ cần ngồi ...Việt hóa các sản phẩm cũng được rồi!

2. Và các công cụ tìm kiếm tiếng Việt nên làm sao trước hoàn cảnh quá khó khăn như vậy?

Nếu là tôi, tôi sẽ tập trung cho những lĩnh vực search chuyên biệt mà Google khó có thể động tới, ví dụ như Du Lịch, Nhạc, Phim... nhưng phải thật tốt và dữ liệu thu được phải đạt được mức ngữ nghĩa cao chứ không đơn thuần là dạng văn bản. Ngoài ra, cứ tiếp tục PR, nhưng đừng ...nổ quá để không gây phản cảm. Tôi không cần đánh bại Google bởi tôi chỉ cần làm số một Việt Nam về lĩnh vực này thì cũng đã có cả khối hợp đồng tương lai trong tay rồi ;)), những cái mà Google hầu như không thể chạm tới được.


Và có lẽ đó cũng là hướng đi mà các công cụ tìm kiếm Việt đang nỗ lực hướng tới. Tuy nhiên một thách thức lớn là liệu các công cụ này có thể hoàn thiện chất lượng của mình "đủ" như người dùng mong đợi và liệu có thể sống đến ngày sản phẩm có đầu ra để tự nuôi mình. Đây quả là một vấn đề không hề dễ dàng. Ngoài ra họ còn có thể phải đối mặt với những đối thủ tiềm năng hiện tại vẫn chưa xuất hiện, đó là những công cụ tìm kiếm thế hệ thứ hai sẽ được xây dựng dựa trên chính hạ tầng mà Google cung cấp trong một tương lai không xa!

16 nhận xét:

a Google Fan nói...

Đồng ý với bài viết của Ngôn, mặc dù bài viết ngắn và chưa nếu hết những nhược điểm của các công cụ tìm kiếm tại VN so với Google :-P Họ "nổ" nhiều nhưng ko đc bao nhiêu, trong khi những dịch vụ khác gần gũi với người Việt hơn thì lại ko làm.

Nhìn lại các công cụ tìm kiếm mới ra mắt trên Thế giới vào năm ngoái cũng đc so sánh rất nhiều với Google nhưng cũng chỉ hoạt động đc vài ba tháng rồi chết yểu :-(

dvhung nói...

"Ngoài ra họ còn có thể phải đối mặt với những đối thủ tiềm năng hiện tại vẫn chưa xuất hiện, đó là những công cụ tìm kiếm thế hệ thứ hai sẽ được xây dựng dựa trên chính hạ tầng mà Google cung cấp trong một tương lai không xa!" <- Ceenoo?

Phạm Hữu Ngôn nói...

@ILoveGoogle: Đúng là còn rất nhiều thứ khác mà Google đã tỏ ra quá vượt trội. Tuy nhiên có lẽ do công cụ tìm kiếm là một lĩnh vực hot nên rất nhiều công ty và quỹ đầu tư cứ thế lao vào mặc dù xác suất thành công có thể chỉ 1% ;)
@dvhung: Cũng hi vọng là thế ;)). Một khi Google cung cấp hạ tầng cũng như SkyDoor có đủ kinh phí, chắc chắn SkyDoor sẽ ...nhảy vào bon chen :D

Nặc danh nói...

skydoor khai thac nhieu tu GAE ( cloud computing). Xu huong tat yeu cua dien toan. No kha giong viec cty ban thue office o building thay vi tu xay van phong rieng (tru khi ban la dai gia) ;)
phuongcsa

phuongnht nói...

Về mức độ hiểu tiếng Việt, em cũng chưa thấy SE nào ở VN thật sự hiểu chính tiếng Việt, trừ xalo.vn thì có thể nhận ra chữ viết tắt tiếng Việt ở mức đơn giản!

Phạm Hữu Ngôn nói...

@Nặc danh: Đúng thế! Nhưng do nền tảng cloud computing vẫn còn khá mới nên còn một số thứ vẫn chưa ổn định ;)
@phuongnht: Cái này Google cũng làm rất tốt đó em, tiếng Anh có rất nhiều trường hợp tương tự http://www.google.com.vn/search?q=xskt

Chip nói...

Em thích cách tiếp cận vấn đề của anh, so sánh số lượng server và số lượng trang index.

Cái anh nói ở cuối là vertical search, nhưng em không biết nó có hiệu quả không?

Cho em hỏi chút là việc xử lý tiếng Việt liệu có đơn giản như anh nói ko :-s

Phạm Hữu Ngôn nói...

@Chip: Không hiệu quả thì cũng ...ráng phải đi thôi bởi dù sao đó cũng là một lối thoát, còn hơn tiếp tục phải đấu với Google.

Haha, về xử lý tiếng Việt thì Chip cứ hỏi mấy anh bên Báo Mới là biết liền à, rồi thử so sánh giữa Google News và Báo Mới :))

Võ Văn Vinh nói...

Tiếng Việt khác với tiếng anh ở chỗ từ điển Tiếng Việt chủ yếu gồm những từ ghép, còn từ đơn tiếng Việt thì quá ngắn không thích hợp cho mục đích indexing.

phuongnht nói...

@Võ Văn Vinh: mình nghỉ dài ngắn thì đâu có ảnh hưởng gì đến việc lập chỉ mục. Còn đặc thù tiếng Việt là ngôn ngữ đơn âm không giống các ngôn ngữ Latin (đa âm) thì đúng như bạn nói.
Mình có cảm giác Google lập chỉ mục tiếng Việt dùng cùng cách như Google xử lý cho các ngôn ngữ Latin đúng như anh Ngôn đã nói ở trên, nghĩa là tách từ bằng khoảng trắng, bộ dấu câu và các kí tự đặc biệt (ngoại lệ cho trường hợp compound word, thường phân cách bằng '-' trong tiếng Anh) cho ngôn ngữ Latin, chỉ tương đương với tách âm tiết cho tiếng Việt, vì tiếng Việt còn có complex word.
Lấy thí dụ tìm với keyword:
âm tiết
Ở những kết quả phía sau (thí dụ từ trang 15 trở lên), những kết quả có dạng
âm ... tiết
vẫn được trả về, điều này có khi không phải là điều người dùng VN mong muốn và ngược lại, 1 số lại mong muốn điều này :D, trong khi query chính xác cho trường hợp này nên là:
"âm * tiết".
Dù sao đi nữa, giả sử việc các SE VN có "hiểu" tiếng Việt thì cũng quá khó để thắng Google ngay trên sân nhà, con đường duy nhất có thể chống đỡ thì anh Ngôn cũng đã đề cập!

Xin lỗi anh Ngôn rất là nhiều, em bàn lạc đề :-P!

Phạm Hữu Ngôn nói...

@phuongnht: Hihi, phải cám ơn em đã nhiệt tình trao đổi chứ!

Về xử lý từ ghép tiếng Việt thì như mọi người đã phân tích. Chỉ góp thêm ý chút xíu là Google cũng sử dụng vị trí của từ trong trang văn bản. VD như search cụm "A B" thì Google có thể sẽ search các trang có từ A và B với vị trí 2 từ này nằm liền nhau.

Phan Thanh Giản nói...

Nói thật ai mà dùng từ "đánh bại" "đối thủ" "cạnh tranh"... với google thì đúng là chẳng hiểu gì và thực sự chẳng biết mình là ai??!!

Muốn bằng 1% của nó thôi cũng đã quá tốt rồi, và cũng nên xem công nghệ của mình so với nó thế nào. Hiện nay cứ mỗi tháng trong phòng LABS của nó có hàng ngàn sản phẩm mà nói thật tốt hơn mình cả trăm lần.

Sorting 1 PB with MapReduce. PB is not peanut-butter-and-jelly misspelled. It's 1 petabyte or 1000 terabytes or 1,000,000 gigabytes. It took six hours and two minutes to sort 1PB (10 trillion 100-byte records) on 4,000 computers and the results were replicated thrice on 48,000 disks.

http://highscalability.com/google-architecture

Phạm Hữu Ngôn nói...

@Phan Thanh Giản: Đồng ý với bạn, thực ra Google thì hiện đã quá quy mô rồi. Không thể còn coi là một ứng dụng được phát triển từ 2 SV trong gara ngày xưa. PageRank hiện tại chỉ là một yếu tố nhỏ trong cỗ máy khổng lồ Google. Nên thay vì "đánh nhau" với Google thì thôi để sức làm chuyện khác. Bản thân Google cũng làm rất nhiều cho thị trường VN đó chứ, mặc dù nó hầu như cũng chưa kiếm được nhiều từ thị trường mình :)

Nguyen H. Tuan nói...

Co ve nhu, Tieng Viet ko han xuat phat tu tieng Latin. Cau truc TV xuat phat tu Trung Hoa. Cho nen, chung ta co 2, 3 chu*~ ghep thanh 1 tu*`, dieu nay khac voi tieng Latin. Chung ta chi~ co ba~ng alphabet la jong Latin thoi.

Noi chung, ngu nghia thi jong theo kieu tieng Trung, con ve cach viet thi theo tieng Phap.

(sorry, noi ve ky~ thuat technology thi` to*' ko biet nhieu, nhung ve he thong ngon thi do la su that)

Phạm Hữu Ngôn nói...

@Tuan: Ý kiến của bạn cũng giống với ý kiến của bạn Võ Văn Vinh ở trên ;)

dunghangViet nói...

Người Việt vẫn chưa thể ưu tiên dùng cỗ máy tìm kiếm tiếng Việt được. Là người ủng hộ chủ trường "Người Việt ưu tiên dùng hàng Việt" nhưng xem ra khó có thể dùng cổ máy tìm kiếm tiếng Việt để tìm thông tin. Riêng socbay.vn, mình chỉ xài đúng 1 lần là không dám trở lại nữa. Rất chán.

Đăng nhận xét

Facebook Twitter Hot! Delicious Digg Favorites More