Categories Vietnamese names

Về việc giảm độ trùng dữ liệu trong trang kết quả html dựng sẵn khi tìm kiếm (ví dụ với chương trình gợi ý tên cho con)

Thông thường trang tìm kiếm là dữ liệu động, thay đổi tùy theo truy vấn của người dùng, và sẽ không lập chỉ mục cho nó. Tuy nhiên có một số dự án liên quan đến tìm kiếm, khi chúng ta có kết quả trả về ổn định, việc chuyển kết quả thành dạng html sẽ cho tốc độ tìm kiếm nhanh hơn, tiết kiệm tiền máy chủ, và có thể có ích trong SEO, khi trang kết quả được lập chỉ mục.

Liên quan đến lập chỉ mục, SEO, khả năng cao sẽ xuất hiện vấn đề ở đây, đó là việc trùng lặp nội dung. Tôi sẽ ví dụ cụ thể với trường hợp của chương trình gợi ý tên hay cho con. Về cơ bản chương trình này sẽ giúp giải thích ý nghĩa của đệm tên, ngoài ra là đưa ra các thông tin gợi ý khác như đệm, tên khác để người dùng chọn lựa được tên ưng ý.

Khi giải thích ý nghĩa của tên, chẳng hạn Tiến Linh và Ngọc Linh, sẽ có dữ liệu trùng về giải thích từ Linh ở cả hai tên này. Hiện tượng này xuất hiện một cách có quy luật, vì tên người dựa trên một kho từ vựng tương đối hạn chế, chỉ khoảng 1000 từ đơn khác nhau cho cả đệm và tên chính. Không chỉ có Tiến Linh, Ngọc Linh mà sẽ còn Xuân Linh, Thảo Linh, Diệu Linh, vân vân. Lý do chính của việc trùng ở đây là một tên chính có thể kết hợp được với rất nhiều đệm khác nhau và ngược lại.

Rõ ràng chúng ta không thể cắt nội dung giống nhau đi được, nó vẫn là phần lõi cho ý nghĩa. Vậy làm thế nào để làm giảm tỷ trọng phần trùng nội dung không tránh khỏi đó?

Câu trả lời: gia tăng phần nội dung khác biệt và giảm các trang trùng không cần thiết.


Giảm các trang trùng không cần thiết

Về mặt lý thuyết, giống như trong tìm kiếm, bạn có thể tra bất cứ từ khóa nào, nhưng thực tế, vẫn có những từ khóa mà hầu như không ai tra cứu cả, vì có thể thông tin đó vô nghĩa hoặc rất ít người quan tâm.

Tương tự như vậy, dù sự kết hợp đệm – tên về lý thuyết là không giới hạn, nhưng đó chỉ là khi nhìn ở bề mặt, còn thực tế, có những đệm tên rất hiếm khi kết hợp với nhau, và ngược lại có những đệm – tên phổ biến hơn hẳn những cái khác (ví dụ: top 1000 đệm – tên ở nam giới).

Kết luận: chỉ tạo trước các trang thực tế tồn tại.

Có hai cách:

  • Dựa trên thống kê để tạo các trang như vậy. Cách này rất có hiệu quả, vì thực tế chứng minh là đã tồn tại nhu cầu cho những thông tin đó. Tuy nhiên nó có thể bỏ sót các trường hợp khác, đơn giản không phải các trường hợp đó không tồn tại mà chỉ vì mẫu chưa đủ lớn để thu thập hết;
  • Dựa trên quy luật để tạo các trang như vậy. Ví dụ trong tên người Việt, rất hiếm khi người ta tạo tên bằng cách ghép 2 từ giống nhau, chẳng hạn Nguyễn Hương Hương, hay Lê Hùng Hùng. Người ta cũng hiếm khi kết hợp một tên chính có chỉ số phân biệt giới cao với đệm có chỉ số phân biệt giới cao theo hướng ngược lại. Ví dụ Quỳnh là đệm đặc trưng cho nữ, Khang là tên chính đặc trưng cho nam, kết hợp Quỳnh Khang rất hiếm khi là tên người trong thực tế. Ưu điểm của biện pháp dựa trên quy luật là nó sẽ giúp giảm hiện tượng bỏ sót khi dựa trên thống kê, tuy nhiên nó cũng có nhược điểm là người phát triển phải nắm đủ sâu, chính xác thì mới tạo ra được kết quả tốt, không thì sẽ tệ hơn nhiều cách dựa trên thống kê;

Với 1000 đệm tên, có khả năng tạo ra 1 triệu kết hợp khác nhau. Nhưng trên thực tế, có lẽ sẽ không có quá 150 ngàn kết hợp đệm – tên thực sự có khả năng được dùng. Ở đây chúng ta thấy rằng chúng ta đã loại bỏ được 85% số lượng trang về lý thuyết có thể vẫn phải tạo.

Loại bỏ này không chỉ có ý nghĩa về mặt SEO, nó còn có ý nghĩa về mặt giảm tải bất cứ thứ gì liên quan, vì dụ như công sức tạo trang, dữ liệu dư thừa do phải lưu các trang không cần thiết.


Gia tăng sự khác biệt

  • Các sự khác biệt liên quan đến thẻ tiêu đề, thẻ mô tả, canonical là các khác biệt cơ bản mà mỗi trang khác nhau đều sẽ khác nhau, và là cái đầu tiên chúng ta cần chú ý làm tốt, may mắn là chúng cũng không khó về mặt kỹ thuật;
  • Các khác biệt khác cần nhắm vào nội dung. Ví dụ cùng tên Huy Hoàng và Xuân Hoàng thì tổ hợp tên Huy Hoàng là tên riêng dạng phức và chúng ta có thể bổ sung nghĩa cho nó ngoài việc phân tích nghĩa dựa trên tách từ Huy và Hoàng ra riêng biệt. Gia tăng khác biệt nội dung chủ yếu trông chờ ở việc chúng ta tìm được các nội dung bổ trợ cho cả cụm từ “Huy Hoàng”, chứ không thể tìm sự khác biệt ở phần chung. Ví dụ khác, Ngọc Bích và Xuân Bích thì tên chính bổ nghĩa cho đệm lần lượt là Ngọc và Xuân, và ta có thể tìm các nội dung khác liên quan về các đối tượng này, mở rộng không hạn chế nhưng cẩn thận trong giải nghĩa, có thể là các phân tích sâu về đối tượng vật thể biểu trưng, trích dẫn ca dao, tục ngữ, thơ văn mà đối tượng liên quan, vân vân;
  • Tăng sự khác biệt bằng cách giới hạn thông tin gợi ý và tăng tính ngẫu nhiên. Với tên Bích chẳng hạn, chúng ta có thể đưa ra 200 đệm có thể kết hợp với nó. Thay vì đưa ra tất cả các gợi ý làm ngộp người dùng như vậy, ta nên giới hạn khoảng 10 đệm ngẫu nhiên trong danh sách lớn đó. Làm như vậy thông tin vẫn rất hữu ích, và đồng thời giảm độ trùng với các phần gợi ý khác ở các tên khác, mà những đệm đó cũng phù hợp;
  • Các từ điển giải nghĩa cần đa dạng về chức năng (ví dụ bổ sung thêm từ điển địa danh, danh nhân vì những danh từ riêng này cũng có khả năng tốt để làm gợi ý cho tên người) và phong phú về số lượng từ, để chúng ta có thể trích xuất nội dung từ đó mà nó không bị trùng nhiều với các trang khác;

Cuối cùng, tư duy theo chất lượng sản phẩm vẫn là cách SEO mà ta cần đặt trong tâm vào, nó là đế mà ở đó sự khác biệt về mặt kỹ thuật có cái để dựa vào, còn không thì cũng chẳng ý nghĩa gì.

Back to Top