Có mấy cấp độ sau trong việc cung cấp cho chương trình phân tích dữ liệu: Đầu vào chỉ có danh sách họ tên, ngoài ra không có dữ liệu…
Các danh sách họ tên người thu thập dễ vẫn còn các lỗi sai chính tả, dù tỉ lệ này không lớn (khoảng dưới 0.5% trong mẫu lớn SG01 mà…
Thông thường trang tìm kiếm là dữ liệu động, thay đổi tùy theo truy vấn của người dùng, và sẽ không lập chỉ mục cho nó. Tuy nhiên có một…
Hôm nọ tôi có viết bài mô hình xác định giới tính của đệm tên, trong đó có nói sơ về thuật toán, và mấy mảng chỉ số phân biệt…
Hàm này như tiêu đề, dùng để chuyển ký tự đầu tiên của một từ thành dạng in hoa, nó như sau: // Viết hoa ký tự đầu tiên của…
Trong khi phát triển chương trình gợi ý tên hay cho con, tôi phát hiện ra tầm quan trọng của việc xác định giới tính của tên mà người dùng…
Khi chúng ta tạo các ứng dụng PHP động để xử lý thì có một vấn đề là dù mã tốt đi chăng nữa, với số lượng truy cập lớn…
Dù dữ liệu ngày tháng năm sinh nhìn chung có cấu trúc ổn định, rất ít sai sót thì việc kiểm tra trước để có cái nhìn tổng quan về…
Các ký tự lạ trong mẫu hơn 230 ngàn họ tên mà tôi có không nhiều, vì dữ liệu đầu vào đã khá chuẩn chỉnh rồi. Trong mẫu tỷ lệ…
Lỗi dính họ tên có tỷ lệ không quá lớn, trong dữ liệu tôi khảo sát, con số nằm trong khoảng 0,2 - 0,3%. Ví dụ về lỗi dính họ…