Tài liệu Lập trình web asp với tiếng việt unicode

Thảo luận trong 'Lập Trình' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    172
    Điểm thành tích:
    0
    Xu:
    0Xu
    1. Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính
    1.1. Khái niệm về điểm mã, đơn vị mã, bảng mã
    Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu diễn các kí tự trên máy tính cần phải
    có một qui ước nhất quán giữa các kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước
    này được thể hiện qua các bước sau:
    - Chọn tập các kí tự cần mã hóa (character set).
    - Gán cho mỗi kí tự cần mã hóa một giá trị nguyên không âm, gọi là điểm mã (code point).
    - Chuyển các điểm mã thành dãy các đơn vị mã (code units) để cho phục vụ cho việc lưu trữ và mã
    hóa. Một đơn vị mã là một đơn vị của bộ nhớ, có thể là 8, 16, hay 32 bit. Các điểm mã không nhất
    thiết phải có cùng số đơn vị mã.
    Tập hợp những điểm mã của một tập các kí tự được gọi là một trang mã (code page) hay còn gọi là bảng
    mã hay bộ mã. Như vậy khi nói về một bảng mã, chúng ta quan tâm đến hai điều chính, số lượng các kí tự
    được mã hóa, và cách mã hóa chúng thành các đơn vị mã.
    Lấy ví dụ bảng mã ASCII, tập kí tự cần mã hóa có 128 kí tự bao gồm các kí tự tiếng Anh, kí tự số, kí tự tiền
    tệ Anh, Mỹ và các kí tự điều khiển hệ thống ngoại vi. Các điểm mã có giá trị nằm trong khoảng từ 0-127. Mỗi
    điểm mã được mã hóa bằng đúng một đơn vị mã 8 bit, có nghĩa là đúng một byte.
    Việc quyết định chọn cách mã hóa như thế nào sẽ quyết định số lượng kí tự được mã hóa. Ví dụ, nếu chọn
    cách mã hóa các điểm mã bằng đúng một đơn vị mã 8-bit thì số lượng điểm mã của một bảng mã (tạm gọi
    là bảng mã 8 bit) chỉ có thể tối đa là 256.
     

    Các file đính kèm:

Đang tải...