Thạc Sĩ Đối sánh tự động lược đồ XML

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 6/12/13.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: Đối sánh tự động lược đồ XML
    Đối sánh tự động lược đồ XML
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    ii
    Mục lục
    Danh mục từ viết tắt, thuật ngữ . iv
    Danh mục bảng biểu v
    Danh mục hình vẽ . v
    Mở đầu 1
    1. Giới thiệu chung .1
    2. Nội dung luận văn 3
    Chương 1 Đối sánh lược đồ . 6
    1.1 Tổng quan về đối sánh lược đồ .7
    1.1.1 Các khái niệm cơ bản về đối sánh lược đồ .7
    1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 8
    1.2 Các tiếp cận đối sánh lược đồ .14
    1.2.1 Phân loại các tiếp cận đối sánh lược đồ .14
    1.2.2 Các tiếp cận đối sánh lược đồ 15
    1.2.3 Các phương pháp đối sánh lược đồ 17
    1.3 Các hệ thống đối sánh lược đồ XML 20
    1.3.1 Cupid (trung tâm nghiên cứu Microsoft) 21
    1.3.2 Similarity Flooding (đại học Stanford và đại học Leipzig) .23
    1.3.3 LSD (đại học Washington) 24
    1.3.4 Clio (IBM Almaden và đại học Toronto) 25
    1.3.5 Một số hệ thống đối sánh lược đồ khác 26
    1.4 Kết chương .28
    Chương 2 Các định nghĩa hình thức 29
    2.1 Vấn đề đối sánh lược đồ XML 30
    2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp .30
    2.1.2 Thông tin đầu vào của tiến trình đối sánh 32
    2.1.3 Thông tin đầu ra của tiến trình đối sánh 34
    2.1.4 Các định nghĩa hình thức 35
    2.2 Mô hình hóa lược đồ XML 36
    2.2.1 Các nút đồ thị lược đồ 37
    2.2.2 Các cạnh đồ thị lược đồ 37
    2.2.3 Các ràng buộc đồ thị lược đồ .38
    2.2.4 Các định nghĩa hình thức 40
    2.3 Ánh xạ nguồn–đích 43
    2.4 Kết chương .46 Đối sánh tự động lược đồ XML
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    iii
    Chương 3 Đối sánh tự động lược đồ XML 47
    3.1 Tổng quan về đối sánh tự động lược đồ XML .48
    3.2 Đo độ tương đồng ngôn ngữ 49
    3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ .49
    3.2.2 Thuật toán của Hirst và St-Onge 50
    3.2.3 Giải pháp của hệ thống Cupid 52
    3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu
    người thiết kế 53
    3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML 53
    3.3.2 Phân tích phân cấp kiểu người thiết kế 55
    3.4 Đo độ tương đồng cấu trúc 56
    3.4.1 Định nghĩa ngữ cảnh nút 56
    3.4.2 Đo độ tương tự đường dẫn 58
    3.4.3 Đo độ tương đồng ngữ cảnh nút .63
    3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử .66
    3.5.1 Đo độ tương đồng nút .66
    3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh .67
    3.6 Đánh giá tiến trình đối sánh lược đồ XML 68
    3.6.1 Các phương pháp đánh giá .68
    3.6.2 Đánh giá giải pháp .70
    3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc 72
    3.7.1 Tổng quan về tài liệu có cấu trúc .73
    3.7.2 Chuyển đổi tự động tài liệu có cấu trúc 76
    3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 78
    3.8 Kết chương .80
    Kết luận và hướng phát triển 81
    1. Đóng góp chính của luận văn 81
    2. Hướng phát triển 84
    Danh mục tài liệu tham khảo 86
    Phụ lục . 88
    Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML 89
    Phụ lục B: Lược đồ XML 97
    Phụ lục C: Thuật toán của Hirst và St-Onge 100 Đối sánh tự động lược đồ XML
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    iv
    Danh mục từ viết tắt, thuật ngữ
    Từ viết tắt/ thuật ngữ Giải nghĩa Ghi chú
    CSDL Cơ sở dữ liệu
    TTNT Trí tuệ nhân tạo
    XML eXtended Markup Language
    DTD Document Type Definition
    XSD XML Schema Definition
    SGML Standard Generalized Markup Language
    LCS Longest Common Subsequence Đối sánh tự động lược đồ XML
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    v
    Danh mục bảng biểu
    Bảng 3. 1 Đặc điểm các lược đồ thử nghiệm 70
    Bảng 3. 2 Kết quả đo chất lượng đối sánh . 71
    Danh mục hình vẽ
    Hình 2. 1 Ví dụ về đồ thị lược đồ 36
    Hình 3. 1 Tiến trình tính toán độ tương đồng phần tử . 49
    Hình 3. 2 Ngữ cảnh của một phần tử lược đồ 57
    Hình 3. 3 So sánh các đối sánh thực với các đối sánh suy diễn được 70
    Hình 3. 4 Biểu đồ so sánh kết quả thực thi 72
    Hình 3. 5 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML . 79Mở đầu
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    1
    Mở đầu
    1. Giới thiệu chung
    Một vấn đề rất quan trọng trong các hệ thống xử lý thông tin là trao đổi
    và sử dụng lại dữ liệu giữa các hệ thống có dữ liệu không đồng nhất. Tính
    không đồng nhất của dữ liệu là do các tổ chức hoặc ứng dụng thường tạo ra
    dữ liệu cho chính mình dựa trên các yêu cầu riêng biệt. Các yêu cầu này hầu
    hết thường được đặc tả trong các mô hình dữ liệu trừu tượng, còn gọi là các
    lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây
    là lược đồ XML). Trong những năm gần đây, sự phát triển mạnh mẽ của các
    nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác
    nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương
    pháp và công cụ hỗ trợ cho việc trao đổi và sử dụng lại dữ liệu, do vậy đã có
    rất nhiều nghiên cứu quan tâm đến vấn đề này. Như ta biết, đối sánh lược đồ
    là vấn đề trung tâm trong hầu hết các nghiên cứu đó. Bài toán đối sánh lược
    đồ có thể được định nghĩa một cách phi hình thức như sau: [6], [11] “Cho hai
    lược đồ S1 và S2 trên mô hình dữ liệu bất kỳ, có thể có thêm thông tin phụ trợ
    và một ánh xạ khởi đầu, hãy tìm ánh xạ giữa các phần tử lược đồ thỏa mãn
    yêu cầu người dùng”. Nói cách khác, đây là vấn đề tìm kiếm sự tương đồng
    giữa các phần tử của S1 và S2 (hay là việc xác định các thành phần tương
    đương nhau giữa hai lược đồ nguồn và đích đã cho) bằng cách khai thác các
    thông tin tồn tại trong lược đồ, dữ liệu và các nguồn thông tin phụ trợ. Mở đầu
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    2
    Thực tế cho thấy, các thách thức gặp phải khi tìm kiếm giải pháp cho bài
    toán đối sánh lược đồ là rất lớn. Thứ nhất, quá trình này cần đến sự phân tích
    ngữ nghĩa trong các lược đồ đó, hay nói cách khác ta cần suy diễn được nhận
    thức về lược đồ của người tạo ra nó. Tuy vậy, các lược đồ thường được thiết
    kế bởi những con người khác nhau với những nhận thức khác nhau về thế giới
    thực cho các mục đích khác nhau. Thứ hai, việc khai thác thông tin cho bài
    toán đối sánh lược đồ gặp rất nhiều khó khăn vì ta phải khai thác một lượng
    lớn thông tin hỗn tạp và không chắc chắn, ví dụ như tài liệu đặc tả lược đồ,
    các nguồn dữ liệu của lược đồ Từ các phân tích trên, có thể thấy rằng việc
    đối sánh lược đồ bằng tay thường khá tốn kém và dễ gây lỗi. Điều đó cho thấy
    việc phát triển các kỹ thuật nhằm tự động hóa một cách tối đa tiến trình đối
    sánh lược đồ là rất quan trọng.
    Hiện nay, XML (eXtended Markup Language - ngôn ngữ đánh dấu mở
    rộng) [24] đã trở thành chuẩn ngôn ngữ hiệu quả và thích hợp cho việc biểu
    diễn dữ liệu trên Web. Nhu cầu sử dụng XML như là chuẩn biểu diễn và trao
    đổi dữ liệu ngày càng tăng của cộng đồng Web đã tạo nên một lượng dữ liệu
    XML ngày càng lớn. Gắn liền với sự gia tăng đó, một lượng lớn các lược đồ
    XML [25], [26], [27] đã được phát triển với rất nhiều đặc tả khác nhau, dẫn
    đến một lượng lớn dữ liệu XML không đồng nhất. Thêm vào đó, hiện tại lại
    có khá nhiều ngôn ngữ lược đồ khác nhau được đưa ra, dẫn đến sự không
    đồng nhất về mặt cú pháp ở các ngôn ngữ lược đồ. Với sự phát triển nhanh
    chóng và sự tăng trưởng mạnh mẽ về mặt quy mô của các ứng dụng Web, đặc
    biệt là sự phổ dụng của Internet và công nghệ XML, đã có rất nhiều nghiên
    cứu quan tâm đến vấn đề trao đổi và sử dụng lại dữ liệu XML. Vấn đề đối
    sánh lược đồ XML do vậy ngày càng trở nên quan trọng. Nhằm góp phần tìm
    hiểu và giải quyết vấn đề đó một cách hiệu quả hơn, luận văn này sẽ tổng hợp
    lại cũng như đưa ra các đóng góp thêm cho bài toán đối sánh lược đồ XML. Mở đầu
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    3
    2. Nội dung luận văn
    Luận văn này nghiên cứu vấn đề đối sánh tự động lược đồ XML. Luận
    văn bao gồm ba chương. Chương 1 mô tả tổng quan về vấn đề đối sánh lược
    đồ. Chương 2 đưa ra các định nghĩa hình thức cho vấn đề đối sánh lược đồ
    XML. Chương 3 mô tả giải pháp đối sánh tự động lược đồ XML. Cũng trong
    chương 3, chúng tôi sẽ xem xét vấn đề chuyển đổi tự động tài liệu XML. Cuối
    cùng, phần kết luận nêu lên những đóng góp chính và các hướng phát triển.
    Sau đây là những nội dung chính của luận văn:
    Chương 1: Đối sánh lược đồ. Chương này bao gồm ba nội dung chính:
    - Trình bày các khái niệm, định nghĩa cơ bản về vấn đề đối sánh lược đồ
    và các lĩnh vực ứng dụng chính của đối sánh lược đồ như tích hợp lược đồ,
    tích hợp dữ liệu, kho dữ liệu, chuyển đổi (hay dịch, trao đổi) dữ liệu, quản lý
    dữ liệu ngang hàng, thương mại điện tử, đối sánh và tích hợp ontology, Web
    ngữ nghĩa, xử lý truy vấn ngữ nghĩa, v.v
    - Trình bày các tiếp cận đối sánh lược đồ điển hình. Phần này chúng tôi
    sẽ xem xét các tiếp cận điển hình như tiếp cận dựa trên học máy, dựa trên
    luật, dựa trên siêu dữ liệu cũng như một số tiếp cận khác. Tiếp theo chúng tôi
    sẽ xem xét các phương pháp đối sánh điển hình như đối sánh ngôn ngữ, đối
    sánh dựa trên ràng buộc, đối sánh cấu trúc và một số phương pháp khác.
    Chúng tôi cũng sẽ phân tích những điểm mạnh cũng như những hạn chế của
    các giải pháp này, từ đó lựa chọn giải pháp cho tiếp cận của chúng tôi.
    - Mô tả một số hệ thống đối sánh lược đồ cũng như phân tích các đặc
    điểm cơ bản nhất của các hệ thống đó. Thông qua các hệ thống này, đặc biệt
    là hai hệ thống Cupid [11] và Similarity Flooding [12], chúng tôi sẽ phân tích
    các giới hạn của các thuật toán đối sánh lược đồ hiện tại, từ đó lựa chọn các
    thuật toán đối sánh sẽ sử dụng trong tiếp cận của chúng tôi. Mở đầu
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    4
    Chương 2: Các định nghĩa hình thức. Chương này bao gồm ba nội dung
    chính:
    - Trình bày các định nghĩa hình thức cho vấn đề đối sánh lược đồ, tập
    trung vào lược đồ XML. Các giải pháp hiện hành nhìn chung không quan tâm
    nhiều đến việc đưa ra các định nghĩa hình thức đầy đủ cho vấn đề. Trong
    chương này, chúng tôi cũng sẽ mô tả các giả thiết cơ bản cho vấn đề đối sánh
    lược đồ XML.
    - Trình bày giải pháp mô hình hóa lược đồ XML dựa trên đồ thị gán nhãn
    có hướng với các ràng buộc. Các nút của đồ thị biểu diễn các phần tử và các
    thuộc tính của lược đồ XML trong khi các cạnh của đồ thị biểu diễn các quan
    hệ khác nhau giữa các phần tử.
    - Mô tả đại số ánh xạ nguồn–đích áp dụng cho vấn đề chuyển đổi dữ liệu.
    Đại số ánh xạ nguồn–đích là một mở rộng của đại số quan hệ chuẩn. Trong
    luận văn này chúng tôi sẽ xem xét tập các phép toán bao gồm hợp, chọn,
    nhập, tách, nối, áp dụng và đổi tên.
    Chương 3: Đối sánh tự động lược đồ XML.
    Chương này mô tả giải pháp đối sánh tự động lược đồ XML, đánh giá
    giải pháp và mô tả một ứng dụng điển hình cho đối sánh lược đồ, vấn đề
    chuyển đổi tự động tài liệu XML. Chương này bao gồm các nội dung chính
    sau:
    - Mô tả tiến trình tính toán độ tương đồng phần tử theo ba pha:
    + Đo độ tương đồng ngôn ngữ: sử dụng thuật toán của Hirst và StOnge để tính toán khoảng cách ngữ nghĩa dựa trên WordNet [7]. Thuật toán
    này được thay đổi để đưa ra hệ số tương đồng cũng như các quan hệ ngữ
    nghĩa (tương đương, rộng hơn, hẹp hơn, v.v ).
    + Xét tính tương thích kiểu dữ liệu: dựa trên việc phân tích các kiểu dữ
    liệu lược đồ XML để suy ra hệ số tương thích kiểu dữ liệu. Với nút nguyên tố
    (tức nút lá) chúng tôi sử dụng phân cấp kiểu lược đồ XML [27], còn với nút Mở đầu
    Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin
    5
    trung gian chúng tôi sử dụng các tính năng như thừa kế kiểu, nhóm thay thế
    và kiểu trừu tượng để tìm kiếm các ánh xạ phức hợp.
    + Đo độ tương đồng cấu trúc: khác với các thuật toán đối sánh cấu trúc
    hiện hành, chúng tôi nhấn mạnh vào khái niệm ngữ cảnh của phần tử. Ngữ
    cảnh của một phần tử là sự kết hợp ngữ cảnh tổ tiên, ngữ cảnh con và ngữ
    cảnh lá của nó. Để so sánh các ngữ cảnh này, chúng tôi so sánh các đường
    dẫn dựa trên các ý tưởng về trả lời truy vấn đường dẫn.
    - Đưa ra các ánh xạ trực tiếp cũng như phức hợp giữa các phần tử lược
    đồ (với các phép toán chuyển đổi và điều kiện chuyển đổi tương ứng) từ độ
    tương đồng phần tử đã tính toán.
    - Đánh giá giải pháp đối sánh lược đồ XML đã đưa ra sử dụng các phép
    đo chất lượng được đã được định nghĩa trong [5].
    Cũng trong chương này, chúng tôi sẽ xem xét một trong những ứng dụng
    điển hình của đối sánh lược đồ, vấn đề chuyển đổi tài liệu có cấu trúc. Đầu
    tiên chúng tôi mô tả tổng quan về tài liệu có cấu trúc, tiếp theo chúng tôi trình
    bày vấn đề chuyển đổi tự động tài liệu có cấu trúc và cuối cùng chúng tôi đưa
    ra một mô hình cho hệ thống chuyển đổi tự động tài liệu XML. Trong tương
    lai chúng tôi có ý định áp dụng giải pháp đối sánh lược đồ nêu trên vào mô
    hình này.
    Kết luận và các hướng phát triển.
    Trong phần này, chúng tôi sẽ nêu lên các đóng góp chính của luận văn và
    đưa ra một số định hướng phát triển trong tương lai cho đề tài.
     

    Các file đính kèm:

Đang tải...