Luận Văn Xây dựng hệ thống so sánh thông tin giá cả trực tuyến

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU
    Bối cảnh chung
    Từ những năm cuối thể kỉ 20, nền kinh tế thế giới đã có nhiều bước tiến lớn. Nó kéo theo nhu cầu mua sắm của con người cũng tăng lên đáng kể. Các hình thức tổ chức kinh doanh như siêu thị, cửa hàng, đại lý, ngày càng đại chúng, ngày càng phong phú về chất lượng sản phẩm, đa dạng về hình thức phục vụ. Nhu cầu của con người ngày càng tăng nhưng quỹ thời gian của mỗi người dành cho mua sắm ngày càng eo hẹp.
    Vấn đề đặt ra là người tiêu dùng muốn tìm thấy sản phẩm có chất lượng với giá cả phải chăng trong khi không tốn nhiều công sức, thời giờ đến thăm từng cửa hàng lục tìm từng sản phẩm. Đứng dưới góc độ người tiêu dùng thì như vậy, còn dưới góc độ của người kinh doanh thì đương nhiên họ muốn quảng bá sản phẩm tới càng nhiều người càng tốt, làm sao để có thật nhiều khách và bán được thật nhiều hàng.
    Cả người tiêu dùng và người kinh doanh đều muốn hướng tới một hình thức kinh doanh nào đó thỏa mãn cả đôi bên. Trong thời đại bùng nổ của công nghệ thông tin, hình thức mua bán trực tuyến đã ra đời, mau chóng tìm được chỗ đứng và không ngừng phát triển. Với hình thức mua bán mới này, người tiêu dùng không cần phải đi đâu xa, chỉ cần ngồi một chỗ truy cập đến các Website bán hàng để mua sắm theo nhu cầu. Hầu hết các Website mua bán trực tuyến hiện nay đều cung cấp chức năng tìm kiếm, giúp tiết kiệm rất nhiều thời gian cho người dùng.
    Tuy nhiên, với sự gia tăng chóng mặt của các Website bán hàng hay quảng cáo sản phẩm, người tiêu dùng không biết nên bắt đầu từ đâu. Cùng một sản phẩm có khi có đến hàng trăm Website bày bán với giá cả chênh lệch nhau. Tâm lý chung của người tiêu dùng là muốn mua được sản phẩm có chất lượng với giá cả thấp nhất, nhưng nếu đi đến từng Website để so sánh thì sẽ mất rất nhiều thời gian.
    So sánh giá cả trực tuyến
    Nắm bắt nhu cầu của người tiêu dùng, trên thế giới đã có khá nhiều Website so sánh thông tin giá cả được xây dựng [12]. Riêng ở Việt Nam, theo khảo sát của chúng tôi nếu như cách đây một năm còn chưa có Website nào như vậy thì cho đến nay đã có một xuất hiện ở địa chỉ [13]. Các Website so sánh giá cả là nơi tập hợp thông tin về nhiều chủng loại mặt hàng khác nhau thu thập được từ nhiều nguồn trực tuyến khác nhau. Chúng cho phép người dùng chọn lựa xem mua tại nơi nào là tốt nhất. Hầu hết các Website so sánh giá cả đều có chức năng tìm kiếm theo tên và thông tin sản phẩm.
    Quá trình thu thập thông tin giá cả được tự động hóa ở những mức độ khác nhau. Mức độ thấp nhất là dữ liệu được nhập hoàn toàn bằng tay thông qua quan sát bằng mắt trên một số Website bán hàng nhất định. Cao hơn một mức, người ta sử dụng những tác tử khảo duyệt và trích rút thông tin, nhưng vì các Website khác nhau có cách thức tổ chức khác nhau nên đối với mỗi Website phải xây dựng một bộ luật trích rút riêng cho chương trình tác tử thông qua khảo sát trước bằng mắt. Những tác tử này được gọi chung là tác tử so sánh giá cả (comparison shopping agent). Công việc trích rút thông tin đạt được mức độ tự động cao nhất khi tác tử so sánh giá cả có thể tự động xây dựng các bộ luật trích rút phù hợp với mỗi Website không cần tới sự can thiệp của người lập trình. Những nghiên cứu theo hướng này bao gồm các công trình [1, 2, 4, 5, 6, 7, 8], trong đó hiệu quả nhất hiện nay là loại tác tử có khả năng học máy do nhóm tác giả Hàn Quốc Yang et al. đề xuất trong các tài liệu [4, 5 6].
    Tác tử trích rút thông tin theo phương pháp học máy hoạt động độc lập với thể loại sản phẩm và hoàn toàn tự động. Chỉ cần biết địa chỉ trang chủ một cửa hàng trực tuyến, nó sẽ tự động học cách trích rút thông tin sản phẩm từ Website đó, trong đó có thông tin quan trọng nhất là giá cả sản phẩm. Loại tác tử này có một số chức năng nổi trội như sau:
    - Tự động học
    - Không đòi hỏi phải hiểu ngôn ngữ tự nhiên
    - Dựa trên cơ sở của ngôn ngữ HTML
    Quá trình tự động học của tác tử giúp cho nó có khả năng phân tích các mô tả sản phẩm và nhận biết được các thuộc tính sản phẩm như giá cả hay chủng loại của sản phẩm. Nó thực hiện điều này mà không cần phải qua những khâu xử lý ngôn ngữ tự nhiên rất phức tạp, và chỉ yêu cầu một ít kiến thức về các thể loại sản phẩm khác nhau mà thôi. Nó trích rút thông tin từ các cửa hàng trực tuyến thông qua sự kết hợp của các kỹ thuật tìm kiếm theo kinh nghiệm, tương hợp mẫu và học suy diễn.
    Mục đích của khóa luận
    Khóa luận hướng tới các mục tiêu như sau:
    · Nghiên cứu thuật toán trích rút thông tin theo phương pháp học máy.
    · Phát triển bằng ngôn ngữ lập trình Java tác tử so sánh giá cả có khả năng trích rút thông tin thông minh theo cơ chế học máy đã nghiên cứu.
    · Xây dựng một hệ thống có khả năng giúp người tiêu dùng trong việc khảo sát và chọn sản phẩm một cách tập trung với chức năng quy tụ thông tin từ vô số nguồn khác nhau.
    · Thử nghiệm tác tử với những Website tiêu biểu ở Việt Nam, qua đó đánh giá hiệu quả của chương trình trích rút thông tin và từ đó thực hiện những cải tiến cần thiết về mặt giải thuật và cài đặt.
    Kết quả
    · Thiết kế được hệ thống hệ thống tương đối hoàn chỉnh các chức năng bao gồm các công việc: Thiết kế tác tử, Website và cơ sở dữ liệu.
    · Tập trung cài đặt và thử nghiệm thành công thành phần chính là tác tử trích rút thông tin sản phẩm, áp dụng cho những Website bán hàng tại Việt Nam.
    · Xây dựng được một hệ thống thử nghiệm đơn giản so sánh giá cả từ một số Website bán hàng khác nhau.
    Kết quả đạt được tuy còn ở mức hạn chế nhưng về cơ bản đã thực hiện được mục đích đặt ra của khóa luận.
    Bố cục khóa luận
    Chương 1 trình bày các kiến thức cơ sở về Java để thực hiện đề tài. Nhìn chung, đề tài này thực hiện với hai nội dung chính. Nội dung thứ nhất là xây dựng được một Website thể hiện được so sánh về giá cả của sản phẩm từ nhiều Website khác nhau. Nội dung thứ hai là thực hiện trích rút thông tin sản phẩm từ các Website bằng tác tử thu thập thông tin giá cả. Cơ chế của tác tử thu thập thông tin giá cả sẽ được đề cập đến ở Chương 3. Hai nội dung này nối kết với nhau bằng một CSDL. Chức năng của CSDL là lưu trữ thông tin sản phẩm về tên chủng loại ,giá bán và các thông tin khác.
    Website xây dựng được có phần tìm kiếm để người dùng nhập vào từ khóa tìm kiếm. Với từ khóa này, hệ thống sẽ tự tìm trong CSDL xem có sản phẩm nào là phù hợp với từ khóa mà người dùng nhập vào hay không. Nếu có thì sẽ có một trang kết quả trả về trong đó nêu lên các đặc tính của sản phẩm, nơi bán và đặc biệt là nêu bật được giá cả bán ở từng nơi.
    Để sự tìm kiếm của người dùng có kết quả như mong đợi thì cần phải có sự thể hiện từ hai phía. Phía khách hàng phải có cách nhập từ khóa hợp lý. Phía hệ thống cần phải thường xuyên cập nhật thông tin, thêm sản phẩm mới.
    Để xây dựng được hệ thống phải khảo sát các Website bán hàng. Nó vừa là sự kiểm chứng cho lý thuyết được đặt ra có phù hợp với thực tiễn hay không vừa là để phục vụ cho việc cập nhật các Webiste sau này. Với mong muốn trước tiên là ứng dụng đề tài này cho các Webiste ở Việt Nam nên chương 2 của báo cáo này sẽ trình bày phần khảo sát về các Website kinh doanh ở Việt Nam.
    Chương 3 trình bày việc thiết kế tác tử trích rút thông tin.
    Chương 4 của báo cáo này sẽ trình bày chi tiết cách triển khai trên thực tế. Phần thứ nhất là tìm hiểu và làm rõ từ các vấn đề kỹ thuật cơ sở (như sử dụng ngôn ngữ Java, sử dụng các lớp Java xây dựng sẵn) để thiết kế tác tử so sánh giá cả (Tự động tìm form tìm kiếm, trích rút thông tin sản phẩm). Phần thứ hai sẽ trình bày ý tưởng xây dựng một Website so sánh giả cả và cơ sở dữ liệu để hoàn thành lên một ứng dụng hoành chỉnh
    Sau cùng là tích hợp các kỹ thuật để cài đặt và triển khai một hế thống so sánh giá cả đơn giản.
    Vì đây là một lĩnh vực còn khá mới mẻ ở Việt Nam và cũng là một bài toán khó đòi hỏi sự nghiên cứu kỹ càng, sự thực nghiệm và học hỏi nghiêm túc. Trước mắt, chương trình mới chỉ giới hạn tìm kiếm trên các Webiste ở Việt Nam. Thông tin về sản phẩm tìm kiếm cũng có sự hạn chế đến mức cơ bản. Nhưng chắc chắn đề tài sẽ không dừng lại ở đó mà còn tiếp tục hoàn thiện hơn, nhiều tính năng hơn. Phần kết luận sẽ đề ra phương hương phát triển của đề tài này.
    Tóm lại, qua 5 chương:
    § Chương 1: Khảo duyệt Web với Java
    § Chương 2: Khảo sát các Website bán hàng ở Việt Nam
    § Chương 3: Thiết kế tác tử trích rút thông tin
    § Chương 4: Phát triển hệ thống so sánh thông tin giá cả trực tuyến
    § KẾT LUẬN VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN
    Người đọc sẽ có một cách tiếp cận từ tổng thể đến cụ thể về một công nghệ mới: Xây dựng tác tử so sánh giá cả và ứng dụng vào Website phục vụ tìm kiếm





    MỤC LỤC
    TÓM TẮT NỘI DUNG 1
    LỜI NÓI ĐẦU 5
    Bối cảnh chung . 5
    So sánh giá cả 5
    Mục đích đề tài . 6
    Bố cục khóa luận 6
    Chương 1 KHẢO DUYỆT WEB VỚI JAVA 9
    1.1 Tìm hiểu về HTTP Request 9
    1.2 Tìm hiểu về gói Bot-Package . 10
    1.3 Sử dụng gói thư viện Swing cho việc phân tích cú pháp HTML 13
    Chương 2 KHẢO SÁT CÁC WEBSITE BÁN HÀNG Ở VIỆT NAM 15
    2.1 Giới thiệu . 15
    2.2 Bố trí mục tìm kiếm 17
    2.3 Hình thức tìm kiếm . 17
    2.3.1 Tìm kiếm đơn giản 17
    2.3.2 Tìm kiếm chi tiết: 17
    2.3.3 Tìm kiếm theo danh mục . 18
    2.4 Nhận biết mục tìm kiếm . 19
    2.4.1 Cách khảo sát tìm kiếm 19
    2.5 Trình bày của Website khi tìm thấy hoặc không tìm thấy sản phẩm . 20
    2.5.1 Tổ chức chung . 20
    2.5.2 Phân cách các sản phẩm 21
    2.5.3 Đơn vị mô tả sản phẩm . 22
    2.6 Kết luận 22
    Chương 3 THIẾT KẾ TÁC TỬ TRÍCH RÚT THÔNG TIN 23
    3.1 Giới thiệu . 23
    3.2 Kiến trúc của hệ thống trích rút thông tin . 24
    3.3 Chương trình học 26
    3.3.1 Xác định mẫu biểu tìm kiếm . 27
    3.3.2 Lấy ra đơn vị miêu tả sản phẩm 28
    3.3.3 Xác định giá trị của các thuộc tính sản phẩm . 37
    3.4 Trình quản lý thuật ngữ 37
    3.4.1 Giới thiệu . 37
    3.4.2 Xây dựng giao diện nhập thuật ngữ 38
    3.4.3 Mở rộng thuật ngữ bằng cấu trúc cây . 39
    3.5 Kết luận 40
    Chương 4 PHÁT TRIỂN HỆ THỐNG SO SÁNH . 41
    GIÁ CẢ TRỰC TUYẾN 41
    4.1 Mô hình tổng quát . 41
    4.2 Thiết kế tác tử 42
    4.3 Thiết kế Website . 46
    4.3.1 Mô tả Website . 46
    4.3.2 Cấu trúc Website . 46
    4.3.3 Hoạt động của Website: . 47
    4.4 Cơ sở dữ liệu 48
    4.5 Hướng dẫn cài đặt hệ thống thực nghiệm Website so sánh giá cả . 52
    4.5.1 Cài đặt trình biên dịch JDK và trình chủ Web Tomcat 52
    4.5.2 Biên dịch và chạy ứng dụng 54
    4.6 Kết luận 57
    KẾT LUẬN . 58
    DANH MỤC TÀI LIỆU THAM KHẢO 60
     

    Các file đính kèm:

Đang tải...