HỌC VIỆN CÔNG NGHỆBƯU CHÍNH VIỄN THÔNG CƠSỞDỮLIỆU (Dùng cho sinh viên hệ đào tạo đại học từxa) Lưu hành nội bộHÀ NỘI - 2006 HỌC VIỆN CÔNG NGHỆBƯU CHÍNH VIỄN THÔNG CƠSỞDỮLIỆU Biên soạn : Ts. PHẠM THẾQUẾ LỜI NÓI ĐẦU Tài liệu “Cơsởdữliệu” là sách hướng dẫn học tập dùng cho sinh viên hệ đào tạo từxa ngành công nghệthông tin và ngành kỹthuật viễn thông. Nội dung của tài liệu bao gồm: Chương I giới thiệu sựcần thiết tổchức dữliệu theo mô hình hệcơsởdữliệu, mục tiêu và tính độc lập của dữliệu. Kiến trúc mô hình tổng quát 3 lớp và tính ổn định trong mô hình quan niệm. Các mô hình truy xuất thông dụng hiện nay. Chương II giới thiệu tổng quát vềcác mô hình cơsởdữliệu kinh điển và truyền thống. Đó là các khái niệm cơbản vềmô hình dữliệu mạng, mô hình phân cấp, mô hình quan hệvà mô hình thực thể– liên hệ. Một mô hình CSDL phải có khảnăng biểu diễn thực thểvà liên kết giữa các thực thể, là cách nhìn và cách biểu diễn các liên kết của người sửdụng. Chương III trình bày những khái niệm cơbản vềlý thuyết cơsởdữliệu quan hệdo E.F Codd đềxuất. Mô hình cơsởdữliệu quan hệ được xây dựng trên cơsởtoán học chặt chẽvà logic, có tính độc lập dữliệu cao và có cấu trúc biểu diễn đơn giản. Chương IV giới thiệu quá trình chuẩn hoá dữliệu, là quá trình tách không tổn thất thông tin các quan hệchưa chuẩn hoá vềcác quan hệcó dạng chuẩn 3NF và Boye –Codd theo nghĩa các quan hệgốc được khôi phục chính xác từcác phép kết nối tựnhiên các quan hệchiếu, với giảthiết các phụthuộc dữliệu là các phụthuộc hàm. Chương V đềcập đến các ngôn ngữcon thao tác dữliệu: ngôn ngữcon dữliệu dựa trên đại sốquan hệ, ngôn ngữcó cấu trúc SQL truy vấn dữliệu. Chương VI đềcập tới một sốphương pháp tối ưu hoá câu hỏi, sao cho tăng tốc độthực hiện và tối ưu hoá bộnhớ. Cuối cùng là chương VII, nội dung của chương này trình bày sựcần thiết phải bảo vệan toàn cơsởdữliệu. “An toàn” dữliệu nghĩa là các hệcơsởdữliệu cần phải được bảo vệchống truy nhập trái phép sửa đổi hay phá hoại dữliệu. Các hệthống dữliệu cần thiết phải bảo đảm tính toàn vẹn và an toàn dữliệu. 1 Tài liệu”Cơsởdữliệu” không chỉ đềcập đến những vấn đềcơsởlý thuyết mà còn trình bày một sốkỹnăng cần thiết đểthiết kếvà cài đặt các hệcơsởdữliệu cụthể. Hy vọng sẽcó ích cho sinh viên và những người muốn xây dựng các hệthống tin học ứng dụng phục vụcho sản xuất, quản lý trong các doanh nghiệp. Có thểcòn nhiều thiếu sót trong biên soạn, tôi vẫn mạnh dạn giới thiệu tài liệu này và mong nhận được sựgóp ý của bạn đọc. Tác giả2 1KHÁI NIỆM CƠBẢN VỀCÁC HỆCƠSỞDỮLIỆU Trong chương này trình bày những khái niệm cơbản vềcác hệcơsởdữliệu do E.F Codd đềxuất. Những khái niệm này bao gồm mục tiêu của một hệcơsởdữliệu. Sựcần thiết phải tổchức dữliệu dưới dạng cơsởdữliệu. Tính độc lập của dữliệu thểhiện mô hình hình kiến trúc 3 mức. Vì vậy có thểnói cơsởdữliệu phản ảnh tính trung thực, khách quan của thếgiới dữliệu. Không dưthừa thông tin và cũng không thiếu thông tin. Nội dung của chương bao gồm các phần: • Cơsởdữliệu là gì • Sựcần thiết của các hệcơsởdữliệu • Mô hình kiến trúc 3 mức cơsởdữliệu • Mục tiêu của các hệcơsởdữliệu • Hệquản trịCSDL & người quản trịCSDL • Tổchức lưu trữdữliệu • Các mô hình truy xuất 1.1 Cơsởdữliệu là gì Cơsởdữliệu làmột bộsưu tập rất lớn vềcác loại dữliệu tác nghiệp, bao gồm các loại dữliệu âm thanh, tiếng nói, chữviết, văn bản, đồhoạ, hình ảnh tĩnh hay hình ảnh động....được mã hoá dưới dạng các chuỗi bit và được lưu trữdưới dạng File dữliệu trong các bộnhớcủa máy tính. Cấu trúc lưu trữdữliệu tuân theo các quy tắc dựa trên lý thuyết toán học. Cơsởdữliệu phản ảnh trung thực thếgiới dữliệu hiện thực khách quan. Cơsởdữliệu là tài nguyên thông tin dùng chung cho nhiều người:Cơsởdữliệu (CSDL) là tài nguyên thông tin chung cho nhiều người cùng sửdụng. Bất kỳngười sửdụng nào trên mạng máy tính, tại các thiết bị đầu cuối, vềnguyên tắc có quyền truy nhập khai thác toàn bộhay một phần dữliệu theo chế độtrực tuyến hay tương tác mà không phụthuộc vào vịtrí địa lý của người sửdụng với các tài nguyên đó. Cơsởdữliệu được các hệ ứng dụng khai thác bằng ngôn ngữcon dữliệu hoặc bằng các chương trình ứng dụng đểxửlý, tìm kiếm, tra cưú, sửa đổi, bổsung hay loại bỏdữliệu. Tìm kiếm và tra cứu thông tin là một trong những chức năng qua trọng và phổbiến nhất của các dịch vụcơsởdữliệu. Hệquản trịCSDL – HQTCSDL (DataBase Management System - DBMS) là phần mềm điều khiển các chiến lược truy nhập CSDL. Khi người sửdụng đưa ra yêu cầu truy nhập bằng một ngôn ngữcon dữliệu nào đó, HQTCSDL tiếp nhận và thực hiện các thao tác trên CSDL lưu trữ. Đối tượng nghiên cứu của CSDLlà các thực thểvà mối quan hệgiữa các thực thể. Thực thểvà mối quan hệgiữa các thực thểlà hai đối tượng khác nhau vềcăn bản. Mối quan hệgiữa các thực thểcũng là một loại thực thể đặc biệt. Trong cách tiếp cận CSDL quan hệ, người ta Chương I: Khái niệm cơbản vềcác hệcơsởdữliệu dựa trên cơsởlý thuyết đại sốquan hệ đểxây dựng các quan hệchuẩn, khi kết nối không tổn thất thông tin và khi biểu diễn dữliệu là duy nhất. Dữliệu được lưu trữtrong bộnhớcủa máy tính không những phải tính đến yếu tốvềtối ưu không gian lưu trữ, mà phải đảm bảo tính khách quan, trung thực của dữliệu hiện thực. Nghĩa là phải đẩm bảo tính nhất quán của dữliệu và giữ được sựtoàn vẹn của dữliệu. 1.2 Sựcần thiết của các hệcơsởdữliệu Tổchức lưu trữdữliệu theo lý thuyết cơsởdữliệu có những ưu điểm: Giảm bớt dưthừa dữliệu trong lưu trữ: Trong các ứng dụng lập trình truyền thống, phương pháp tổchức lưu trữdữliệu vừa tốn kém, lãng phí bộnhớvà các thiết bịlưu trữ, vừa dưthừa thông tin lưu trữ. Nhiều chương trình ứng dụng khác nhau cùng xửlý trên các dữliệu nhưnhau, dẫn đến sựdưthừa đáng kểvềdữliệu. Ví dụtrong các bài toán nghiệp vụquản lý "Cước thuê bao điện thoại" và "Doanh thu & sản lượng ", tương ứng với mỗi một chương trình là một hay nhiều tệp dữliệu được lưu trữriêng biệt, độc lập với nhau. Trong cả2 chương trình cùng xửlý một sốthuộc tính của một cuộc đàm thoại như“sốmáy gọi đi”, “sốmáy gọi đến”, “hướng cuộc gọi”, “thời gian bắt đầu” và “thời gian kết thúc” ....Nhiều thuộc tính được mô tảvà lưu trữnhiều lần độc lập với nhau. Nếu tổchức lưu trữtheo lý thuyết CSDL thì có thểhợp nhất các tệp lưu trữcủa các bài toán trên, các chương trình ứng dụng có thểcùng chia sẻtài nguyên trên cùng một hệCSDL. Tổchức lưu trữdữliệu theo lý thuyết CSDL sẽtránh được sựkhông nhất quán trong lưu trữdữliệu và bảo đảm được tính toàn vẹn của dữliệu: Nếu một thuộc tính được mô tảtrong nhiều tệp dữliệu khác nhau và lặp lại nhiều lần trong các bản ghi, khi thực hiện việc cập nhật, sửa đổi, bổsung sẽkhông sửa hết nội dung các mục đó. Nếu dữliệu càng nhiều thì sựsai sót khi cập nhật, bổsung càng lớn. Khảnăng xuất hiện mâu thuẫn, không nhất quán thông tin càng nhiều, dẫn đến không nhất quán dữliệu trong lưu trữ. Tất yếu kéo theo sựdịthường thông tin, thừa, thiếu và mâu thuẫn thông tin. Thông thường, trong một thực thể, giữa các thuộc tính có mối quan hệràng buộc lẫn nhau, tác động ảnh hưởng lẫn nhau. Cước của một cuộc đàm thoại phụthuộc vào khoảng cách và thời gian cuộc gọi, tức là phụthuộc hàm vào các thuộc tính máy gọi đi, máy gọi đến, thời gian bắt đầu và thời gian kết thúc cuộc gọi. Các trình ứng dụng khác nhau cùng xửlý cước đàm thoại trên các thực thểlưu trữtương ứng khác nhau chưa hẳn cho cùng một kết quảvềsản lượng phút và doanh thu. Điều này lý giải tại sao trong một doanh nghiệp, cùng xửlý trên các chỉtiêu quản lý mà sốliệu báo cáo của các phòng ban, các công ty con lại cho các kết quảkhác nhau, thậm chí còn trái ngược nhau. Nhưvậy, có thểkhảng định, nếu dữliệu không tổchức theo lý thuyết cơsởdữliệu, tất yếu không thểphản ảnh thếgiới hiện thực dữliệu, không phản ảnh đúng bản chất vận động của dữliệu. Sựkhông nhất quán dữliệu trong lưu trữ làm cho dữliệu mất đi tính toàn vẹn cuảnó. Tính toàn vẹn dữliệu đảm bảo cho sựlưu trữdữliệu luôn luôn đúng. Không thểcó mã vùng ngoài quy định của cơquan quản lý, hoặc ngày sinh của một nhân viên không thểxẩy ra sau ngày tốt nghiệp ra trường của nhân viên đó... 3 Chương I: Khái niệm cơbản vềcác hệcơsởdữliệu Tổchức lưu trữdữliệu theo lý thuyết CSDL có thểtriển khai đồng thời nhiều ứng dụng trên cùng một CSDL: Điều này có nghĩa là các ứng dụng không chỉchia sẻchung tài nguyên dữliệu mà còn trên cùng một CSDL có thểtriển khai đồng thời nhiều ứng dụng khác nhau tại các thiết bị đầu cuối khác nhau. Tổchức dữliệu theo lý thuyết cơsởdữliệu sẽthống nhất các tiêu chuẩn, thủtục và các biện pháp bảo vệ, an toàn dữliệu: Các hệCSDL sẽ được quản lý tập trung bởi một người hay một nhóm người
đang được dịch, vui lòng đợi..
