Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python

KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU MẪU NGẪU NHIÊN  
BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON  
Giảng viên hướng dẫn: ThS. Phạm Thị Kim Thúy  
Sinh viên thực hiện:  
Nguyễn Phi Thái  
Trần Xuân Lâm  
Lớp: CQ.57.CNTT  
Lớp: CQ.57.CNTT  
Tóm tắt: Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động hóa và  
trao đổi dữ liệu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các  
bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê. Vì vậy, đề tài này chọn phương pháp lập  
trình với ngôn ngữ python để mô hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng  
phương pháp này có vai trò quan trọng, nó giúp cho chúng ta phân tích được những đặc tính của dữ  
liệu, mối quan hệ giữa các mẫu khác nhau. Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu.  
Từ khóa: Mô hình hóa dữ liệu, phương pháp lập trình, ngôn ngữ python.  
1. ĐẶT VẤN ĐỀ  
Hiện nay, ở Việt Nam, sinh viên chuyên ngành Công Nghệ Thông Tin, Toán Tin đang  
áp dụng kiến thức toán hoặc thuật toán để làm đề tài tốt nghiệp. Khảo sát các đề tài tốt nghiệp  
năm 2019 của sinh viên CNTT K56 thuộc phân hiệu, có không ít sinh viên chọn Đại số tuyến  
tính, Xác suất Thống kê,… làm kiến thức nền cho việc lập trình trong đề tài của sinh viên. Đa  
số sinh viên đều sử dụng Python vì những thuộc tính ưu việt trong việc tính toán: tích phân,  
đạo hàm, giải các phương trình vi phân, …  
thể thấy, lập trình giúp cho việc giải toán nhanh, chúng ta chỉ cần định nghĩa ra  
phương pháp giải và chúng ta có thể giải được bài toán với bất mẫu dữ liệu tương tự nào.  
Cụ thể, việc sử dụng phương pháp lập trình với ngôn ngữ python để tả dữ liệu ngẫu nhiên  
giúp chúng ta hình dung được dữ liệu đưa ra được các nhận xét chính xác, quan trọng.  
2. CÁC NỘI DUNG CHÍNH  
2.1. Phương pháp nghiên cứu  
- Phương pháp thu thập xử số liệu từ thực nghiệm.  
- Phương pháp mô hình hóa dữ liệu thông qua ngôn ngữ python.  
2.2. Phương tiện nghiên cứu  
- Sử dụng ngôn ngữ python để lập trình.  
2.3. Nội dung nghiên cứu đã thực hiện  
Từ việc nghiên cứu về những phương pháp mô tả dữ liệu trong thống kê bao gồm: tả  
dữ liệu bằng phương pháp đồ thị, tả dữ liệu bằng phương pháp số việc nghiên cứu  
phương pháp lập trình với ngôn ngữ Python để mô hình hóa dữ liệu thông qua những dạng đồ  
thị: đồ thị hình cột (histogram), đồ thị chỉ tần số, đồ thị chỉ tần suất, đồ thị hình hộp (boxplot),  
P a g e 62 | 82  
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
phương trình đường thẳng hồi quy tuyến tính và tính toán được các giá trị liên quan đến  
những mô hình: giá trị mode, trung vị, trung bình, …  
Trong đó, mô hình hóa dữ liệu với mẫu dữ liệu thực phần trọng tâm của đề tài. Dữ liệu  
thực phỏng trong đề tài là danh sách điểm thi kết thúc học phần điểm thành phần môn  
Xác suất Thống của lớp CNTT-K57. Dữ liệu này được phỏng để giải quyết dạng toán:  
Tìm mối tương quan giữa điểm thành phần điểm cuối cụ thể thông qua mô hình hồi quy  
tuyến tính.  
Kết quả những dạng mô hình dữ liệu được tạo dựa trên ngôn ngữ python:  
Hình 1. Biểu đồ hình thanh  
Hình 2. Biểu đồ hình thanh theo cặp  
P a g e 63 | 82  
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
Hình 3. Biểu đồ đường  
Hình 4. Biểu đồ tần số của điểm thành phần điểm kết thúc học phần  
Hình 5. Biểu đồ tần suất  
P a g e 64 | 82  
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
Hình 6. Biểu đồ hình hộp  
Hình 7. Biểu đồ tán xạ  
Hình 8. Đường thẳng hồi quy tuyến tính  
P a g e 65 | 82  
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
Từ những mô hình trên, ta có nhận xét: Điểm thành phần thường cao hơn điểm kết thúc  
học phần. Hơn nữa, điểm thành phần, điểm kết thúc học phần mối tương quan với nhau cụ  
thể: điểm thành phần cao thì điểm kết thúc học phần cũng có xu hướng cao.  
Ngoài ra, thông qua đồ thị hồi quy tuyến tính giữa điểm thành phần điểm thi kết thúc  
học phần, nhóm có những nhận xét sau:  
- Đường thẳng hồi quy tuyến tính có xu hướng đi lên nên điểm thành phần điểm kết  
thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng thì điểm thi kết thúc học phần cũng  
tăng.  
- Các giá trị của điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên  
đường thẳng hồi quy.  
- Nhìn vào đồ thị, thể dự báo được điểm kết thúc học phần khi có điểm thành phần.  
Giả sử điểm thành phần được 3 điểm thì điểm kết thúc học phần thể dự đoán nằm trong  
khoảng từ [1.8, 2] điểm.  
2.4. Kết quả nghiên cứu  
Đề tài đã đánh giá và mô hình hóa được các đại lượng tiêu biểu của thống dữ liệu.  
Trong đó, nhóm nghiên cứu đã sử dụng hồi quy đơn tuyến tính để đưa ra những phân tích đặc  
trưng kết quả thi của một mẫu dữ liệu sinh viên Phân hiệu. Kết quả đó là thông tin bổ ích để  
giảng viên Toán Phân hiệu tham khảo để định hướng giảng dạy.  
2.5. Kiến nghị  
Dữ liệu trong thực tế thì thường rất lớn việc xử số liệu nhiều phương pháp khác  
nhau cũng như kết hợp với các thuật toán phức tạp để thể xử lý và đưa ra những nhận định  
chính xác cho mẫu dữ liệu. Do đó, trong tương lai đề tài có thể mở rộng với tập dữ liệu quy  
lớn hơn và nên chọn mô hình hồi quy đa tuyến.  
3. KẾT LUẬN  
Trong môn học Xác xuất Thống kê, sinh viên sẽ giải tiếp cận các bài toán bằng cách  
phương pháp thông thường vậy phương pháp này thiếu đi tính minh họa, trực quan. Hơn  
nữa, trong lĩnh vực này việc lấy mẫu dự liệu rất quan trọng, do đó với mỗi mẫu dữ liệu khác  
nhau thì sinh viên phải giải nhiều lần khác nhau, điều này tốn rất nhiều thời gian, công sức.  
vậy, việc thực hiện giải các bài toán bằng phương pháp lập trình sẽ giải quyết vấn đề đó.  
Ngôn ngữ python là một trong những công cụ lập trình có tính năng mạnh mẽ của trong  
việc giải các bài toán, đặc biệt là trong lĩnh vực phân tích dữ liệu. Cụ thể python có nhiều thư  
viện được xây dựng giúp chúng ta minh họa được các bài toán thông qua các dạng đồ thị,  
biểu đồ như histogram, tròn, boxplot, ... Điều này giúp cho việc đánh giá dữ liệu dễ dàng. Từ  
đó, nhà thống kê có thể đưa ra những kết luận chính xác cho mẫu dữ liệu.  
Đề tài này đã sử dụng phương pháp lập trình với ngôn ngữ python để xdữ liệu và mô  
hình hóa dữ liệu một cách trực quan hơn. Cụ thể, đề tài đã xây dựng một mô hình để biểu thị  
mỗi tương quan của hai thuộc tính trong dữ liệu đó phương trình hồi quy tuyến tính. Thông  
qua phương trình hồi quy tuyến tính, khi chúng ta biết một trong hai thuộc tính, chúng ta có  
P a g e 66 | 82  
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019  
thể dự đoán được giá trị còn lại. Ngoài ra, việc phỏng phương trình hồi quy tuyến tính  
bằng phương pháp đồ thị sử dụng ngôn ngữ python cho phép chúng ta dễ dàng hình dung  
hơn về sự phân bố của tập dữ liệu cũng như mối tương quan giữa các tập dữ liệu.  
Tài liệu tham khảo  
[1].TS. Trần Văn Long, TS. Nguyễn Mạnh Hùng, TS. Phí Thị Vân Anh, Xác suất Thống Kê,  
Nhà xuất bản Giao thông vận tải, 2017.  
[2].PGS. TS. Đặng Đức Trọng, TS. Đinh Ngọc Thanh, thuyết Thống , Nhà xuất bản Đại  
học Quốc gia Thành phố Hồ Chí Minh, 2016.  
[3].C. Burch, S. Guyader, D. Samarov, H. Shen, Experimental estimate of the abundance and  
effects of nearly neutral mutations in the RNA vius  
6, Genetics 176, pp. 467-476, 2007.  
[4].Xavier Gendre, Introduction to Data Mining, France, 2016.  
P a g e 67 | 82  
pdf 6 trang yennguyen 09/04/2022 7920
Bạn đang xem tài liệu "Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfnghien_cuu_phuong_phap_mo_hinh_hoa_du_lieu_mau_ngau_nhien_ba.pdf