Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU MẪU NGẪU NHIÊN
BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON
Giảng viên hướng dẫn: ThS. Phạm Thị Kim Thúy
Sinh viên thực hiện:
Nguyễn Phi Thái
Trần Xuân Lâm
Lớp: CQ.57.CNTT
Lớp: CQ.57.CNTT
Tóm tắt: Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động hóa và
trao đổi dữ liệu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các
bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê. Vì vậy, đề tài này chọn phương pháp lập
trình với ngôn ngữ python để mô hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng
phương pháp này có vai trò quan trọng, nó giúp cho chúng ta phân tích được những đặc tính của dữ
liệu, mối quan hệ giữa các mẫu khác nhau. Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu.
Từ khóa: Mô hình hóa dữ liệu, phương pháp lập trình, ngôn ngữ python.
1. ĐẶT VẤN ĐỀ
Hiện nay, ở Việt Nam, sinh viên chuyên ngành Công Nghệ Thông Tin, Toán – Tin đang
áp dụng kiến thức toán hoặc thuật toán để làm đề tài tốt nghiệp. Khảo sát các đề tài tốt nghiệp
năm 2019 của sinh viên CNTT K56 thuộc phân hiệu, có không ít sinh viên chọn Đại số tuyến
tính, Xác suất Thống kê,… làm kiến thức nền cho việc lập trình trong đề tài của sinh viên. Đa
số sinh viên đều sử dụng Python vì những thuộc tính ưu việt trong việc tính toán: tích phân,
đạo hàm, giải các phương trình vi phân, …
Có thể thấy, lập trình giúp cho việc giải toán nhanh, chúng ta chỉ cần định nghĩa ra
phương pháp giải và chúng ta có thể giải được bài toán với bất kì mẫu dữ liệu tương tự nào.
Cụ thể, việc sử dụng phương pháp lập trình với ngôn ngữ python để mô tả dữ liệu ngẫu nhiên
giúp chúng ta hình dung được dữ liệu và đưa ra được các nhận xét chính xác, quan trọng.
2. CÁC NỘI DUNG CHÍNH
2.1. Phương pháp nghiên cứu
- Phương pháp thu thập và xử lý số liệu từ thực nghiệm.
- Phương pháp mô hình hóa dữ liệu thông qua ngôn ngữ python.
2.2. Phương tiện nghiên cứu
- Sử dụng ngôn ngữ python để lập trình.
2.3. Nội dung nghiên cứu đã thực hiện
Từ việc nghiên cứu về những phương pháp mô tả dữ liệu trong thống kê bao gồm: Mô tả
dữ liệu bằng phương pháp đồ thị, mô tả dữ liệu bằng phương pháp số và việc nghiên cứu
phương pháp lập trình với ngôn ngữ Python để mô hình hóa dữ liệu thông qua những dạng đồ
thị: đồ thị hình cột (histogram), đồ thị chỉ tần số, đồ thị chỉ tần suất, đồ thị hình hộp (boxplot),
P a g e 62 | 82
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
phương trình đường thẳng hồi quy tuyến tính và tính toán được các giá trị liên quan đến
những mô hình: giá trị mode, trung vị, trung bình, …
Trong đó, mô hình hóa dữ liệu với mẫu dữ liệu thực là phần trọng tâm của đề tài. Dữ liệu
thực mô phỏng trong đề tài là danh sách điểm thi kết thúc học phần và điểm thành phần môn
Xác suất Thống kê của lớp CNTT-K57. Dữ liệu này được mô phỏng để giải quyết dạng toán:
Tìm mối tương quan giữa điểm thành phần và điểm cuối kì cụ thể thông qua mô hình hồi quy
tuyến tính.
Kết quả là những dạng mô hình dữ liệu được tạo dựa trên ngôn ngữ python:
Hình 1. Biểu đồ hình thanh
Hình 2. Biểu đồ hình thanh theo cặp
P a g e 63 | 82
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
Hình 3. Biểu đồ đường
Hình 4. Biểu đồ tần số của điểm thành phần và điểm kết thúc học phần
Hình 5. Biểu đồ tần suất
P a g e 64 | 82
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
Hình 6. Biểu đồ hình hộp
Hình 7. Biểu đồ tán xạ
Hình 8. Đường thẳng hồi quy tuyến tính
P a g e 65 | 82
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
Từ những mô hình trên, ta có nhận xét: Điểm thành phần thường cao hơn điểm kết thúc
học phần. Hơn nữa, điểm thành phần, điểm kết thúc học phần có mối tương quan với nhau cụ
thể: điểm thành phần cao thì điểm kết thúc học phần cũng có xu hướng cao.
Ngoài ra, thông qua đồ thị hồi quy tuyến tính giữa điểm thành phần và điểm thi kết thúc
học phần, nhóm có những nhận xét sau:
- Đường thẳng hồi quy tuyến tính có xu hướng đi lên nên điểm thành phần và điểm kết
thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng thì điểm thi kết thúc học phần cũng
tăng.
- Các giá trị của điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên
đường thẳng hồi quy.
- Nhìn vào đồ thị, có thể dự báo được điểm kết thúc học phần khi có điểm thành phần.
Giả sử điểm thành phần được 3 điểm thì điểm kết thúc học phần có thể dự đoán nằm trong
khoảng từ [1.8, 2] điểm.
2.4. Kết quả nghiên cứu
Đề tài đã đánh giá và mô hình hóa được các đại lượng tiêu biểu của thống kê dữ liệu.
Trong đó, nhóm nghiên cứu đã sử dụng hồi quy đơn tuyến tính để đưa ra những phân tích đặc
trưng kết quả thi của một mẫu dữ liệu sinh viên Phân hiệu. Kết quả đó là thông tin bổ ích để
giảng viên Toán ở Phân hiệu tham khảo để định hướng giảng dạy.
2.5. Kiến nghị
Dữ liệu trong thực tế thì thường rất lớn và việc xử lý số liệu có nhiều phương pháp khác
nhau cũng như kết hợp với các thuật toán phức tạp để có thể xử lý và đưa ra những nhận định
chính xác cho mẫu dữ liệu. Do đó, trong tương lai đề tài có thể mở rộng với tập dữ liệu quy
mô lớn hơn và nên chọn mô hình hồi quy đa tuyến.
3. KẾT LUẬN
Trong môn học Xác xuất Thống kê, sinh viên sẽ giải và tiếp cận các bài toán bằng cách
phương pháp thông thường vì vậy phương pháp này thiếu đi tính minh họa, trực quan. Hơn
nữa, trong lĩnh vực này việc lấy mẫu dự liệu rất quan trọng, do đó với mỗi mẫu dữ liệu khác
nhau thì sinh viên phải giải nhiều lần khác nhau, điều này tốn rất nhiều thời gian, công sức.
Vì vậy, việc thực hiện giải các bài toán bằng phương pháp lập trình sẽ giải quyết vấn đề đó.
Ngôn ngữ python là một trong những công cụ lập trình có tính năng mạnh mẽ của trong
việc giải các bài toán, đặc biệt là trong lĩnh vực phân tích dữ liệu. Cụ thể python có nhiều thư
viện được xây dựng giúp chúng ta minh họa được các bài toán thông qua các dạng đồ thị,
biểu đồ như histogram, tròn, boxplot, ... Điều này giúp cho việc đánh giá dữ liệu dễ dàng. Từ
đó, nhà thống kê có thể đưa ra những kết luận chính xác cho mẫu dữ liệu.
Đề tài này đã sử dụng phương pháp lập trình với ngôn ngữ python để xử lý dữ liệu và mô
hình hóa dữ liệu một cách trực quan hơn. Cụ thể, đề tài đã xây dựng một mô hình để biểu thị
mỗi tương quan của hai thuộc tính trong dữ liệu đó là phương trình hồi quy tuyến tính. Thông
qua phương trình hồi quy tuyến tính, khi chúng ta biết một trong hai thuộc tính, chúng ta có
P a g e 66 | 82
KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019
thể dự đoán được giá trị còn lại. Ngoài ra, việc mô phỏng phương trình hồi quy tuyến tính
bằng phương pháp đồ thị mà sử dụng ngôn ngữ python cho phép chúng ta dễ dàng hình dung
hơn về sự phân bố của tập dữ liệu cũng như mối tương quan giữa các tập dữ liệu.
Tài liệu tham khảo
[1].TS. Trần Văn Long, TS. Nguyễn Mạnh Hùng, TS. Phí Thị Vân Anh, Xác suất Thống Kê,
Nhà xuất bản Giao thông vận tải, 2017.
[2].PGS. TS. Đặng Đức Trọng, TS. Đinh Ngọc Thanh, Lý thuyết Thống kê, Nhà xuất bản Đại
học Quốc gia Thành phố Hồ Chí Minh, 2016.
[3].C. Burch, S. Guyader, D. Samarov, H. Shen, Experimental estimate of the abundance and
effects of nearly neutral mutations in the RNA vius
6, Genetics 176, pp. 467-476, 2007.
[4].Xavier Gendre, Introduction to Data Mining, France, 2016.
P a g e 67 | 82
Bạn đang xem tài liệu "Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình Python", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
File đính kèm:
- nghien_cuu_phuong_phap_mo_hinh_hoa_du_lieu_mau_ngau_nhien_ba.pdf