Ứng dụng QSPR: So sánh dự báo hằng số bền của phức Thiosemicarbazone với ion kim loại sử dụng mô hình hồi quy đa biến, bình phương tối thiểu riêng phần và hồi quy thành phần chính cùng với các tham số mô tả phân tử

TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
ỨNG DỤNG QSPR: SO S[NH DỰ B[O HẰNG SỐ BỀN CỦA  
PHỨC THIOSEMICARBAZONE VỚI ION KIM LOẠI SỬ DỤNG MÔ HÌNH  
HỒI QUY ĐA BIẾN, BÌNH PHƢƠNG TỐI THIỂU RIÊNG PHẦN V\ HỒI QUY  
TH\NH PHẦN CHÍNH CÙNG VỚI C[C THAM SỐ MÔ TẢ PH]N TỬ  
1,3  
1
2*  
Nguyễn Minh Quang , Trần Xuân Mậu , Phạm Văn Tất  
1
Khoa Hóa học, Trường Đại học khoa học, Đại học Huế  
2
Khoa Khoa học v| Kỹ thuật, Trường Đại học Hoa Sen  
3
Khoa Kỹ thuật Hóa học, Trường Đại học Công nghiệp Tp. Hồ Chí Minh  
*Email: vantat@gmail.com  
Ng|y nhận b|i: 28/8/2018; ng|y ho|n th|nh phản biện: 26/9/2018; ng|y duyệt đăng: 10/12/2018  
TÓM TẮT  
Trong nghiên cứu n|y, c{c mô hình liên quan định lượng giữa cấu trúc tính chất  
(QSPRs) của c{c phức chất thiosemicarbazone v| ion kim loại được x}y dựng dựa  
trên phương ph{p hồi quy đa biến, bình phương tối thiểu riêng phần hồi quy  
th|nh phần chính. Chất lượng c{c mô hình được đ{nh gi{ dựa v|o các gi{ trị hệ số  
tương quan, sai số chuẩn trung bình chuẩn Fisher. Kết quả nhận được mô hình  
2
2
2
QSPRMLR với c{c gi{ trị R train = 0,908; R CV = 0,850; Q test = 0,8542; MSE = 0,852; mô  
2
2
2
hình QSPRPLS với R train = 0,908; R CV = 0,888; Q test = 0,8972; MSE = 0,661; mô hình  
2
2
2
QSPRPCR với R train = 0,914; R CV = 0,948; Q test = 0,8842; MSE = 0,827. Các mô hình  
QSPRMLR, QSPRPLS và QSPRPCR có khả năng dự đo{n phù hợp với thực nghiệm.  
Từ khóa: QSPRMLR, QSPRPLS, QSPRPCR, hằng số bền, thiosemicarbazone.  
1. MỞ ĐẦU  
Dẫn xuất thiosemicarbazone v| phức của nó với c{c ion kim loại được ứng  
dụng rộng rãi trong nhiều lĩnh vực. Chúng có nhiều hoạt tính sinh học [1] như kh{ng  
khuẩn, kh{ng nấm, chống ung thư< nên được nghiên cứu nhiều trong lĩnh vực dược  
học [2]. Do khả năng tạo phức mạnh với nhiều ion kim loại nên chúng có thể được sử  
dụng trong phân tích trắc quang [3]. Phức của thiosemicarbazone cũng được nghiên  
cứu ứng dụng trong kỹ thuật xúc t{c [4].  
Đối với phức chất, hằng số bền l| một thông số quan trọng. Từ hằng số bền có  
thể tính nồng độ c}n bằng của c{c th|nh phần trong dung dịch. Nó cũng có thể dự  
đo{n sự thay đổi của cấu trúc điện tử phức tạp trong dung dịch từ nồng độ ban đầu  
51  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
của ion trung t}m v| phối tử. Trong những năm gần đ}y, hằng số bền của phức được  
nghiên cứu nhiều trong ph}n tích trắc quang [5].  
Trong những năm qua, sự ph{t triển mạnh mẽ của khoa học m{y tính đã cho ra  
đời c{c công cụ tính to{n lượng tử như Hyperchem, Mopac, Gaussian *6+ cùng với c{c  
phần mềm mô phỏng trong hóa học được sử dụng rộng rãi trong nghiên cứu lý thuyết  
như QSARIS, Spartan, MOE, Materials Studio, Dragon *6+ nhằm x}y dựng c{c mô hình  
dự đo{n tính chất của c{c hợp chất hóa học dựa trên mối quan hệ định lượng cấu trúc  
– tính chất (QSPR) *6,7+. Trong c{c công trình n|y, c{c t{c giả đã ph{t triển c{c mô hình  
QSPR trên c{c đối tượng kh{c nhau với c{c tính chất kh{c nhau như nhiệt độ sôi *6+, độ  
hòa tan *6+, tính kỵ nước (logP) *6+, hệ số ph}n t{n nước-hợp chất hữu cơ *6+, tính axít  
của c{c hợp chất chứa nhóm xeton *8+, chỉ số thời gian lưu của pha đảo trong ph}n tích  
sắc ký lỏng của c{c hợp chất hydrocacbon thơm đa vòng *9+. Mặc dù, việc nghiên cứu  
ph{t triển mô hình QSPR trên c{c hợp chất kh{c nhau với c{c tính chất kh{c nhau  
nhưng điểm chung của c{c nghiên cứu n|y l| sử dụng c{c phương ph{p hồi quy đa  
biến v| mạng thần kinh nh}n tạo để ph{t triển mô hình *7+. Tuy nhiên, trong các công  
trình đã được công bố chúng tôi nhận thấy rằng chưa có một công bố n|o ph{t triển  
mô hình QSPR trên đối tượng phức chất giữa c{c dẫn xuất thiosemicarbazone với c{c  
ion kim loại với đại lượng đặc trưng l| hằng số bền của phức.  
Trong nghiên cứu n|y, chúng tôi định hướng thiết kế c{c hợp chất  
thiosemicarbazone làm ligand sử dụng trong kỹ thuật ph}n tích c{c ion kim loại trong  
c{c mẫu thực phẩm v| môi trường. C{c kỹ thuật đa biến được sử dụng để x}y dựng  
mô hình biểu diễn mối quan hệ định lượng giữa cấu trúc v| hằng số bền của c{c phức  
thiosemicarbazone với c{c ion kim loại. Kết quả từ c{c mô hình QSPR cũng được so  
s{nh với thực nghiệm.  
2. PHƢƠNG PH[P TÍNH TO[N  
2.1. Phản ứng tạo phức  
Phản ứng tạo phức giữa ion kim loại (M) với thiosemicarbazone (L) xảy ra như  
sau [10]  
p M + q L M  
Hằng số bền của phức M l| hằng số c}n bằng (βpq) của phản ứng được x{c  
định theo công thức (2)  
pLq  
(1)  
pLq  
MpLq  
pq  
(2)  
p
q
M · L  
    
52  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
Trong trường hợp phản ứng tạo phức chỉ xảy ra một nấc tức l| khi p = 1 và q =  
1. Cấu trúc của phức trong nghiên cứu n|y được mô tả như Hình 1.  
2.2. Hồi quy tuyến tính bội  
Mục đích của hồi quy tuyến tính bội (Multivariate Linear Regression MLR) là  
x}y dựng mô hình liên quan giữa hai hay nhiều biến độc lập v| một biến phụ thuộc  
bằng c{ch x}y dựng một phương trình tuyến tính cho c{c số liệu quan s{t [11]. Mỗi gi{  
trị biến độc lập x được liên hệ với một gi{ trị biến phụ thuộc Y. Mô hình hồi quy bội  
MLR được biểu diễn ở công thức (3) [11-13]  
y b1x1 b2x2 b3x3 ...bmxm  
(3)  
trong đó m l| số biến độc lập; b  
1
, b  
2, <, b  
m
c{c hệ số hồi quy v| y biến phụ thuộc; là sai  
số. C{c hệ số hồi quy đặc trưng cho sự đóng góp độc lập của mỗi tham số mô tả ph}n  
tử. Mô hình MLR được x{c định bằng phương trình ma trận [11-13]  
y Xbe  
(4)  
Khi X l| dãy đầy đủ thì lời giải cực tiểu hóa l| [11-13]  
1  
T
b X X XT y  
ˆ
(5)  
ˆ
b
trong đó  
l| gi{ trị ước lượng cho hệ số hồi quy. Mô hình MLR được x}y dựng từ  
một tập luyện, tập đ{nh giá và dự đo{n ngoại.  
2.3. Bình phƣơng tối thiểu riêng phần  
Bình phương tối thiểu riêng phần (Partial Least Square PLS) được sử dụng để  
x}y dựng c{c mô hình hồi quy dựa v|o sự ph}n tích biến ẩn liên quan đến hai khối ma  
trận X v| Y, bao gồm c{c biến độc lập x v| biến phụ thuộc y. C{c ma trận được ph}n  
chia th|nh tổng của c{c biến ẩn f , như [14-17]  
X TPT E t p' E  
(6)  
f
f
Y UQT F u q' F  
(7)  
f
f
trong đó T U l| c{c ma trận đặc trưng cho X v| Y tương ứng; P Q l| ma trận hệ số  
tương ứng; E F l| c{c ma trận sai số; hai ma trận X và Y tương quan theo T U đặc  
trưng đối với mỗi biến ẩn [14-17]  
uf bf tf  
(8)  
trong đó b  
f
l| hệ số hồi quy cho biến ẩn f. Ma trận Y có thể được tính từ u  
f, hằng số bền  
của c{c phức chất mới có thể được tính to{n từ c{c T mới thế v|o phương trình (9) dẫn  
đến phương trình (10) [14-17]  
Y TBQT F  
(9)  
53  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
Ymoi UBQT  
(10)  
Trong phần tính to{n n|y, cần tìm số biến ẩn tốt nhất m| nó được thực hiện  
chuẩn hóa bằng kỹ thuật đ{nh gi{ chéo dựa v|o sai số dự đo{n cực tiểu. Mô hình PLS  
được thảo luận ở nhiều công trình.  
2.4. Hồi quy thành phần chính  
Từ một tập dữ liệu {X, y}, trong đó X l| một ma trận với n quan sát và p biến số;  
y l| vector biến phụ thuộc tương ứng. C{c số liệu được tập trung v| không được xử lý  
trước, hồi quy tuyến tính bộ chuẩn MLR được dựa v|o ma trận [18-22]  
Y Xb   
(11)  
trong đó b l| c{c hệ số v| l| vector sai số. Đặc trưng chính của hồi quy th|nh phần  
chính (Principal Component Regression PCR) l| gi{ trị đ{p ứng y không tương quan  
trực tiếp với X nhưng với th|nh phần chính của nó. C{c th|nh phần chính nhận được  
bằng c{ch ph}n t{ch X bằng phương ph{p ph}n tích th|nh phần chính (Principal  
Component Analysis - PCA) [18-22]  
X t p TP'  
(12)  
i  
i'  
trong đó T = [t  
1
, t  
2, < t  
q], P = [p  
1, p  
2, <p  
q
], t  
i
l| th|nh phần chính thứ i; p là vector riêng  
i
thứ i của X’X; q l| h|ng của X v| T = XP.  
Trong hồi quy th|nh phần chính, nếu k th|nh phần đầu (k < q) được sử dụng  
cho hồi quy, thì phương trình hồi quy được viết như sau [18-22]  
Y T P'be T1 e  
(13)  
1
1
1
1 P'b  
1
trong đó T  
1
= [t  
1
, t  
2, <, t  
k
], P  
1
= [p  
1
, p  
2, <, p  
k
],  
e l| vector sai số.  
Thực hiện bình phương tối thiểu phương trình (13), nhận được phương trình  
[18-22]  
'
1
1  
'
1
ˆ
1 (TT ) T y  
(14)  
1
ˆ
b
Đ{nh gi{ phương trình hồi quy th|nh phần chính PCR của b ( p ), loại bỏ (q-k)  
th|nh phần sau đó, có thể nhận được phương trình (15) [18-22]  
'
1
1  
'
1
ˆ
bp P (T T ) T y  
(15)  
1
1
ˆ
b
C{c gi{ trị đ{p ứng dự đo{n dựa v|o X bằng p được cho bằng ma trận (16) [18-  
22]  
ˆ
ˆ
y Xbp  
(16)  
54  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
2.5. Dữ liệu  
Cấu trúc c{c phức chất v| c{c gi{ trị hằng số bền logβ11 thực nghiệm thu nhận  
từ c{c công trình đã được công bố như Hình 1 [1] và Bảng 1.  
(b)  
(a)  
Hình 1. Cấu trúc của phức giữa thiosemicarbazone v| ion kim loại;  
2+  
a) Cấu trúc tổng qu{t; b) Phức Ni and 3,4-dihydroxy-5-methoxy benzaldehyde  
thiosemicarbazone [23]  
Từ c{c phức chất thực nghiệm, tiến h|nh x}y dựng lại cấu trúc bằng BIOVA  
Draw 2017 R2 [24]. Sau đó, các cấu trúc được tối ưu hóa và tính toán tham số lượng tử  
theo phương ph{p b{n thực nghiệm SCF PM7 của MoPac2016 [25, 26]. Tham số 2D, 3D  
được tính bằng QSARIS [27, 28]. Các dữ liệu sau khi tính to{n được sử dụng để xây  
dựng mô hình đa biến QSPR cấu trúc – hằng số bền (  
ph}n tích thống kê kh{c bằng XLSTAT2016 [29], Regression [11] và MS-EXCEL [12, 13,  
27]. Các mô hình đa biến được biểu diễn bằng ba mô hình tương ứng QSPRMLR  
11) bằng MLR, PCR, PLS và  
,
QSPRPLS và QSPRPCR  
.
Bảng 1. Gi{ trị thực nghiệm logβ11 v| cấu trúc c{c phức chất nghiên cứu  
Thiosemicarbazone  
STT  
Ion kim loại  
logβ11  
T|i liệu tham khảo  
R1  
H
H
H
H
H
H
H
H
H
H
H
H
H
H
H
H
R2  
H
H
H
H
H
H
H
H
H
CH3  
H
H
H
H
H
H
R3  
H
H
H
H
H
H
H
H
R4  
1
2
3
4
5
6
7
8
9
10  
11  
12  
13  
14  
15  
16  
C6H2(OH)2OCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C6H3OHOCH3  
C5H4N  
=NNHC6H5  
C6H3OHOCH3  
C6H4N(CH3)2  
C6H4N(CH3)2  
C6H4OH  
Co(II)  
Cu(II)  
Ni(II)  
Co(II)  
Mn(II)  
Pb(II)  
Cd(II)  
Zn(II)  
Fe(II)  
Cu(II)  
Cu(II)  
Cr(VI)  
Ag(I)  
6,382  
13,330  
12,620  
11,097  
10,550  
6,830  
7,070  
7,420  
7,990  
6,114  
11,700  
4,842  
17,200  
15,300  
4,510  
[30]  
[31]  
[31]  
[31]  
[31]  
[32]  
[32]  
[32]  
[32]  
[33]  
[34,35]  
[36]  
[37]  
[38]  
[39]  
[39]  
H
CH3  
CH3  
H
H
H
Cu(II)  
Mn(II)  
Ni(II)  
CH3  
CH3  
C6H4OH  
5,310  
55  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
17  
18  
H
H
H
H
CH3  
C6H4OH  
C9H8NO  
Cu(II)  
Cu(II)  
5,910  
8,714  
[39]  
[40]  
3. KẾT QUẢ V\ THẢO LUẬN  
3.1. Chọn tập luyện và tập kiểm tra  
Tập dữ liệu luyện thể hiện một vai trò quan trọng trong việc ph{t triển c{c tính  
chất hình như độ đúng v| khả năng phù hợp của mô hình trong thực tế dự đo{n.  
Việc chọn dữ liệu luyện, dữ liệu đ{nh gi{ v| kiểm tra ngoại một c{ch ngẫu nhiên l|  
một trong trong c{c giai đoạn quan trọng nhất. Sau khi tiến h|nh s|ng lọc ph}n loại c{c  
dữ liệu v| loại bỏ dữ liệu bất thường, kết quả nhận được một bộ dữ liệu gồm 105  
biến với 62 quan sát thực nghiệm để chuẩn bị cho qu{ trình x}y dựng mô hình.  
3.2. Xây dựng các mô hình QSPR  
Qu{ trình x}y dựng v| đ{nh gi{ mô c{c mô hình QSPR từ tập dữ liệu mẫu gồm  
62 quan s{t được chia ngẫu nhiên thành nhóm luyện 80 %, nhóm đ{nh gi{ 20 % và  
nhóm đ{nh gi{ ngoại gồm 10 hợp chất không thuộc nhóm 62 quan s{t. Các mô hình  
QSPR được x}y dựng từ nhóm luyện để dự đo{n gi{ trị hằng số bền của c{c phức chất  
trong nhóm đ{nh gi{ và nhóm kiểm tra. Chất lượng c{c mô hình QSPRMLR, QSPRPCR và  
2
2
2
QSPRPLS thể hiện ở hệ số tương quan R train, R cv Q test cũng như c{c gi{ trị thống kê  
MSE và Fstat. C{c biến số độc lập X được chọn đưa v|o mô hình dựa v|o hệ số tương  
2
2
quan nội v| sự thay đổi của c{c gi{ trị thống kê MSE, R train, R CV, Fstat khi sử dụng kỹ  
thuật loại dần hoặc nhập dần biến số vào mô hình. Kết quả được dẫn ra ở Bảng 2 v|  
Bảng 3.  
Bảng 2. Các mô hình QSPRMLR số biến k từ 4 đến 11, và các gi{ trị thống kê tương ứng  
2
Số biến k  
Biến số trong mô hình QSPRMLR  
x1/x2/x3/x4  
MSE  
R²train  
R²adj  
R CV  
Fstat  
4
5
6
7
8
9
10  
11  
1,610 0,639 0,613 0,557 25,1928  
1,549 0,672 0,642 0,552 22,8981  
1,341 0,758 0,732 0,636 28,7568  
1,196 0,811 0,787 0,696 33,1253  
1,147 0,829 0,804 0,715 32,2235  
0,852 0,908 0,892 0,850 56,8949  
0,836 0,913 0,896 0,855 53,4399  
0,839 0,914 0,895 0,853 48,2420  
x1/x2/x3/x4/x5  
x1/x2/x3/x4/x5/x6  
x1/x2/x3/x4/x5/x6/x7  
x1/x2/x3/x4/x5/x6/x7/x8  
x1/x2/x3/x4/x5/x6/x7/x8/x9  
x1/x2/x3/x4/x5/x6/x7/x8/x9/x10  
x1/x2/x3/x4/x5/x6/x7/x8/x9/x10/x11  
Ký hiệu c{c biến số  
Năng lượng tổng  
Knotp  
Thể tích Cosmo  
x1  
x2  
x3  
x4  
logP  
Điện tích Me  
x5  
x6  
x7  
x8  
Năng lượng elctron  
Diện tích Cosmo  
Thế ion hóa  
x9  
x10  
x11  
7
Hf  
LUMO  
pH  
Các biến số chọn lựa đưa v|o các mô hình QSPRMLR (Bảng 2) đã cho thấy c{c gi{  
trị R train, Q test Fstat thay đổi tăng theo số biến k. Khi các giá k tăng từ 9 đến 11, thì  
2
2
56  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
c{c gi{ trị thống kê tương ứng tăng thêm không đ{ng kể còn có xu hướng giảm  
xuống như gi{ trị Fstat. Như vậy, chọn số biến k = 9 l| phù hợp cho xu hướng thay đổi  
tối ưu n|y. C{c biến số từ x  
nhiều biến dựa v|o ma trận hệ số tương quan Pearson, x{c định mối tương quan có ý  
nghĩa 11. Ma trận tương quan được đưa ra ở Bảng 3.  
1
đến x được kiểm tra mối tương quan nội giữa hai hay  
9
11  
cho thấy c{c biến được chọn v|o mô hình QSPRMLR với k = 9 l| phù hợp v| chấp nhận  
về mặt thống kê tương quan v| kiểm định student (t- test) đặc trưng cho c{c biến số.  
Từ Bảng 2, mô hình QSPRMLR với số biến k = 9 được x}y dựng lại nhận được  
c{c hệ số tương ứng cùng c{c gi{ trị thống kê mô hình QSPRMLR như sau:  
logβ11 = 8,402 + 0,0195x  
1
+ 13,690x  
2
0,066x  
3
+ 0,885x  
4
+ 3,871x –  
5
(17)  
3,184x  
6
- 0,050x  
7
+ 2,961x 0,005x  
8
9
2
2
với n = 62; R train = 0,908; R CV = 0,850; MSE = 0,852  
Như vậy, tập dữ liệu luyện dùng để x}y dựng mô hình QSPRMLR đạt yêu cầu về  
thống kê, có khả năng dự đo{n tốt. Khả năng dự đo{n của mô hình QSPRMLR phù hợp  
tốt đối với nhóm c{c phức chất. C{c tham số lựa chọn trong mô hình không có sự  
tương quan n|o giữa c{c biến đã chọn. Dữ liệu x}y dựng mô hình n|y sẽ được sử dụng  
để x}y dựng các mô hình QSPRPCR và QSPRPLS  
.
Bảng 3. Ma trận tương quan Pearson của c{c biến số trong mô hình QSPRMLR với k = 9  
Biến số  
x1  
0,237  
1
x2  
x3  
x4  
x5  
x6  
x7  
x8  
x9  
1
1
0,222 0,638  
0,305 0,421 0,226 0,078 0,286 0,236 0,283  
0,423 0,246 0,289 0,258 0,982  
x1  
x2  
x3  
x4  
x5  
x6  
x7  
x8  
x9  
0,237  
0,237  
0,681 0,339 0,328 0,083 0,245 0,222  
0,526 0,163 0,496 0,189 0,678 0,638  
0,222 0,305  
0,638 0,421  
0,423 0,226 0,681 0,526  
0,246 0,078  
0,289 0,286  
0,258 0,236  
0,982 0,283  
1
0,294  
1
0,294  
1
0,517 0,565 0,128 0,473  
0,307 0,232 0,135 0,246  
0,257 0,332 0,289  
0,130 0,258  
0,423  
0,339 0,163  
0,328 0,496  
0,083 0,189  
0,245 0,678  
0,222 0,638  
0,517  
1
0,565 0,307  
0,128 0,232 0,257  
0,473 0,135 0,332 0,130  
0,423 0,246 0,289 0,258 0,982  
1
1
1
0,982  
1
1
0,237  
Sử dụng ma trận dữ liệu với số biến độc lập k = 9  
11, thực  
hiện x}y dựng mô hình QSPRPCR. Kết quả ph}n tích th|nh phần chính PCA cho thấy 9  
th|nh phần chính có ý nghĩa thống kê. Mô hình QSPRPCR được biểu diễn như sau:  
logβ11 = 6,209 + 0,0214x  
1
+ 13,513x  
2
0,065x  
3
+ 0,786x  
4
+ 3,867x –  
5
(18)  
3,100x  
6
0,052x  
7
+ 3,307x 0,006x  
8
9
2
2
với n = 62; R train = 0,914; R CV = 0,948; MSE = 0,827  
57  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
Tương tự, từ kết quả x}y dựng mô hình QSPRMLR, tiến h|nh x}y dựng mô hình  
QSPRPLS dựa trên ma trận dữ liệu với 9 biến độc lập. Chất lượng mô hình QSPRPLS  
2
được đ{nh gi{ dựa v|o c{c chỉ số thống kê với c{c gi{ trị thống kê tích lũy Q cum = 0,147;  
2
2
R
Ycum = 0,858 và R Xcum = 0,916. Ngoài ra, đại lượng mức độ quan trọng của c{c biến số X  
(Variable Importance for the Projection VIP) ảnh hưởng đến logβ11 được sử dụng để  
lựa chọn biến trong mô hình QSPRPLS. Theo đề xuất của Word [17] và Ericksson [20],  
c{c biến số trong mô hình được lựa chọn phải có gi{ trị VIP lớn hơn 0,8. Trên cơ sở đó,  
mô hình QSPRPLS có dạng như sau:  
logβ11 = 6,102 + 0,023x  
1
+ 13,467x  
2
- 0,062x  
3
+ 0,802x  
4
+ 3,884x –  
5
(19)  
2,984x  
6
0,049x7+ 3,266x  
8
0,006x  
9
2
2
với n = 62; R train = 0,908; R CV = 0,888; MSE = 0,661  
2
Trong c{c mô hình QSPR, gi{ trị R train l| hệ số tương quan bội được nh}n với  
100 cho phương sai giải thích hằng số bền log 11. Khả năng dự đo{n của c{c mô hình  
2
2
QSPR được đ{nh gi{ bằng R CV Q test. Gi{ trị thống kê Fstat phản {nh tỷ lệ phương sai  
giải thích bởi mô hình v| phương sai từ sai số hồi quy. Gi{ trị Fstat cao cho thấy mô hình  
có ý nghĩa về mặt thống kê. Gi{ trị MSE thấp cũng cho thấy mô hình có ý nghĩa về mặt  
2
thống kê. Khả năng dự b{o của mô hình được thể hiện qua gi{ trị Q test đ{nh gi{ ngoại  
đối với nhóm hợp chất không thuộc nhóm luyện ban đầu.  
3.3. Đánh giá khả năng dự đoán log  
Khả năng dự đo{n của c{c mô hình QSPR đều được đ{nh gi{ cẩn thận bằng kỹ  
thuật đ{nh gi{ chéo v| đ{nh gi{ ngoại; đ{nh gi{ khả năng dự đo{n của c{c mô hình  
QSPR ở trên đối với 10 hợp chất chọn ngẫu nhiên từ c{c kết quả nghiên cứu thực  
nghiệm được dẫn ra ở Bảng 4.  
Bảng 4. Hằng số bền log của 10 phức chất chọn đ{nh gi{ dự đo{n ngoại các mô hình QSPR  
Ligand  
QSPRMLR  
QSPRPLS  
QSPRPCR  
Ion  
logβ11, exp  
ARE,  
%
ARE,  
%
R1 R2  
R3  
R4  
logβ11,cal  
12,402  
11,584  
12,402  
13,374  
11,584  
8,409  
logβ11,cal  
logβ11,calARE, %  
10,940  
[35]  
H
H
H
H
H
H
H
H
H
H
H
H
CH3  
Ni(II)  
13,366 12,264 12,101 11,894 8,724  
19,172 11,780 21,195 11,236 15,594  
14,942 12,264 13,659 11,894 10,236  
35,087 13,823 39,628 13,322 34,561  
20,662 11,780 22,710 11,236 17,039  
C7H7N2  
C7H7N2  
CH3  
CH3  
CH3  
CH3  
Mn(II) 9,720 [35]  
10,790  
Ni(II)  
C7H7N2  
[35]  
Co(II) 9,900 [35]  
Mn(II) 9,600 [35]  
Zn(II) 8,160 [40]  
C7H7N2  
C7H7N2  
3,055  
8,644  
5,929  
8,317  
1,921  
C9H8NO  
58  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
H
H
H
H
Cd(II) 6,611 [40]  
Mn(II) 6,230 [40]  
6,048  
6,450  
8,520  
3,527  
6,010  
6,622  
9,085  
6,287  
5,595 15,370  
C9H8NO  
C9H8NO  
6,339  
1,746  
H
H
H
H
CH3 C5H4N Cu(II) 5,491 [41]  
CH3 C5H4N Cu(II) 5,924 [41]  
MARE, %:  
7,754  
7,324  
41,216 6,621 20,574 6,688 21,806  
23,627 5,979  
0,924  
6,136  
3,581  
18,317  
15,209  
13,058  
Con đường tốt nhất để đ{nh gi{ chất lượng mô hình l| thực hiện đ{nh gi{ nội.  
Gi{ trị thống kê đặc trưng cho đ{nh gi{ nội là [11-22]  
n
2
ˆ
(y y )  
i1  
n
i
i
Rc2v 1  
(20)  
(y y)  
i
i1  
trong đó ŷ  
i
, y  
i
ӯ l| c{c gi{ trị hằng số bền log 11 dự đo{n, thực nghiệm v| trung bình.  
Khả năng dự đo{n của mô hình được đ{nh gi{ tương tự bằng hệ số tương quan  
test [11-22]  
2
Q
n
2
ˆ
(yi,test yi,test  
)
Qt2est 1  
i1  
(21)  
n
(yi,test y)  
i1  
trong đó ŷi,test, yi,test ӯ l| c{c gi{ trị hằng số bền log 11 dự đo{n, thực nghiệm trong  
nhóm kiểm tra ngoại v| trung bình của nhóm kiểm tra.  
Kết quả dự đo{n của c{c mô hình QSPR được đ{nh gi{ bằng gi{ trị tuyệt đối  
của c{c sai số tương đối ARE (absolute value of relative error), % tính theo công thức  
(22)  
yi,exp yi,cal  
ARE,%   
100  
(22)  
yi,exp  
Gi{ trị trung bình tuyệt đối của c{c sai số tương đối MARE (mean absolute values  
of relative error), % được sử dụng để đ{nh gi{ tổng qu{t sai số của c{c mô hình QSPR  
tính theo công thức (23)  
n
ARE ,%  
i
(23)  
i1  
MARE,%  
n
trong đó n = 10 l| số hợp chất, logβ11,exp l| gi{ trị hằng số bền thực nghiệm, logβ11,cal là  
gi{ trị hằng số bền dự đo{n của c{c phức chất trong nhóm kiểm tra ngoại.  
59  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
Như vậy, kết quả đ{nh gi{ giữa ba mô hình QSPRMLR, QSPRPLS và QSPRPCR dựa  
v|o c{c gi{ trị MARE (%) (Bảng 4) cho thấy mô hình QSPRMLR có khả năng dự đo{n  
kém nhất, sau đó l| mô hình QSPRPLS v| cuối cùng l| mô hình QSPRPCR tương ứng với  
2
c{c gi{ trị 18,317 %, 15,209 % và 13,058 %. Đồng thời, c{c gi{ trị Q test của ba mô hình  
2
2
2
QSPR lần lượt Q test,MLR = 0,8542; Q test,PLS = 0,8972 và Q test,PCR = 0,8842 cho thấy kết quả  
dự đo{n logβ11 nhận được từ ba mô hình rất gần với thực nghiệm và các mô hình này  
có khả năng ứng dụng trong thực tiễn.  
Sự kh{c biệt giữa c{c gi{ trị logβ11 thực nghiệm v| logβ11 dự đo{n từ ba mô  
hình trên được đ{nh gi{ bằng phương ph{p ANOVA một yếu tố. Sự chênh lệch giữa  
c{c gi{ trị thực nghiệm v| tính to{n c{c hằng số bền logβ11 ở cả ba mô hình là không  
đ{ng kể (F = 0,0655 < F0,05 = 3,354). Vì vậy, có thể khẳng định rằng khả năng dự b{o của  
cả ba mô hình QSPR phù hợp với dữ liệu thực nghiệm.  
4. KẾT LUẬN  
Công trình n|y đã x}y dựng th|nh công quan hệ định lượng cấu trúc – hằng số  
11 (QSPRs) sử dụng c{c phương ph{p hồi quy tuyến tính bội (QSPRMLR), bình  
phương tối thiểu riêng phn (QSPRPLS) v| hồi quy th|nh phần chính (QSPRPCR). Bộ dữ  
liệu x}y dựng c{c mô hình đã được tạo ra th|nh công từ các tính to{n lượng tử b{n  
thực nghiệm v| cơ học ph}n tử kết hợp với c{c tham số thực nghiệm. Các mô hình đều  
2
2
được đ{nh gi{ nội v| đ{nh gi{ ngoại th|nh công bằng c{c gi{ trị thống kê R CV, Q test, và  
MARE, % v| phương ph{p ANOVA. Các mô hình QSPRMLR, QSPRPLS và QSPRPCR đều  
đ{p ứng yêu cầu dự đo{n thực tế. Mô hình QSPRPCR cho kết quả dự đo{n tốt nhất.  
Kết quả nhận được từ công trình n|y cho phép dự đo{n v| định hướng thực  
nghiệm tổng hợp c{c dẫn xuất thiosemicarbazone có khả năng tạo phức tốt với c{c ion  
kim loại mở ra hướng nghiên cứu mới v| có nhiều hứa hẹn trong lĩnh vực phân tích  
môi trường v| kỹ thuật xúc t{c.  
T\I LIỆU THAM KHẢO  
[1]. R. B. Singh, B. S. Garg, and R. P. Singh (1978). Analytical applications of  
thiosemicarbazones and semicarbazones: A review, Talanta, Vol. 25, (1112), pp. 619632.  
[2]. B. H. Patel, J. R. Shah, and R. P. Patel (1976). Stability constants of complexes of 2-hydroxy-  
5-methylacetophenone-thiosemicarbazone with Cu(II), Ni(II), Co(II), Zn(II) and Mn(II), J.  
Ind. Chem. Soc., Vol. 53, pp. 910.  
[3]. E. B. Seena, R. Bessy, M. R. Prathapachandra Kurup, and I. E. Suresh (2006). A  
crystallographic study of 2-hydroxyacetophenone N (4) cyclohexyl thiosemicarbazone, J.  
Chem. Crystallogr., Vol. 36, pp. 189.  
60  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
[4]. Ezhilarasi et al. (2012). Synthesis Characterization and Application of Salicylaldehyde  
Thiosemicarbazone and Its Metal Complexes, Int. J. Res. Chem. Environ., Vol. 2, 4, pp. 130–  
148.  
[5]. G. Pelosi (2010). Thiosemicarbazone Metal Complexes: From Structure to Activity, J. Open  
Crystallogr., Vol. 3, pp. 1628.  
[6]. B. Chen, T. Zhang, T. Bond and Y. Gan (2015). Development of quantitative structure  
activity relationship (QSAR) model for disinfection byproduct (DBP) research: A review of  
methods and resources, Journal of Hazardous Materials, Vol 299, pp. 260279.  
[7]. S. Yousefinejad and B. Hemmateenejad (2015). Chemometrics tools in QSAR/QSPR studies:  
A historical perspective, Chemometrics and Intelligent Laboratory Systems, Vol 149, pp. 177–  
204  
[8]. Y. Yuan, P. D. Mosier and Y. Zhang (2012). Quantitative structure-property relationship  
(QSPR) model for predicting acidities of ketones, Journal of Biophysical Chemistry, Vol.3, 1,  
pp. 4957.  
[9]. F. A. Ribeiro, M. M. Ferreira (2003). QSPR models of boiling point, octanolwater partition  
coefficient and retention time index of polycyclic aromatic hydrocarbons, Journal of  
Molecular Structure (Theochem), Vol. 663, 109126.  
[10]. D. Harvey (2000). “Equilibrium Chemistry”, Modern analytical Chemistry, the second ed.,  
Mc.Graw-Hill, pp. 144.  
[11]. D. D. Steppan, J. Werner, and P. R. Yeater (1998). Essential Regression and Experimental  
[12]. E. J. Billo (2007). Excel For Scientists And Engineers: Numerical Methods, John Wiley and Sons,  
Inc., Hoboken, New Jersey, USA.  
[13]. E. J. Billo (1997). Excel for chemists, Wiley-VCH, Weinheim.  
[14]. M. Tenenhaus (1998). La Régression PLS, Théorie et Pratique. Technip, Paris.  
[15]. M. Tenenhaus, J. Pagès, L. Ambroisine, and C. Guinot (2005). PLS methodology for  
studying relationships between hedonic judgements and product characteristics, Food  
Quality and Preference, Vol. 16, 4, pp. 315325.  
[16]. S. Wold, H. Martens, and H. Wold (1983). The Multivariate Calibration Problem in Chemistry  
solved by the PLS Method, Springer Verlag, Heidelberg, pp. 286 293.  
[17]. S. Wold (1995). “PLS for multivariate linear modelling”, QSAR: Chemometric Methods in  
Molecular Design, Vol 2, Wiley-VCH Weinheim, Germany, pp. 195218.  
[18]. T. Amemiya (1980). Selection of regressors, Int. Eco. Rev., Vol. 21, pp. 331354.  
[19]. A. P. Dempster (1969). Elements of Continuous Multivariate Analysis, Addison-Wesley,  
Reading, MA.  
[20]. L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Kettaneh-Wold (2001). Multi- and  
Megavariate Data Analysis: Principles and Applications, Journal of Chemometrics, Vol. 16, 5,  
261262.  
[21]. S. Kotz, and N. L. Johnson (1992). “Breakthroughs in Statistics”, Vol. 1. Foundations and Basic  
Theory, New York: Springer, pp. 610624.  
61  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
[22]. G. Schwarz (1978). Estimating the dimension of a model, Annals of Statistics, Vol. 6, pp.  
461464.  
[23]. M. Hymavathi, C. Viswanatha, and N. Devanna (2014). A Study on Synthesis of Novel  
Chromogenic Organic Reagent 3,4-dihydroxy-5-methoxy benzaldehyde thiosemicarbazone  
and Specrtrophotometric Determination of Nickel (II) in Presences of Triton X-100, Res. J.  
Pharma., Bio. and Chem. Sci., Vol. 5, 5, 625630.  
[24]. BIOVA Draw 2017 R2, version: 17.2.NET (2016). Dassault Systèmes, France.  
[25]. James. J. P. Stewart (2016). MOPAC2016, version: 17.240W, Stewart Computational  
Chemistry, USA.  
[26]. James J. P. Stewart (2013). Optimization of parameters for semiempirical methods VI: more  
modifications to the NDDO approximations and re-optimization of parameters, J. Mol.  
Model., Vol. 19, 132.  
[27]. Pham Van Tat (2009). Development of QSAR and QSPR, Publisher of Natural sciences and  
Technique, Ha Noi.  
[28]. QSARIS 1.1. (2001). Statistical Solutions Ltd., USA.  
[29]. XLSTAT2016, version 2016.02.28451 (2016). Addinsoft, USA.  
[30]. M. Hymavathi, N. Devanna, and C. Viswanatha (2014). A study on synthesis of novel  
chromogenic organic reagent 3,4-dihydroxy-5-methoxy benzaldehyde thiosemicarbazone  
and spectrophotometric determination of Cobalt (II) in presences of Triton X-100, J. Chem.  
Pharm. Res., Vol. 6, 7, pp. 27872791.  
[31]. D. K. Singh, P. K. Jha, R. K Jha, P. M. Mishra, A. K. Jha, S. K. Jha, and R. P. Bharti (2009).  
Equilibrium Studies of Transition Metal Complexes with Tridentate Ligands Containing N,  
O, S as Donor Atoms, Asian Journal of Chemistry, Vol. 21, 7, pp. 50555060.  
[32]. B. S. Garg, and V. K. Jain (1989). Determination of thermodynamic parameters and stability  
constants of complexes of biologically active o-vanillinthiosemicarbazone with bivalent  
metal ions, Thermochimica Acta, Vol. 146, pp. 375379.  
[33]. K. V. Reddy, D. N. Reddy, S. V. Babu and K. H. Reddy (2011). Spectrophometric  
determination of copper (II) in Biological samples by using 2acetylpyridine 4methyl3-  
thiosemicarbazone (APMT), Der Pharmacia Sinica, Vol. 2, 4, 176183.  
[34]. M. Aljahdali, and A. A. EL-Sherif (2013). Synthesis, characterization, molecular modeling  
and biological activity of mixed ligand complexes of Cu(II), Ni(II) and Co(II) based on 1,10-  
phenanthroline and novel thiosemicarbazone, Inorganica Chimica Acta., Vol. 407, pp. 5868.  
[35]. A. T. A. El-Karim, and A. Ahmed, El-Sherif (2016). Potentiometric, equilibrium studies and  
thermodynamics of novel thiosemicarbazones and their bivalent transition metal(II)  
complexes, J. Mol Liq., Vol. 219, 914922.  
[36]. I. Sreevania, P. Raveendra Reddy, and V. Krishna Reddy (2013). A Rapid and Simple  
Spectrophotometric Determination of Traces of Chromium (VI) in Waste Water Samples  
and in Soil samples by using 2-Hydroxy, 3-Methoxy Benzaldehyde Thiosemicarbazone  
(HMBATSC), J. Applied Physics., Vol. 3, 1, 4045.  
[37]. M. A. Jiménez, M. D. Luque De Castro, and M. Valcárcel (1980). Potentiometric Study of  
Silver(I)-Thiosemicarbazonates, J. Microchemical., Vol. 25, pp. 301308.  
62  
TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế  
Tập 13, Số 2 (2018)  
[38]. T. Atalay, and E. Ozkan (1994). Thermodynamic studies of some complexes of 4’-  
morpholino-acetophenone thiosemicarbazone, Thermochimica Acta., Vol. 237, pp. 369374.  
[39]. B. S. Garg, S. Ghosh, V. K. Jain, and P. K. Singh (1990). Evaluation of thermodynamic  
parameters of bivalent metal complexes of 2-hydroxyacetophenone thiosemicarbazone (2-  
HATS), Thermochimica Acta., Vol. 157, pp. 365368.  
[40]. K. Sarkar, and B. S. Garg (1987). Determination of thermodynamic parameters and stability  
constants of the complexes of p-MITSC with transition metal ions, Thermochimicu Acta.,  
Vol. 113, 714.  
[41]. D. Admasu, D. N. Reddy, and K. N. Mekonnen (2016). Spectrophotometric determination  
of Cu(II) in soil and vegetable samples collected from Abraha Atsbeha, Tigray, Ethiopia  
using heterocyclic thiosemicarbazone, SpringerPlus, Vol. 5, 1169.  
APPLICATION OF QSPR: COMPARISON OF PREDICTION OF STABILITY  
CONSTANTS OF THIOSEMICARBAZONE COMPLEXES WITH METAL IONS  
USING MULTIVARIATE LINEAR REGRESSION, PARTIAL LEAST SQUARE,  
AND PRINCIPAL COMPONENT REGRESSION MODELS WITH MOLECULAR  
DESCRIPTIVE PARAMETERS  
1,3  
1
2
Nguyen Minh Quang , Tran Xuan Mau , Pham Van Tat *  
1
Faculty of Chemmistry, University of Sciences, Hue University  
2
Faculty of Science and Technology, Hoa Sen University  
3
Faculty of Chemical Engineering, Industry University of Ho Chi Minh City  
* Email: vantat@gmail.com  
ABSTRACT  
In this study, the quantitative structure property relationships (QSPRs) of  
thiosemicarbazone complexes with metal ions were constructed based on  
multivariate linear regression, partial least square and principal component  
regression models. The quality of the models was evaluated based on coefficients  
2
of determination, mean standard error, and Fisher test. QSPRMLR model had R train =  
2
2
2
0,908; R CV = 0,850; Q test = 0,8542; MSE = 0,852; QSPRPLS model had R train = 0,908;  
2
2
2
2
R CV = 0,888; Q test = 0,8972; MSE = 0,661; QSPRPCR model had R train = 0,914; R CV =  
2
0,948; Q test = 0,8842; MSE = 0,827. These models could give a good prediction that  
agreed with the experiments.  
Keywords: QSPRMLR, QSPRPLS, QSPRPCR, stability constant, thiosemicarbazone.  
63  
Ứng dụng QSPR: so s{nh dự b{o hằng số bền của phức thiosemicarbazone với ion kim loại sử dụng mô hình <  
Nguyễn Minh Quang sinh ng|y 11/11/1977 tại Quảng Ngãi. Năm 2001,  
Ông tốt nghiệp ng|nh Công nghệ hóa học tại Trường Đại học B{ch khoa  
Th|nh phố Hồ Chí Minh; tốt nghiệp thạc sỹ ng|nh Công nghệ hóa học  
năm 2007 tại Trường Đại học B{ch khoa Th|nh phố Hồ Chí Minh. Năm  
2016, ông l| nghiên cứu sinh chuyên ng|nh Hóa lý v| Hóa lý thuyết tại  
Trường Đại học Khoa học – Đại học Huế. Hiện nay, ông tham gia giảng  
dạy v| nghiên cứu tại Trường Đại học Công nghiệp Th|nh phố Hồ Chí  
Minh.  
Lĩnh vực nghiên cứu: Hóa học tính to{n lượng tử, mô hình hóa QSAR,  
QSPR v| tổng hợp vật liệu đã được công bố trên c{c Tạp chí trong nước  
v| Quốc tế.  
Trần Xuân Mậu sinh ng|y 6/5/1958 tại H| Tĩnh. Ông tốt nghiệp kỹ sư  
ng|nh Công nghệ hóa học năm 1982 tại Trường Đại học Kỹ thuật Slovakia  
tại Bratislava (Slovakia) v| bảo vệ luận {n phó tiến sĩ cùng ng|nh tại cùng  
trường v|o năm 1986.  
Lĩnh vực nghiên cứu: Hóa lý thuyết v| hóa lý, Hóa học vật liệu.  
Phạm Văn Tất sinh ng|y 30/11/1966 tại Nam Định. Năm 1989 ông tốt  
nghiệp ng|nh Hóa học tại trường đại học Tổng hợp H| Nội; tốt nghiệp  
Thạc sỹ ng|nh Hóa học Ph}n tích năm 2001 tại trường đại học Đ| Lạt.  
Năm 2006 ông bảo vệ th|nh công luận {n Tiến sĩ tại Viện Hóa lý v| Hóa  
lý thuyết, trường đại học Cologne, Cộng hòa Liên bang Đức. Năm 2010  
ông được nh| nước công nhận chức danh phó Gi{o sư chuyên ng|nh Hóa  
lý v| Hóa lý thuyết. Hiện nay l| trưởng Bộ môn ng|nh Công nghệ Kỹ  
thuật Môi trường, trường đại học Hoa Sen.  
Lĩnh vực nghiên cứu: Hóa học tính to{n lượng tử v| Mô phỏng Monte  
Carlo c{c trạng th{i c}n bằng, Hóa học Ph}n tích, Hóa học Môi trường v|  
Quản lý v| Đ{nh gi{ chất lượng Môi trường bằng GIS, Viễn th{m v| Hệ  
thống Trí tuệ Nh}n tạo.  
64  
pdf 14 trang yennguyen 18/04/2022 2080
Bạn đang xem tài liệu "Ứng dụng QSPR: So sánh dự báo hằng số bền của phức Thiosemicarbazone với ion kim loại sử dụng mô hình hồi quy đa biến, bình phương tối thiểu riêng phần và hồi quy thành phần chính cùng với các tham số mô tả phân tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfung_dung_qspr_so_sanh_du_bao_hang_so_ben_cua_phuc_thiosemica.pdf