Phụ thuộc thông tin

52  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
PHỤ THUỘC THÔNG TIN  
Nguyễn Minh Huy 1  
Trường Đại học Thủ đô Hà Nội  
Tóm tắt: Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuc  
thông tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp x. Vi hai tp thuc  
tính X và Y, độ đo này sẽ gán cho chúng một sthc phản ánh mức độ phthuc ca Y  
vào X. Độ đo được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của  
Shannon và được chuẩn hóa để nó có giá trị nm gia 0 và 1. Giá trị độ đo bằng 0 khi và  
chkhi tn ti phthuộc hàm X Y trong quan hệ. Và như thế, giá trị của nó càng nhỏ  
thì sự phthuc của Y vào X trong quan hệ càng gần phthuộc hàm X Y . Các tính  
cht của độ đo phụ thuộc thông tin cꢀng đã được nghiên cứu. Các tính chất này cho thấy  
có thể xem phthuộc thông tin là sự mrng của khái niệm phthuộc hàm.  
Từ khóa: Phthuộc thông tin, phthuộc hàm, lý thuyết thông tin, khai phá dữ liu.  
1. GIỚI THIỆU  
Phát hiện các quy luật từ dữ liệu là một nhiệm vụ phổ biến trong khai thác dữ liệu. Đặc  
biệt, khai thác luật kết hợp trong các cơ sở dữ liệu giao tác thu hút sự quan tâm rất lớn của  
các nhà nghiên cứu [2,4]. Mục tiêu của khai thác luật kết hợp là tìm ra các quy luật có độ  
tin cậy cao về sự xuất hiện cùng nhau thường xuyên giữa các tập mục. Vấn đề này đã được  
khái quát hóa cho trường hợp các cơ sở dữ liệu quan hệ, trong đó thường có cả các thuộc  
tính hạng mục lẫn thuộc tính số [5]. Trong tình huống này, các nhà nghiên cứu dành sự chú  
ý đặc biệt đến việc phát hiện các phụ thuộc hàm và phụ thuộc hàm xấp xỉ [6,7]. Một phụ  
thuộc hàm XY giữa hai bộ thuộc tính được cho là thỏa mãn trong một quan hệ, nếu hai  
bộ có cùng giá trị về các thuộc tính thuộc X thì cũng có cùng giá trị về các thuộc tính trong  
Y. Trong thực hành, người ta thường mong muốn phát hiện các quy luật “gần như” thỏa  
mãn. Để đo mức độ mắc lỗi của các phụ hàm, người ta sử dụng một số độ đo, trong đó  
quen thuộc nhất là . là số lượng tương đối tối thiểu của các bộ dữ liệu cần phải loại bỏ  
g3 g3  
khỏi quan hệ để phụ thuộc hàm thỏa mãn. Các bộ dữ liệu bị loại có thể được coi như là  
1 Nhận bài ngày 15.01.2016, gửi phản biện và duyệt đăng ngày 25.01.2016.  
Liên hệ tác giả: Nguyễn Minh Huy; Email: nguyenminhhuy86@gmail.com.  
TẠP CHÍ KHOA HỌC SỐ 2/2016  
53  
những trường hợp ngoại lệ. Tuy nhiên, một phụ thuộc hàm X Y có lỗi thấp, không nhất  
thiết có nghĩa là Y phụ thuộc mạnh vào X, thậm chí trên thực tế, X Y có thể được độc lập  
nhau.  
2. ĐỘ ĐO PHỤ THUỘC HÀM XẤP XỈ DỰA VÀO LÝ THUYẾT THÔNG TIN  
a. Một số khái niệm của lý thuyết thông tin  
Để có thể định nghĩa độ đo phụ thuộc hàm xấp xỉ dựa vào lý thuyết thông tin, trước  
hết ta cần tới một số khái niệm cơ bản của lý thuyết thông tin [10].  
Định nghĩa 2.1. (Entropy của biến ngẫu nhiên)  
Cho biến ngẫu nhiên rời rạc X có phân bố xác suất  
của X là đại lượng H(X), xác định bởi công thức sau:  
Entropy  
P (p(x ), p(x2 ), ..., p(xn )),  
X
1
n
1
H(X )   
p(xi )log  
,
p(xi )  
i1  
với quy định  
bit.  
. Cơ số hàm lô-ga-rít ở đây được lấy là 2, đơn vị đo của Entropy là  
0log0 0  
Entropy  
là số đo độ bất định, không chắc chắn (uncertainty) của X. Một đại  
H(X)  
lượng ngẫu nhiên càng nhận nhiều giá trị và có phân phối càng đều thì tính bất định của nó  
càng lớn, độ chắc chắn càng nhỏ. Ngược lại, một đại lượng ngẫu nhiên có phân phối xác  
suất càng chênh lệch (có các xác suất rất nhỏ và rất lớn) thì tính bất định của nó càng thấp  
và do đó sẽ có lượng thông tin chưa biết nhỏ hơn nhiều so với lượng thông tin của phân  
phối xác suất đều.  
Entropy cho phép lượng hóa thông tin chứa trong một đơn vị dữ liệu: Nó là số bit  
trung bình tối thiểu mà người gửi cần để mã hóa thông điệp thông báo cho người nhận biết  
được giá trị thật của biến ngẫu nhiên.  
Bổ đề 2.1. Cho biến ngẫu nhiên rời rạc X có phân bố xác suất  
n
q 1  
dãy số Q q ,q , ... ,q thỏa mãn  
với mọi 0 j n và  
P (p(x ), p(x2 ), ..., p(xn )),  
n  
j
1
2
X
1
j1  
n
q 1. Khi đó, ta có:  
j
i1  
n
n
1
1
.
H(X )   
p(x )log  
p(x )log  
i
i
p(xi )  
qj  
i1  
i1  
Chứng minh: Sử dụng bất đẳng thức  
, ta có:  
logx x1  
54  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
qi  
qi  
log  
1  
.
p(xi ) p(xi )  
Suy ra:  
qi  
p(xi )log  
q p(x )  
,
i
i
p(xi )  
,
p(x )(logq log p(x )) q p(x )  
i
i
i
i
i
,
p(x )log p(x ) p(x )logq q p(x )  
i
i
i
i
i
i
1
1
p(xi )log  
p(xi )log q p(x )  
,
i
i
p(xi )  
qi  
n
n
1
1
p(x )log  
p(x )log q p(x )  
,
i
i
i
i
p(xi )  
qi  
i1  
i1  
n
n
n
n
1
1
p(x )log  
p(x )log  
q p(x )  
,
   
i
i
i
i
p(xi )  
qi  
i1  
i1  
i1  
i1  
n
n
n
n
Vì  
q 1  
,
p(x ) 1 , nên  
q p(x ) 0 . Suy ra:  
j
   
i
i
i
j1  
i1  
i1  
i1  
n
n
1
1
H(X )   
p(x )log  
p(x )log  
i
. □  
i
p(xi )  
qi  
i1  
i1  
Mệnh đề 2.1. Cận dưới và cận trên của entropy  
Cho biến ngẫu nhiên X có hàm phân bố xác suất  
. Ta có:  
P (p(x ), p(x2 ), ..., p(xn ))  
X
1
0 H(X) logn  
1
log  
0  
1i n  
Chứng minh: Vì  
, ta có  
với mọi  
. Suy ra  
. Dấu  
H( X )0  
0 p(x ) 1  
i
p(xi )  
“=” xảy ra khi và ch n 1  
.
n
1
q 1  
Đặt  
,
i 1,2, ... ,n . Thế thì 0 qj 1 với mọi 0 j n và  
. Sử dụng Bổ đề  
qi   
j
n
j1  
2.1. ta có:  
n
n
n
1
1
H(X )   
p(x )log  
p(x )log log n  
p(x ) log n  
  
i
i
i
p(xi )  
qi  
i1  
i1  
i1  
1
Đẳng thức xảy ra khi p(xi )   
,
i 1,2, ... ,n . □  
n
Định nghĩa 2.2. (Entropy có điều kiện – conditional entropy)  
TẠP CHÍ KHOA HỌC SỐ 2/2016  
55  
Cho hai biến ngẫu nhiên X Y với phân bố xác suất lần lượt là  
và  
. Entropy có điều kiện của Y khi X đã  
P (p(x ), p(x2 ), ..., p(xn )) P (p(y1), p(y2 ), ..., p(ym))  
X
1
Y
biết, ký hiệu là H Y X , được định nghĩa như sau:  
n
m
1
H Y X   
p(xi )  
p y / x log  
i   
j
2
   
p(yj / xi )  
i1  
j1  
Entropy có điều kiện H Y X là lượng Entropy còn lại của Y khi biết X, là số đo độ  
phụ thuộc của Y vào X.  
Định nghĩa 2.3. (Entropy đồng thời – Joint entropy )  
Cho hai biến ngẫu nhiên X Y với phân bố xác suất lần lượt là  
và  
. Entropy đồng thời của X Y là đại  
P (p(y1), p(y2 ), ..., p(ym))  
P (p(x ), p(x2 ), ..., p(xn ))  
X
1
Y
lượng:  
n
m
1
H(X,Y)   
p x , y log  
j   
i
2
  
p x , y  
j
  
i
i1 j1  
Hiển nhiên :  
H(X,Y) H(Y, X)  
Mệnh đề 2.2. Cận dưới và cận trên của entropy đồng thời  
Cho hai biến ngẫu nhiên X Y có hàm phân bố xác suất lần lượt là  
và  
P (p(x ), p(x2 ), ..., p(xn ))  
P (p(y1), p(y2 ), ..., p(ym))  
X
1
Y
Khi đó :  
max H(X), H(Y) H(X,Y) H(X) H(Y)  
.
Chứng minh :  
a) Bất đẳng thức bên trái  
m
p(x )   
p(x , y )  
q max p(x , y ) |1j m  
Ta có :  
. Đặt  
. Khi đó với mọi j:  
i
i
j
i
i
j
j1  
p(xi , yj ) qi p(xi )  
1
1
1
log  
log log  
Suy ra :  
p(xi )  
qi  
p(xi , yj )  
Mà theo Bổ đề 2.1.:  
n
n
n
m
1
1
=
qi  
1
H(X )   
p(x )log  
p(x )log  
p(x , y )log  
i j  
  
i
i
p(xi )  
qi  
i1  
i1  
i1 j1  
n
m
1
p(x , y )log  
H(X ,Y)  
  
i
j
p(xi , yj )  
i1 j1  
56  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
Bằng cách tương tự, ta cũng có:  
b) Bất đẳng thức bên phải  
. Vậy: max H(X), H(Y) H(X,Y)  
H(Y) H(X,Y)  
n
m
1
1
H(X ) H(Y)   
p(x )log  
p(y )log  
i
j
p(xi )  
p(yj )  
i1  
j1  
n
m
m
n
1
1
p(x , y ) log  
p(x , y ) log  
i j  
   
  
i
j
p(xi )  
p(yj )  
i1  
j1  
j1 i1  
n
m
1
1
p(x , y ) log  
log  
  
i
j
p(xi )  
p(yj )  
i1 j1  
n
m
1
p(x , y )log  
  
i
j
p(xi ) p(yj )  
i1 j1  
n
m
1
p(x , y )log  
H(X ,Y) .  
  
i
j
p(xi , yj )  
i1 j1  
Đẳng thức xảy ra khi X Y độc lập, tức là khi p(x , yj ) p(xi )p(yj ) . □  
i
3. ĐỘ PHỤ THUỘC THÔNG TIN VÀ CÁC TÍNH CHẤT  
Cho quan hệ r xác định trên tập thuộc tính {X1, X2,..., Xp} . Như thường lệ, ta sẽ ký  
hiệu phép chiếu và phép chọn của đại số quan hệ lần lượt bằng  
phép toán này là những tập hợp).  
(kết quả của các  
X    
(r) x ,..., x  
Cho tập thuộc tính  
. Giả sử  
và  
c(xi ) X x (r)  
với 1i n  
c(xi )  
,
n  
X
1
i
p
1  
trong đó chỉ lực lượng của một tập hợp. Hiển nhiên, ta có:  
.
và  
. Do  
c(xi ) 1  
i1  
r
đó, X xác định một biến ngẫu nhiên rời rạc có phân bố xác suất  
,
P (p(x ), p(x2 ), ..., p(xn ))  
X
1
c(xi )  
p(xi )   
trong đó  
với i 1, ... ,n . Như vậy, ta có thể nói tới các đại lượng thông tin của  
. Sử dụng kết quả của phép chọn trong r,ta có thể viết lại các  
r
các tập thuộc tính trong  
định nghĩa như sau:  
1) Entropy ca X trên r là đại lưng  
xác đnh bi:  
HX (r)  
n
r
c(xi )  
H (r)   
log  
.
X
r
c(xi )  
j1  
c(xi )   
(r)  
Trong đó: n X (r)  
X xi  
HY (r)  
2) Entropy có điều kin ca Y khi X đã cho là đại lượng  
xác đnh bi:  
X
TẠP CHÍ KHOA HỌC SỐ 2/2016  
57  
n
m
n
m
c(xi , yj )  
c(xi )  
c(xi , yj )  
c(xi )  
c(xi )  
c(x )   
  
i
HY (r)   
log  
log  
X
r
c(xi , yj )  
r
c(xi , yj )  
i1  
j1  
i1 j1  
Trong đó: m  Y (r)  
c(xi , yj ) X x , Y y (r)  
i
j
3) Entropy đồng thi ca X Y là đại lượng HXY (r) xác đnh bi:  
n
m
c(xi , yj )  
r
H (r)   
log  
  
XY  
r
c(xi , yj )  
i1 j1  
Từ các khái niệm trên, ta định nghĩa Độ đo phụ thuộc thông tin như sau:  
Định nghĩa 2.4. (Độ phụ thuộc thông tin)  
Độ phụ thuộc thông tin (Information Dependency) của Y khi X đã cho là đại lượng  
định nghĩa bởi:  
HYY (r)  
n
m
n
m
c(xi , yj )  
c(xi )  
c(xi , yj )  
c(xi )  
c(xi )  
c(x )  
  
i
HY Y (r) H (r)  
log  
log  
Y
X
r
c(xi , yj )  
r
c(xi , yj )  
i1  
j1  
i1 j1  
Độ phụ thuộc thông tin có các tính chất đáng chú ý sau đây:  
Mệnh đề 2.3. HX Y (r) HXY (r)HX (r)  
.
Chứng minh:  
Ta có:  
n
m
c(xi , yj )  
c(xi )  
HX Y (r)   
log  
  
r
c(xi , yj )  
i1 j1  
n
m
c(xi , yj )  
logc(x ) logc(x , y )  
  
i
i
j
r
i1 j1  
n
m
c(xi , yj )  
1
1
log  
log  
log  
log  
  
r
c(xi , yj )  
c(xi )  
i1 j1  
n
m
c(xi , yj )  
1
1
log r log r log  
  
r
c(xi , yj )  
c(xi )  
i1 j1  
n
m
c(xi , yj )  
r
r
log  
  
r
c(xi , yj )  
c(xi )  
i1 j1  
n
m
n
m
c(xi , yj )  
c(xi , yj )   
r
r
log  
log  
  
  
r
c(xi , yj )  
r
c(xi )  
i1 j1  
i1  
j1  
58  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
n
m
n
c(xi , yj )  
r
r
c(xi )  
log  
log  
  
r
c(xi , yj )  
r
c(xi )  
i1 j1  
i1  
.□  
HXY (r)HX (r)  
Mệnh đề 2.4. Luật phản xạ  
Nếu Y X   tHX Y 0  
.
Chứng minh:  
Y X , nên X YZ, Z   . Ứng dụng Mệnh đề 2.3. ta có:  
HX Y (r) HXY (r)HX (r) HX (r)HX (r) 0  
Mệnh đề 2.5.  
Chứng minh:  
.
HXZYZ (r) HXZY (r)  
Ứng dụng Mệnh đề 3.3. ta có:  
HXZYZ (r) HXYZ (r)HXZ (r) HXZY (r)HXZ (r)HXZ (r) HXZY (r)  
Bổ đề 2.6. Luật hợp phải  
HX Y HX Z HX YZ . Đẳng thức xảy ra nếu các biến cố Y yj và  
là độc lập  
Y yk  
nhau khi đã biết  
.
X x  
i
Chứng minh:  
Ta có:  
n
m
n
m
c(xi , yj )  
c(xi )  
c(xi , zk )  
c(xi )  
HX Y (r) HX Z (r)   
log  
log  
  
  
r
c(xi , yj )  
r
c(xi , zk )  
i1 j1  
i1 j1  
q
n
m
c(xi , yj , zk )  
c(xi )  
c(xi )  
log  
log  
log  
log  
  
r
c(xi , yj )  
c(x ,z )  
i1 j1 k1  
i
k
q
n
m
c(xi , yj , zk )  
c(xi )  
c(xi )  
  
r
c(xi , yj )  
c(x ,z )  
i1 j1 k1  
i
k
q
n
m
1
1
p(x , y , z ) log  
log  
  
i
j
k
p(yj xi )  
p(zk x )  
i
i1 j1 k1  
q
n
m
1
p(x )  
p(y , z xi )log  
j k  
  
i
p(yj xi )p(zk xi )  
i1  
j1 k1  
m
q
qj k p(yj xi )p(zk x )  
qj k 0  
,
Đặt  
, ta có  
. Áp dụng Bổ đề 2.1 thu được:  
qjk 1  
i
j1k1  
TẠP CHÍ KHOA HỌC SỐ 2/2016  
59  
q
q
m
n
m
1
1
p(y , z xi )log  
p(x )  
p(y , z xi )log  
.
  
  
j
k
i
j
k
p(yj , zk xi )  
p(yj xi )p(zk xi )  
j1 k1  
i1  
j1 k1  
Vậy:  
q
n
m
1
.
HX YZ (r)  
HX Y (r) HX Z (r) p(x )  
p(y , z x )log  
  
i
j
k
i
p(yj , zk xi )  
i1  
j1 k1  
Trường hợp Y yj và  
là độc lập nhau khi đã biết  
thì:  
X x  
Y yk  
i
q
n
m
p
pj k | i log1 pj | i pk | i  
HX Y (r)HX Z (r)  
  
i
i1  
j1 k 1  
q
n
m
p
pj k |i log1 pj k | i  
=
   
i
i1  
j1 k 1  
HX YZ (r) . □  
Mệnh đề 2.7. Quy tắc xích  
HX YZ (r) HX Y (r)HXYZ (r) max(HX Y (r),HXYZ (r)  
Chứng minh:  
Sử dụng Mệnh đề 2.3. ta có:  
HX YZ (r) HXYZ (r) HX (r) HXY Z r H r H  
  XY    
r
=
HXY Z r H  
   
r
. □  
X    
X Y    
Mệnh đề 2.8. HXYZ HX Z  
Chứng minh:  
Sử dụng Mệnh đề 2.7. ta có:  
HXYZ (r) HX YZ (r)HX Y (r)  
HX Y (r)HX Z (r)HX Y (r) (Mệnh đề 2.6.)  
. □  
HX Z (r)  
Mệnh đề 2.9. Luật hợp trái  
min HX Z (r), HY Z (r) HXY Z (r)  
Chứng minh:  
Theo Mệnh đề 2.8. ta có: HX Z (r) HXYZ (r)  
HYZ (r) HXYZ (r)  
min HX Z (r), HY Z (r) H  
,
.
(r)  
Vậy:  
. □  
XY Z  
60  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
Mệnh đề 2.10. Luật tăng trưởng  
HXZYZ (r) HX Y (r)  
Chứng minh:  
Theo Bổ đề 2.5. và 2.8. ta có:  
HXZYZ (r) HXZY (r) HX Y (r) . □  
Mệnh đề 2.11. Luật bắc cầu  
HX Y (r)HYZ (r) HX Z (r)  
Chứng minh:  
HX Y (r)HYZ (r) HX ZY (r)HXYXZ (r) (Mệnh đề 2.10.)  
(Mệnh đề 2.3.)  
HXY (r)HX (r)HXYZ (r)HXY (r)  
HXYZ (r)HX (r)  
(Mệnh đề 2.2.)  
HXZ (r)HX (r)  
HX (r)HZ (r)  
(Mệnh đề 2.3.) □  
Mệnh đề 2.12. Luật hợp toàn phần  
HX Y (r)HWZ (r) HXWYZ (r)  
Chứng minh:  
HXY (r)HWZ (r)  
(Mệnh đề 2.10.)  
HXWYW (r)HWYZY (r)  
(Mệnh đề 2.11.)  
HXWYZ (r)  
Mệnh đề 2.13. Luật phân rã  
Nếu Z Y thì HX Y (r) HX Z (r)  
Chứng minh:  
(Mệnh đề 2.4.)  
HYZ (r) 0  
HX Y (r)HYZ (r) HX Z (r) (Mệnh đề 2.11.)  
HX Y (r) HX Z (r). □  
Mệnh đề 2.14. Luật giả bắc cầu  
HX Y (r)HWYZ (r) HXWZ (r)  
Chứng minh:  
TẠP CHÍ KHOA HỌC SỐ 2/2016  
61  
HX Y (r)HWYZ (r)  
HXWYW (r)HWYZ (r) (Mệnh đề 2.10.)  
HX W Z (r) (Mệnh đề 2.11.) □  
Định nghĩa 2.5. (Độ phụ thuộc thông tin chuẩn hóa)  
Độ phụ thuộc thông tin chuẩn hóa của Y khi X đã cho là đại lượng IAX Y (r) định  
nghĩa bởi:  
HX Y (r) HX Y (r) HX (r)  
IAX Y (r)   
log2  
r
log2 r  
   
Từ các Mệnh đề 2.1. và 2.3. suy ra: 0 IAX Y (r) 1  
.
4. MỐI LIÊN HỆ GIỮA PHỤ THUỘC THÔNG TIN VÀ PHỤ THUỘC HÀM  
A . Mối liên hệ  
Các phụ thuộc hàm đã được nghiên cứu kĩ trong nhiều tài liệu. Cho hai tập thuộc tính  
X,Y   , ta nói Y phụ thuộc hàm vào X, viết X Y , nếu mỗi giá trị X cho ta một giá trị  
duy nhất của Y. Có thể thấy phụ thuộc thông tin nghiên cứu trên đây là một mở rộng của  
phụ thuộc hàm.  
X,Y   X Y  
thỏa mãn khi và chỉ khi  
Mệnh đề 3.1. Cho hai tập thuộc tính  
.
HX Y (r) 0  
.
Chứng minh:  
: Nếu X Y thì với mỗi giá trị  
chỉ có tương ứng một giá trị duy nhất  
x dom(X)  
i
yj dom(Y) sao cho p(xi , yj ) 0 . Suy ra, c(xi , yj ) c(xi ). Do đó,  
n
m
n
m
c(xi , yj )  
c(xi , yj )  
c(xi )  
HY (r)   
log  
log10.  
  
  
X
r
c(xi , yj )  
r
i1 j1  
i1 j1  
: Nếu HX Y (r) 0 thì HX Y (r) HX (r) . Suy ra: HY (r) 0 với mọi . Hơn nữa  
xi  
xi  
với mọi i. Vậy chỉ có duy nhất một giá trị yj dom(Y) ứng với , tức là X Y . □  
p(x ) 0  
xi  
i
B. Các tiên đề Armstrong  
Các tiên đề Armstrong là rất quan trọng đối với lý thuyết phụ thuộc hàm vì chúng  
cung cấp cơ sở cho hệ thống suy diễn phụ thuộc. Thông thường các tiên đề Armstrong bao  
gồm 3 quy luật chính sau đây:  
Y X  
1. Lut phn x: Nếu  
thì  
X Y  
2. Luật tăng trưởng: Nếu X Y thì XZ YZ  
62  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI  
3. Lut bc cu: Nếu X Y Y Z thì X Z .  
Mệnh đề 3.2. Các tiên đề Armstrong suy ra trực tiếp từ các bất đẳng thức phụ thuộc  
thông tin.  
Chứng minh:  
Luật tăng trưởng: Nếu X Y thì theo Mệnh đề 3.1. phải có  
. Theo mệnh đề  
HX Y (r) 0  
2.10. HXZYZ (r) HX Y (r)  
Suy ra: HXZYZ (r) 0 (vì HXZYZ (r) 0). Mà từ Mệnh đề 3.1. suy ra: XZ YZ  
Tương tự, luật phản xạ và luật bắc cầu suy được ra từ các Mệnh đề 5.4. và 5.11. □  
.
.
5. KẾT LUẬN  
Trong báo cáo này, chúng tôi trình bày phương pháp xây dựng độ đo phụ thuộc thông  
tin trong một quan hệ như là một độ đo phụ thuộc hàm xấp xỉ. Với hai tập thuộc tính X và  
Y, độ đo này sẽ gán cho chúng một số thực phản ánh mức độ phụ thuộc của Y vào X. Độ đo  
được xây dựng dựa trên các độ đo entropy trong lý thuyết thông tin của Shannon và được  
chuẩn hóa để nó có giá trị nằm giữa 0 và 1. Giá trị độ đo bằng 0 khi và chỉ khi tồn tại phụ  
thuộc X Y hàm trong quan hệ. Và như thế, giá trị của nó càng nhỏ thì sự phụ thuộc của  
Y vào X trong quan hệ càng gần phụ thuộc hàm X Y . Các tính chất của độ đo phụ thuộc  
thông tin cũng đã được nghiên cứu. Các tính chất này cho thấy có thể xem phụ thuộc thông  
tin là sự mở rộng của khái niệm phụ thuộc hàm. Từ đây, chúng tôi sẽ nghiên cứu thuật toán  
khai phá các phụ thuộc thông tin với ngưỡng phụ thuộc cho trước.  
TÀI LIỆU THAM KHẢO  
1. Mampaey, M. (2010), “Mining non-redundant information-theoretic dependencies between  
itemsets”, Technical report, University of Antwerp.  
2. Agrawal, R., Imielinski, T., Swami, A. (1993), “Mining association rules between sets of  
items in large databases”, ACM SIGMODRecord 22 (2), pp.207-216.  
3. Han, J., Pei, J., Yin, Y. (2000), “Mining frequent patterns without candidate generation”, ACM  
SIGMOD Record 29 (2), pp.1-12.  
4. Zaki, M., Parthasarathy, S., Ogihara, M., Li, W., et al. (1997), “New algorithms for fast  
discovery of association rules”, Proceedings of KDD.  
5. Srikant, R., Agrawal, R. (1996), “Mining quantitative association rules in large relational  
tables”, ACM SIGMOD Record 25 (2), pp.1-12.  
TẠP CHÍ KHOA HỌC SỐ 2/2016  
63  
6. Kivinen, J., Mannila, H. (1995), “Approximate inference of functional dependencies from  
relations”, Theoretical Computer Science 149 (1), pp.129-149.  
7. Huhtala, Y., Karkkainen, J., Porkka, P., Toivonen, H. (1999), “TANE: An efficient algorithm  
for discovering functional and approximate dependencies”, The Computer Journal 42 (2),  
pp.100-111.  
8. Dalkilic, M.M., Robertson, E.L. (2000), “Information dependencies”, In: Proceedings of ACM  
PODS, pp.245-253.  
9. Heikinheimo, H., Hinkkanen, E., Mannila, H., Mielikäinen, T., Seppänen, J.K. (2007),  
“Finding low-entropy sets and trees from binary data”, In: Proceedings of KDD, pp.350-359.  
10. Shannon, C.E. (1948), “A mathematical theory of communication”, Bell System Technical  
Journal 27, pp.379-423.  
INFORMATION DEPENDENCIES  
Abstract: In this paper we present an information-theoretic approach to mining  
dependencies between sets of attributes in a given relation instance. We describe the  
dependence of a rule based on conditional entropy of consequent given antecedent, and  
using the entropy of a rule to describe its complexity. This allows us to discover rules  
with a high statistical dependence, and a low complexity. The problem of redundancy in  
this context is also investigated, and we present two techniques to prune redundant rules.  
An efficient and scalable algorithm is proposed, which exploits the inclusion-exclusion  
principle for fast entropy computation. This algorithm is empirically evaluated through  
experiments on synthetic and real-world data.  
Keywords: Information dependencies, function dependencies, information theory, data  
mining.  
pdf 12 trang yennguyen 08/04/2022 8700
Bạn đang xem tài liệu "Phụ thuộc thông tin", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfphu_thuoc_thong_tin.pdf