So sánh 2 tỉ lệ trong Stata Full

Thủ Thuật Hướng dẫn So sánh 2 tỉ lệ trong Stata 2022

You đang tìm kiếm từ khóa So sánh 2 tỉ lệ trong Stata được Update vào lúc : 2022-04-08 06:00:21 . Với phương châm chia sẻ Bí kíp Hướng dẫn trong nội dung bài viết một cách Chi Tiết Mới Nhất. Nếu sau khi tìm hiểu thêm nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại Comment ở cuối bài để Admin lý giải và hướng dẫn lại nha.

Thống kê phân tích biến số định lượng với Stata

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản khá đầy đủ của tài liệu tại đây (429.8 KB, 27 trang )

Thống kê phân tích biến số định lượng với Stata
Sơ lược lí thuyết về so sánh 2 trung bình
Kiểm định t dùng để so sánh 2 trung bình của của biến số định lương có phân phối bình
thường. Kiểm định t gồm có (a) Kiểm định t bắt cặp để so sánh trung bình trước và sau
khi can thiệp trên một nhóm và (b) kiểm định t không bắt cặp để so sánh trung bình của 2
nhóm độc lập.
Có hai loại kiểm định t không bắt cặp (khi so sánh trung bình của 2 nhóm độc lập). Kiểm
định t có giả định 2 phương sai bằng nhau và kiểm định t không còn giả định phương sai
bằng nhau. Hai loại kiểm định này còn có chung nguyên lí nhưng rất khác nhau trong phương pháp tính
toán độ tự do (của kiểm định t) và phương pháp tính sai số chuẩn.
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình
của 2 nhóm độc lập và yên cầu 2 giả định.
– Các giá trị của biến số của toàn bộ hai dân số có phân phối thông thường
– Ðộ lệch chuẩn ở cả 2 nhóm dân số là bằng nhau.
Nếu toàn bộ chúng ta kí hiệu:
x1
: giá trị trung bình ở nhóm 1
x2
: giá trị trung bình ở nhóm 2
n1
: cỡ mẫu của nhóm 1
n2
: cỡ mẫu của nhóm 2
2
s1
: phương sai ở nhóm 1
2
s2
: phương sai ở nhóm 2
Chúng ta hoàn toàn có thể xác lập độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức

sau:
– Độ tự do của kiểm định t: df = n1 + n2 – 2
– Sai số chuẩn:
sp =

se = s p. 1 / n1 + 1 / n2

với

(n1 − 1) s12 + (n2 − 1) s22
(n1 − 1) + (n2 − 1)
t=

x1 − x2
x1 − x2
=
se
s p. 1 / n1 + 1 / n2

– Giá trị thống kê t:
Sau khi tính giá tốt trị thống kê t, người ta tra bảng phân phối t với (n1 +n1 – 2) độ tự
do và tính được xác suất p.. Thông thường nếu p. <0,05 người ta bác bỏ giả thuyết H0.
Kiểm định t không bắt cặp không còn giả định 2 phương sai bằng nhau
Kiểm định t không bắt cặp giả định 2 phương sai bằng nhau dùng để so sánh trung bình
của 2 nhóm độc lập và chỉ yên cầu 1 giả định.
– Các giá trị của biến số của toàn bộ hai dân số có phân phối thông thường
Nếu toàn bộ chúng ta kí hiệu:

x1

: giá trị trung bình ở nhóm 1
x2
: giá trị trung bình ở nhóm 2
n1
: cỡ mẫu của nhóm 1
n2
: cỡ mẫu của nhóm 2
2
s1
: phương sai ở nhóm 1
2
s2
: phương sai ở nhóm 2
Chúng ta hoàn toàn có thể xác lập độ tự do, sai số chuẩn và giá trị của thống kê t theo công thức
sau:
– Độ tự do của kiểm định t (theo công thức của Satterthwaite):
2


 s12 s 22 


 + 
n1 n 2 



d. f . = 

4

4
s1
s2


+
 n12 (n1 − 1) n 22 (n2 − 1) 

se =
– Sai số chuẩn:

s12 s22
+
n1 n2
t=

x1 − x2
x −x
= 1 2
se
s12 s22
+
n1 n2

– Giá trị thống kê t:
Sau khi tính giá tốt trị thống kê t, người ta tra bảng phân phối t với độ tự do thích hợp
(như tính toán ở trên) và tính được xác suất p.. Thông thường nếu p. <0,05 người ta bác bỏ
giả thuyết H0.

Kiểm định t bắt cặp
Giả sử để so sánh hiệu suất cao của thuốc A và thuốc B trong cải tổ thể tích thở ra gắng
sức trong một giây thứ nhất (FEV1) người ta cho những bệnh nhân tham gia nghiên cứu và phân tích dùng
thuốc A (hay thuốc B) trong thuở nào gian và cuối thời hạn này đo lường FEV1 của
bệnh nhân (gọi là FEV1A). Sau đó cho lại đổi cho bệnh nhân dùng thuốc B (hay thuốc A)
trong một khoảng chừng thời hạn và cuối thời hạn nó lại đo lường FEV1 của bệnh nhân (gọi
là FEV1B). Thiết kế nghiên cứu và phân tích này được gọi là thử nghiệm lâm sàng bắt chéo. Chúng ta
lưu ý những điểm lưu ý sau khi phân tích thống kê cho những nghiên cứu và phân tích có cùng loại thiết kế
này.
– Trong nghiên cứu và phân tích này còn có 2 biến số đo lường trên cùng dân số: FEV1A và FEV1B
– Các giá trị của biến số FEV1 A và FEV1B là của cùng một bệnh nhân nên hiệu số
(FEV1A – FEV1B) cũng là biến số của bệnh nhân đó. Và nếu không còn sự khác lạ về
hiệu suất cao của 2 loại thuốc, trung bình của hiệu số này bằng 0.
– Khi đó kiểm định so sánh hiệu suất cao của thuốc A và thuốc B cũng ó kiểm định so sánh
giá trị trung bình của FEV1A và FEV1B ó kiểm định hiệu số (FEV1A – FEV1B)=0
– Phép kiểm định này được gọi là kiểm định t bắt cặp. Kiểm định t bắt cặp là trường hợp
đặc biệt quan trọng của kiểm định t một mẫu.
Tóm lại kiểm định t bắt cặp là kiểm định được sử dụng khi thiết kế nghiên cứu và phân tích cho một

đối tượng người dùng (hay 2 đối tượng người dùng rất giống nhau) được thử nghiệm 2 loại thuốc rất khác nhau.
Kiểm định phi tham số
Nếu phân phối không phải là thông thường (thí dụ như bị lệch dương), hoàn toàn có thể sử dụng
phép biến hóa (thường là biến hóa log) để lấy phân phối về thông thường hoặc dùng test
phi tham số. Kiểm định phi tham số có ưu điểm là không yên cầu giả định về phân phối
của biến số định lượng nhưng có khuyết điểm là không thể ước lượng được tham số, đó
là như không thể ước lượng khoảng chừng tin cậy 95% hiệu số của trung bình giữa 2 nhóm.

Sơ lược lí thuyết về so sánh những trung bình của 3 nhóm.
Khi toàn bộ chúng ta cần so sánh trung bình của nhiều nhóm, toàn bộ chúng ta không thể dùng nhiều

kiểm định t để so sánh từng cặp của nhóm vì như vậy toàn bộ chúng ta sẽ làm tăng rủi ro không mong muốn tiềm ẩn tiềm ẩn của
sai lầm không mong muốn loại 1. Phương pháp thích hợp để được sử dụng cho trường hợp này được gọi là test
ANOVA. Test ANOVA (phân tích phương sai) được xem như thể yếu tố tổng quát hóa của
test t (test t dùng cho 2 nhóm và test ANOVA dùng cho 2 hay nhiều hơn nữa những nhóm). Ðiều
kiện để test ANOVA hợp lệ là những giá trị có phân phối thông thường và phương sai của những
nhóm xấp xỉ nhau.
Trong kết xuất của test ANOVA, toàn bộ chúng ta thấy có sự hiện hữu của thống kê F (thống kê
Fisher). Trong trường hợp chỉ có 2 nhóm, thống kê F đúng chuẩn bằng bình phương của
thống kê t và 2 phương pháp cho ra cùng một mức ý nghĩa.
ến
BPT: định lượng

BPT: thứ tự
Đúng

Đúng

Kiểm định χ2

Đúng

Phân
BPT:phối
phânbình
phốithường
bình
thường

BPT: danh định

Kiểm định phi tham số

Không giống hệt

Đúng

≤ 2 nhóm

Trên 3 nhóm

Phương sai giống hệt

Đúng

Phương sai giống hệt

Không giống hệt

Đồng nhất

Đồng nhất

Kiểm định t

Kiểm định t
PS không giống hệt

ANOVA

Hình 1. Giải thuật lựa chọn kiểm định thích hợp cho biến số phụ thuộc là biến định lượng

Thực hành
1- Mở tập tin ivf_v2.
Chúng ta hãy khởi động Stata. Mở tập tin ivf_v2.dta bằng phương pháp sử dụng menu File ::
Open hay nhấp vào nút công cụ Open file (Use),
nằm ở vị trí vị trí thứ hai của thanh công
cụ. Khi đó hộp thoại Use New Data sẽ hiện ra. Nhấp vào mũi tên bên phải hộp Look in
để chọn ổ đĩa thích hợp và dùng con chuột nhấp vào những thư mục để chọn thư mục có
chứa số liệu. Khi gập tập tin số liệu ivf_v2.dta, nhấp đúp vào tên tập tin này để mở tập tin
(hoặc nhấp vào tập tin này để tên tập tin rơi vào hộp File Name rồi tiếp theo đó nhấp vào nút
lệnh Open để mở tập tin). Cần nhớ nhấp vào nút công cụ Stata Log nằm vị trí thứ tư từ
trái ở trên thanh công cụ
nếu muốn tàng trữ lại toàn bộ kết quả phân tích sẽ tiến hành
thực thi.
2. Sau khi mở tập tin, nên phải có thông tin gì trước lúc phân tích số liệu:
Trước khi phân tích số liệu, nhà nghiên cứu và phân tích (hay nhân viên cấp dưới thống kê) cần đọc lại đề
cương nghiên cứu và phân tích, nhất là số liệu (biến số và số những bản ghi), tiềm năng và thiết kế
nghiên cứu và phân tích. Giả sử toàn bộ chúng ta có thông tin về nghiên cứu và phân tích như sau:
MRC Working Party on Children Conceived by In Vitro Fertilisation. Births in Great
Britain resulting from assisted conception, 1978-87. BMJ 1990;300:1229-33.
Births in Great Britain resulting from assisted conception, 1978-87. MRC Working Party
on Children Conceived by In Vitro Fertilisation.
OBJECTIVE–To describe the characteristics birth of children conceived by in vitro
fertilisation (IVF) or by gamete intrafallopian transfer (GIFT) and to assess whether they
differ from those of children conceived naturally. DESIGN–Survey of children resulting
from IVF or GIFT and comparison of their characteristics birth with national statistics.
SETTING–England, Scotland, and Wales from 1978 to 1987. SUBJECTS–1267
Pregnancies conceived by IVF or GIFT, which resulted in 1581 liveborn or stillborn
children. MAIN OUTCOME MEASURES–Sex ratio, multiplicity, gestational age

birth, birth weight, stillbirth rate, perinatal and infant mortality, and prevalence of
congenital malformations. RESULTS–The ratio of male to female births was 1.07:1;
23% (249/1092) of the deliveries were multiple births compared with 1% for natural
conceptions; 24% (278) of 1015 deliveries were preterm compared with 6% in England
and Wales; 32% (406) of 1269 babies weighed less than 2500 g compared with 7% in
England and Wales. The high percentage of preterm deliveries and of low birthweight
babies was largely, but not entirely, due to the high frequency of multiple births. The rate
of stillbirth, perinatal mortality, and infant mortality were twice the national average,
these excesses being due to the high frequency of multiple births. One or more major
congenital malformations were detected during the first week of life in 35 (2.2%) of 1581
babies. This figure is comparable with population based estimates of the prevalence of
congenital malformations. The types of malformations reported varied, and the number of
each specific type was small. The health of the children was not evaluated beyond the
perinatal period. CONCLUSIONS–Multiple pregnancies often result from assisted
conception and are the main determinant of the outcome of the pregnancies and of the
health of the children the time of birth. Congenital malformations are comparatively

rare, so larger numbers of children need to be studied before firm conclusions can be
drawn. The pooling of data from different countries is recommended.
PMID: 2354290 [PubMed – indexed for MEDLINE]
Số liệu này gồm có những biến số về những đứa trẻ sinh một của những bà mẹ được thụ
thai trong ống nghiệm (in-vitro fertilisation). Nghiên cứu này đã được báo cáo trong tạp
chí BMJ (1990;300:1229-1233). Tập tin này gồm có 641 đứa trẻ và gồm 8 biến số có
rõ ràng như sau:
STT Tên biến

Giải thích tiếng Anh

Giải thích tiếng Việt

1

Maso

identity number of mother and
Mã số
baby

2

tuoime

maternal age in years

Tuổi của mẹ (năm tuổi)

3

tang_ha

hypertension 1=yes, 0=no

Tăng huyết áp thai kì 1= có 0 =
không

4

tuoithai

gestational age in weeks

Tuổi thai (tính theo tuần)

5

gioi

sex of baby 1=male, 0=female Giới tính của trẻ 1=trai 0=gái

6

tlsosinh

birth weight in gms

7

Occupation of mother (1= self
employed; 2=blue collar Nghề nghiệp mẹ (1= nghề tự do;
nghenghiep
worker;
3=white
collar 2=công nhân; 3=viên chức)
worker)

8

nhomtuoi

maternal age groups(0=<30; Tuổi của mẹ phân nhóm (0=<30;
1=30-34;2=35-39;3=40+)
1=30-34; 2=35-39; 3=40+)

9

sinhnon

gestational category (1= <37 Sinh non (1: dưới 37 tuần; 0: đủ
tuần; 0=37+tuần)
tháng – trên 37 tuần thai)

Trọng lượng sinh tính theo grams.

Việc nhận ra số liệu cũng hoàn toàn có thể thực thi bằng phương pháp sử dụng lệnh describe (nhấn phím
F3). Điều này đặc biệt quan trọng có ích nếu những biến số và giá trị của biến số đã được dán nhãn đầy
đủ.
Trong nghiên cứu và phân tích này, tác giả muốn xác lập tác động của tăng huyết áp của mẹ và tuổi
thai lên trọng lượng thai.
3. Như vậy trong những biến số kể trên, biến nào là biến độc lập, biến nào là biến số phụ
thuộc, biến số này là gây nhiễu.
Hướng dẫn:
Bảng số liệu viewivf này còn có chứa những biến số rất khác nhau. Trong bảng sau hãy xác lập
tính chất của từng biến số bằng phương pháp khoanh tròn vào lựa chọn thích hợp.
Biến số

Thang đo biến số

Quan hệ

tuoime

– Nhị giá
– Thứ tự

– Độc lập
– Gây nhiễu

– Danh định
– Định lượng

– Phụ thuộc

tang_ha

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

tuoithai

– Nhị giá

– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

gioi

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

tlsosinh

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

nghenghiep

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

nhomtuoi

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

sinhnon

– Nhị giá
– Thứ tự

– Danh định
– Định lượng

– Độc lập
– Gây nhiễu

– Phụ thuộc

4. Trước khi phân tích số liệu cần thực thi thao tác số liệu và những thống kê mô tả. Thực
hiện lại tiến trình thao tác số liệu và thống kê mô tả như ở chương trước
5. Hãy so sánh trọng lượng của trẻ nam và trẻ nữ
Hướng dẫn: Theo giải thuật được trình diễn ở đầu chương, để so sánh trọng lượng (biến
phụ thuộc có phân phối thông thường) ở cả 2 nhóm trước tiên toàn bộ chúng ta nên phải xem phương
sai của 2 nhóm có bằng nhau hay là không. Nếu phương sai 2 nhóm tương tự toàn bộ chúng ta
hoàn toàn có thể sử dụng t-test thông thường (t-test phương sai giống hệt). Nếu phương sai 2 nhóm
không tương tự, toàn bộ chúng ta phải sử dụng t-test phương sai không giống hệt hay kiểm
định phi tham số.
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, toàn bộ chúng ta sử dụng
menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group
variance comparison test.

Sau khi hiên chạy cửa số sdtest – Two sample test of variance hiện ra tiến hành 5 bước sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến tlsosinh để lấy biến này vào
hộp văn bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến gioi để lấy biến này vào hộp
văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.
Kết quả được trình diễn như sau:
. sdtest tlsosinh, by(gioi)
Variance ratio test
—————————————————————————–Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
———+——————————————————————-gai |
315
3044.127
35.421
628.6603
2974.434
3113.819
trai |
326
3211.279

36.88521
665.9798
3138.715
3283.843
———+——————————————————————-combined |
641
3129.137
25.78336
652.7827
3078.507
3179.767
—————————————————————————–Ho: sd(gai) = sd(trai)
F(314,325) observed
= F_obs
=
F(314,325) lower tail = F_L
= F_obs
=
F(314,325) upper tail = F_U
= 1/F_obs =
Ha: sd(gai) < sd(trai)
P < F_obs = 0.1518

Ha: sd(gai) != sd(trai)
P < F_L + P > F_U = 0.3032

0.891
0.891
1.122
Ha: sd(gai) > sd(trai)

P > F_obs = 0.8482

Với giá trị p. = 0,3032 toàn bộ chúng ta không thể bác bỏ giả thuyết Ho: độ lệch chuẩn của nhóm
trẻ trai bằng độ lệch chuẩn của nhóm trẻ gái. Vì vậy toàn bộ chúng ta hoàn toàn có thể sử dụng kiểm định t
phương sai đồng nhát như ở bước 2.
Kiểm định 2: So sánh 2 trung bình sử dụng t-test phương sai giống hệt.
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, toàn bộ chúng ta sử dụng
menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group
mean comparison test

Cửa sổ ttest- group mean comparision tests hiển ra. Tiến hành tiến trình sau:

Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến tlsosinh để lấy biến này vào
hộp văn bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến gioi để lấy biến này vào hộp
văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.
. ttest tlsosinh, by(gioi)
Two-sample t test with equal variances
—————————————————————————-Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf.

Interval]
——–+——————————————————————-gai |
315
3044.127
35.421
628.6603
2974.434
3113.819
trai |
326
3211.279
36.88521
665.9798
3138.715
3283.843
——–+——————————————————————-combined |
641
3129.137
25.78336
652.7827
3078.507
3179.767
——–+——————————————————————-diff |
-167.1522
51.18935
-267.6718
-66.63249
—————————————————————————-Degrees of freedom: 639
Ho: mean(gai) – mean(trai) = diff = 0
Ha: diff < 0

t = -3.2654
P < t =
0.0006

Ha: diff != 0
t = -3.2654
P > |t| =
0.0012

Ha: diff > 0
t = -3.2654
P > t =
0.9994

Trả lời: Trẻ trai có trọng lượng sơ sinh trung bình là 3211.28 gram, của trẻ gái là
3044.13 gram. Với giá trị t = 3,2654 và mức ý nghĩa (p.-value) là 0.0012 toàn bộ chúng ta kết luận
có sự khác lạ về trọng lượng sơ sinh giữa trẻ trai và trẻ gái (p.=0.0012).
6. Hãy so sánh trọng lượng sơ sinh của con bà mẹ tăng huyết áp và bà mẹ không tăng
huyết áp.
Hướng dẫn: Theo giải thuật được trình diễn ở đầu chương, để so sánh trọng lượng (biến
phụ thuộc có phân phối thông thường) ở cả 2 nhóm trước tiên toàn bộ chúng ta nên phải xem phương
sai của 2 nhóm mẹ tăng huyết áp và mẹ không tăng huyết áp có bằng nhau hay là không.
Nếu phương sai 2 nhóm tương tự toàn bộ chúng ta hoàn toàn có thể sử dụng t-test thông thường (t-test
phương sai giống hệt). Nếu phương sai 2 nhóm không tương tự, toàn bộ chúng ta phải sử
dụng t-test phương sai không giống hệt hay kiểm định phi tham số.
Kiểm định 1: So sánh 2 phương sai
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, toàn bộ chúng ta sử dụng
menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group
variance comparison test.
Sau khi hiên chạy cửa số sdtest – Group variance comparison test toàn bộ chúng ta đưa biến tlsosinh vào

hộp văn bản Variable name và biến tang_ha vào hộp văn bản Group name variable rồi
nhấp vào nút lệnh OK.
Kết quả được trình diễn như sau:

. sdtest tlsosinh, by( tang_ha )
Variance ratio test
—————————————————————————-Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf.
Interval]
——–+——————————————————————-Ha bt |
552
3191.531
25.58435
601.0962
3141.276
3241.786
Ha tang |
89
2742.157
86.17222
812.9471
2570.908
2913.406
——–+——————————————————————-combined |
641

3129.137
25.78336
652.7827
3078.507
3179.767
—————————————————————————-Ho: sd(huyet ap) = sd(huyet ap)
F(551,88) observed
= F_obs
=
F(551,88) lower tail = F_L
= F_obs
=
F(551,88) upper tail = F_U
= 1/F_obs =
Ha: sd(1) < sd(2)
P < F_obs = 0.0000

Ha: sd(1) != sd(2)
P < F_L + P > F_U = 0.0003

0.547
0.547
1.829
Ha: sd(1) > sd(2)
P > F_obs = 1.0000

Kết quả đã cho toàn bộ chúng ta biết giá trị p. = 0,0003 nghĩa là phương sai của trọng lượng lúc sinh của 2
nhóm không giống hệt. Vì vậy toàn bộ chúng ta không thể dùng t-test phương sai giống hệt mà
phải sử dụng t-test phương sai không giống hệt (kiểm định 2A) hay kiểm định phi tham
số (kiểm định 2B).

Kiểm định 2A: so sánh 2 trung bình t-test phương sai không giống hệt
Để so sánh trung bình của một biến định lượng ở hai hay nhiều nhóm, toàn bộ chúng ta sử dụng
menu Statistics :: Summaries, tables, & tests :: Classical tests of hypothesis :: Group
mean comparison test (xem lại câu 4) và biến tlsosinh vào hộp văn bản Variable name;
biến tang_ha vào hộp văn bản Group name variable của hiên chạy cửa số ttest- group mean
comparison. Cần lưu ý ghi lại vào hộp kiểm Unequal variances rồi nhấp vào nút OK.

Kết quả trình diễn như sau:
. ttest tlsosinh, by(tang_ha) unequal
Two-sample t test with unequal variances
—————————————————————————-Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf.
Interval]
——–+——————————————————————-ha bt |
552
3191.531
25.58435
601.0962
3141.276
3241.786
ha tang |
89
2742.157
86.17222
812.9471

2570.908
2913.406
——–+——————————————————————-combined |
641
3129.137
25.78336
652.7827
3078.507
3179.767
——–+——————————————————————-diff |
449.3735
89.88999
271.1197
627.6273
—————————————————————————-Satterthwaite’s degrees of freedom: 104.069
Ho: mean(ha bt) – mean(ha tang) = diff = 0
Ha: diff < 0
t =
4.9991
P < t =
1.0000

Ha: diff != 0
t =
4.9991
P > |t| =
0.0000

Ha: diff > 0
t =

4.9991
P > t =
0.0000

Trả lời: Con bà mẹ bị tăng huyết áp có trọng lượng sơ sinh trung bình là 2742 gram, ở
con của bà mẹ không tăng huyết áp là 3192 gram. Sự khác lạ này còn có ý nghĩa thống kê
với p.<0,0001.

Kiểm định 2B: so sánh 2 trung bình với phép kiểm phi tham số Mann-Whitney
Thực hiện kiểm định phi tham số tổng sắp hạng Mann-Whitney (Mann-Whitney rank
sum test) bằng dụng menu Statistics :: Summaries, tables, & tests :: Non-parametric test
of hypotheses :: Mann-Whitney two-sample ranksum test.

Sau đó hiên chạy cửa số ranksum – Mann-Whitney two-sample statistic hiện ra.

Tiến hành tiến trình sau:
Bước 1: đặt con trỏ vào hộp văn bản Variable name
Bước 2: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến tlsosinh để lấy biến này vào
hộp văn bản Variable name
Bước 3: đặt con trỏ vào hộp văn bản Group name variable
Bước 4: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến tang_ha để lấy biến này vào
hộp văn bản Group name variable.

Bước 5: Nhấp vào nút lệnh OK.
Kết quả như sau:
. ranksum tlsosinh, by( tang_ha )
Two-sample Wilcoxon rank-sum (Mann-Whitney) test
tang_ha |

obs
rank sum
expected
————-+——————————–ha bt |
552
185203
177192
ha tang |
89
20558
28569
————-+——————————–combined |
641
205761
205761
unadjusted variance
adjustment for ties
adjusted variance

2628348.00
-144.78
———2628203.22

Ho: tlsosinh(tang_ha==ha bt) = tlsosinh(tang_ha==ha tang)
z =
4.941
Prob > |z| =
0.0000

7. Hãy so sánh trọng lượng sơ sinh của trẻ sinh ra từ con của những nhóm nghề nghiệp khác

nhau của người mẹ.
Hướng dẫn: Để so sánh trung bình của một biến định lượng ở nhiều nhóm, toàn bộ chúng ta phải
sử dụng phương pháp phân tích ANOVA một chiều. Sử dụng menu Statistics ::
ANOVA/MANOVA :: oneway analysis of variance

Do toàn bộ chúng ta muốn phân tích tác động của yếu tố nghề nghiệp mẹ (nghenghiep) lên trọng
lượng sinh của trẻ (tlsosinh) khi hiên chạy cửa số oneway hiện lên, ta tiến hành tiến trình sau:
Bước 1: đặt con trỏ vào hộp văn bản Response variable
Bước 2: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến tlsosinh để lấy biến này vào
hộp văn bản Response Variable.
Bước 3: đặt con trỏ vào hộp văn bản Factor
Bước 4: đưa con trỏ vào hiên chạy cửa số Variables và nhấp vào biến nghenghiep để lấy biến này
vào hộp văn bản Factor.
Bước 5: Đánh dấu vào hộp kiểm Produce summary table để thể hiện thống kê mô tả trọng
lượng sơ sinh trung bình ở những nhóm nghề nghiệp
Bước 6: Đánh dấu vào hộp kiểm Scheffe để sở hữu kiểm định so sánh trọng lượng trung bình
ở từng cặp đôi bạn trẻ nghề nghiệp rất khác nhau
Bước 7: Nhấp vào nút lệnh OK

Trên hiên chạy cửa số Output, trên cùng thống kê mô tả của số liệu về trọng lượng sơ sinh theo
nhóm tuổi của mẹ:
nghe nghiep |
me – 1=tu |
do, 2=cong |
Summary of trong luong so sinh
nhan, |
(gram)
3=vien chuc |

Mean
Std. Dev.
Freq.
————+———————————–tu do |
2981.4135
643.76283
104
cong nhan |
3118.084
646.69338
238
vien chuc |
3189.3177
654.19649
299
————+———————————–Total |
3129.1373
652.78265
641

Con bà mẹ nghề nghiệp tự do có trọng lượng trung bình là 2981 gram, của bà mẹ với
nghề nghiệp là 3118 gram, của bà mẹ với nghề nghiệp viên chức là là 3190 gram. Chúng
ta biết kiểm định ANOVA hoàn toàn có thể sử dụng để kiểm định sự khác lạ về trung bình của
nhiều nhóm, nhưng trước tiên toàn bộ chúng ta hãy kiểm tra những Đk của phân tích ANOVA
là (a) biến số phụ thuộc có phân phối thông thường – điều này đã được xác nhận từ đồ thị
của trọng lượng sơ sinh và (b) phương sai của biến phụ thuộc ở những nhóm bằng nhau điều này cũng khá được xác nhận qua thống kê Bartlett với p.-value là 0,973.
Analysis of Variance
Source
SS
df

MS
F
Prob > F
———————————————————————–Between groups
3381483.56
2
1690741.78
4.00
0.0187
Within groups
269338638
638
422160.875
———————————————————————–Total
272720122
640
426125.19
Bartlett’s test for equal variances:

chi2(2) =

0.0558

Prob>chi2 = 0.973

Vì vậy trong trường hợp này kiểm định ANOVA là có mức giá trị. Ta đọc kết quả của bảng

ANOVA. Chúng ta đã có giá tốt trị F = 0.0187 và mức ý nghĩa (p.-value) là 0.9723 chúng
ta kết luận không còn sự khác lạ về trọng lượng sơ sinh ở con của những bà mẹ có nghề

nghiệp rất khác nhau. Với kết luận này toàn bộ chúng ta hoàn toàn có thể kết luận là có tối thiểu có một cặp đôi bạn trẻ (2
nhóm) nghề nghiệp của mẹ có sự khác lạ về trọng lượng con nhưng toàn bộ chúng ta không biết
là yếu tố khác lạ này ở cặp đôi bạn trẻ nghề nghiệp nào. Để biết cặp đôi bạn trẻ nào có sự khác lạ ta xem
kết xuất của so sánh sau kiểm định (post-hoc test) của Scheffe:
Comparison of trong luong so sinh (gram)
by nghe nghiep me – 1=tu do, 2=cong nhan, 3=vien chuc
(Scheffe)
Row Mean-|
Col Mean |
tu do
cong nha
———+———————cong nha |
136.671
|
0.202
|
vien chu |
207.904
71.2337
|
0.020
0.451

Kết quả của kiểm định Scheffe được trình diễn theo bảng và ở mỗi ô của bảng có 2 con
số: số lượng ở trên thể hiện sự khác lạ về trọng lượng của nghề nghiệp của hàng so với
nghề nghiệp của cột và giá trị ở dưới thể hiện giá trịi p. (mức ý nghĩa) của yếu tố khác lạ
này. Dựa vào giá trị p., hoàn toàn có thể kết luận có sự khác lạ về trọng lượng sơ sinh của con 2
nhóm nghề nghiệp viên chức và tự do (giá trị p.=0,020) và nhóm nghề nghiệp viên chức
có trọng lượng trung bình cao hơn nhóm nghề nghiệp tự do là 207,9 gram.

Nhắc lại lí thuyết về Tương quan và ước lượng
Tương quan là số đo mức độ hai biến số định lượng cùng thay đổi với nhau. Có nhiều
loại thông số tương quan, nhưng chúng đều phải có mức giá trị từ -1 đến 1. Nếu chúng có mức giá trị dương
nghĩa là hai biến số đồng biến với nhau, nếu chúng có mức giá trị âm nghĩa là hai biến số
nghịch biến. Giá trị tuyệt đối của thông số tương quan càng gần một nghĩa là hai biến số có
liên hệ chặt với nhau và vai trò của sai số ngẫu nhiên sẽ thấp hơn. Nếu thông số tương quan có
giá trị bằng zero nghĩa là hai biến số độc lập và không quan hệ gì với nhau. Khi trị
tuyệt đối của thông số tương quan bằng một nghĩa là hoàn toàn không còn sai số ngẫu
nhiên. Bình phương của thông số tương quan (r 2) thể hiện tỉ lệ những biến thiên của biến số phụ
thuộc hoàn toàn có thể được lý giải bằng biến số độc lập.
Loại thông số tương quan được sử dụng phổ cập nhất là thông số tương quan Pearson r:
r=

∑ ( x − x )( y − y )
∑ ( x − x) ∑ ( y − y)
i

i

2

i

2

i

Lí giải ý nghĩa của thông số tương quan:
– Hệ số tương quan luôn luôn nằm trong đoạn [-1,1]
– Hệ số tương quan r dương chứng tỏ hai biến số là đồng biến; thông số tương quan r âm

chứng tỏ hai biến số là nghịch biến; thông số tương quan bằng zero nếu hai biến không liên
hệ.
– Trị số tuyệt đối của thông số tương quan r nói lên mức độ liên quan giữa hai biến số. Nếu
trị tuyệt đối của r bằng 1 (r=1 hay r=-1), quan hệ hoàn toàn tuyến tính nghĩa là toàn bộ những

điểm nằm trên đường hồi quy (Hình 9.2 d và 9.2f). Nếu trị tuyệt đối của r nhỏ hơn 1 sẽ có được
những điểm số liệu phân tán chung quanh đường hồi quy.
– Bình phương của thông số tương quan (r 2) thể hiện tỉ lệ biến thiên của biến số phụ thuộc
được lý giải bằng sự biến thiên của biến số độc lập (nếu mối liên hệ này là nhân quả)
– Nếu r=0, không còn mối liên hệ tuyến tính giữa hai biến số. Ðiều này nghĩa là (1)
không còn mối liên hệ gì giữa hai biến số hoặc (2) mối liên hệ giữa hai biến số không phải
là tuyến tính.
– Theo quy ước, quan hệ với r từ 0,1 đến 0,3 là quan hệ yếu, từ 0,3 đến 0,5 quan hệ trung
bình và trên 0,5 là quan hệ mạnh. Ðiều quan trọng là yếu tố tương quan giữa hai biến số cho
thấy sự liên hệ nhưng không nhất thiết nghĩa là cá quan hệ ‘nhân quả’.
Để kiểm định thông số tương quan Pearson có thực sự khác 0 hay là không, kiểm định t hoàn toàn có thể
được sử dụng

t=r

n−2
1 − r 2 có phân phối student với n-2 độ tự do.

Hồi quy
Hồi quy là một quy mô toán học mô tả sự biến hóa của một biến số này theo những biến
số khác.
Một phương trình hồi quy hoàn toàn có thể có dạng như sau:
khối lượng (kg) = 6,85 + 0,18 x tháng tuổi
(phương trình hồi quy tính khối lượng của trẻ từ 9 đến 40 tháng tuổi theo tháng tuổi)

theo phương trình này người ta gọi:
khối lượng: biến số phụ thuộc
tháng tuổi: biến số độc lập
6,85: thông số của hằng số (Constant), hay còn gọi là yếu tố chặn (intercept)
0,18: thông số (Coeficient) của biến số tháng tuổi hay còn gọi là độ dốc (Slope) của
đường hồi quy
9. Vẽ phân tán đồ (scattergram) giữa của biến số tuổi thai (tuoithai) và trọng lượng thai
(tlsosinh).
Hướng dẫn: sử dụng menu Graphics :: Overlaid twoway graph

để hiện ra hiên chạy cửa số twoway – Twoway graphs

Trên hiên chạy cửa số twoway – Twoway graphs, nhập tên biến số tùy từng hộp Y-axis
variable và tên biến số độc lập vào hộp X-axis variable tiếp theo đó nhấp OK để xem biểu đồ
phân tán. Cách làm rõ ràng từng bước như sau:
Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Bước 4: Nhấp nút lệnh OK

Có thể cho đồ thị phân tán. Tuy nhiên toàn bộ chúng ta hoàn toàn có thể thêm những tùy chọn để thực thi những
yêu cầu sau:
• Bổ sung tiêu đề “trọng lượng trẻ sơ sinh (gam)” cho trục tung
• Cho những giá trị trục y từ 500 đến 5000 gram và chia những khoảng chừng 500 gram.
• Bổ sung tiêu đề “tuoi thai (tuan tuoi)” cho trục hoành

Cho những giá trị của trục x từ 24 tuần tuổi đến 42 tuần tuổi và phân thành những khoảng chừng 4
tuần
Bằng cách trong hiên chạy cửa số Trên hiên chạy cửa số twoway – Twoway graphs thực thi tiến trình:
Trên thẻ Plot 1:
Bước 1: Trên hộp combo Type chọn Scatter
Bước 2: Đặt tên biến số độc lập (tuoithai) vào ô văn bản X
Bước 3: Đặt tên biến số phụ thuộc (tlsosinh) vào ô văn bản Y
Trên thẻ Y-Axis:
Bước 4: Trên hộp văn bản Title gõ “Trong luong tre so sinh (gam)”
Bước 5: Trên hộp văn bản Rule gõ quy tắc “500(500)5000”
Bước 6: Trên hộp combo Angle chọn “Horizontal”
Trên thẻ X-Axis:
Bước 7: Trên hộp văn bản Title gõ “Tuoi thai (tuan)”
Bước 8: Trên hộp văn bản Rule gõ quy tắc “24(2)42”
Và nhấp vào nút lệnh OK.

Trả lời: Có sự tương quan thuận tuyến tính giữa trọng lượng sơ sinh và tuổi thai. Mối
tương quan này khá chặt do đám mây có tính chất tăng trưởng (khi nó đi về phải) và có đường
kính nhỏ bé hơn nhiều so với đường kính lớn.
10. Hãy xác lập thông số tương quan giữa trọng lượng sơ sinh (tlsosinh), tuổi thai (tuoithai)
và tuổi của mẹ (tuoime)
Hướng dẫn: Sử dụng menu Statistics :: Summaries, tables, & tests :: Summary statistics ::
Pairwise correlations.

Khi đó hộp thoại pwcorr – Pairwise correlations of variables sẽ hiện ra.

Tiến hành tiến trình sau:
Bước 1: Nhấp con trỏ chuột vào hộp văn bản Variables

Bước 2: Đưa con trỏ chuột vào hiên chạy cửa số Variables và nhấp vào những biến tlsosinh, biến
tuoithai và biến tuoime để tên 3 biến này xuất hiện ở hộp văn bản Variables.
Bước 3: Đánh dấu vào hộp kiểm Print significance level for each entry
Bước 4: Đánh dấu vào hộp kiểm Significance level for displaying with a star.
Bước 5: Nhấp vào nút lệnh OK để xem kết quả.
. pwcorr tlsosinh tuoithai tuoime, sig star(5)
| tlsosinh tuoithai
tuoime
————-+————————–tlsosinh |
1.0000
|
|
tuoithai |
0.7376* 1.0000
|
0.0000
|
tuoime |
0.0337
0.0151
1.0000
|
0.3941
0.7026

Trả lời: Chương trình cho kết quả thông số tương quan của trọng lượng thai với trọng lượng
thai là một trong, giữa trọng lượng thai và tuổi thai là 0.7376 (giá trị p.=0,0000), giữa trọng lượng
thai và tuổi của mẹ là 0,0337 (giá trị p. = 0,3941). Như vậy có sự tương quan mạnh có ý
nghĩa thống kê giữa trọng lượng thai và tuổi thai trong lúc đó sự tương quan giữa trọng
lượng thai và tuổi mẹ rất yếu và không còn ý nghĩa thống kê. Do có sự liên hệ có ý nghĩa

thống kê (giá trị p. <0,05) giữa trọng lượng thai và tuổi thai nên giá trị của thông số tương
quan được ghi lại sao (*).
11. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng phương pháp nhấp vào menu “Statistics ::
Linear regression and related :: Linear regression” để hiện ra hộp thoại regress – Linear
regression

Nhập tên biến số tùy từng hộp Dependent variable và tên biến số độc lập vào hộp
Independent variable rồi nhấn OK để tiếp tục.
Kết quả được trình diễn như sau:
. regress tlsosinh tuoithai
Source |
SS
df
MS
641
———+—————————–762.25
Model |
148354317
1
148354317
0.0000
Residual |
124365805
639 194625.673
0.5440
———+—————————–0.5433
Total |
272720122

640
426125.19
441.16

Number of obs =
F(

1,

639) =

Prob > F

=

R-squared

=

Adj R-squared =
Root MSE

=

tlsosinh |
Coef.
Std. Err.
t
P>|t|
[95% Conf.

Interval]
——–+——————————————————————-tuoithai |
206.6412
7.484572
27.609
0.000
191.9439
221.3386
_cons | -4865.245
290.0814
-16.772
0.000
-5434.873
-4295.617

Trả lời: Hệ số tương quan bình phương R-squared = 0.544 = 54.4% nói lên tuổi thai có
thể lý giải cho 54.4% sự thay đổi về trọng lượng sơ sinh. Bảng ANOVA cho biết thêm thêm có
tổng những sai lệch của bình phương trọng lượng sơ sinh 272.720.122 (272.7 triệu) mà
phương trình hồi quy hoàn toàn có thể lý giải cho 148.3 triệu của yếu tố sai lệch này (như vậy còn
124.4 triệu tổng bình phương sai lệch không được lý giải gọi là Residual Sum of

Square và giá trị 0.45 đó đó là giá trị 148.3/272.7). Mức ý nghĩa được trình diễn trong
bảng ANOVA cho biết thêm thêm mức ý nghĩa của phương trình.
Dựa vào bảng những thông số toàn bộ chúng ta hoàn toàn có thể xây dựng phương trình hồi quy như sau:
Trọng lượng sơ sinh = -4865.245 + 206.641 x tuổi thai (tính theo tuần).
Mức ý nghĩa (P-value) của biến số tuổi thai (Gestational age) là kết quả của kiểm định ý
nghĩa của biến số này trong phương trình có thực sự khác không hay là không.
Hệ số (coefficient) của biến số độc lập nói lên sự thay đổi của biến số phụ thuộc khi
biến số độc lập thay đổi một cty. Trong phương trình này (với biến số độc lập là

TUOITHAI và biến số phụ thuộc là TLSOSINH) toàn bộ chúng ta hoàn toàn có thể lí giải nếu đứa trẻ lớn
hơn 1 tuần tuổi trọng lượng lúc sanh của nó sẽ tăng thêm 206.641 gram.
12. Hãy xây dựng phương trình hồi quy của trọng lượng thai theo tuổi thai, giới tính của
trẻ và huyết áp cao của mẹ.
Hướng dẫn: Sử dụng phương pháp hồi quy đơn bằng phương pháp nhấp vào menu “Statistics ::
Linear regression and related :: Linear regression” để hiện ra hộp thoại regress – Linear
regression

Nhập tên biến số phụ thuộc (tlsosinh) vào hộp Dpendent variable và tên những biến số độc
lập (tuoithai gioi tang_ha) vào hộp Idependent variables, rồi nhấn OK để tiếp tục. Khi đó
hộp thoại chẩn đoán sẽ hiện ra. Tuy nhiên nếu toàn bộ chúng ta không quan tâm đến việc chẩn
đoán những yếu tố trong phương trình hồi quy toàn bộ chúng ta hãy nhấp vào nút Cancel.
. regress tlsosinh tuoithai gioi tang_ha
Source |
SS
df
MS
641
————-+—————————–275.43

Number of obs =
F(

3,

637) =

Model |
153998584

3 51332861.4
0.0000
Residual |
118721538
637
186376.04
0.5647
————-+—————————–0.5626
Total |
272720122
640
426125.19
431.71

Prob > F

=

R-squared

=

Adj R-squared =
Root MSE

=

—————————————————————————-tlsosinh |
Coef.
Std. Err.

t
P>|t|
[95% Conf.
Interval]
————+—————————————————————tuoithai |
201.4248
7.541441
26.71
0.000
186.6157
216.2339
gioi |
167.8167
34.17884
4.91
0.000
100.6999
234.9335
tang_ha |
-142.14
50.8685
-2.79
0.005
-242.0302
-42.24979
_cons | -4729.048
294.1447
-16.08
0.000
-5306.659

-4151.438
—————————————————————————–

Trả lời: Chúng ta tìm kiếm được r2 (R-squared) là 0.5647 đã cho toàn bộ chúng ta biết phương trình hồi quy giải
thích được 56.47% sự biến thiên của trọng lượng thai và điều này đã cho toàn bộ chúng ta biết quy mô có cả
giới tính và tăng huyết áp lý giải tốt hơn so với quy mô chỉ có tuổi thai (r2=0.54).
Chúng ta cũng hoàn toàn có thể viết được phương trình hồi quy theo kết quả ở trên:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425 – tăng huyết áp x 142.14 + giới x
167.817
10. Bạn có gợi ý gì để trình diễn phương trình hồi quy một cách dễ hiểu hơn riêng với những người
không chuyên về thống kê.
Hướng dẫn: Bởi vì người không chuyên về thống kê hay người không được làm quen với
phương pháp mã hoá sẽ không còn biết làm thế nào để nhân tăng huyết áp với 142.14 hay giới
với 167,817. Chúng ta nhớ lại quy ước của tập tin này:
Biến tăng huyết áp (tang_ha) có mức giá trị =0 nếu mẹ không biến thành tăng huyết áp
Biến giới tính (gioi) có mức giá trị =0 nếu trẻ là trẻ gái
a) Do đó phương trình hồi quy riêng với trẻ gái có mẹ không tăng huyết áp là:
Trọng lượng thai = -4729.048 + tuổi thai x 201.425
(a)
b) Ở trẻ trai với mẹ không tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi
quy sẽ tăng thêm 167,817 gram nên phương trình hồi quy sẽ là
Trọng lượng thai = -4561.23 + tuổi thai x 201.425
(b)
c) Ở trẻ gái với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ
sẽ giảm sút 142,14 gram so với phương trình (a) nên phương trình hồi quy cho nhóm này

Trọng lượng thai = -4871.19 + tuổi thai x 201.425
d) Ở trẻ trai với mẹ bị tăng huyết áp, trọng biến số phụ thuộc của phương trình hồi quy sẽ
sẽ giảm sút 142,14 gram so với phương trình (b) nên phương trình hồi quy cho nhóm này

Clip So sánh 2 tỉ lệ trong Stata ?

Bạn vừa đọc tài liệu Với Một số hướng dẫn một cách rõ ràng hơn về Video So sánh 2 tỉ lệ trong Stata tiên tiến và phát triển nhất

Chia Sẻ Link Down So sánh 2 tỉ lệ trong Stata miễn phí

Hero đang tìm một số trong những Chia Sẻ Link Cập nhật So sánh 2 tỉ lệ trong Stata Free.

Thảo Luận vướng mắc về So sánh 2 tỉ lệ trong Stata

Nếu Ban sau khi đọc nội dung bài viết So sánh 2 tỉ lệ trong Stata , bạn vẫn chưa hiểu thì hoàn toàn có thể lại Comments ở cuối bài để Tác giả lý giải và hướng dẫn lại nha
#sánh #tỉ #lệ #trong #Stata

Exit mobile version