肺炎病患的住院天數(Y)之預測
- 大於 30天住院天數的病患不考慮。判斷其住院天數並非主要由上方幾種因素控制,另外,從衛生福利部統計處網站上全民健康保險醫療統計年報,在肺炎疾病上平均住院日數統計最長 14.9天(103年)。 衛生福利部統計處
- 小於 3天的病患,可能由於轉院或其它原因導致住院天數極短,亦不考慮。
資料清洗過程
- 原始資料為102年~107年的xx醫院之病患住院紀錄: 71247筆
- 先將“住院迄日”為空白的刪除: 18023
- 將“使用頻次”中有“XXX帶藥”的刪除: 4812
- 將“使用頻次”中有“STAT”的刪除: 20505 共 71247 - 18023 - 4812 - 20505 = 27907 筆 以學長判斷肺炎: 6572(是); 21335(否)
- 將同一為病人且同一天住院(歸人),判斷成一筆住院紀錄: 2747筆
- 考慮住院天數介於4至30天之病患: 2403筆
Two step 分析結果:
Mean Square Error (MSE): 21.5188 開根號後為 4.6388 天
- 性別: \(\times\)
- 年齡: \(nonlinear\)
- 體重: \(\times\)
- aminoglycosides: \(nonlinear\)
- carbapenems: \(nonlinear\)
- cephalosporins: \(nonlinear\)
- fluoroquinolones: \(nonlinear\)
- glycopeptide: \(nonlinear\)
- others: \(nonlinear\)
- penicillins: \(nonlinear\)
1.性別: \(\times\)
假設檢定: 男生與女生之住院天數是否有差別
95 percent confidence interval: [ 0.8278724 , 2.0290919 ]
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale

Welch Two Sample t-test
data: data %>% filter(性別 == "男") %>% select(住院天數) and data %>% filter(性別 == 女") %>% select(住院天數)
t = 4.6678, df = 911.35, p-value = 3.502e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.8278724 2.0290919
sample estimates:
mean of x mean of y
12.34562 10.91714
2.年齡: \(nonlinear\)


3.體重: \(\times\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale


4.aminoglycosides: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




5.carbapenems: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




6.cephalosporins: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




7.fluoroquinolones: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




8.glycopeptide: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




9.others: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




10.penicillins: \(nonlinear\)
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale




若只考慮藥品使用天數,亦即因素為: 性別、年齡、體重、(7種)藥品使用的天數。
- 性別: \(\times\)
- 年齡: \(nonlinear\)
- 體重: \(\times\)
- aminoglycosides: \(nonlinear\)
- carbapenems: \(linear\)
- cephalosporins: \(linear\)
- fluoroquinolones: \(nonlinear\)
- glycopeptide: \(linear\)
- others: \(\times\)
- penicillins: \(nonlinear\)
1.aminoglycosides: \(nonlinear\)


2.carbapenems: \(nonlinear\)


3.cephalosporins: \(nonlinear\)


4.fluoroquinolones: \(nonlinear\)


5.glycopeptide: \(nonlinear\)


6.others: \(nonlinear\)


7.penicillins: \(nonlinear\)


---
title: "6/30 Real data report"
output: html_notebook
---

```{r ,echo=FALSE ,include=FALSE}
library(ggplot2)
library(dplyr)
```
# 肺炎病患的住院天數(Y)之預測

* 因素考慮: 利用病人的**性別**、**年齡**、**體重**、**(7種)藥品使用的天數與總量**。

* 病患的住院天數:
  1. 大於 30天住院天數的病患不考慮。判斷其住院天數並非主要由上方幾種因素控制，另外，從衛生福利部統計處網站上全民健康保險醫療統計年報，在肺炎疾病上平均住院日數統計最長 14.9天(103年)。
   [衛生福利部統計處](https://dep.mohw.gov.tw/DOS/cp-1945-12042-113.html)
  2. 小於 3天的病患，可能由於轉院或其它原因導致住院天數極短，亦不考慮。
  
* 註: 肺炎，由主診斷碼歸類(486、J188、J189、J150、J151)(?) 

* 資料為**肺炎**與**住院天數介於4至30天**之病患，筆數為**2403**。



#### 資料清洗過程
0. 原始資料為102年~107年的xx醫院之病患住院紀錄: **71247**筆
1. 先將"住院迄日"為空白的刪除: 18023
2. 將"使用頻次"中有"XXX帶藥"的刪除: 4812
3. 將"使用頻次"中有"STAT"的刪除: 20505
共 71247 - 18023 - 4812 - 20505 = 27907 筆
以學長判斷肺炎: **6572**(是); 21335(否)
4. 將同一為病人且同一天住院(歸人)，判斷成一筆住院紀錄: **2747**筆
5. 考慮住院天數介於4至30天之病患: **2403**筆



# Two step 分析結果:

Mean Square Error (MSE): 21.5188 
開根號後為 4.6388 天

```{r ,echo=FALSE ,include=FALSE}
load("C:/Users/Master/Desktop/黃三/real data/0602/centralized data 天數總量體重.RData")
classify_beta(b)
```

- 性別: $\times$
- 年齡: $nonlinear$
- 體重: $\times$
- aminoglycosides: $nonlinear$
- carbapenems: $nonlinear$
- cephalosporins: $nonlinear$
- fluoroquinolones: $nonlinear$
- glycopeptide: $nonlinear$
- others: $nonlinear$
- penicillins: $nonlinear$

## 1.性別: $\times$

假設檢定: 男生與女生之住院天數是否有差別

95 percent confidence interval: [ 0.8278724 , 2.0290919 ]

```{r ,echo=FALSE}
# group1
ggplot(data) + geom_boxplot(aes(x = 性別, y = 住院天數)  )

t.test(x = data %>% filter(性別 == "男") %>% select(住院天數) ,
       y = data %>% filter(性別 == "女") %>% select(住院天數) , mu = 0 ,alternative = "two.sided", var.equal = FALSE)
```

## 2.年齡: $nonlinear$

```{r ,echo=FALSE}
# group2
ggplot(data) + geom_point(aes(x = 年齡,
                              y = 住院天數)    )
ggplot(data) + geom_point(aes(x = 年齡,
                          y = as.numeric(obs.X[,2:4] %*% classify_beta(b)[[2]]) )    ) + 
  ylab("f_2(年齡)") 
```

## 3.體重: $\times$

```{r ,echo=FALSE}
# group3
ggplot(data) + geom_point(aes(x = 體重, y = 住院天數) ) 
ggplot(data) + geom_point(aes(x = 年齡,
                              y = as.numeric(obs.X[,5:7] %*% classify_beta(b)[[3]]) )    ) + 
  ylab("f_3(體重)") 
```

## 4.aminoglycosides: $nonlinear$

```{r ,echo=FALSE}
# group4 aminoglycosides
ggplot(data) + geom_point(aes(x = medic_day[,"aminoglycosides"], y = 住院天數) ) + xlab("aminoglycosides使用天數")
ggplot(data) + geom_point(aes(x = medic[,"aminoglycosides"], y = 住院天數) ) + xlab("aminoglycosides使用總量")
ggplot(data) + geom_point(aes(x = medic_day[,"aminoglycosides"],
                              y = as.numeric(obs.X[,8:16] %*% classify_beta(b)[[4]]) )    ) + 
  ylab("f_4(aminoglycosides)") + xlab("aminoglycosides使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"aminoglycosides"],
                              y = as.numeric(obs.X[,8:16] %*% classify_beta(b)[[4]]) )    ) + 
  ylab("f_4(aminoglycosides)") + xlab("aminoglycosides使用總量") 
```

## 5.carbapenems: $nonlinear$

```{r ,echo=FALSE}
# group5 carbapenems
ggplot(data) + geom_point(aes(x = medic_day[,"carbapenems"], y = 住院天數) ) + xlab("carbapenems使用天數")
ggplot(data) + geom_point(aes(x = medic[,"carbapenems"], y = 住院天數) ) + xlab("carbapenems使用總量")
ggplot(data) + geom_point(aes(x = medic_day[,"carbapenems"],
                              y = as.numeric(obs.X[,17:25] %*% classify_beta(b)[[5]]) )    ) + 
  ylab("f_5(carbapenems)") + xlab("carbapenems使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"carbapenems"],
                              y = as.numeric(obs.X[,17:25] %*% classify_beta(b)[[5]]) )    ) + 
  ylab("f_5(carbapenems)") + xlab("carbapenems使用總量") 
```

## 6.cephalosporins: $nonlinear$

```{r ,echo=FALSE}
# group6 cephalosporins
ggplot(data) + geom_point(aes(x = medic_day[,"cephalosporins"], y = 住院天數) ) + xlab("cephalosporins使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"cephalosporins"], y = 住院天數) ) + xlab("cephalosporins使用總量")
ggplot(data) + geom_point(aes(x = medic_day[,"cephalosporins"],
                              y = as.numeric(obs.X[,26:34] %*% classify_beta(b)[[6]]) )    ) + 
  ylab("f_6(aminoglycosides)") + xlab("cephalosporins使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"cephalosporins"],
                              y = as.numeric(obs.X[,26:34] %*% classify_beta(b)[[6]]) )    ) + 
  ylab("f_6(aminoglycosides)") + xlab("cephalosporins使用總量") 
```

## 7.fluoroquinolones: $nonlinear$

```{r ,echo=FALSE}
# group7 fluoroquinolones
ggplot(data) + geom_point(aes(x = medic_day[,"fluoroquinolones"], y = 住院天數) ) + xlab("fluoroquinolones使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"fluoroquinolones"], y = 住院天數) ) + xlab("fluoroquinolones使用總量") 
ggplot(data) + geom_point(aes(x = medic_day[,"fluoroquinolones"],
                              y = as.numeric(obs.X[,35:43] %*% classify_beta(b)[[7]]) )    ) + 
  ylab("f_7(fluoroquinolones)") + xlab("fluoroquinolones使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"fluoroquinolones"],
                              y = as.numeric(obs.X[,35:43] %*% classify_beta(b)[[7]]) )    ) + 
  ylab("f_7(fluoroquinolones)") + xlab("fluoroquinolones使用總量") 
```

## 8.glycopeptide: $nonlinear$

```{r ,echo=FALSE}
# group8 glycopeptide
ggplot(data) + geom_point(aes(x = medic_day[,"glycopeptide"], y = 住院天數) ) + xlab("glycopeptide使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"glycopeptide"], y = 住院天數) ) + xlab("glycopeptide使用總量")
ggplot(data) + geom_point(aes(x = medic_day[,"glycopeptide"],
                              y = as.numeric(obs.X[,44:52] %*% classify_beta(b)[[8]]) )    ) + 
  ylab("f_8(glycopeptide)") + xlab("glycopeptide使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"glycopeptide"],
                              y = as.numeric(obs.X[,44:52] %*% classify_beta(b)[[8]]) )    ) + 
  ylab("f_8(glycopeptide)") + xlab("glycopeptide使用總量")
```

## 9.others: $nonlinear$

```{r ,echo=FALSE}
# group9 others
ggplot(data) + geom_point(aes(x = medic_day[,"others"], y = 住院天數) ) + xlab("others使用天數")  
ggplot(data) + geom_point(aes(x = medic[,"others"], y = 住院天數) ) + xlab("others使用總量") 
ggplot(data) + geom_point(aes(x = medic_day[,"others"],
                              y = as.numeric(obs.X[,53:61] %*% classify_beta(b)[[9]]) )    ) + 
  ylab("f_9(others)") + xlab("others使用天數") 
ggplot(data) + geom_point(aes(x = medic[,"others"],
                              y = as.numeric(obs.X[,53:61] %*% classify_beta(b)[[9]]) )    ) + 
  ylab("f_9(others)") + xlab("others使用總量") 
```

## 10.penicillins: $nonlinear$

```{r ,echo=FALSE}
# group10 penicillins
ggplot(data) + geom_point(aes(x = medic_day[,"penicillins"], y = 住院天數) ) + xlab("penicillins使用天數")  
ggplot(data) + geom_point(aes(x = medic[,"penicillins"], y = 住院天數) ) + xlab("penicillins使用總量")  
ggplot(data) + geom_point(aes(x = medic_day[,"penicillins"],
                              y = as.numeric(obs.X[,62:70] %*% classify_beta(b)[[10]]) )    ) + 
  ylab("f_10(penicillins)") + xlab("penicillins使用天數")  
ggplot(data) + geom_point(aes(x = medic[,"penicillins"],
                              y = as.numeric(obs.X[,62:70] %*% classify_beta(b)[[10]]) )    ) + 
  ylab("f_10(penicillins)") + xlab("penicillins使用總量")  
```



### 若只考慮藥品使用天數，亦即因素為: **性別**、**年齡**、**體重**、**(7種)藥品使用的天數**。


- 性別: $\times$
- 年齡: $nonlinear$
- 體重: $\times$
- aminoglycosides: $nonlinear$
- carbapenems: $linear$
- cephalosporins: $linear$
- fluoroquinolones: $nonlinear$
- glycopeptide: $linear$
- others: $\times$
- penicillins: $nonlinear$



```{r ,echo=FALSE ,include=FALSE}
rm(list = ls()); gc()
load("C:/Users/Master/Desktop/黃三/real data/0602/centralized data 天數體重.RData")
classify_beta(b)
```


## 1.aminoglycosides: $nonlinear$

```{r ,echo=FALSE}
# group4 aminoglycosides
ggplot(data) + geom_point(aes(x = medic_day[,"aminoglycosides"], y = 住院天數) ) + xlab("aminoglycosides使用天數")
ggplot(data) + geom_point(aes(x = medic_day[,"aminoglycosides"],
                              y = as.numeric(obs.X[,8:10] %*% classify_beta(b)[[4]]) )    ) + 
  ylab("f_4(aminoglycosides)") + xlab("aminoglycosides使用天數") 
```

## 2.carbapenems: $nonlinear$

```{r ,echo=FALSE}
# group5 carbapenems
ggplot(data) + geom_point(aes(x = medic_day[,"carbapenems"], y = 住院天數) ) + xlab("carbapenems使用天數")
ggplot(data) + geom_point(aes(x = medic_day[,"carbapenems"],
                              y = as.numeric(obs.X[,11:13] %*% classify_beta(b)[[5]]) )    ) + 
  ylab("f_5(carbapenems)") + xlab("carbapenems使用天數") 
```

## 3.cephalosporins: $nonlinear$

```{r ,echo=FALSE}
# group6 cephalosporins
ggplot(data) + geom_point(aes(x = medic_day[,"cephalosporins"], y = 住院天數) ) + xlab("cephalosporins使用天數") 
ggplot(data) + geom_point(aes(x = medic_day[,"cephalosporins"],
                              y = as.numeric(obs.X[,14:16] %*% classify_beta(b)[[6]]) )    ) + 
  ylab("f_6(aminoglycosides)") + xlab("cephalosporins使用天數") 
```

## 4.fluoroquinolones: $nonlinear$

```{r ,echo=FALSE}
# group7 fluoroquinolones
ggplot(data) + geom_point(aes(x = medic_day[,"fluoroquinolones"], y = 住院天數) ) + xlab("fluoroquinolones使用天數") 
ggplot(data) + geom_point(aes(x = medic_day[,"fluoroquinolones"],
                              y = as.numeric(obs.X[,17:19] %*% classify_beta(b)[[7]]) )    ) + 
  ylab("f_7(fluoroquinolones)") + xlab("fluoroquinolones使用天數") 
```

## 5.glycopeptide: $nonlinear$

```{r ,echo=FALSE}
# group8 glycopeptide
ggplot(data) + geom_point(aes(x = medic_day[,"glycopeptide"], y = 住院天數) ) + xlab("glycopeptide使用天數") 
ggplot(data) + geom_point(aes(x = medic_day[,"glycopeptide"],
                              y = as.numeric(obs.X[,20:22] %*% classify_beta(b)[[8]]) )    ) + 
  ylab("f_8(glycopeptide)") + xlab("glycopeptide使用天數") 
```

## 6.others: $nonlinear$

```{r ,echo=FALSE}
# group9 others
ggplot(data) + geom_point(aes(x = medic_day[,"others"], y = 住院天數) ) + xlab("others使用天數")  
ggplot(data) + geom_point(aes(x = medic_day[,"others"],
                              y = as.numeric(obs.X[,23:25] %*% classify_beta(b)[[9]]) )    ) + 
  ylab("f_9(others)") + xlab("others使用天數") 
```

## 7.penicillins: $nonlinear$

```{r ,echo=FALSE}
# group10 penicillins
ggplot(data) + geom_point(aes(x = medic_day[,"penicillins"], y = 住院天數)) + xlab("penicillins使用天數")  
ggplot(data) + geom_point(aes(x = medic_day[,"penicillins"],
                              y = as.numeric(obs.X[,26:28] %*% classify_beta(b)[[10]]) )    ) + 
  ylab("f_10(penicillins)") + xlab("penicillins使用天數")  
```


