首页 > 分享 > 数据非数字

数据非数字

目录 基础变量方法一方法二方法三 基础变量

# 查看非数字变量属性名称 s = (X_train.dtypes == 'object') object_cols = list(s[s].index) print("Categorical variables:") print(object_cols) 123456

数据来源于墨尔本房价预测
墨尔本房价预测

方法一

# 将含有非数字变量的数据删除并计算MAE drop_X_train = X_train.select_dtypes(exclude=['object']) drop_X_valid = X_valid.select_dtypes(exclude=['object']) print("MAE from Approach 1 (Drop categorical variables):") print(score_dataset(drop_X_train, drop_X_valid, y_train, y_valid)) 123456


方法二

# Make copy to avoid changing original data label_X_train = X_train.copy() label_X_valid = X_valid.copy() # Apply label encoder to each column with categorical data label_encoder = LabelEncoder() for col in object_cols: label_X_train[col] = label_encoder.fit_transform(X_train[col]) label_X_valid[col] = label_encoder.transform(X_valid[col]) print("MAE from Approach 2 (Label Encoding):") print(score_dataset(label_X_train, label_X_valid, y_train, y_valid)) 12345678910111213

方法三

from sklearn.preprocessing import OneHotEncoder # Apply one-hot encoder to each column with categorical data OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False) OH_cols_train = pd.DataFrame(OH_encoder.fit_transform(X_train[object_cols])) OH_cols_valid = pd.DataFrame(OH_encoder.transform(X_valid[object_cols])) # One-hot encoding removed index; put it back OH_cols_train.index = X_train.index OH_cols_valid.index = X_valid.index # Remove categorical columns (will replace with one-hot encoding) num_X_train = X_train.drop(object_cols, axis=1) num_X_valid = X_valid.drop(object_cols, axis=1) # Add one-hot encoded columns to numerical features OH_X_train = pd.concat([num_X_train, OH_cols_train], axis=1) OH_X_valid = pd.concat([num_X_valid, OH_cols_valid], axis=1) print("MAE from Approach 3 (One-Hot Encoding):") print(score_dataset(OH_X_train, OH_X_valid, y_train, y_valid)) 123456789101112131415161718192021

handle_unknown=‘ignore’:避免在验证数据包含训练数据中没有表示的类时出现错误设置
sparse=False:可以确保以numpy数组(而不是稀疏矩阵)的形式返回已编码的列

相关知识

数据非数字
大数据法律监督丨庆阳市院举办数字检察工作培训会
数字艺术 | 非遗与艺术的碰撞,让人大开眼界!
数字时代的技术与文化
字节投资首位情感连接的数字人?数字人构建方法和元宇宙身份系统
公园数字艺术
仓鼠数字艺术
NFT扫盲:数字藏品+猴子=非你莫属
数字艺术将与传统艺术融合共生
“数智”时代创造艺术的无限可能!数字艺术的多元融合发展

网址: 数据非数字 https://m.mcbbbk.com/newsview296213.html

所属分类:萌宠日常
上一篇: 风靡朋友圈的AI算命=逆天改命?
下一篇: 让你的宠物狗狗安静下来的方法(通