分组
2 位同学一组,自愿组队。
作业内容:电子病历分类任务
数据集
文件结构如下:
.
├── sample_submission_2.csv
├── test_dataset.csv
└── training_dataset.csv包含**23789**个电子病历样本,其中**18789**个为包含标签的训练集样本,**5000**个为待预测标签的测试集样本。
每个样本中包含病人基础信息、病史、化验结果等137项病历信息。
测试集仅包含病历信息,训练集除了病历信息外,最后一列label表示分类标签:
输入输出
要求根据最终的模型,输出测试集中每个病历样本分别属于0-5类的概率(0-1之间)。
汇报
第14周习题课时,以小组为单位准备PPT,进行汇报,每组时长约5分钟;
提交代码文件(zip格式,包含运行结果)到https://cloud.xycpp.org/s/b2LYYQMedKbGKPn
格式:学号1姓名1_学号2姓名2