栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > IT > 软件开发 > 后端开发 > Python

Python处理诊断编码数据

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python处理诊断编码数据

Python处理诊断编码数据

需求:一个诊断名称对应多个诊断编码,取出现次数最多的那一个。

import pandas as pd

df = pd.Dataframe([['糖尿病','1'],['糖尿病','2'],['糖尿病','3'],['糖尿病','1'],['糖尿病',''],['糖尿病',''],
                 ['高血压','1'],['高血压','2'],['高血压','3'],['高血压','1'],['高血压',''],['高血压','']
                 ],columns=['diag_name','code'])

sheet_rows = df.shape[0]
result_file = './result/diag_stand.csv'

#定义Dataframe列名
df_col_names = ['diag_name','code']
#定义1个Dataframe
df_result = pd.Dataframe(columns=df_col_names)

#1.排掉"code"列为空的数据
for row in range(sheet_rows):
    if df.iloc[row, 1] == '':
        continue
    else:
        diag_name = df.iloc[row, 0] #行 列
        code = df.iloc[row, 1]
        df_temp = pd.Dataframe([[diag_name,code]],columns=df_col_names)
        df_result = df_result.append(df_temp, ignore_index=True)

#2.按照diag_name,code分组,统计出现的次数,添加count列,按照diag_name,count分组,降序
gp = df_result.groupby(by=['diag_name','code']).size().reset_index(name='count').sort_values(by=['diag_name','count'],ascending=(False,False))
# print(gp)

#head(1) 每一组取第1条
gp2 = gp.groupby('diag_name').head(1).sort_values(by=['count'],ascending=(False))
gp2.to_csv(result_file,index=False)

处理前数据

处理后数据

reference
1.Python技巧之对Dataframe进行多列排序
https://blog.csdn.net/m0_37637511/article/details/79901071

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/it/280257.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号