如何将 DataFrame 转置后导出为 Excel 文件

本文详解如何正确转置 pandas dataframe 并保存为 excel 文件,解决因误用 `pivot()` 中 `index=none` 导致的 keyerror,并提供两

种简洁、健壮的转置方案。

在数据处理流程中,将 Word 文档提取的键值对(如候选人信息)结构化为 DataFrame 后导出为 Excel 是常见需求;而进一步按字段横向展开、以单行形式呈现一条完整记录(即“关键词作列名,对应值作单元格内容”),本质上需要的是行列互换——也就是 DataFrame 的转置(transpose)。但原代码中错误地调用了 df.pivot(index=None, ...),导致 Pandas 尝试查找名为 None 的列索引,从而抛出 KeyError: None。

✅ 正确转置的两种推荐方式

方式一:set_index().T(推荐,语义清晰且结果规整)

# 基于原始 filtered_df(含 'Keyword' 和 'Value' 两列)
transposed_df = filtered_df.set_index('Keyword').T.reset_index(drop=True)
  • set_index('Keyword') 将关键词设为行索引;
  • .T 执行转置:原列名(Keyword)变为行索引,原行数据变为列;
  • .reset_index(drop=True) 移除默认生成的索引列(避免出现冗余的 index 列),使结果为纯数据表,适合直接写入 Excel。

方式二:transpose()(更直观,但需注意列名处理)

# 若 filtered_df 有重复 Keyword 或非唯一值,此法可能产生多级列索引,慎用
transposed_df = filtered_df.transpose()
transposed_df.columns = filtered_df['Keyword'].values  # 手动设列名为关键词
transposed_df = transposed_df.iloc[1:].reset_index(drop=True)  # 剔除原 'Keyword' 行

⚠️ 注意:该方式在 filtered_df 存在重复关键词时易出错,且需手动清理行列结构,不推荐用于生产环境

✅ 完整修正后的 generate_excel_from_data 函数

def generate_excel_from_data(data, selected_keys, output_file):
    df = pd.DataFrame(data, columns=['Keyword', 'Value'])
    filtered_df = df[df['Keyword'].isin(selected_keys)]

    # ✅ 正确转置:设 Keyword 为索引后转置,再重置索引
    transposed_df = filtered_df.set_index('Keyword').T.reset_index(drop=True)

    # 可选:确保列顺序与 selected_keys 一致(提升可读性)
    transposed_df = transposed_df[selected_keys]

    # 导出为 Excel(index=False 避免写入行号)
    transposed_df.to_excel(output_file, index=False)
    print(f"✅ Excel 文件已生成:{output_file}")

? 关键注意事项

  • 去重保障:Word 提取逻辑中若同一关键词多次出现(如多个表格含“Candidate name”),filtered_df 可能含重复行。建议在 set_index() 前添加去重:
    filtered_df = filtered_df.drop_duplicates(subset='Keyword', keep='first')
  • 缺失值处理:若某关键词未提取到值,对应列将为 NaN;可统一填充为空字符串:
    transposed_df = transposed_df.fillna('')
  • Excel 兼容性:to_excel() 默认使用 openpyxl 引擎,确保已安装:pip install openpyxl。

通过以上调整,你将获得一个单行、多列、列名为关键词、单元格为对应值的标准 Excel 表格,完全满足 HR 简历信息汇总等业务场景需求。