如何将 DataFrame 转置后导出为 Excel 文件_技术教程

本文详解如何正确转置 pandas dataframe 并保存为 excel 文件，解决因误用 `pivot()` 中 `index=none` 导致的 keyerror，并提供两

种简洁、健壮的转置方案。

在数据处理流程中，将 Word 文档提取的键值对（如候选人信息）结构化为 DataFrame 后导出为 Excel 是常见需求；而进一步按字段横向展开、以单行形式呈现一条完整记录（即“关键词作列名，对应值作单元格内容”），本质上需要的是行列互换——也就是 DataFrame 的转置（transpose）。但原代码中错误地调用了 df.pivot(index=None, ...)，导致 Pandas 尝试查找名为 None 的列索引，从而抛出 KeyError: None。

✅ 正确转置的两种推荐方式

方式一：set_index().T（推荐，语义清晰且结果规整）

# 基于原始 filtered_df（含 'Keyword' 和 'Value' 两列）
transposed_df = filtered_df.set_index('Keyword').T.reset_index(drop=True)

set_index('Keyword') 将关键词设为行索引；
.T 执行转置：原列名（Keyword）变为行索引，原行数据变为列；
.reset_index(drop=True) 移除默认生成的索引列（避免出现冗余的 index 列），使结果为纯数据表，适合直接写入 Excel。

方式二：transpose()（更直观，但需注意列名处理）

# 若 filtered_df 有重复 Keyword 或非唯一值，此法可能产生多级列索引，慎用
transposed_df = filtered_df.transpose()
transposed_df.columns = filtered_df['Keyword'].values  # 手动设列名为关键词
transposed_df = transposed_df.iloc[1:].reset_index(drop=True)  # 剔除原 'Keyword' 行

⚠️ 注意：该方式在 filtered_df 存在重复关键词时易出错，且需手动清理行列结构，不推荐用于生产环境。

✅ 完整修正后的 generate_excel_from_data 函数

def generate_excel_from_data(data, selected_keys, output_file):
    df = pd.DataFrame(data, columns=['Keyword', 'Value'])
    filtered_df = df[df['Keyword'].isin(selected_keys)]

    # ✅ 正确转置：设 Keyword 为索引后转置，再重置索引
    transposed_df = filtered_df.set_index('Keyword').T.reset_index(drop=True)

    # 可选：确保列顺序与 selected_keys 一致（提升可读性）
    transposed_df = transposed_df[selected_keys]

    # 导出为 Excel（index=False 避免写入行号）
    transposed_df.to_excel(output_file, index=False)
    print(f"✅ Excel 文件已生成：{output_file}")

? 关键注意事项

去重保障：Word 提取逻辑中若同一关键词多次出现（如多个表格含“Candidate name”），filtered_df 可能含重复行。建议在 set_index() 前添加去重：
```
filtered_df = filtered_df.drop_duplicates(subset='Keyword', keep='first')
```
缺失值处理：若某关键词未提取到值，对应列将为 NaN；可统一填充为空字符串：
```
transposed_df = transposed_df.fillna('')
```
Excel 兼容性：to_excel() 默认使用 openpyxl 引擎，确保已安装：pip install openpyxl。

通过以上调整，你将获得一个单行、多列、列名为关键词、单元格为对应值的标准 Excel 表格，完全满足 HR 简历信息汇总等业务场景需求。