场景题：项目上需要导入一个几百万数据 excel 文件到数据库中，有哪些注意点？

在项目中导入一个几百万数据的 Excel 文件到数据库时，需要考虑多个方面的优化和注意事项，以确保数据导入的高效性、稳定性和安全性。以下是一些关键点和解决方案：

1. 数据导入的挑战

文件解析性能：Excel 文件解析（尤其是大文件）可能占用大量内存和 CPU。
数据库写入性能：逐条插入数据会导致数据库性能瓶颈。
内存占用：一次性加载整个文件可能导致内存溢出（OOM）。
事务管理：如何保证数据导入的原子性和一致性。
错误处理：如何处理数据格式错误、重复数据或数据库约束冲突。
用户体验：如何避免导入过程中阻塞用户请求或导致系统不可用。

2. 数据导入的优化方案

(1) 文件解析优化

使用流式读取：避免一次性加载整个文件到内存中，使用流式读取（如 Apache POI 的 SXSSFWorkbook 或 EasyExcel）。
分片读取：将文件拆分为多个小文件，分批次处理。
多线程解析：利用多线程并行解析文件（需注意线程安全）。

(2) 数据库写入优化

批量插入：使用批量插入（Batch Insert）减少数据库交互次数。
使用数据库工具：如 MySQL 的 LOAD DATA INFILE 或 PostgreSQL 的 COPY 命令，直接导入文件。
关闭索引和约束：在导入数据前暂时关闭索引和约束，导入完成后再重新启用。

(3) 内存优化

分批次处理：将数据分批次读取和写入，避免一次性加载到内存。
垃圾回收优化：合理设置 JVM 内存参数，避免频繁 Full GC。

(4) 事务管理

分批次提交：每批次数据提交一次事务，避免单次事务过大。
事务回滚：如果某批次数据导入失败，回滚当前批次并记录错误日志。

(5) 错误处理

数据校验：在导入前校验数据格式、唯一性、外键约束等。
错误重试：对于网络抖动或数据库连接问题，实现重试机制。
日志记录：记录导入失败的记录，便于后续人工处理。

(6) 异步导入

消息队列：将文件解析和数据写入分离，通过消息队列（如 Kafka、RabbitMQ）异步处理。
任务队列：使用任务队列（如 Redis、Celery）将导入任务放入后台执行。

(7) 用户体验

进度反馈：提供导入进度查询接口，让用户了解导入状态。
分阶段导入：先快速导入部分数据，再逐步导入剩余数据。

3. 具体实现示例

(1) 使用 EasyExcel 和批量插入


// 数据模型
public class DataModel {
    private String field1;
    private String field2;
    // getters and setters
}
// 监听器
public class DataListener extends AnalysisEventListener<DataModel> {
    private static final int BATCH_SIZE = 1000;
    private List<DataModel> batchList = new ArrayList<>();
    @Override
    public void invoke(DataModel data, AnalysisContext context) {
        batchList.add(data);
        if (batchList.size() >= BATCH_SIZE) {
            saveBatch(batchList);
            batchList.clear();
        }
    }
    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        if (!batchList.isEmpty()) {
            saveBatch(batchList);
        }
    }
    private void saveBatch(List<DataModel> batchList) {
        // 批量插入数据库
        jdbcTemplate.batchUpdate("INSERT INTO table (field1, field2) VALUES (?, ?)",
                batchList.stream()
                        .map(data -> new Object[]{data.getField1(), data.getField2()})
                        .collect(Collectors.toList()));
    }
}
// 导入入口
public void importData(MultipartFile file) {
    EasyExcel.read(file.getInputStream(), DataModel.class, new DataListener()).sheet().doRead();
}
// 数据模型
public class DataModel {
    private String field1;
    private String field2;
    // getters and setters
}

// 监听器
public class DataListener extends AnalysisEventListener<DataModel> {
    private static final int BATCH_SIZE = 1000;
    private List<DataModel> batchList = new ArrayList<>();

    @Override
    public void invoke(DataModel data, AnalysisContext context) {
        batchList.add(data);
        if (batchList.size() >= BATCH_SIZE) {
            saveBatch(batchList);
            batchList.clear();
        }
    }

    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        if (!batchList.isEmpty()) {
            saveBatch(batchList);
        }
    }

    private void saveBatch(List<DataModel> batchList) {
        // 批量插入数据库
        jdbcTemplate.batchUpdate("INSERT INTO table (field1, field2) VALUES (?, ?)",
                batchList.stream()
                        .map(data -> new Object[]{data.getField1(), data.getField2()})
                        .collect(Collectors.toList()));
    }
}

// 导入入口
public void importData(MultipartFile file) {
    EasyExcel.read(file.getInputStream(), DataModel.class, new DataListener()).sheet().doRead();
}
// 数据模型
public class DataModel {
    private String field1;
    private String field2;
    // getters and setters
}

// 监听器
public class DataListener extends AnalysisEventListener<DataModel> {
    private static final int BATCH_SIZE = 1000;
    private List<DataModel> batchList = new ArrayList<>();

    @Override
    public void invoke(DataModel data, AnalysisContext context) {
        batchList.add(data);
        if (batchList.size() >= BATCH_SIZE) {
            saveBatch(batchList);
            batchList.clear();
        }
    }

    @Override
    public void doAfterAllAnalysed(AnalysisContext context) {
        if (!batchList.isEmpty()) {
            saveBatch(batchList);
        }
    }

    private void saveBatch(List<DataModel> batchList) {
        // 批量插入数据库
        jdbcTemplate.batchUpdate("INSERT INTO table (field1, field2) VALUES (?, ?)",
                batchList.stream()
                        .map(data -> new Object[]{data.getField1(), data.getField2()})
                        .collect(Collectors.toList()));
    }
}

// 导入入口
public void importData(MultipartFile file) {
    EasyExcel.read(file.getInputStream(), DataModel.class, new DataListener()).sheet().doRead();
}

(2) 使用 MySQL 的 LOAD DATA INFILE


LOAD DATA INFILE 'file.csv'
INTO TABLE table_name
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(field1, field2);
LOAD DATA INFILE 'file.csv'
INTO TABLE table_name
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(field1, field2);
LOAD DATA INFILE 'file.csv'
INTO TABLE table_name
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
(field1, field2);