📰 来源: 博客园
本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。
整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。
非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。
查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21)
直接打开即可:https://tooli.fun/duckdb_shell
step2:导入数据,并确认数据结构
输入命令并回车: .files add
在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。
查看导入结果: .files list
select * from 'tmp_dim_company_simple.csv' limit 3;
step3:生成SQL,查询数据
你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。
## 以下是各个数据集的结构说明
### 数据集1:
文件名称:tmp_dim_company_simple.csv
前3行数据:
duckdb> select * from tmp_dim_company_simple.csv limit 3;
┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐
│ column0 ┆ column1 ┆ column2 ┆ column3 ┆ column4 ┆ column5 │
╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡
│ 000001.SZ ┆ SZSE ┆ 1940590.0 ┆ 1987-12-22T00:00:00 ┆ 广东 ┆ 深圳市 │
│ 000002.SZ ┆ SZSE ┆ 1162540.0 ┆ 1984-05-30T00:00:00 ┆ 广东 ┆ 深圳市 │
│ 000003.SZ ┆ SZSE ┆ 40012.0 ┆ 1988-03-10T00:00:00 ┆ 广东 ┆ 深圳市 │
└───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘
上级的需求:查询各个省份的上市公司数量
SELECT
column4 AS province,
COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC;
但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL;
step4:优化SQL并导出数据
COPY (
SELECT
column4 AS province,
COUNT(*) AS company_count
FROM 'tmp_dim_company_simple.csv'
GROUP BY column4
ORDER BY company_count DESC
) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ',');
执行SQL,查看导出结果并下载文件。
step5:整理并绘制数据图表
打开工具:中国地图数据投影
下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。最终数据格式:
广东,844
浙江,664
江苏,630
北京,460
上海,430
山东,283
四川,176
福建,175
安徽,160
湖
🔗 原文链接: 点击阅读原文
文章评论