7 数据预处理之数据收集

Q: 数据预处理之数据收集适合谁读？

这是 机器学习入门 系列第 7 / 21 篇，适合正在学习机器学习入门，并且需要把概念落到操作步骤或判断标准里的读者。

发布日期: 2024-08-10

最近更新: 2026-06-04

分类: 机器学习小白

预计阅读: 4 分钟

阅读次数: 0

系列进度

机器学习入门 · 第 7 / 21 篇

上一篇机器学习基础之机器学习工作流程下一篇数据预处理之数据清洗

预计阅读4 分钟

结构重点6 个

图文要点6 张

正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区，尽量让读者能照着复现。

图文对照保留 6 张和配置、流程、判断结果有关的图片，方便快速定位正文重点。

持续校对工具、模型和命令变化较快，后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线，再回到代码、配置和图文细节，读起来会更稳。

01第 1 步数据收集的目的 02第 2 步数据收集的来源 03第 3 步数据收集的案例 04第 4 步数据收集中的注意事项 05第 5 步小结

图文要点

先看本文图文节点

按图先建立主线，再跳回正文核对步骤、配置和判断标准。

6 张图 · 可跳转本系列图文节点更多图解入口

图 01 · 主线数据收集流程图跳到对应正文位置

图 02 · 步骤数据收集核对图跳到对应正文位置

图 03 · 配置机器学习数据收集判断卡跳到对应正文位置

图 04 · 判断机器学习阅读地图卡跳到对应正文位置

图 05 · 复盘数据预处理之数据收集应用复盘卡跳到对应正文位置

图 06 · 细节数据预处理之数据收集应用检查卡跳到对应正文位置

数据收集不是越多越好。来源是否可靠，字段是否稳定，采集时间是否一致，是否有使用授权，都会影响模型能不能上线。

收集数据时，我会保留一张数据来源表：谁提供、何时提供、字段含义、能否商用、是否包含敏感信息。

在上篇文章中，我们介绍了机器学习的工作流程，了解了机器学习项目的基本框架和各个环节的联系。本篇文章将深入探讨数据预处理中至关重要的一步：数据收集。这一步骤是构建有效的机器学习模型的基础，因为没有高质量的数据，任何算法的效果都会大打折扣。

数据收集的目的

数据收集的主要目的是获取与问题相关的、具有代表性的数据集，这些数据将用于训练、验证和测试我们的机器学习模型。数据的类型和质量直接影响到模型的性能和泛化能力。因此，在这一阶段，确保数据的全面性和相关性是非常关键的。

做机器学习数据收集时，先写清预测目标、样本单位、字段来源、标签生成方式和采集偏差。

数据收集的来源

数据收集可以从多个途径进行，常见的来源包括：

学《数据预处理之数据收集》时，可以先找一个自己能复现的小场景，再看相关概念和练习步骤，读完后用自己的例子复述一遍。

公开数据集: 众多研究机构和公司会公开数据集供研究与学习使用。例如，Kaggle、UCI Machine Learning Repository 和 Open Data Portal等平台上有丰富的机器学习数据集。
网络爬虫: 利用爬虫技术从网页上收集数据。例如，通过 Python 的 requests 和 BeautifulSoup 库来抓取网页信息。
API接口: 利用各种开放的API进行数据获取。这种方式可以获取实时数据。例如，使用 Twitter API 获取推文数据。
自我生成数据: 在某些情况下，如果没有相关数据集，可以通过模拟或实验生成数据。
商业数据: 企业内部数据，如用户行为数据、交易记录等，通常为机器学习模型提供了非常丰富的背景信息。

数据收集的案例

接下来，我们通过一个实际的代码示例来看如何从公开API获取数据。在这里，我们将使用 Python 的 requests 库来获取某城市的天气数据。

使用 API 获取天气数据

首先，你需要安装 requests 库，打开终端执行以下命令：

pip install requests

然后，你可以使用以下代码获取天气数据：

import requests

# 设置API的URL和参数
api_key = '你的API密钥'
city = 'Beijing'
url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric'

# 发送GET请求
response = requests.get(url)

# 检查响应状态
if response.status_code == 200:
    data = response.json()  # 获取JSON数据
    temperature = data['main']['temp']
    weather_description = data['weather'][0]['description']
    print(f"{city}的温度是{temperature}°C，天气情况是{weather_description}。")
else:
    print("获取数据失败: ", response.status_code)