郭震 AI公众号:郭震AI

7 数据预处理之数据收集

发布日期:

最近更新:

分类: 机器学习小白

预计阅读: 4 分钟

阅读次数: 0

预计阅读4 分钟
结构重点6 个
图文要点6 张
正文规模1.6k 字

整理说明

这篇内容怎么整理

郭震 · 2026-06-04

独立整理围绕 6 个结构重点拆成环境、步骤、验证点和常见误区,尽量让读者能照着复现。
图文对照保留 6 张和配置、流程、判断结果有关的图片,方便快速定位正文重点。
持续校对工具、模型和命令变化较快,后续优先修正入口、参数和风险提醒。

阅读路线

先按这条路线读

先抓住主线,再回到代码、配置和图文细节,读起来会更稳。

图文要点

先看本文图文节点

按图先建立主线,再跳回正文核对步骤、配置和判断标准。

数据收集流程图查看大图
数据收集流程图

数据收集不是越多越好。来源是否可靠,字段是否稳定,采集时间是否一致,是否有使用授权,都会影响模型能不能上线。

数据收集核对图查看大图
数据收集核对图

收集数据时,我会保留一张数据来源表:谁提供、何时提供、字段含义、能否商用、是否包含敏感信息。

在上篇文章中,我们介绍了机器学习的工作流程,了解了机器学习项目的基本框架和各个环节的联系。本篇文章将深入探讨数据预处理中至关重要的一步:数据收集。这一步骤是构建有效的机器学习模型的基础,因为没有高质量的数据,任何算法的效果都会大打折扣。

数据收集的目的

数据收集的主要目的是获取与问题相关的、具有代表性的数据集,这些数据将用于训练、验证和测试我们的机器学习模型。数据的类型和质量直接影响到模型的性能和泛化能力。因此,在这一阶段,确保数据的全面性和相关性是非常关键的。

机器学习数据收集判断卡查看大图
机器学习数据收集判断卡

做机器学习数据收集时,先写清预测目标、样本单位、字段来源、标签生成方式和采集偏差。

数据收集的来源

数据收集可以从多个途径进行,常见的来源包括:

机器学习阅读地图卡查看大图
机器学习阅读地图卡

学《数据预处理之数据收集》时,可以先找一个自己能复现的小场景,再看相关概念和练习步骤,读完后用自己的例子复述一遍。

  1. 公开数据集: 众多研究机构和公司会公开数据集供研究与学习使用。例如,Kaggle、UCI Machine Learning Repository 和 Open Data Portal等平台上有丰富的机器学习数据集。

  2. 网络爬虫: 利用爬虫技术从网页上收集数据。例如,通过 Python 的 requestsBeautifulSoup 库来抓取网页信息。

  3. API接口: 利用各种开放的API进行数据获取。这种方式可以获取实时数据。例如,使用 Twitter API 获取推文数据。

  4. 自我生成数据: 在某些情况下,如果没有相关数据集,可以通过模拟或实验生成数据。

  5. 商业数据: 企业内部数据,如用户行为数据、交易记录等,通常为机器学习模型提供了非常丰富的背景信息。

数据收集的案例

接下来,我们通过一个实际的代码示例来看如何从公开API获取数据。在这里,我们将使用 Python 的 requests 库来获取某城市的天气数据。

使用 API 获取天气数据

首先,你需要安装 requests 库,打开终端执行以下命令:

pip install requests

然后,你可以使用以下代码获取天气数据:

import requests

# 设置API的URL和参数
api_key = '你的API密钥'
city = 'Beijing'
url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric'

# 发送GET请求
response = requests.get(url)

# 检查响应状态
if response.status_code == 200:
    data = response.json()  # 获取JSON数据
    temperature = data['main']['temp']
    weather_description = data['weather'][0]['description']
    print(f"{city}的温度是{temperature}°C,天气情况是{weather_description}。")
else:
    print("获取数据失败: ", response.status_code)

在上面的示例中,我们通过 requests.get() 方法发送 HTTP 请求,并通过 API 获取了指定城市的天气数据。注意替换 '你的API密钥' 为实际的密钥。

数据收集中的注意事项

在进行数据收集时,需要注意以下几点:

  1. 数据的合法性: 在收集数据时,必须遵守相关的法律法规,确保数据的合法获取和使用。

  2. 数据的真实性与时效性: 确保所收集数据的真实性,并关注数据的时效性,尤其是对于快速变化的领域。

  3. 数据的多样性: 收集多样化的数据样本可以帮助模型更好地学习特征,提高泛化能力。

  4. 数据的格式: 确保收集的数据格式一致,并保持数据结构的清晰。

数据预处理之数据收集应用复盘卡查看大图
数据预处理之数据收集应用复盘卡

如果《数据预处理之数据收集》还没完全消化,可以从这张卡片的四个动作重新走一遍。

数据预处理之数据收集应用检查卡查看大图
数据预处理之数据收集应用检查卡

回看《数据预处理之数据收集》时,不必一次做大项目,先用一条简单样例确认主线是否清楚。

小结

通过以上的介绍,我们了解了数据收集在机器学习中的重要性和多种实现方法。数据收集不仅影响后续的数据预处理,还为模型的训练提供了坚实的基础。做好数据收集后,我们可以顺利进入到数据清洗的阶段,为模型构建准备好干净、整洁的数据。

在后续的文章中,我们将探讨数据预处理中的另一个重要环节:数据清洗。在数据清洗的过程中,我们需要对收集到的数据进行处理和调整,以确保模型可以从中提取出有用的信息。希望大家继续关注!

继续阅读

从这篇继续找到相关教程

AI 教程总索引

常见问题

读前先确认这三点

数据预处理之数据收集适合谁读?

这是 机器学习入门 系列第 7 / 21 篇,适合正在学习机器学习入门,并且需要把概念落到操作步骤或判断标准里的读者。

读这篇机器学习入门教程要多久?

按中文技术文章阅读速度估算,通读大约 4 分钟;如果要跟着复现,建议把命令、配置和结果检查分开做。

这篇文章里的图文节点怎么用?

正文里有 6 个图文节点,可以先用它们抓住流程、配置和判断点,再回到对应段落细读。

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关教程

AI 教程总索引

继续阅读

继续找到相关 AI 教程

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...