Structured vs Unstructured
这组概念属于数据基础。最重要的不是背定义,而是知道“数据有没有先按固定 schema 建好结构”,这会直接影响存储和分析方式。
点不同样例,看它更接近结构化、半结构化还是非结构化。关键不是文件后缀,而是“固定字段”这件事有多明确。
点卡片翻面。很多人只记“表格 vs 图片”,但真正关键的是 schema、字段和后续处理方式。
现实里很多数据不会一开始就整整齐齐。更常见的路径是:先收原料,再抽取、清洗、建模,最后才能稳定分析。
文档、图片、日志、录音、表单、行为事件都会先进入系统,但它们的形态往往并不一致。
如果字段和类型已经明确,它更接近结构化;如果没有,就得先留原样或做中间抽取。
OCR、文本抽取、日志解析、音频转写、元数据标注,都是把非结构化内容慢慢“变得更可分析”的步骤。
原始内容可能先进数据湖;字段化后的内容更适合进数据仓库或关系型数据库。
一旦结构稳定了,你就可以更方便地做 SQL、指标分析、搜索,或把文本向量化后做语义检索。
很多人把这组概念记成“Excel 是结构化,图片是非结构化”,这不算错,但还不够深。
只要不是表格,就都叫“乱数据”;只要是文本,看起来像字,就算结构化数据。
更准确的理解是:看它有没有预先固定字段和稳定 schema。文本可以是非结构化,JSON 常常是半结构化,表格只是结构化数据里最直观的一种。
这组概念最容易错的,不是术语本身,而是大家会把“能不能分析”误听成“有没有价值”。
把它类比成“先画好表格 vs 先收原材料”很好懂,但别把现实世界想得太二元。
顺着这些概念继续看,会更容易把“数据形态、存储方式、分析工具”放回一张完整地图里。
答完这 3 题,基本就能把“有没有固定字段”这个核心抓稳。