数据集的组成部分
除了数据之外,在结构化数据集中我们还可以找到以下元素。
行:这些是组织数据的基本组。例如,如果我们有一个包含客户信息的数据集,则每一行都可以代表一个特定的客户。或者,如果我们有一个记录销售额的数据集,则每一行都可以代表一个特定的交易。简而言之,行是数据库中的每个条目。
列:这些是组成行的每个部分,我们可以在其中找到它们的特征或信息。继续以客户为例,每一列将包含有关客户的信息,例如他们的姓名、年龄、购买历史记录...类似地,在销售示例中,每一列将指示该交易的特征,例如时间和日期。已经做了什么以及花费了多少。简而言之,列是每个条目的属性。
值:是我们在每行和每列中找到的数据,可以采用不同的格式。
数据集类型
根据格式划分的数据集类型
数字:它仅包含数字形式的数据,使用它您基本上可以进行定量和统计分析。这就是为什么它特别用于科学、统计和金融领域。
文本:在这种情况下,信息是单词和字符格式,主要用于训练自然语言模型和开发机器翻译工具。在这组数据中,我们可以找到研究、新闻、评论、社交网络上的出版物、文章、博客、论坛......
它们是标准用户最容易接触到的,并且许多可以在公共在线存储库中找到。
视频和图像:顾名思义,它们包含视频和图像格式的数据,主要用于训练负责解释和分析图像或视频以及识别其中模式的计算机系统;简而言之,就是所谓的计算机视觉模型。
根据结构划分的数据集类型
表格(结构化数据集)
它们是最常见的,优点是直观、易于理解,因此不需要高技术知识的用户也可以使用。关系数据库和电子表格是结构化数据集的示例。
另一方面,它们可以进行高效、快速的分析,也广泛应用于营销和金融等领域。
数据没有组织,使得处理和分析变得更加困难。非结构化数据集的一个完美示例就是电子邮件中的电子邮件。
与结构化数据集一样,在这种类型中,我们还可以根据其格式包含不同的数据集。
在哪里可以找到数据集?
首先,您应该知道任何人都可以通 印度地址格式 过数字化存储数据和信息来创建数据集。然而,有些用户决定发布它们(自主地或因为这是他们工作的一部分)以便公众可以访问它们。
从这个意义上说,我们可以找到公共(免费)或私有数据集。
对于公共数据集,任何用户都可以访问它们,并且可以在Google数据搜索或FiveThrityEight等特定平台上找到它们。第一个可能是公司信息方面最大的在线数据集搜索引擎。第二个包含大量有关政治、体育和全球调查的数据。两者都很可靠,您可以在您的项目中免费使用它们。
就其本身而言,私人数据集通常由私人公司或组织购买,由于数据不公开,因此在存储和处理数据时必须特别注意其隐私,因为它通常是网络攻击的目标。
在私人数据集中,我们还发现了不属于公共领域的极其敏感的政府数据,因此并非每个人都可以访问。