本数据集提供多台电机在真实工况下的时序传感器数据,包含正常运行与多种典型故障状态。数据带时间戳,涵盖电流、电压、温度、振动等关键监测指标与运行参数,可直接用于故障检测、效率分析、寿命预测与异常识别,是工业物联网、设备预测性维护与机器学习建模的优质数据集。
制造
文本
表格
本数据集是 UCI 开源的字母识别专用数据集,专为支持向量机解决 26 个英文字母的多分类任务打造,含 20000 条样本、16 个整数型特征。样本由 20 种字体经随机畸变生成,通过图像处理提取字符外接框、像素分布、边缘计数等特征,无缺失值,数据规范,是字符识别、机器学习多分类任务的经典基准数据集。可用于字符识别算法性能验证、多分类模型调优及机器学习教学案例开发等场景。
教育
文本
表格
本数据集为战争经济与民生影响数据集,含 10 万条合成数据,覆盖二战至 2025–2026 年各类冲突。包含冲突信息、失业、贫困、GDP、通胀、货币贬值、黑市规模等多维度指标,真实反映战争对经济与民生的冲击。数据结构完整、指标关联合理,适用于经济建模、人道主义援助分析、机器学习预测、学术研究与政策制定。
社会治理
文本
表格
本数据集收录多平台网红营销活动数据,涵盖 Instagram、YouTube、TikTok、Twitter 等渠道。每条记录包含活动信息、网红垂类、互动量、触达人数、销量、活动时长等关键字段,数据规范完整,可直接用于 ROI 计算、效果对比、趋势分析与投放策略优化,适合营销分析、市场研究与机器学习建模使用。
其他
文本
表格
本数据集是一个大规模、多来源的人类癌症单细胞RNA测序数据集,以标准化的H5AD格式和统一的本体映射(UBERON/MONDO)组织,旨在为肿瘤微环境解析、跨图谱整合及计算方法开发提供高质量、可互操作的数据资源。
医疗
生物&化学
本数据集专注研究背景噪声与人类专注力的关联,包含多组不同噪声环境下的注意力与认知表现观测数据,涵盖噪声强度、声音类型、专注度得分、任务完成效率等维度。数据结构规范、格式干净,支持探索性分析、可视化与机器学习建模,适用于心理学、环境科学、数据科学等领域的研究与教学。
教育
文本
表格
本数据集为竞赛数学问题数据集,包含 12000 + 道覆盖代数等知识点的竞赛数学题,每条数据均含题目描述、1-5 级难度标注、题目类型及分步详细解答。题目难度从基础计算到复杂多步骤竞赛题梯度分布,数据维度完整、标注规范,可直接用于 AI 模型的数学解题、推理能力训练,以及模型解题效果的评估验证。
教育
文本
表格
数据集聚焦 “自然语言 Python 问题 - 代码” 匹配场景,包含 13000 + 条唯一数据样本,核心由 “人类易懂的 Python 问题描述” 和 “对应可执行的 Python 代码” 两列构成。数据覆盖多样化的 Python 编程问题场景,标注精准且无重复样本,专为大语言模型(LLM)的 Python 代码相关能力训练打造,可直接用于模型的训练、微调与效果验证。
教育
文本
表格
本数据集含10000 张验证码图片,每张图片对应10 位随机字符串,文件名即为验证码文本标注,无需额外标签。验证码字符颜色随机、对齐随机,贴近真实场景。数据规范、质量稳定,可直接用于验证码识别、OCR 模型训练、字符检测与算法验证,使用便捷、适用性广。
教育
图像
本数据集包含10000条以上零售业务交易记录,涵盖详细的销售信息,核心包括营收、成本、利润、商品类别、客户细分及支付方式等关键维度,数据完整且贴合零售业务场景。该数据集非常适用于:商业智能项目、Power BI和Tableau仪表盘制作、销售业绩分析、盈利能力分析、机器学习实践,为各类相关任务及商业决策提供精准、实用的基础数据支撑。
消费
表格
航空业是全球成本最高的行业之一。理解航线特征、运营成本与盈利能力之间的关系,对航线网络规划、机队优化和收益管理至关重要。本数据集模拟了一家以迪拜(DXB)为枢纽的中东大型航空公司一整年的航班级财务数据,涵盖 30 条航线,包括短途、中途和长途航线。可用于航司收益管理建模、航线效益评估与枢纽网络运营优化等研究与决策场景。
交通
文本
表格
社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格
本数据集提供多台电机在真实工况下的时序传感器数据,包含正常运行与多种典型故障状态。数据带时间戳,涵盖电流、电压、温度、振动等关键监测指标与运行参数,可直接用于故障检测、效率分析、寿命预测与异常识别,是工业物联网、设备预测性维护与机器学习建模的优质数据集。
制造
文本
表格
本数据集是 UCI 开源的字母识别专用数据集,专为支持向量机解决 26 个英文字母的多分类任务打造,含 20000 条样本、16 个整数型特征。样本由 20 种字体经随机畸变生成,通过图像处理提取字符外接框、像素分布、边缘计数等特征,无缺失值,数据规范,是字符识别、机器学习多分类任务的经典基准数据集。可用于字符识别算法性能验证、多分类模型调优及机器学习教学案例开发等场景。
教育
文本
表格
本数据集为战争经济与民生影响数据集,含 10 万条合成数据,覆盖二战至 2025–2026 年各类冲突。包含冲突信息、失业、贫困、GDP、通胀、货币贬值、黑市规模等多维度指标,真实反映战争对经济与民生的冲击。数据结构完整、指标关联合理,适用于经济建模、人道主义援助分析、机器学习预测、学术研究与政策制定。
社会治理
文本
表格
本数据集收录多平台网红营销活动数据,涵盖 Instagram、YouTube、TikTok、Twitter 等渠道。每条记录包含活动信息、网红垂类、互动量、触达人数、销量、活动时长等关键字段,数据规范完整,可直接用于 ROI 计算、效果对比、趋势分析与投放策略优化,适合营销分析、市场研究与机器学习建模使用。
其他
文本
表格
本数据集是一个大规模、多来源的人类癌症单细胞RNA测序数据集,以标准化的H5AD格式和统一的本体映射(UBERON/MONDO)组织,旨在为肿瘤微环境解析、跨图谱整合及计算方法开发提供高质量、可互操作的数据资源。
医疗
生物&化学
本数据集专注研究背景噪声与人类专注力的关联,包含多组不同噪声环境下的注意力与认知表现观测数据,涵盖噪声强度、声音类型、专注度得分、任务完成效率等维度。数据结构规范、格式干净,支持探索性分析、可视化与机器学习建模,适用于心理学、环境科学、数据科学等领域的研究与教学。
教育
文本
表格
本数据集为竞赛数学问题数据集,包含 12000 + 道覆盖代数等知识点的竞赛数学题,每条数据均含题目描述、1-5 级难度标注、题目类型及分步详细解答。题目难度从基础计算到复杂多步骤竞赛题梯度分布,数据维度完整、标注规范,可直接用于 AI 模型的数学解题、推理能力训练,以及模型解题效果的评估验证。
教育
文本
表格
数据集聚焦 “自然语言 Python 问题 - 代码” 匹配场景,包含 13000 + 条唯一数据样本,核心由 “人类易懂的 Python 问题描述” 和 “对应可执行的 Python 代码” 两列构成。数据覆盖多样化的 Python 编程问题场景,标注精准且无重复样本,专为大语言模型(LLM)的 Python 代码相关能力训练打造,可直接用于模型的训练、微调与效果验证。
教育
文本
表格
本数据集含10000 张验证码图片,每张图片对应10 位随机字符串,文件名即为验证码文本标注,无需额外标签。验证码字符颜色随机、对齐随机,贴近真实场景。数据规范、质量稳定,可直接用于验证码识别、OCR 模型训练、字符检测与算法验证,使用便捷、适用性广。
教育
图像
本数据集包含10000条以上零售业务交易记录,涵盖详细的销售信息,核心包括营收、成本、利润、商品类别、客户细分及支付方式等关键维度,数据完整且贴合零售业务场景。该数据集非常适用于:商业智能项目、Power BI和Tableau仪表盘制作、销售业绩分析、盈利能力分析、机器学习实践,为各类相关任务及商业决策提供精准、实用的基础数据支撑。
消费
表格
航空业是全球成本最高的行业之一。理解航线特征、运营成本与盈利能力之间的关系,对航线网络规划、机队优化和收益管理至关重要。本数据集模拟了一家以迪拜(DXB)为枢纽的中东大型航空公司一整年的航班级财务数据,涵盖 30 条航线,包括短途、中途和长途航线。可用于航司收益管理建模、航线效益评估与枢纽网络运营优化等研究与决策场景。
交通
文本
表格
社交媒体俚语与表情符号情感数据集,含 14,000 条标注样本,分积极、消极、中性、讽刺 4 类。核心字段为 text 和 label,以 CSV 格式存储,融入表情符号、俚语等噪声,适配多类建模方法,可用于情感分析、讽刺检测、模型微调及学术与工业应用,聚焦模型鲁棒性。
教育
文本
表格
数据集包含了16年多(2010-2026年)标普500指数中按市值排名前10的公司的每日股市数据。涵盖历史开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据,并经过精心清洗和结构化处理,适用于数据分析、机器学习和金融预测。可为量化策略回测、股价趋势预测与投资风险建模提供高质量实证数据支撑。
金融
文本
表格
该数据集涵盖2008-2025年共18年,记录了美国前1000个城市对市场的季度平均国内机票价格。涵盖了2008年金融危机复苏、燃油价格波动、新冠疫情兴衰及疫情后票价通胀等行业重大事件,全面反映美国国内航空票价的长期变化趋势。可为航空出行成本预测、机票定价策略优化及旅游消费趋势分析提供数据支撑。
交通
表格
创业公司融资与成功数据集包含全球多个国家、不同行业的20万家创业公司详细信息,涵盖融资历史、财务表现、增长指标、估值及退出结果等核心内容。数据集为CSV格式,共20万行、18列,可用性满分,采用CC0公有领域协议,专为机器学习、财务分析、投资研究等场景设计,助力探索创业公司成功与失败的关键影响因素。
金融
表格
2024-2026年期间,全球贸易遭遇了前所未有的波动性。从不断变化的地缘政治联盟,到气候变化引发的极端天气模式,物流从业者需要努力维持“准时制”效率。本数据集包含5000条国际运输记录,模拟了现代全球供应链中固有的复杂、非线性风险。支持供应链韧性评估、物流风险预警算法与智能调度模型的训练与验证。
交通
文本
表格
游戏与心理健康行为数据集,是一个面向行为科学、心理健康与游戏分析领域的大规模合成数据集,旨在为相关研究提供标准化、规模化的数据源支持,助力探索游戏行为与个体身心健康、社会生活等维度的关联。
教育
文本
表格
本数据集包含全国四级政府万余官网公开发布的近百万条政策文本及条款关联。通过深度清洗、结构化重构及行业知识标注,将分散非结构化文本转化为高质量机器可读语料。直击政策获取难、理解门槛高、标注难度大三大痛点,有效抑制AI“幻觉”并消除信息差,可直接用于政务垂直大模型训练、智能政策匹配与服务、产业分析与宏观研判、供应链管理与风险预测、产品规划与市场策略调整以及合规检索与风控等应用场景
其他
文本
本数据集收录国家官方公开的强制性国家标准(GB)结构化元数据,包含标准号、中英文名称、实施状态、CCS/ICS 分类、发布与实施日期、主管部门、采标信息等。覆盖即将实施、现行、废止三类标准,数据合规、干净、可直接用于行业大模型训练、合规检索、政策分析等场景。
其他
文本
表格
本数据集是一个面向分析实践的超市销售交易样本数据。其系统记录了从订单生成、商品定价、税费计算到最终收款的全流程关键信息,包括订单日期、顾客姓名、零售价格、数量、税费及订单总额。其核心设计目标是服务于销售绩效分析、收入结构解读与顾客行为洞察,为进行时间序列分析、财务报表模拟及客户细分等任务提供真实、结构化的数据基础,适用于数据分析教学、可视化仪表板开发以及入门至中级的预测建模项目。
消费
图像
表格
本数据集是一个高质量、规模达3万条记录的合成数据集,专为模拟和研究AI驱动的自动化简历筛选流程而设计。它系统地整合了候选人的工作经验、技能匹配度、教育背景、项目经历及简历质量等多维度特征,并包含一个基于综合评估生成的二元目标变量(是否通过筛选)。该数据集以逻辑关联模拟真实招聘模式,非常适合用于开发简历筛选的分类模型、分析招聘决策中的特征重要性,以及研究算法公平性与潜在偏见。
人力资源
图像
表格