足球分析预测网(FIFA World Cup)官方网站

越南语语音识别数据集

数据集包含超 10 小时越南语母语者的电话音质音频，源自 20 多位说话者，有详细注释。它为语音识别提供多样语料，为自然语言处理模型提供训练数据，适用于机器学习、多方言处理及语音 AI 系统基准测试，助力越南语语音技术在多领域的研究与应用开发。

其他

音频

0

葡萄牙语语音识别数据集

数据集含超 10 小时 20 多位葡萄牙语母语者的电话对话音频，带详细注释、转录文本及说话者元数据。适用于训练语音识别、自然语言处理及机器学习模型。可用于开发葡萄牙语语音助手、优化语音转文字系统，助力葡萄牙语相关语音技术在多领域的应用与发展。

其他

音频

0

西班牙语语音识别数据集

数据集包含 10 小时西班牙语母语者间的真实电话对话音频，配有 ID、语言等详细注释，专为训练西班牙语语音识别与自然语言处理模型设计。可用于开发西班牙语自动语音应用，如语音助手，或优化语言模型，辅助自然语言处理任务，助力西班牙语语音技术在实际场景中的应用。

其他

音频

0

日语语音识别数据集

数据集包含超 10 小时日语电话对话音频，采集自 20 多位日语母语者，涵盖多主题与领域。以音频数据为主，标注有 ID、语言等信息，由常见手机录制。适用于语音识别与自然语言处理任务，能为日语语音助手开发、日语语音转文字系统优化等提供关键数据支持，助力日语相关语音技术发展。

其他

音频

其他

0

医疗对话数据集

数据集含 1760 小时医疗通话音频，涵盖医疗设备推广等多种场景，音频格式有 MP3 和 WAV，配 JSON 与 DOCX 转录文本，标注元数据。适用于语音识别、音频分类等任务，为医疗保健 AI 开发、语言模型优化提供优质数据，可助力医疗语音助手、智能诊断系统等应用的研发。

医疗

音频

2

手掌图像数据集

数据集专为手部识别与计算机视觉研究打造，含 500,000 张标注图像，源于 50,000 人的数据采集。每套数据包含 6 张手掌照片、2 张打印手掌图像及 2 个回放视频，并配有年龄、性别等详细元数据。可用于开发和评估手部识别算法，在安防、身份验证等涉及手部识别的场景有重要应用。

其他

图像

1

美国龙卷风数据集

数据集源于美国国家海洋和大气管理局及国家气象局风暴预测中心数据库。覆盖 1950 - 2025 年美国龙卷风多方面信息，如编号、时间、地点、强度、伤亡及财产损失等，可为气象研究、灾害评估等提供全面且较新的数据支持。

其他

文本

1

食品配送运营数据集

数据集由 15,000 条逼真的合成记录构成，含 30 个面向业务的数值特征，全面涵盖配送表现、客户行为等多个关键领域信息。数据结构反映真实业务模式，虽含少量缺失值和异常值，但整体均衡、格式简洁，适用于探索性分析、可视化展示及预测建模等现代分析工作流程，助力食品配送平台优化运营与提升客户体验。

消费

文本

表格

1

多语言智能体数据集

多智能体 - X是首个多语言智能体函数调用开源数据集，含 10,551 条记录，覆盖 12 种语言、7 种书写系统及 5 个关键领域。数据集按训练、开发、测试集划分，可用于多语言函数调用模型的训练与评估，在医疗、农业等关乎生命的关键领域的智能体应用开发中有重要价值。

其他

文本

1

飞机发动机数据集

数据集源自 NASA C - MAPSS 喷气发动机模拟数据，经整理优化适用于机器学习相关任务。数据集按复杂程度分为四个实验场景，涵盖多台发动机在多个运行周期的多变量时间序列数据。每个场景包含训练、测试及真实剩余使用寿命（RUL）值的文件。可用于预测发动机剩余寿命、开展预测性维护以及进行异常检测和健康阶段分类等研究，适合不同水平的机器学习项目。

制造

文本

表格

0

Netflix影视数据集

数据集涵盖网飞平台上电影和电视剧的结构化信息，共 8807 条记录，12 列元数据，包括节目 ID、类型、标题等。数据含分类、文本和数字属性，部分列有缺失值。可用于分析数字娱乐趋势、内容分布等，为研究网飞内容生态及流媒体行业发展提供有力支持。

其他

文本

表格

4

害虫分类数据集

数据集专为多类别图像分类任务设计，包含 40 种害虫的图像数据。通过对这些图像的学习，可训练模型准确识别不同害虫物种。该数据集在农业害虫监测、生物多样性研究等场景具有重要应用价值，有助于精准防治害虫，保护农作物和生态环境。

农业

文本

图像

4

高能质子碰撞运动数据集

数据集源于高能粒子物理实验，记录质子 - 质子碰撞产生粒子的运动学特性，像运行编号、动量分量、总能量等，可用性高。适用于粒子物理研究，如质量重建、信号与背景分类及异常检测，助力探索新物理现象，为相关领域科研提供重要数据支撑。

教育

文本

表格

0

医疗保险理赔数据集

数据集包含 120,000 条合成但高度逼真的医疗保险索赔数据，专为收入周期管理（RCM）、医疗保健人工智能及拒赔预测建模打造。数据涵盖 CPT 手术代码、ICD - 10 诊断代码等多类信息，且有独特的拒赔智能层，含 X12 拒赔原因代码等内容。适用于索赔拒赔预测、RCM 自动化等场景，为医疗领域相关人员提供有力数据支持。

医疗

文本

0

3D 打印机功耗与状态数据集

数据集由 Greenformance 公司为 GreenformanceOptimizer 项目创建，含一台 3D 打印机的真实世界时间序列数据，涵盖功耗与机器状态信息，并在 AIRoV 会议展示。可用于研究 3D 打印机功耗规律、优化能源利用及分析机器状态与功耗关系，助力 3D 打印行业绿色发展。

制造

文本

表格

0

美国国家公路交通安全管理局车辆安全召回数据集

数据集包含 47707 条官方车辆安全召回记录，覆盖多年、众多品牌与制造商。数据结合原始文件与 20 多个分析列，涵盖召回各关键信息。适用于消费者购车参考、制造商评估、监管分析等场景，助力提升车辆安全管理水平。

交通

文本

表格

0

全球性传染病数据集

数据集源自世界卫生组织全球卫生观察站，含 67,438 条观测，覆盖 200 个国家 34 年，整合 40 个相关指标。数据呈现三种疾病不同发展态势，可用于流行病学建模、负担评分等多领域，助力于了解全球性传播感染状况，制定针对性防控策略。

医疗

文本

表格

3

平衡特征 URL 数据集

数据集含 16 万个 URL 样本，良性与恶意样本各 8 万，实现完美平衡。数据集经精心构建，含 24 个特征，基于词汇、结构和熵等，无需预处理即可用于训练评估机器学习模型检测网络钓鱼 URL。适用于高精度分类、特征分析及对抗性研究等，助力提升网络安全威胁检测能力。

教育

文本

表格

0

智能健康监测数据集

数据集是大规模合成医疗数据集，含 120,000 条患者记录与 26 个结构化特征，模拟真实可穿戴健康监测和患者风险评估场景。数据覆盖生命体征、生活方式等多方面，专为预测性医疗分析、早期疾病风险检测等设计，且针对多种常用数据处理和机器学习库优化，方便相关研究与应用。

医疗

文本

表格

0

KLT 堆垛数据集

数据集包含 2498 张 720p 分辨率的工业用小型载物箱堆垛的逼真合成图像，通过 NVIDIA Omniverse SORDI.ai 进行渲染。数据集利用不同级别的域随机化设置，从对象外观到背景环境再到光照进行随机化处理，同时具备多种数据采集设置。适用于计算机视觉相关研究，如模型训练，提升模型对不同场景的适应性。

制造

图像

0

同步相量网络攻击数据集

数据集提供时间同步的同步相量通信数据，主要用于智能电网网络安全研究。数据涵盖正常通信及 FDI、TSA 攻击场景下 3 小时的网络流量，具备原始捕获、结构化表格及预处理的机器学习可用等多种数据形式，基于模拟智能电网测试平台构建并经文献与模型验证。适用于异常检测、入侵检测、智能电网网络安全研究等多个领域。

教育

文本

表格

0