用于机器学习的电影数据集

2020-05-31 22:44:56

我们Lionbridge已经编制了一个包含14个电影数据集的列表。从统计学习的角度来看,电影数据集可能很有用,因为您可以使用它们来掌握基本的机器学习概念,而不是依赖于枯燥、深奥的数据集。

此列表上的许多数据集都包含数据点,如演员和剧组成员、脚本、运行时间和评论。您可以将这些电影数据集用于自然语言处理、情感分析等机器学习项目。

IMDB电影评论数据集:该数据集包含50,000个电影评论,并且已经平均分为机器学习模型的训练集和测试集。它还为无监督学习算法提供了另外50,000个未注释的文档。

IMDb评论:这是一个包含25000条电影评论的数据集,用于二元情绪分析任务。

OMDB API:OMDB API是获取电影信息的Web服务。这是一个众包电影数据库,可以随时更新最新的电影。

MovieLens 20M数据集:该数据集包括2000万评分和465,000个标签应用程序,由138,000个用户应用于27,000部电影。

康奈尔影评数据:标有总体情感极性(正面或负面)或主观评分(例如,“两颗半星”),以及标有主观性状态(主观性或客观性)或极性的句子。

电影数据集:此数据集包含超过10,000部电影的列表,其中包括许多历史、次要和邪教电影,其中包含有关演员、演员、导演、制片人和制片厂的信息。

康奈尔电影对话语料库:这个语料库包含10,292对电影角色之间的220,579次对话交流。

电影数据集:2017年7月或之前发布的4.5万部电影的元数据。数据点包括演员、剧组、剧情关键字、预算、收入、海报、上映日期、语言、制作公司、国家、TMDB票数和平均票数。

使用IMBDB元数据的32000部电影字幕的语言数据:32000多部电影的元数据。将元数据与来自字幕文件的字数统计类别进行匹配。

电影产业:该数据集包含6820部电影(1986~2016年,每年220部)。每部电影都有以下数据点:预算、公司、国家、导演、类型、毛收入、评级、上映日期、运行时间、IMDb用户评级、主要演员。

电影中的猫:这个数据集跟踪电影中出现的所有猫。您可以按导演、制片人和上映日期搜索电影。

电影身体计数:这个数据集记录了动作片、科幻片和战争片中的银幕杀戮、死亡和身体数量。

印度电影院:此数据集包含每个电影院的屏幕大小、影院容量、平均票价和位置坐标。