import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Silence warnings from seaborn
import warnings
warnings.filterwarnings("ignore")
cwd = os.getcwd()

# Show all rows
pd.set_option('display.max_rows', None)

# Importing the datasets into pandas dataframes one at a time and clean them. 
# We don't plan to work with any adult films, so we'll filter those out. This is in title.basics.tsv

title_basics = pd.read_csv(cwd + '/data/title.basics.tsv', sep='\t')

# Describing the dataset
title_basics.describe()

title_basics.head()

print(len(title_basics['isAdult']))
title_basics[['tconst', 'isAdult']].groupby('isAdult').count()

10673965

title_basics['isAdult'] = title_basics['isAdult'].astype(int)
title_basics = title_basics[title_basics['isAdult'] == 0]
title_basics['isAdult'] = title_basics['isAdult'].astype(bool)

title_basics[['isAdult', 'tconst']].groupby('isAdult').count()

title_basics.drop('isAdult', axis=1, inplace=True)

title_basics[['titleType','tconst']].groupby(['titleType']).count()

title_basics_movies = title_basics[title_basics['titleType'] == 'movie']
title_basics_tv_episodes = title_basics[title_basics['titleType'] == 'tvEpisode']
title_basics_tv_series = title_basics[title_basics['titleType'] == 'tvSeries']
title_basics_tv_movies = title_basics[title_basics['titleType'] == 'tvMovie']
title_basics_video_games = title_basics[title_basics['titleType'] == 'videoGame']

title_basics_movies.to_csv(cwd + '/data/title_basics_by_titleType/title.basics.movies.tsv', sep='\t', index=False)
title_basics_tv_episodes.to_csv(cwd + '/data/title_basics_by_titleType/title.basics.tvEpisodes.tsv', sep='\t', index=False)
title_basics_tv_series.to_csv(cwd + '/data/title_basics_by_titleType/title.basics.tvSeries.tsv', sep='\t', index=False)
title_basics_tv_movies.to_csv(cwd + '/data/title_basics_by_titleType/title.basics.tvMovies.tsv', sep='\t', index=False)
title_basics_video_games.to_csv(cwd + '/data/title_basics_by_titleType/title.basics.videoGames.tsv', sep='\t', index=False)

del title_basics
del title_basics_movies
del title_basics_tv_episodes
del title_basics_tv_series
del title_basics_tv_movies
del title_basics_video_games

title_basics = pd.read_csv(cwd + '/data/title_basics_by_titleType/title.basics.movies.tsv', sep='\t')
title_basics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 666922 entries, 0 to 666921
Data columns (total 8 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   tconst          666922 non-null  object
 1   titleType       666922 non-null  object
 2   primaryTitle    666920 non-null  object
 3   originalTitle   666920 non-null  object
 4   startYear       666922 non-null  object
 5   endYear         666922 non-null  object
 6   runtimeMinutes  666922 non-null  object
 7   genres          666922 non-null  object
dtypes: object(8)
memory usage: 40.7+ MB

# Take care of the dates by converting them to datetime objects of just the year
title_basics['startYear'] = pd.to_datetime(title_basics['startYear'], errors='coerce')
title_basics['startYear'] = title_basics['startYear'].dt.year
title_basics['endYear'] = pd.to_datetime(title_basics['endYear'], errors='coerce')
title_basics['endYear'] = title_basics['endYear'].dt.year

title_basics.head(10)

# drop endYear column
title_basics.drop(['endYear', 'titleType'], axis=1, inplace=True)

# Replace the \N values with NaN
title_basics.replace(r'\N', np.nan, inplace=True)

title_basics.head(10)

# import the next dataset
title_ratings = pd.read_csv(cwd + '/data/title.ratings.tsv', sep='\t')
title_akas = pd.read_csv(cwd + '/data/title.akas.tsv', sep='\t')

title_akas.rename(columns={'titleId': 'tconst'}, inplace=True)

# in order to remove the adult films, we need to merge the title_basics and title_akas dataframes
title_basics = pd.merge(title_basics, title_akas, on='tconst')
title_basics = pd.merge(title_basics, title_ratings, on='tconst')

title_basics.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2359924 entries, 0 to 2359923
Data columns (total 15 columns):
 #   Column           Dtype  
---  ------           -----  
 0   tconst           object 
 1   primaryTitle     object 
 2   originalTitle    object 
 3   startYear        float64
 4   runtimeMinutes   object 
 5   genres           object 
 6   ordering         int64  
 7   title            object 
 8   region           object 
 9   language         object 
 10  types            object 
 11  attributes       object 
 12  isOriginalTitle  int64  
 13  averageRating    float64
 14  numVotes         int64  
dtypes: float64(2), int64(3), object(10)
memory usage: 270.1+ MB

title_basics.drop(['ordering', 'types', 'attributes', 'isOriginalTitle'], axis=1, inplace=True)

title_basics.replace(r'\N', np.nan, inplace=True)
title_basics.dropna(subset=['region'], inplace=True)

title_basics.head(10)

len(title_basics) - len(title_basics.dropna(subset=['genres']))

20109

# Replace the region codes with the country codes
title_basics['region'].replace({'BH' : 'BHA',
                                'CR' : 'CRI',
                                'AN' : 'CQ',
                                'BUMM' : 'MM',
                                'CSHH' : 'CZE',
                                'CSXX' : 'CS',
                                'DDDE' : 'DEU',
                                'SUHH' : 'SU',
                                'VDVN' : 'VD',
                                'XAS' : 'AS',
                                'XAU' : np.nan,
                                'XEU' : np.nan,
                                'XKO' : 'XK',
                                'XKV' : 'XK',
                                'XNA' : 'KNA',
                                'XPI' :'ISR',
                                'XSA' : np.nan,
                                'XSI': 'THA',
                                'XWG' : 'DEU',
                                'XWW': np.nan,
                                'XYU' : 'YU',
                                'YUCS' : 'YU',
                                'ZRCD' : 'CD',
                                }, inplace=True)

# Drop the rows with NaN values in the region column
title_basics.dropna(subset=['region'], inplace=True)

title_basics.head(10)

title_basics.to_csv(cwd + '/data/vis_ready/movie_ratings_by_region.csv', index=False)

title_basics = pd.read_csv(cwd + '/data/vis_ready/movie_ratings_by_region.csv')

votes_per_year = title_basics[['startYear', 'numVotes']].groupby('startYear').sum()

votes_per_year

votes_per_year.reset_index(inplace=True)
votes_per_year

# Convert startYear to str for both dataframes
votes_per_year['startYear'] = votes_per_year['startYear'].astype(str)
title_basics['startYear'] = title_basics['startYear'].astype(str)

for year in votes_per_year['startYear']:
    title_basics.loc[title_basics['startYear'] == year, 'votesThisYear'] = votes_per_year.loc[votes_per_year['startYear'] == year, 'numVotes'].values[0]

title_basics[['startYear', 'votesThisYear']].groupby('startYear').max().reset_index()

title_basics.head()

# Use one hot encoding to convert the genres column into a format that can be used for analysis
title_basics = title_basics.join(title_basics['genres'].str.get_dummies(sep=','))
title_basics.drop('genres', axis=1, inplace=True)
title_basics = title_basics[title_basics['Adult'] != 1]

#export to csv
title_basics.to_csv(cwd + '/data/vis_ready/movie_ratings_by_region.csv', index=False)

	tconst	titleType	primaryTitle	originalTitle	isAdult	startYear	endYear	runtimeMinutes	genres
count	10673965	10673965	10673947	10673947	10673965	10673965	10673965	10673965	10673745
unique	10673965	11	4806019	4829549	30	153	97	899	2371
top	tt0000001	tvEpisode	Episode #1.1	Episode #1.1	0	\N	\N	\N	Drama
freq	1	8165289	51208	51208	10269704	1400226	10552418	7360018	1218510

	tconst	titleType	primaryTitle	originalTitle	startYear	endYear	runtimeMinutes	genres
0	tt0000001	short	Carmencita	Carmencita	1894	\N	1	Documentary,Short
1	tt0000002	short	Le clown et ses chiens	Le clown et ses chiens	1892	\N	5	Animation,Short
2	tt0000003	short	Pauvre Pierrot	Pauvre Pierrot	1892	\N	4	Animation,Comedy,Romance
3	tt0000004	short	Un bon bock	Un bon bock	1892	\N	12	Animation,Short
4	tt0000005	short	Blacksmith Scene	Blacksmith Scene	1893	\N	1	Comedy,Short

	tconst
isAdult
0	10269704
1	338506
1977	1
1978	26
1979	10
1980	2
1981	1
1982	2
1983	6
1984	14
1985	29
1986	2
1987	10
2005	1
2011	1
2012	1
2013	8
2014	6
2015	28
2016	20
2017	17
2018	9
2019	7
2020	9
2021	1
2022	2
2023	6
0	63396
1	2139
\N	1

	tconst
titleType
movie	666922
short	985375
tvEpisode	7943467
tvMiniSeries	53242
tvMovie	144858
tvPilot	1
tvSeries	257707
tvShort	10279
tvSpecial	46917
video	186783
videoGame	37549

	tconst	titleType	primaryTitle	originalTitle	startYear	endYear	runtimeMinutes	genres
0	tt0000009	movie	Miss Jerry	Miss Jerry	1970.0	NaN	45	Romance
1	tt0000147	movie	The Corbett-Fitzsimmons Fight	The Corbett-Fitzsimmons Fight	1970.0	NaN	100	Documentary,News,Sport
2	tt0000502	movie	Bohemios	Bohemios	1970.0	NaN	100	\N
3	tt0000574	movie	The Story of the Kelly Gang	The Story of the Kelly Gang	1970.0	NaN	70	Action,Adventure,Biography
4	tt0000591	movie	The Prodigal Son	L'enfant prodigue	1970.0	NaN	90	Drama
5	tt0000615	movie	Robbery Under Arms	Robbery Under Arms	1970.0	NaN	\N	Drama
6	tt0000630	movie	Hamlet	Amleto	1970.0	NaN	\N	Drama
7	tt0000675	movie	Don Quijote	Don Quijote	1970.0	NaN	\N	Drama
8	tt0000679	movie	The Fairylogue and Radio-Plays	The Fairylogue and Radio-Plays	1970.0	NaN	120	Adventure,Fantasy
9	tt0000838	movie	A Cultura do Cacau	A Cultura do Cacau	1970.0	NaN	\N	\N

IMDb Data Exploration and Analysis¶

The creation of a clean dataset for use in Tableau for exploration and to build insights¶

Project Scope:¶

Step 1: Plan¶

Step 1.5: Plan/ Analyze¶

IMDb Movie Data Exploration and Analysis¶

IMDb Data Description¶

title.akas.tsv.gz¶

title.basics.tsv.gz¶

title.episode.tsv.gz¶

title.ratings.tsv.gz¶

	numVotes
startYear
1896.0	19
1897.0	124
1898.0	24
1899.0	214
1900.0	80
...	...
2020.0	688188266
2021.0	1207891667
2022.0	1163778231
2023.0	698190470
2024.0	48447321

	startYear	votesThisYear
0	1896.0	1.900000e+01
1	1897.0	1.240000e+02
2	1898.0	2.400000e+01
3	1899.0	2.140000e+02
4	1900.0	8.000000e+01
...	...	...
125	2021.0	1.207892e+09
126	2022.0	1.163778e+09
127	2023.0	6.981905e+08
128	2024.0	4.844732e+07
129	nan	NaN

	tconst
isAdult
False	10333100