영화 다운로드 데이터
데이터는 여러 파일에 걸쳐 관계형 형식으로 저장 됩니다. 중앙 파일 (MAIN)은 각각 고유 식별자를 가진 동영상 목록입니다. 이러한 식별자는 후속 버전에서 변경 될 수 있습니다. 해당 동영상에 대 한 액 터 (CAST)는 별개의 파일에 자신의 역할과 함께 나열 됩니다. 개별 행위자 (행위자)에 대 한 자세한 내용은 세 번째 파일에 있습니다. 메인의 모든 감독이 중요 한 생산자, 작가, 그리고 cinematographers의 숫자와 함께 네번째 파일 (사람)에 나열 되어 있습니다. 다섯 번째 파일 (다시 만드는) 링크 영화는 서로 상당한 정도로 복사 되었습니다. 여섯 번째 파일 (스튜디오) 메인에 표시 된 스튜디오에 대 한 몇 가지 정보를 제공 합니다. 원래 동기는 데이터베이스 클래스 연습을 위해, 장난감 부서의 ` 지루한 ` 관리자 쿼리를 대체 하는 것 이었다. 주 및 행위자를 나타내는 캐스트는 표준 자재 명세서 문제에서 공급자 및 어셈블리를 참조 하는 인벤토리 파일과 논리적으로 동일 합니다.
개인적인 이익은 데이터베이스가 모든 히치콕 영화와 TV 에피소드를 위해 완전 하 게 될 것으로 야기 했다. 종류와 배우에 의하여 관련 필름은 점차적으로 추가 되었다. 일시적인 데이터베이스에 대 한 후속 연구는 날짜 필드 (년만)를 추가할 발생 했습니다. 그것은 배우의 날짜가 던지기 관계가 보여주는 주요 필름의 날짜와 일치 하는 경우에, 시험을, 말한다 허용 한다. DOC에서 설명 하는 것 처럼 개체 지향 데이터베이스 기능을 여러 개 및 두 수준 값이 있는 필드로 테스트할 수 있습니다. 항목은 점차적으로 과정을 작업 하는 동안 1975에 대 한 시작 수집 여전히 업데이 트 되 고 있습니다. 항목의 대부분은 수동 했다. DOC 파일에는 사용 되는 참조 작업의 일부가 나열 되어 있습니다. 수정 및 추가 감사를 계속 합니다. 필드 및 해당 형식에 대 한 자세한 설명은 문서 html에서 제공 됩니다. 누락 된 값: 키 필드 외부에 있는 값은 일반적입니다. 해당 인코딩은 DOC에서 설명 합니다.
때로는 데이터를 사용할 수 없는 것 같다, 때로는 그것을 입력 되지 않았습니다. 일부 정보는 ` 살 았-`로 본질적으로 불완전 합니다. 검열 된 데이터: 마이너 액 터는 무시 됩니다. 의존성: 모든 주요 영화는 사람에 감독이 있어야 합니다. 약 50 의사 감독의 이름은 사람들이 흥미 있는 영화를 허용 하도록 나열 되었습니다 (아직) 알 수 없는 감독이 입력 됩니다. 모든 캐스트 항목은 주요 필름 항목과 관련 되어야 합니다. 모든 액 터는 일부 캐스트 항목에 나타나야 하지만 그 반대의 경우도 마찬가지입니다. 자세한 형식 정보는 DOC를 참조 하십시오. 기타 관련 정보: 영화는 알려진 경우, 그들의 원래 언어 제목과 함께 나열 됩니다. Alt (T:) 필드는 알려진 영어 번역을 제공 합니다.
데이터 형식: 현재 파일이 HTML로 되어 다른 형식으로 쉽게 구문 분석할 수 있습니다. XML 버전을 고려 중입니다. 대략적인 파일 크기는: 닥 … …. 50 k 메인 … 1 145k 11 400 항목 사람들 …. 355k 3 290 항목 캐스트 …. 4 340k 46 000 항목 배우 …. 811k 6 800 항목 re만들지만 …
135k 1 278 항목 스튜디오 … 26k 200 항목 harsha nagesh과 산 자 goil과 Alok n. choudhary. 대규모 데이터 집합을 클러스터링 하기 위한 적응형 그리드. 에너지 부의 asci. [보기 컨텍스트]. 영화 데이터 세트 다운로드: 데이터 폴더, 데이터 세트 설명 그들이 알려진 길이를 가졌다 면 적어도 하나의 IMDB 사용자에 의해 평가 됐다 포함 영화를 선정 했다.