구분 및 고정 너비 파일이란 무엇입니까?

CSV 파일은 데이터를 스프레드시트로 읽는 데 사용됩니다.

이미지 크레디트: 스톡바이트/스톡바이트/게티 이미지

파일의 각 행은 데이터 행을 나타내지만 해당 데이터는 일반적으로 필드 또는 열로 나뉩니다. 두 가지 표준 방법이 필드를 나타냅니다. 하나는 고정 길이 필드와 고정 길이 레코드를 갖는 것입니다. 다른 하나는 가변 길이 레코드가 있는 가변 길이 필드를 갖는 것입니다. 가변 길이 필드는 구분 기호인 기호로 구분해야 합니다. 가변 길이 레코드의 데이터베이스는 구분된 파일을 생성하고 고정 길이 레코드의 데이터베이스는 고정 너비 파일을 생성합니다.

구분 기호

구분된 파일의 가장 일반적인 형식은 쉼표를 필드 구분 기호로 사용합니다. 이러한 파일을 CSV(쉼표로 구분된 값) 파일이라고 합니다. 쉼표는 숫자 데이터에 적합하지만 텍스트에는 문제를 일으킬 수 있습니다. 다른 구분 기호에는 공백(" ") 막대("|") 또는 모자 기호("^")가 있습니다. 파일 디자이너나 프로그래머는 데이터에서 거의 사용되지 않는 문자를 찾아야 합니다. 때로는 문자 조합을 사용해야 할 수도 있습니다.

오늘의 비디오

고정 필드

파일에 저장할 데이터에서 한 문자가 사용되지 않을 것이라고 항상 보장할 수 있는 것은 아니므로 적절한 구분 기호를 찾기가 어렵기 때문에 고정 길이 필드가 선호될 수 있습니다. 이 형식은 저장 및 처리 모두에서 오버헤드를 나타내므로 구분된 파일이 더 일반적입니다. 고정 길이 필드를 채워야 합니다. 가장 일반적인 패딩 형식은 숫자 데이터의 경우 0이 있는 왼쪽 패딩과 텍스트의 경우 공백이 있는 오른쪽 패딩입니다.

절차

파일이 고정 너비이거나 구분된 필드를 포함하는지 여부에 관계없이 쓰기 및 읽기 프로그램은 동일한 규칙을 따라야 합니다. 고정 너비 파일을 수신하는 프로그램은 먼저 각 파일의 길이와 데이터 유형을 알아야 합니다. 구분된 파일을 수신하는 프로그램은 찾기 위해 구분자를 알아야 합니다.

거부된 기록

각각의 경우 가져오기 프로그램에는 거부된 레코드를 별도의 파일에 기록하는 예외 보고 절차가 있어야 합니다. 구분된 레코드가 거부되는 가장 일반적인 이유는 구분자가 데이터에 나타나 추가 열을 생성하기 때문입니다. 고정 너비 레코드는 일반적으로 너무 길면 거부됩니다. 짧은 레코드는 일반적으로 오류를 일으키지 않습니다. 최종 필드는 채워지지 않습니다. 마지막 필드가 필수인 경우 짧은 레코드는 거부됩니다.