Принцип 4: Виборчі дані вважаються відкритими якщо вони повні та в великих об'ємах.

повні та в великих об'ємах

Вичерпні та доступні в повному обсязі дані є відкритими даними. Публікація повних наборів даних є демонстрацією прозорості. Будь-які упущені дані є недоступними та не можуть бути використані. Навіть якщо користувачі зацікавлені в якійсь конкретній частині даних, для них буде корисно мати повних набір даних щоб побачити необхідні дані в контексті. Наприклад, організація хоче проаналізувати дані реєстрації виборців в округах свого регіону. Вона може зосередитися на аналізі даних цього регіону, але якщо доступна повна база даних, організація може швидко підрахувати кількість зареєстрованих виборців в усій країні та використати цю цифру для презентації регіонального результату в контексті. Якщо ОУВП публікують неповний набір даних, їх можуть звинуватити в умисній спробі приховати інформацію яка не була опублікована. Такий ризик є ще вищим, якщо опублікована та неопублікована інформація належить до різних географічних вимірів. В багатьох країнах підтримка певного кандидата чи партії сильно залежить від географії (наприклад, одні кандидати отримують більш високий відсоток підтримки в містах, а інші – в сільській місцевості). Цілісність інформації є надзвичайно важливою там, де присутній географічний чинник впливу, оскільки відсутність інформації по певній території може виглядати як упереджене ставлення ОУВП до певного кандидати чи партії.

Публікація великого масиву даних означає, що дані містяться в одному файлі та можуть бути завантажені за один раз. Наприклад, Виборча комісія Південної Африки опублікувала результати голосування на виборчих дільницях (називається "результати виборчого округу") під час загальних та місцевих виборів 2014 року в одному файлі, доступному для завантаження (стислий файл .csv). Виборча комісія також вказала тип та розмір файлу біля посилання. Публікація повного набору даних є часто найпростішим кроком ОУВП для надання справді відкритих даних Однак, якщо один файл є занадто великим, а його завантаження потребує багато часу, дані необхідно розбити на кілька менших файлів. В книзі "Відкриті урядові дані" Джошуа Тоберер пояснює, що набір даних є "занадто великим", якщо "він є таким великим, який практично неможливо завантажити одним файлом. За сьогоднішніми стандартами, такий набір даних матиме розмір щонайменше 10 гігабайтів, та потребуватиме біля 6 годин для завантаження через широкосмугове з'єднання."

Належна документація

Достатня документація є ще одним аспектом повного, або цілісного, набору даних. Файл даних повинен супроводжуватися відповідною документацією з описом змінних, полів та міток, використаних у файлі. Документація повинна щонайменше включати відмітки щодо структури даних, та пояснення будь-яких скорочень, використаних у тексті. В ідеалі, документація буде включати вищевказані відмітки та інформацію про спосіб та мету збору даних, цільову аудиторію, посилання на споріднені допоміжні дані та контактну інформацію для отримання відповідей на додаткові запитання. Хартія відкритих даних та Технічні додатки, заохочує ОУВП надавати набори даних "з повним описом, наскільки це доречно, щоб допомогти користувачам повністю зрозуміти дані". Вищий суд з питань виборів Бразилії (TSE) має сховище виборчих даних яке є чудовим прикладом того, як ОУВП можуть надавати великі масиви даних з належною документацією. Сховище включає дані обліку виборців, інформацію про кандидатів та партії, дані фінансування кампанії та результати виборів. Користувач може завантажити результати виборів за 2012 або 2014 рік одним файлом, включаючи файл “read me”. Файл “read me” для результатів за 2014 рік, наприклад, містить інформацію про те, як дані зашифровані, дає опис кожної змінної величини, вказує коли дані були востаннє оновлені, та містить контактну інформацію для додаткових запитань.