Ð¯Ðº Ð´Ð¾Ð´Ð°ÑÐ¸ Ð¿ÑÐ´ÐºÐ°Ð·ÐºÐ¸ Ð² Altair?

Ð¯ÐºÐ° Ð¼ÐµÑÐ° alt.Size()?

Виправлення неочікуваних

Isanes Francois

пʼятниця, 25 жовтня 2024 р. о 05:44:44

Усунення проблем із відображенням графіка в Альтаїрі

Altair — популярна бібліотека декларативної візуалізації на Python, особливо відома своїм лаконічним і елегантним кодом. Однак навіть із найпростішими наборами даних можуть виникнути помилки, що призведе до неочікуваних проблем із відображенням. Однією з таких проблем є побудова геопросторових даних з використанням випадкових значень широти та довготи.

У цій статті ми розглянемо конкретну проблему, яка виникла під час побудови картографічної візуалізації в Altair. Хоча код здається правильним, вихід у VSCode створює дивну помилку, яку важко усунути. Мета полягає в тому, щоб зрозуміти, чому це відбувається і як це вирішити.

Набір даних, який використовується, містить координати широти та довготи, а також додаткову інформацію, таку як місяць і кількість ваучерів. Хоча дані здаються добре структурованими, діаграма відображається неправильно, незважаючи на використання, здавалося б, відповідних параметрів. Це створює блокпост для користувачів, які намагаються правильно візуалізувати дані.

Завдяки детальному аналізу коду та залучених типів даних ми визначимо першопричину помилки та надамо покрокові вказівки щодо вирішення цієї проблеми з графіком Altair. Незалежно від того, чи ви новачок у візуалізації даних, чи досвідчений користувач, цей посібник допоможе вам уникнути поширених пасток.

Команда	Приклад використання
alt.Size()	Ця команда використовується для масштабування розміру позначок діаграми на основі певного поля даних. У прикладі він масштабує кола за стовпцем «ваучери», керуючи розміром кожного пункту на основі вартості ваучерів.
alt.Scale()	Використовується для визначення поведінки масштабування для певної візуальної властивості. У цьому випадку він визначає діапазон масштабу для розміру кіл, встановлюючи мінімальний і максимальний розміри в діапазоні від 0 до 1000.
alt.value()	Встановлює постійне значення для каналу кодування. Тут він використовується для призначення фіксованого кольору («червоного» або «синього») усім позначкам, замість того, щоб зіставляти його з полем даних.
tooltip=[]	Відображає додаткову інформацію при наведенні на позначку. Ця команда бере список імен полів із набору даних і показує їх як спливаючу підказку, надаючи більше контексту, не захаращуючи діаграму.
np.random.uniform()	Генерує випадкові числа з плаваючою точкою в заданому діапазоні. Ця команда використовується для створення значень широти та довготи, які нагадують реальні географічні координати, що дозволяє створювати геопросторові графіки.
mark_circle()	Ця команда визначає тип позначки (у цьому випадку кола), яка буде використовуватися для побудови точок даних. Це специфічно для Altair і вказує на те, що дані мають бути представлені у вигляді кіл на діаграмі.
encode()	Це основна функція для зіставлення полів даних із візуальними властивостями в Altair. У цьому випадку довгота та широта відображаються на позиціях, кількість ваучерів – на розмір, а місяць або фіксований колір – на колір точок.
unittest.TestCase	Ця команда є частиною Python unittest модуль і використовується для створення класу тестового випадку для тестування. Кожен тест є методом у цьому класі. Тут він використовується для перевірки правильності створення діаграми Альтаїр.
assertTrue()	У модульному тесті ця команда перевіряє, чи даний вираз є істинним. У цьому прикладі це гарантує, що об’єкт діаграми Altair створено успішно, а не None.

Розуміння та усунення несправностей Altair

У наведеному вище прикладі ми використовуємо Altair для нанесення точок геопросторових даних на візуалізацію, схожу на карту, використовуючи випадково згенеровані значення широти та довготи. Основна мета цієї візуалізації — показати ваучери, розподілені за різні місяці, використовуючи різні параметри, як-от розмір маркерів, щоб представити кількість ваучерів. Однією з ключових проблем, з якими стикаються під час побудови таких даних, є забезпечення того, щоб точки, що перекриваються (для близьких широт і довгот), не захаращували діаграму, через що виникає тремтіння.

Сценарій починається з генерації випадкових даних широти та довготи за допомогою numpyфункції випадкових чисел. Ці функції імітують географічні дані, а в поєднанні з панди, ці дані організовані у DataFrame для зручного використання. Використовуючи mark_circle() в Altair кожна точка даних візуально представлена у вигляді кола на карті. Розмір кіл визначається за допомогою alt.Size() кодування, яке масштабує їх відповідно до кількості ваучерів на місце, допомагаючи глядачеві легко інтерпретувати кількість, пов’язану з кожною точкою даних.

Однак одна з поширених проблем полягає в тому, що точки даних із дуже близькими або ідентичними координатами можуть накладатися, роблячи візуалізацію менш чіткою. Щоб вирішити цю проблему, другий підхід вводить тремтіння, коли невелике випадкове зміщення застосовується як до значень широти, так і довготи. Це робить кожну точку дещо іншою та допомагає уникнути накладання. Додавши змінені значення як нові поля в DataFrame, Altair може побудувати ці змінені координати замість початкових, забезпечуючи більш зрозумілу візуалізацію без шкоди для точності даних.

Сценарій також містить модульні тести з використанням unittest бібліотека для перевірки функціональності коду побудови. Тестовий приклад перевіряє, чи правильно створено екземпляр діаграми Altair і чи логіка тремтіння працює належним чином. Таке поєднання візуалізації та тестування гарантує, що рішення є не лише візуально ефективним, але й надійним і придатним для обслуговування в довгостроковій перспективі. Додавання підказки до діаграми ще більше покращує зручність використання, надаючи детальну інформацію про кожну точку при наведенні курсора, надаючи користувачам швидкий спосіб перевірити основні дані.

Виправлення помилок графічного зображення в Altair за допомогою Python

У цьому прикладі зосереджено на вирішенні помилок побудови Altair за допомогою Python, зокрема в середовищі Jupyter Notebook.

import altair as alt
import pandas as pd
import numpy as np
# Generate random data for plottinglats = np.random.uniform(51.5, 51.6, 100)
lons = np.random.uniform(-0.1, 0.1, 100)
months = np.arange(1, 13)
vouchers = np.random.randint(1, 100, 100)
# Create DataFrametest_df = pd.DataFrame({'lat': lats, 'lon': lons, 'month': np.random.choice(months, 100), 'vouchers': vouchers})
# Plot using Altair with correct encodingchart = alt.Chart(test_df).mark_circle().encode(
    longitude='lon:Q',
    latitude='lat:Q',
    size='vouchers:Q',
    color='month:N',
    tooltip=['lat', 'lon', 'vouchers']
)
chart.show()

Альтернативний метод: обробка змінених координат

У цьому підході код використовує змінені координати, щоб вирішити проблему побудови. Це корисно для того, щоб зробити точки більш видимими, коли координати накладаються.

import altair as alt
import pandas as pd
import numpy as np
# Adding jitter to avoid overlapping points
test_df['lat_jittered'] = test_df['lat'] + np.random.uniform(-0.001, 0.001, len(test_df))
test_df['lon_jittered'] = test_df['lon'] + np.random.uniform(-0.001, 0.001, len(test_df))
# Plot with jittered coordinateschart_jittered = alt.Chart(test_df).mark_circle().encode(
    longitude='lon_jittered:Q',
    latitude='lat_jittered:Q',
    size=alt.Size('vouchers:Q', scale=alt.Scale(range=[0, 1000]), legend=None),
    color=alt.value('blue'),
    tooltip=['lat_jittered', 'lon_jittered', 'vouchers']
)
chart_jittered.show()

Модульне тестування для побудови графіків Altair у Python

Тут ми інтегруємо модульні тести, щоб переконатися, що графік Альтаїра генерується правильно, і перевірити, що тремтячі координати покращують візуалізацію. Цей метод працює в рамках тестування Python, наприклад PyTest.

import unittest
import altair as alt
import pandas as pd
import numpy as np
class TestAltairPlots(unittest.TestCase):
    def setUp(self):
        self.test_df = pd.DataFrame({'lat': np.random.uniform(51.5, 51.6, 100),
                                     'lon': np.random.uniform(-0.1, 0.1, 100),
                                     'vouchers': np.random.randint(1, 100, 100)})
    def test_plot_creation(self):
        chart = alt.Chart(self.test_df).mark_circle().encode(
            longitude='lon:Q', latitude='lat:Q', size='vouchers:Q')
        self.assertTrue(chart is not None)

if __name__ == '__main__':
    unittest.main()

Вивчення гнучкості Altair у візуалізації даних

Одним з важливих аспектів роботи з Altair є його здатність легко обробляти складні набори даних, зберігаючи при цьому простий і декларативний підхід до візуалізації даних. Альтаїр використовує Vega-Lite граматика, яка дозволяє користувачам створювати інтерактивні візуалізації, зіставляючи поля даних із візуальними властивостями, такими як колір, розмір і форма. Це робить Altair потужним інструментом для швидкого створення глибоких візуалізацій із необроблених даних, особливо у випадках, коли задіяно географічне позначення або кілька категорій.

Іншою важливою особливістю Altair є його підтримка інтерактивність. Використовуючи такі вбудовані функції, як вибірка, користувачі можуть легко фільтрувати та виділяти дані на діаграмі. Це надзвичайно корисно для дослідження геопросторових даних, де вибір конкретного регіону чи періоду часу може забезпечити глибше розуміння. Інтерактивність також дозволяє користувачам детально вивчати дані шляхом комбінування виділення з перетвореннями, що дозволяє додавати динамічні елементи, як-от елементи керування масштабуванням або панорамуванням, або спеціальні підказки.

Маючи справу зі складними візуалізаціями, такими як карта, яку ми обговорювали, важливо керувати потенційними помилками або проблемами відображення. Іноді ці помилки виникають через неправильне кодування даних або непідтримувані типи даних. Переконайтеся, що дані, які відображаються, мають правильний тип (наприклад, кількісний для числових значень або номінальний для категоріальних значень) має вирішальне значення для створення точних візуалізацій. Правильна обробка форматів даних і додавання обробка помилок у ваших сценаріях може заощадити значний час і зусилля під час налагодження.

Поширені запитання про проблеми з плануванням Альтаїра

Як я можу уникнути накладання точок у Альтаїрі?
Ви можете уникнути накладання точок, використовуючи jittering, який додає невелике випадкове зміщення до координат. Це гарантує, що точки рознесені одна від одної, навіть якщо їх вихідне розташування ідентичне.
Що означає mark_circle() команда робити?
The mark_circle() Команда визначає, що точки даних будуть представлені у вигляді кіл на діаграмі. Його часто використовують у діаграмах розсіювання або географічних візуалізаціях.
Як додати підказки в Altair?
Підказки можна додати за допомогою tooltip=[] кодування. Це дозволяє користувачам наводити курсор на точку даних і бачити додаткову інформацію, що відображається у спливаючому вікні.
Чи можу я використовувати власні кольори для своїх ділянок?
Так, ви можете визначити постійний колір для всіх позначок за допомогою alt.value() або зіставте колірну шкалу з вашими даними за допомогою alt.Color().
Яка мета alt.Size()?
The alt.Size() кодування використовується для масштабування розміру позначок, наприклад кіл, на основі значення певного поля. У прикладі він масштабує кола на основі поля «ваучери».

Останні думки щодо усунення помилок у сюжеті Альтаїра

Дивна помилка графіка, яка виникає під час візуалізації геопросторових даних в Altair, може бути неприємною, але її легко вирішити шляхом застосування змінних координат і забезпечення належного кодування даних. Це допомагає запобігти накладенню точок і покращує чіткість діаграми.

Використовуючи найкращі практики, як-от додавання підказок і правильну обробку даних, користувачі можуть переконатися, що їхні візуалізації точні та інформативні. Незалежно від того, чи ви новачок у візуалізації даних, чи маєте досвід, дотримання цих вказівок допоможе вам уникнути подібних помилок у майбутніх проектах Altair.

Посилання та джерела для Altair Plotting Solutions

Посилання на інформацію про кодування та візуалізацію карт Altair взято з офіційної документації на Документація Альтаїр .
Подробиці щодо вирішення проблем із побудовою графіка за допомогою хибних координат були натхненні прикладами з Переповнення стека – тег Альтаїр , де користувачі ділилися рішеннями подібних проблем.
Бібліотеки Python, такі як NumPy і панди використовувалися для створення та обробки даних із посиланнями на відповідну офіційну документацію.
Загальні поради щодо усунення несправностей для налагодження графіків Altair у VSCode були використані з Підтримка VSCode Python Jupyter .

Виправлення неочікуваних помилок графіків у Altair для візуалізацій Python