BBC използва български Web 3.0 софтуер

Нейното семантично хранилище BigOWLIM е успешно интегрирано във високопроизводителното решение за публикуване на семантични данни в уеб пространството на BBC. BigOWLIM е в основата на интернет страницата на медийния гигант за Световното първенство по футбол, 2010 г., като служи не само за RDF хранилище на данни, но и извършва OWL-базирано осмисляне на постоянно променящи се данни и ежедневно обработва милиони заявки за показване на страници.

Неотдавна в няколко блог публикации техническият екип на BBC хвърли светлина върху икономическите аргументи за използването на семантичните технологии в страницата на медиата за Световната купа, дискутирайки и техническата архитектура на издателското решение, стратегическото значение на успеха на проекта и плановете за използване на семантични технологии и свързани данни в рамките на организацията на BBC. В “Световната купа – подкана за работа със свързани данни“, Джон О’Донован, главен технически архитект, сектор “Журналистика и знания” в отдела на BBC “Бъдещи медии и технологии”, обсъжда бизнес ползите от прилагане на семантичното решение:

“Сайтът на Световната купа е нашата първа важна крачка към осъзнаване на начина, по който смятаме, че (семантичната мрежа) може да работи в сферата на средствата за масова информация и да демонстрира реални ползи…. Въпреки, че вече сме използвали RDF и свързани данни за някои други сайтове (…) вярваме, че това е първият мащабен сайт на средства за масова информация, който използва методи за извличане на понятия, RDF и хранилище за да предостави съдържание”.

“… ние не публикуваме страници, а публикуваме съдържание като активи, които след това динамично се организират от мета-данни в страницата, и които могат да се преустроят в произволен формат при желание много по-лесно, отколкото можехме преди… Променен е и работният редакционен поток за създаване на съдържанието и управлението на сайта. Това променя формата за създаване на издателска история и индекс-страници, в такъв, в който се публикува съдържание и се проверява дали предложените етикети са верни. Индекс-страницата се публикува автоматично. Този процес осигурява продукция с най-високо качество, като същевременно спестява много време при управлението на сайта и ни дава възможност ефективно да произвеждаме толкова много страници за Световната купа”.

“Колкото повече съдържание имаме, с приложени към него принципи на свързаните данни… толкова повече се приближаваме до визията за Семантичен уеб. Важното, което бяхме в състояние да докажем със Световната купа, е че използваната технология е готова да произвежда мащабни продукти”.

“Това е нещо повече от техническо упражнение – ние предоставихме реални ползи за бизнеса, както и за създаване на бъдещия модел за по-динамично публикуване, коeто смятаме че ще ни позволи да използваме оптимално съдържанието на сайта, както и да използваме свързани данни за по-точно споделяне на това съдържание и връзката към други сайтове и съдържание, което е ключова цел за BBC. Очакваме с нетърпение да видим по-широко използване на свързани данни по пътя ни към една по-семантична мрежа”.

В следваща публикация, озаглавена “BBC отразява Световната купа 2010 г., като динамично публикува семантични данни”, Джем Рейфийлд, главен технически архитект, сектор “Журналистика и знания” към BBC, предоставя повече информация за техническата архитектура на високопроизводителното решение за публикуване и свързаните с него потоци от данни и данни за моделиране:

“Сайтът за Световната купа 2010 г. е значителна промяна в начина, по който се публикува съдържание. … Докато се разхождате по сайта става ясно, че това е много по-задълбочено и обогатено използване на съдържанието, отколкото може да се постигне чрез традиционните CMS решения за публикуване”.

“На сайта са представени повече от 700 страници свързани с отбори, групи и играчи. Тези страници се генерират от високопроизводителнo решение за динамично семантично публикуване, което улеснява публикуването на уеб страници чрез автоматизирани и лесни за редактиране от журналистите мета-данни, които автоматично събират и правят препратки към съответните истории”.

“За основа на това динамично събиране служи богат онтологичен модел. Онтологията описва съществуването на факти, групи и отношения между нещата/понятията, които описват Световната купа. Например, “Франк Лампард” е част от “Отбора на Англия” и “Отбора на Англия” се състезава в “Група С” на “Световно първенство по футбол 2010 г.”. Онтологията също описва написаните от журналисти активи (разкази, блогове, профили, снимки, видео и статистика) и прави възможно свързването им към концепциите в модела…”

“Подход базиран на RDF база данни (има се предвид BigOWLIM) иSPARQL бе избран пред традиционните релационни бази данни поради изискванията за тълкуване на метаданни по отношение на даден онтологичен модел. Висшата цел е, че онтологията дава възможност за интелигентно свързване на журналистическият принос към концепциите и запитванията. Избраното RDF хранилище предоставя осмисляне след свързване на данните. По този начин, от изрично зададените от журналистите мета-данни, се извеждат подразбиращи се факти”.

“Тази способност за извеждане на данни прави маркирането и SPARQL заявките към RDF хранилището по-прости и на практика по-бързи спрямо традиционния подход основан на SQL. Динамичното събиране на изведени данни повишава качеството и дълбочината на съдържанието в сайта. Чрез RDF подхода се улеснява използването на гъвкави модели, за разлика от традиционното релационно моделиране, чиято схема е по-малко гъвкава, а също така, увеличава сложността на заявката”.

“RDF базата данни е разположена в няколко центъра за данни по начин, който се характеризира с устойчивост, способност за работа в клъстер, производителност и хоризонтална мащабируемост. Това позволява бъдещо разширяване с допълнителни онтологии и комплекти от свързани отворени данни (LOD). …Базата е достъпна чрез съвместима с JAVA/Spring/CXF JSR 311 услуга REST. …Програмният интерфейс е проектиран като стандартна фасада върху хранилището, което позволява RDF данните да бъдат пренасочвани и използвани повторно в цялата организация на BBC. Този механизъм организира SPARQL заявките и гарантира, че резултатите са динамично кеширани с ниски “срокове за стартиране на живо” (Time-To-Live равно на 1 минута) в рамките на центъра за данни чрез Memcached”.

“Тази динамична семантична архитектура за публикуване обслужваше милиони страници на ден по време на Световната купа с непрекъснато променящи се OWL-базирани семантични RDFданни. В момента, платформата обслужва средно милион SPARQL заявки на ден с максимална ставка RDF търсене от 100s за статистика на играч на минута”.

“Разработването на това ново високоефективно динамично решение за семантично публикуване е голяма иновация за BBC, тъй като ние сме първите, които използват тази технология за сайт с такава голяма популярност. Това също ни поставя на върха на развитието за следващата фаза на Интернет, Web 3.0”.