Open Data in Chicago:Game On

私はシカゴの行政に入る前は、オープンデータについてほとんど知りませんでした。 私は確かにしばらくの間、データと分析の世界に没頭していましたが、この文脈に適用される”オープン”の概念を実質的に理解していませんでした。 実際には、私はテロ対策と諜報部門でシカゴ警察で働いていたので、オープンデータは完全に直感に反するように見えました。 だから市長選出のRahm Emanuelの移行チームがシカゴ市でオープンデータプログラムの立ち上げを議論するために私に手を差し伸べたとき、私は適切に準備す

市長選挙の間、エマニュエル市長はマイクロソフトでイベントを開催し、オープン政府の重要性を強調し、オープンデータをより透明なシカゴへのビジョンの中心に挙げていた。 その後、市長は、市の最初の最高データ責任者(CDO)として機能し、そのデータを一般に利用できるようにするだけでなく、政策を通知し、サービスを改善するためのツールとしてデータ分析を使用するより透明な政府のビジョンを実装するために私に尋ねました。

新政権は2011年5月16日に開始され、初日からオープンデータを最優先とした。 前の週末、政策グループは最初の百日間の戦略を議論するために集まり、オープンデータは初期の目標として記載されていました。 私の使命は、市の既存のプログラムの骨を取り、それを市の透明性の取り組みの礎石にすることでした。 私の最初のステップは、何が存在していたのかを評価し、シカゴ市のCDOとしてのビジョンと方向性をどこに取りたいのかを決めることでした。

何が起こったかの詳細に入る前に、シカゴがCDOを任命した最初の主要な自治体であるという簡単な点について議論する価値がある。 これは、新政権に対するこれらのイニシアチブの重要性についての明確かつ即時の声明でした。 エマニュエル市長は、都市の広大で豊富なデータリソースをツールとして使用し、経験主義が政策に知らせるチームを望んでいたことを早期に決定しました。 その目標を達成するために、彼は正確にそれに焦点を当てる彼のオフィス内の上級レベルのポストを作成しました。 データ駆動型で透明性の高い政府のための彼の代理としてCDOを作成することにより、市長エマニュエルは、オープンな市民のデータと透明性の最前線に

シカゴ市は既存のオープンデータプログラムを持っていたので、私はゼロから始めていませんでした。 新しい管理の前に、それはイノベーションと技術部門(DoIT)のプロジェクトマネージャーであるDanielle DuMererによって管理されました。 市はすでにソクラタプラットフォームを確保しており、いくつかの基本的なデータセットプロジェクトを開始していました—具体的には、情報の自由法(FOIA)の要求のログを公開するだけでなく、施設や地理データセットの品揃え。

DuMererは、地元のオープン政府コミュニティに市のオープンデータを実質的に関与させていました。 しかし、以前の政権は、他の競合する問題の中でオープンデータプログラムを最優先事項と特定しておらず、DuMererの努力でさえ、プログラムは大きな牽引力を得るために苦労していました。 しかし、新政権がオープンデータを優先するために市長エマニュエルから明確な命令を受けた後、市のオープンデータプログラムはすぐに変わり始めました。

市の最高データ責任者としての最初の2週間で、私は私が継承したプログラムの詳細を学ぶために最善を尽くしました。 私は、データプラットフォームがすでに選択されていたことをイライラしていました。 私はSocrataのプラットフォームのターンキー効率に感謝していますが、私は独自のアプリケーションが長期的な金融投資になることを知っていました。 私はまた、オープンソース技術を利用することを強く信じており、広く使用されているオープンソースのオープンデータカタログであるCKANの周りのコミュニティを しかし、すぐに結果を出す必要があったので、私は鋭いピボットを作る立場にはありませんでした。 その時点で他の代替プラットフォームを検討することは実用的ではありませんでした。

メトロシカゴのコンテストのための今後のアプリもありましたが、その計画は以前の管理の間に開始されました。 ジョン-D-アンド-キャサリン-T-マッカーサー財団は、企業やソフトウェアエンジニアがシカゴ市とクック郡のオープンデータを使用して住民のための有用なア 私たちは、このイニシアチブの慈善的な支援を非常に高く評価しましたが、競争は私たちのプログラムを展開するためのハードタイムラ

プロジェクトの要件を満たし、支援財団を怒らせないように十分な注意を払うのは簡単だったでしょう。 しかし、私たちはこの競争をシカゴで新しいオープンデータプログラムを立ち上げるのに役立つ素晴らしい方法と見てしまい、すぐに勢いを得るのを助 (マッカーサーは、これらの先進的なプログラムの素晴らしいサポーターであり続けています。)新政権の開始後すぐにメトロシカゴの競争のためのアプリをキックオフすることは、急速に既存のオープンデータプログラムを拡大する戦略と一致していた。

我々はすぐに、技術はプロジェクトに関連しているが、明確な幹部の後援により、このイニシアチブが急速に加速することができたことを発見した。 私たちは、プログラムの将来のための基礎を築くことになった初期の段階でいくつかの重要なマイルストーンを達成しました。

まず、市は犯罪事件のデータセットを公開した。 歴史的に、犯罪データはシカゴで入手するのが難しかった。 シカゴはフロントフェイス技術のリーダーだったが、その生のデータは簡単にアクセスできませんでした。 シカゴ警察のCLEARpathのウェブサイトは、マッピングインターフェイスを介して歴史的な事件レベルの犯罪データの九十日を提供し、情報アクセスの面で素晴ら しかし、第三者がデータを使用したい場合は、かなりの量のスクレイピングを行う必要がありました。

犯罪データは歴史的に最も要求されるデータセットの一つであり、多くの場合、いくつかの異なる方法であまりにも制限されています: 短期的な状況認識以外の有用性を提供するには間隔が短すぎる、データが希薄すぎる分析単位(à la district、ward、またはprecinct)で集計される、および/またはデータが機械可

シカゴは、これらすべての問題を迅速に解決するよう努めました。 設計されたリリースでは、2001年1月1日から現在までのすべてのインシデントレベルの犯罪データを開き、24時間サイクルでデータセットを更新することが求められていました。 4を保持しています。6万件のレコード、シカゴの公開されたデータセットは、これまでにリリースされたインシデントレベルの犯罪データの最大の自動更新セッ

リリースの背後にある技術は複雑ではありませんでしたが、些細なことでもありませんでした。 犯罪データはシカゴ警察の取引システムに記録され、データウェアハウスに複製されます。 私たちのアプローチは、警察の倉庫からデータを取得し、SocrataのAPIを介して都市のデータポータルにロードするために、内部のユーティリティサーバーからETL(データをある場

しかし、その過程で、データが安全であり、解放可能なフォームにレンダリングできるようにするためには、いくつかの重要な項目が必要でした:

  • アドレスは、プライバシーを保護するためにブロック削減する必要がありました。
  • 空間座標もプライバシー保護を支援するために散乱する必要がありました。
  • ソースシステムレコードが更新されたときに、更新をキャプチャしてデータセットに複製する必要がありました。
  • 犯罪データセットは最初の大きなデータセットの一つであるため、Socrataプラットフォームはアップロード、更新、クエリを効率的に処理できる必要がありました。

私たちはこれらすべてのステップを正常に完了し、途中でいくつかの痛みを経験しましたが、プロセスは最終的に一緒になりました。 2013年現在、データセットには約5.2万件のレコードが含まれており、毎日自動的に更新され続けており、オープンデータの実装の良い例として機能しています。

このデータリリースは、シカゴのオープンデータプログラムに大きな注目を集めた。 Ap通信の記者であるソフィア-タリーンがこの話をカバーした。 彼女はリリースの巨大さについて思慮深い作品を書いて、それがシカゴにとって明確な転換点であると指摘した(Tareen、2011)。 ローカルで書かれている間、記事はAPによって一斉に送信され、数時間以内に、国際的な話になりました。 その結果、シカゴのオープンデータプログラムは非常に現実的になり、より広範なコミュニティによって検証されました。 私たちは、関心の高いデータセットの知名度の高いリリースには、早い段階で大きな利点があることを学びました。 私はこれをプログラムのもう一つの精液の瞬間と見なし、起動するための強固な基盤を提供します。 このリリースは、シカゴのために非常によく働いた、と私はそれが同様に他の管轄区域のために働くだろうと思

第二に、地下鉄シカゴ競争のためのアプリは、シカゴのコミュニティを従事するための枠組みを提供しました。 競争は、多くのシカゴ人がオープンデータに深く興奮していたし、本当に彼らの隣人を助けるためのツールを構築するために政府と係合したいと思っていたことを実証しました。 後者を実現するためには、機械可読形式でデータを提供する必要があり、一貫して更新する必要がありました。 シカゴのデータポータルの再起動前に、データが利用可能になっていたが、通常、技術者が知っているPDFの形で、フレンドリーよりもやや少ないことができます。

メトロシカゴコンテストウィンドウのアプリ中にストリートスイープデータのリリースは、この変更を例示しています。 2011年にGoogleが主催するオープンデータハッカソンに参加している間、Scott RobbinはDuMererと私に近づき、街のストリートスイーパーデータセットについて尋ねました。 彼は、通りが掃除される前の夜にユーザーに通知するアプリケーションを構築することに興味がありました。 私は個人的に私の車を移動するために失敗したためのチケットのシリーズを受け取っていたので、私は、これは素晴らしいアイデアだと思った。 しかし、アイデアから実装への道は、都市のデータの一部を必要としました。 ストリートスイープスケジュールは存在していましたが、ソフトウェアエンジニアや技術者が簡単に使用できる形式では公開されませんでした。 通りと衛生省は、ソフトウェアの書式設定ツールを使用して、Excelのスプレッドシートを撮影し、カレンダーを作成していました。 得られたスプレッドシートは、PDFに印刷され、シカゴ市のウェブサイトに掲載されました。 この形式はリバースエンジニアリングを不可能にしました。 幸いなことに、このような状況では、インターンは、使用できないファイルをデータソースとして機能するファイルに変換する面倒ではあるが重要な作業を支援するのに優れています。 私たちは、結果のファイルを上に掲載しましたdata.cityofchicago.org。そこから、スコットは優秀な場所を作り出しました、sweeparound.usこれは、街の清掃スケジュールに留意することで私たちの多くを支援してきました。

私たちの物語は、真実を保持し続けるカップルの重要な教訓を例示しています。 まず、私たちは都市として、標準的なビジネス慣行の一環として、機械可読形式でデータを生成する方法を学ぶ必要がありました。 第二に、さまざまなコミュニティが、市民の開発者、研究者、ジャーナリストなど、政府のデータに対する巨大な食欲を示しました。 私たちは、慈善と営利の両方のモデルで市民開発者コミュニティの出現を見ました。 シカゴ大学のChapin Hallのような場所は、研究目的のために行政データを抽出するのに何年も苦労していました。 オープンデータプログラムは、非開示または他のタイプの契約を交渉する必要性を排除し、それが実質的に容易になります。 オープンデータもまた、新しい研究を刺激しています。 博士候補者は、最終的に彼女の論文を終えることができることで彼女の感謝の気持ちをつぶやいた、とより伝統的な組織は今、シカゴのデータポータルの市にリリースされているものに基づいて、複数年の研究に着手しています。

最後のレッスンは、Tim O’Reilly(2010)によって造語されたものです:”プラットフォームとしての政府。”私はしばらくの間、このアイデアを完全に理解していませんでしたが、今は非常に感謝しています。 シカゴのデータポータルは、機械可読形式で生データを提供するように設計されています。 このデータにAPIを提供することで、開発者は想像できるあらゆる目的のために、この原材料にアクセス、使用、または統合できます。 市の最高情報責任者兼CDOとして、私は意図的にアプリ開発事業に入ることを避けようとしましたが、その代わりに、多様性と深さの両方を提供するた この戦略は、様々なプログラミングスキルセットと継続的な財源を必要とするアプリを維持するビジネスにいることから私たちを防ぎます。 代わりに、標準ベースのデータポータルは、O’Reillyが示唆するように、私たちがプラットフォームになり、さまざまなコミュニティによって培われた革新的なア

オープンデータプログラムの実装に成功

シカゴ市で成功したプログラムを構築して二年後、他の都市がオープンデータの実装や拡張を検討する際に活用できる一連の重要なポイントがある。

アーキテクチャ

大きく、有用で、機械可読で、意味のあるデータポータルを構築することは、技術的な作業ではありません。 まず、もちろん、プラットフォームの問題が来ます。 あなたはこの決定を下すために利用可能な資金とともに、あなたのスタッフの能力に反映する必要があります。 ここでは、考慮すべきいくつかの点があります。

ターンキーソリューションが必要な場合は、いくつかのオプションが利用可能です。 ソクラータは支配的なプラットフォームであり、彼らは彼らが何をすべきかを得意としています。 彼らはすぐに行くデータポータルを提供します。 独自のサーバーを構築し、オープンソースを使用するという考えにうんざりする組織にとって、これはあなたのために最善を尽くす方法です。 しかし、後で説明するように、持続可能なオープンデータプラットフォームを持つためには、かなり高度な作業を行う必要があります。

プラットフォームを超えて、データのソースが来る。 まだ最も基本的な段階にあるプログラムでは、ターンキーアプローチを使用すると、この作業が非常に簡単になります。 あなたのデータはスプレッドシートのような単純なものに存在する可能性があります。 あなたは直接ソクラタにその情報をアップロードし、数秒で行く準備ができていることができますが、あなたは基本を超えて取得したら、それはめったに

あなたが持っているデータの多くは取引システムや倉庫システムから来ており、あなたの世界が私のようなものであれば、それらの多くはかなり年 データを抽出し、それが何を意味するのかを理解し、プラットフォームにロードする方法を見つける必要があります。 これは、あなたが最初に考えるかもしれないよりもややターンキーではありません。

また、移動するデータの量と、それが企業のネットワーク、ストレージ、システムにどのように影響するかを考慮する必要があります。 小さなデータである給与リストのようなものを単に扱っているのであれば、問題は些細なことです。 しかし、あなたの資産のGPS座標のようなものをロードしたい場合はどうなりますか? シカゴでは、それは1日に約1000万行になります。 それはほとんどの環境を強調するでしょう。

持続可能性

この非常に具体的な点を呼び出すのは奇妙に見えるかもしれませんが、私はそれが最も重要なものの一つであると思います:全体的なデザ それを更新し続けるために人間に依存しているオープンデータプログラムは根本的に欠陥があります。 オープンデータの目標の1つが透明性であることを考慮すると、仲介者の役割を熟考することが重要です。 私はそれがポータルにリリースされる前に、我々は獣医データをしないそれらを伝えるとき、人々はしばしばショックを受けていることを冗談 実際には、市役所の地下には、ドアを出る前にすべての行のデータをチェックする小さな男はいません。 それはポータルの背後にあるデザインの美しい部分です。

data.cityofchicago.org 自動的にそこに到着します。 各データセットには、ソースシステムに接続し、データを取得し、必要に応じて変換してプラットフォームにロードするETLジョブがあります。 これは毎日またはより頻繁に起こります。 場合によっては、セット全体を上書きします。 犯罪事件のような他の人のために、私たちは新しいレコードを追加し、既存のレコードへの変更をキャッチ増分更新を行います。 このタイプのアーキテクチャは、一連の重要な点を達成します。

まず、スケーラブルです。 手動更新に基づいて何百万行ものデータを使用できるようにすることは不可能です。 これはほとんど意味をなさないし、時機を得ていない。 第二に、前に述べたように、それはプラットフォームを正直に保ちます。 最後に、それは持続可能性を作成します。 プログラムは、単一の個人についてになるのをやめ、代わりに、技術組織内のプログラム領域になります。

恐怖

オープンデータに対する強い制度的恐怖があります。 “Gotcha”ジャーナリズムの文化では、行政を困らせる可能性のある何かが開示されているという考えは、一般的な心配であり、したがって障壁です。 多くの場合、データを解放しない理由です。 これで私の経験は、カップルの重要なポイントを強調しています。

これまでに何百万行ものデータをリリースしてきましたが、これまでのところ非常にうまくいっています。 内部選挙区がリリースを懸念しているたびに、私たちはそれを前進させ、何事もなく公開することができました。

オープンな政府コミュニティとの強い関係を築くことが重要です。 このダイナミックを育成することによって、あなたは”一緒に仕事をしましょう”精神を作成することができます。 私は、私が作ったすべての間違いが大きな事件に吹き飛ばされた場合、それは私たちの共同目標をstymieだろうと説明しました。 シカゴでは、彼らは心にこれを取りました。 Northwestern University Knight LabのJoe Germuskaと、以前はChicago TribuneのJoe Germuskaと、Smart Chicago CollaborativeのDaniel X.O’Neilと協力して、チームの努力をしました。 私たちは定期的にTwitter、電子メール、電話、またはミートアップで会議を開催します。 私たちは大規模で複雑なデータセットを征服するために努力したので、これは特にうまくいきました。 これらは、初めて完全にリリースするのが非常に難しいデータセットの種類です。

多くの場合、あなたは政府、報道機関、そして開かれた政府コミュニティの間の動的なものを見るでしょう。 政府はそれに誤りがあるものを解放し、それは”もの”になります。”たぶん、エラーの周りにかなりのプレスがあるか、さらに悪いことに、それは欺瞞的であると見られています。 この枠組みの中では、通常、政府が取ることができる唯一の二つの戦略があります。 最初は、私たちの利益のいずれかのための最適なトラックではありません任意のデータを、解放しないことです。 第二は、それがドアを出て行く前に、データが百パーセント完璧であることを確認することです。

百パーセント完璧なモデルは、データが小さい場合は問題ありません。 あなたが百行のスプレッドシートを投稿していて、それがひどく広くない場合は、それが完璧であることを確認するために、それぞれの行を通過する あなたも、さまざまなメカニズムを使用して行の数千に運動をスケールすることができます。 しかし、データセットに何百万もの行が含まれ、十年をカバーするとどうなりますか? スクリプトや監査技術を使用しても、百パーセントの信頼マークに達することはできません。 これはほとんどの人を困惑させます。 あなたが大きくて重要なデータをリリースしたいと思っていて、それが百パーセント正しいことを保証できないとき、それはあらゆる種類のドラマにつ それは勝利のない状況になります。

ここでシカゴでダイナミックを変更し、オープンデータプログラムをハイギアに移動できるようにしました。 それは私に個人的にコミュニティ内の一連の関係を開発し、人々が私達がしようとしていたものを理解し、信じたことを保障するために時間を投資 歴史的に、行政の高レベルのメンバーは、オープンデータを議論するためにオープンな政府のミートアップに表示されませんが、これは最終的にこれらのエンティティ間の信頼を構築するために私を可能にしたものでした。 また、関係構築を可能にしたニュース組織内のジョーのような連絡先を持つのに役立ちました。 これらの人々は、私たちのオープンデータプランが単一の物語よりも大きく、より広範なシステムを構築していると信じていました。

日々の業務の一部になる

シカゴのオープンデータプログラムが堅牢で有用なプラットフォームになったため、次のレベルにどのように取るべきかという問 2013年の初めに、市長は、プログラムの持続可能性を確保するための政策コミットメントを行いたいと決めました。 彼はオープンデータ執行命令(2012年2月)を発行し、各部門がオープンデータコーディネーターを指名し、市が最高データオフィサーの地位を創造し、維持し、透明性と持続可能性のためのオープンデータのリリースに関して年次説明責任があることを義務付けた(Emanuel、2013)。

この執行命令の公開と公開は、プログラムの作成に携わっていたハードワークを強化するのに役立った。 この順序付けは、オープンデータの領域で前進しようとしている行政にとって未解決の問題のままであるものです。 イニシアチブの開始前に行政命令や法律を発行することは理にかなっていますか、それとも牽引力を可能にしてその枠組みを作成することは理にかなっていますか?

私の好みは後者の周りですが、明らかに私は偏っています。 私の考えは、それがシステムの一部になる前に、インキュベーター環境で反復して開発する能力に焦点を当てています。 オープンデータプログラムは、さまざまな都市でさまざまな方法で進化し、成長する必要があります。 シカゴに適用されるレッスンは、別の都市には関連しない場合があります。 試してみて、探検し、適応する自律性は多くの意味を成し、確かに成功に資することができるモデルです。 その機能について過度に規範的になる前に、実行可能なプログラムを作成することが重要です。

成功するための最低限

オープンデータプログラムが真に成功するためには、実際には多くの政府の取り組みにとってより広範な教訓でもある二つの重要な項目が必要である。 最初は、エグゼクティブスポンサーの明確かつ声のサポートです—これは連邦プログラムの社長であるかどうか、またはシカゴの場合には、市長です。 市長の明確な支持を得て、すべての当事者がプログラムの成功またはその欠如について責任を負うことが明らかになったため、障害物は消えました。

二つ目は財政支援です。 政府の支援資金の不足を伴う任務は、実際には任務ではありません。 市政府には共通の言葉があります:”コントロールは予算ラインに基づいています。”誰が予算ラインを制御するプロジェクトを制御します。 シカゴは、これが成功することを確実にするために、資金調達(大量ではなく、それにもかかわらず資金調達)と資源を約束しました。 シカゴの場合、これはEtlの開発に必要な基盤と進行中の作業としてSocrataプラットフォームに資金を供給することができました。 データプラットフォームとそれを新鮮に保ち続けるための自動化された方法がなければ、個人を超えて持続可能な真のプログラムではありません。

私は、しかし、私の第二のポイントを無効にするコーナーケースに注意します、そして、これは、もちろん、私が賞賛するモデルです:スクラップ日曜大工店。 このシナリオでは、プログラムはオープンソースのCKANモデルに基づいています。 エンティティは、そのプラットフォームの上にオープンデータシステムを構築することができます。 彼らはすでにオープンソースのソフトウェアで動作するように技術革新を示していることを見て、それは彼らが自分のEtlを書くか、インターネット上で利 そこから、どのようなインフラを構築できるかの関数になります。 低コストのクラウドソリューションを実装できなかった理由は全くありません。 このタイプの存在は、データへのアクセスについて本当に心配していないので、かなりの量のセキュリティを必要としません。 むしろ、あなたは単にその完全性を維持したいと思っています。

このコーナーのケースは、強力なエグゼクティブスポンサーとscrappy technologistが提携するシナリオを想像することができるので、やや面白いです。 アクセスと権限を考えると、オープンデータ空間への最初の進出を成功させるためには、非常に低コストになります。 これは私達が留意し、支える方法を見つけるべきである区域である。

シカゴは、期待されていないオープンデータプログラムをどのように構築できるかを示す優れたケースです。 強力なエグゼクティブスポンサーの役割は、プログラムの成功に不可欠であり、市長エマニュエルはその役割を果たしました。 コミュニティとの緊密なパートナーシップを構築し、戦略的なメディアの注目も私たちの成功の重要な要素でした。 チームによる粘り強さと持続可能な実行を通じて、シカゴはオープンデータの金本位となっているイニシアチブを出すことができました。 シカゴのプログラムの急速なスケールアップからのこれらの教訓は、オープンデータの成長と持続可能性のための新しいモデルが登場するにつれて、次の世代のオープンデータの取り組みを知らせるのに役立ちます。

著者について

Brett Goldsteinはシカゴ市の元最高情報責任者である。 2013年、彼はシカゴ大学ハリス公共政策大学院の都市科学フェローシップの最初の受信者に選ばれました。 シカゴの最初の最高データ責任者に任命される前に、彼はシカゴ警察予測分析グループを設立しました。 以前は、オンラインリアルタイムレストラン予約サービスOpenTableを構築するスタートアップの世界で七年を過ごしました。 ゴールドスタインは現在、イリノイ大学シカゴ校で犯罪学、法律、正義の博士号を取得しています。

オライリー、ティム。 (2010). プラットフォームとしての政府。 開かれた政府で。 シカゴ市ラームのhttp://ofps.oreilly.com/titles/9780596804350/defining_government_2_0_lessons_learned_.htmlEmanuelから回収。 (2013). オープンデータ執行命令(2012年2月号)。 http://www.cityofchicago.org/city/en/narr/foia/open_data_executiveorder.htmlTareen,S.(2011,September14)から取得しました。 犯罪統計をオンラインで公開するシカゴ。 ワシントン-タイムズ http://www.washingtontimes.com/news/2011/sep/14/apnewsbreak-chicago-to-publish-crime-stats-online/?page=all

コメントを残す

メールアドレスが公開されることはありません。