家の値段は何で決まる?
不動産価格は様々な要因で決まることは想像が付きますが、どのような要因がどの程度影響するのでしょうか?
- 間取りや築年数といった物件情報
- 最寄り駅などの利便性といった地域情報
- 社会や市場の動向
- 売り手の思惑
とはいえ上記のような要因すべてを同時に解析するのは難しそうなので、収集できた情報をもとに方針を決めていきます。
とにかくはじめます🍛
取引価格の収集方法
不動産価格はインターネット上の不動産サイトで見つけることは比較的容易です。 ただしそこに掲載されている価格はあくまで売出価格なので、実際に取引が成立した成約価格ではありません。
今回はお得な物件を見つけるというより、物件を高く売りたいという観点もあるため、実際の取引価格情報を収集してみました。
ただ収集といってもスクレイピング等は不要で、以下のサイトから取引価格情報を簡単にダウンロード可能です。
地価公示・地価調査・取引価格情報 | 土地総合情報システム | 国土交通省
という訳で上記のサイトに掲載されている情報を利用させていただきました。
こちらの特徴は
- 不動産の取引価格情報提供制度1
- 不動産を購入された方のアンケート回答に基づく
- 平成18年4月より情報を蓄積し約360万件が掲載
- 物件を特定しにくくするため一部加工
- 詳細な所在地等は無く(基本は町・大字までの表示)、面積等も丸められている
収集データの詳細は こちら や こちら に記載されています。
収集データ
今回は以下の理由により大阪府に限定しました。
- 解析対象となるデータ数を絞るため(かつそれなりに取引がある地域)
- 地域差による影響をできるだけ排除するため
- 個人的になじみがあるため
解析対象データ
なお価格決定の要因が大きく変わりそうなので、以下のようにデータを絞っています。
- [種類]は
中古マンション等
のみ- 他に
宅地(土地)
、農地
、林地
などがありました
- 他に
- [用途]は
住宅
のみ- 他に
事務所
、店舗
、倉庫
などがありました
- 他に
- [取引の事情等]の記載がないもの
- 他に例えば以下のような事項がありました
- 調停・競売等
- 関係者間取引
- 瑕疵有りの可能性
- 他の権利・負担付き
- 他に例えば以下のような事項がありました
そのほかに、欠損データが多い列なども除外しています。
前処理
どんなデータでもそうですが、それなりに前処理をしないと使いにくいもんです。
面積
整数に変換しました。
前述のように面積は丸められているので、小数等を考慮する必要もありません。
建築年/取引年月
和暦で記載されているので西暦に統一しました。
最寄り駅までの徒歩時間
すべて分で統一しました。
ただし30分~60分
などは平均値である45分
で置き換えました。
その他
他にもカテゴリ変数への置き換え等いろいろありますが、必要になり次第その都度紹介します。
物件価格を眺めてみる
最安値
最安値を見るととんでもなく安い物件が見つかってしまいます。(450円!?)
流石にこれらは何らかの事情がありそうです。
No | 総額(円) | 間取り | 面積(㎡) | 所在地 | 最寄駅(分) | 建築年 |
---|---|---|---|---|---|---|
1 | 450 | 3LDK | 75 | 堺市南区御池台 | 45 | 昭和54年 |
2 | 530 | 1DK | 40 | 大阪市平野区長吉長原 | 3 | 昭和59年 |
3 | 1,200 | 3LDK | 75 | 富田林市廿山 | 19 | 平成8年 |
4 | 1,500 | 3LDK | 60 | 大阪市天王寺区上本町 | 3 | 昭和60年 |
5 | 2,000 | 4LDK | 90 | 東大阪市中石切町 | 19 | 平成4年 |
その事情を知る由もないので、Suumoさん掲載の物件の最安値が150万ほどだったので、それ以下は今回対象外とします。
最高値
最高値は4億円を超えているようですが、1つだけなので3億未満を対象とします。
No | 総額(円) | 間取り | 面積(㎡) | 所在地 | 最寄駅(分) | 建築年 |
---|---|---|---|---|---|---|
1 | 4.3億 | 4LDK | 145 | 大阪市住吉区帝塚山中 | 4 | 昭和62年 |
2 | 2.6億 | 4LDK | 180 | 大阪市中央区高麗橋 | 0 | 平成21年 |
3 | 2.5億 | 4LDK | 200 | 大阪市北区天満橋 | - | 平成12年 |
4 | 2.1億 | 3LDK | 155 | 豊中市新千里東町 | 1 | 平成21年 |
5 | 2.1億 | - | 180 | 大阪市福島区福島 | 3 | 平成20年 |
分布
代表的な統計量は以下になりました。
統計 | 値 |
---|---|
件数 | 6万件 |
標準偏差 | 1,200万円 |
平均 | 1,800万円 |
中央値 | 1,600万円 |
かなり裾の長い分布となっています。

自然対数を取ると多少バランスのとれた分布に落ち着きました。

まとめ
今回はとりあえず取引価格の収集だけを行いました。 不動産の取引価格情報提供制度1により、価値あるデータを簡単に収集できるようで助かりました。
次回以降はデータの中身を細かく見ていきたいと思います。