アラビア語、タイ語、ベトナム語、ヒンディー語、英語、中国語の言語データセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 150k
注釈: はい
説明: アラビア語、タイ語、ベトナム語、ヒンディー語、英語、中国語の言語データセット
アラビア語テキストデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 1k
注釈: はい
説明: アラビア語テキスト データセットには、アラビア語で書かれたテキスト サンプルのコレクションが含まれています。ニュース記事、ソーシャル メディアの投稿、文学、対話など、さまざまなトピックや文体にわたるさまざまな形式のコンテンツが含まれています。このデータセットは、アラビア語アプリケーションでの自然言語処理 (NLP)、テキスト分類、感情分析、機械翻訳などのタスクに使用されます。
中国語、英語、チベット語、ウイグル語のデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 38k
注釈: はい
説明: 中国語、英語、チベット語、ウイグル語のデータセット
中国語と英語のメニューデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 60k
注釈: はい
説明: 中国語と英語のメニュー データセットには、中国語と英語の両方を特徴とするレストラン メニューの画像またはテキスト サンプルが含まれています。さまざまなフォント、レイアウト、メニュー構造が含まれており、料理名、説明、価格がバイリンガルで表示されます。このデータセットは、光学式文字認識 (OCR)、機械翻訳、多言語設定でのメニューのデジタル化などのタスクに役立ちます。
中国語手書き作文データセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 3k
注釈: はい
説明: 中国語手書き作文データセットには、作文、エッセイ、その他の長文テキストを含む手書きの中国語テキストのサンプルが含まれています。さまざまな手書きスタイルと複雑さのレベルが特徴で、手書き認識、テキスト分析、機械学習モデルのトレーニングなどのタスクに使用されます。
中国の WIFI プロンプト データセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 1k
注釈: はい
説明: 中国語 WIFI プロンプト データセットは、中国語で書かれた WIFI プロンプトとログイン画面のテキスト サンプルで構成されています。通常、これには WIFI ネットワークへの接続または管理に関連するさまざまなプロンプト、指示、およびエラー メッセージが含まれます。このデータセットは、テキスト認識、自然言語処理、ネットワーク接続のユーザー インターフェイスの改善などのタスクに使用されます。
英語と中国語の手書きデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 12k
注釈: はい
説明: 英語と中国語の手書きデータセットには、英語と中国語の両方の手書きサンプルが含まれており、さまざまな書き方と文字の複雑さが示されています。これは通常、手書き認識モデルのトレーニングと評価、多言語テキスト分析のサポート、およびその他の関連研究に使用されます。データセットには、両方の言語のさまざまな文字、数字、単語、文が含まれています。
英語と中国語のショップサインデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 30k
注釈: はい
説明: 英語と中国語の店舗看板データセットには、英語と中国語の両方のテキストが書かれた店舗看板の画像が含まれています。店舗名、広告、プロモーション、道順など、さまざまなフォント、スタイル、形式で表示されるさまざまな看板要素をキャプチャします。このデータセットは、テキストの検出と認識、多言語シーンの理解、バイリンガル看板を解釈するためのコンピューター ビジョン モデルの改善などのタスクに使用されます。
英語と中国語の特殊角度テキストデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 50k
注釈: はい
説明: 英語と中国語の特殊角度テキストデータセットには、英語と中国語の両方でさまざまな角度と方向で表示されたテキストの画像が含まれています。これには、標準的な水平形式では表示されていない標識、広告、文書などのソースからのテキストが含まれます。このデータセットは、特に非伝統的な方向と視点のテキストを処理できるテキスト検出および認識モデルのトレーニングと評価に使用されます。
英語メニューデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 20k
注釈: はい
説明: 英語メニュー データセットには、英語で書かれたレストラン メニューの画像またはテキスト サンプルが含まれています。さまざまなフォント、レイアウト、書式設定スタイルが特徴で、料理名から説明、価格までさまざまなコンテンツが含まれています。このデータセットは、食品関連のアプリケーションで光学文字認識 (OCR)、テキスト抽出、メニューのデジタル化などのタスクによく使用されます。
英語シーンテキストデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 33k
注釈: はい
説明: 英語シーン テキスト データセットは、英語のテキストが埋め込まれた自然なシーンを含む画像で構成されています。テキストは、標識、看板、ポスターなどさまざまな形式で表示され、多くの場合、さまざまなフォント、サイズ、方向で表示されます。このデータセットは、テキスト検出、認識、シーン理解タスクのモデルのトレーニングとテストによく使用されます。
手書きテキスト データセット
使用事例: AIを文書化する
フォーマット: HEIC (画像) & .mov (動画)
カウント: 94053
注釈: いいえ
説明: 日本語、韓国語、ロシア語の手書きテキスト付き Live Photos
記録装置: iPhone & iPad カメラ
収録条件: - アグレッシブな照明/グレア - カメラのフラッシュがオン - 色付きのライト - 暗い場所、カメラのフラッシュなし - 通常
日本語と韓国語のデータセット
境界ボックス+テキスト
使用事例: OCR
フォーマット: 画像
カウント: 40k
注釈: はい
説明: 日本語と韓国語の言語データセットには、日本語と韓国語の両方のテキストサンプルが含まれています。さまざまなコンテキストとスタイルを網羅した、文章、フレーズ、単語などの幅広いコンテンツが含まれています。このデータセットは、自然言語処理 (NLP)、機械翻訳、多言語アプリケーションでのテキスト分析などのタスクに使用されます。